Super rozdzielczość wideo dzięki TecoGAN: jak AI ożywia stare klipy

Witamy w pierwszym odcinku naszej nowej serii, w której przybliżamy możliwości sztucznej inteligencji w dziedzinie edycji wideo. Naszym celem jest pokazanie, jak programy oparte na algorytmach mogą poprawiać jakość materiałów bez utraty spójności czasowej. Odkryjemy razem, jak technologia ta działa w praktyce i czy jej efekty przypominają sceny z seriali kryminalnych.

Dlaczego warto testować super rozdzielczość?

Pewnie znacie motyw z popularnych seriali kryminalnych, gdzie detektywi powiększają zdjęcia z kamer monitoringu i nagle pojawiają się kluczowe tropy. Choć takie sceny bywają absurdalne, technologia poprawiająca jakość wideo nie jest już fikcją. Dzisiaj zajrzymy do programu, którego kod został udostępniony przez autorów wraz z pracą naukową w maju 2020 roku.

Jak działa algorytm TecoGAN?

Program analizuje sąsiednie klatki wideo, biorąc pod uwagę to, co na nich widnieje, i średnicuje wyniki, tworząc tak zwaną spójność czasową. Dzięki temu w wynikowym wideo obiekty nie zmieniają nagle kształtu, nie znikają i nie pojawiają się ponownie. Aby osiągnąć takie dobre rezultaty, program musi zgadywać, co znajduje się w niewidocznych pikselach.

W ramach treningu wprowadzono materiały wysokiej jakości oraz te same filmy o rozdzielczości obniżonej. Na tej podstawie program nauczył się, jakiego zadania powinien dokonywać. Dzięki tej procedurze niewielka ilość informacji pozwala na to, co teraz widzimy w ulepszonych filmach.

Testy na własnych klipach

Teraz przetestujemy możliwości tego programu na naszych własnych klipach i zobaczymy, czy ma potencjał do pokazywania informacji niewidocznych na pierwszy rzut oka. Naszym eksperymentalnym obiektem będzie samochód z tablicą rejestracyjną, który będzie się poruszał w kadrze.

W pierwszym teście użyliśmy niższej rozdzielczości, dzięki czemu tablica rejestracyjna była nieczytelna. Ogólnie rzecz biorąc, program ją zmienił, czyniąc ją czytelniejszą. W kolejnej próbie ustawiliśmy nieco wyższą rozdzielczość, gdzie napis był na granicy rozpoznawalności, więc było wyraźnie zauważalne poprawienie.

Poprawa szczegółów na obrazie

Zdecydowałem się przetestować inny ujęcie z naszego starego odcinka. Myślę, że w tym przypadku program pozwala usunąć wcześnie nieczytelny napis, więc zostawiam to do Waszego osądu. Sprawdziłem to i działa. Zmiana jakości z 480p na Full HD również pokazała znaczną poprawę w tym ujęciu.

Jest to szczególnie widoczne na mojej koszulce i na krawędzi lustra. Program nie tylko wygładza krawędzie, ale wiernie odtwarza oryginał, przechodząc płynnie od klatki do klatki. Dzięki temu wynikowe wideo zachowuje naturalny ruch i brak artefaktów.

Szybkość przetwarzania i dostępność kodu

Pod względem czasu przetwarzania proces jest całkiem szybki, widzicie, jak długo zajęło renderowanie poprawionych plików. Znajdziecie link do kodu i instrukcji napisanych przez autorów w opisie. Dołączymy również link do naszego notebooka dla początkujących.

W skrócie, notebook to interaktywny notatnik w chmurze Google, gdzie można wklejać fragmenty kodu. Wszystko jest opisane szczegółowo, ale ponieważ jest to pierwszy odcinek, wyjaśnię krok po kroku, jak poprawić rozdzielczość wideo. Uruchamiamy pierwszy fragment kodu, klikając go, a po kilku minutach, gdy proces się zakończy, możemy usunąć plik wejściowy i uruchomić drugi fragment kodu.

Podsumowanie i zaproszenie do współpracy

Odświeżamy folder i plik powinien się pojawić. Możecie go pobrać i wykorzystać w swoich projektach. Jeśli użyliście naszego notebooka i chcecie podzielić się ciekawymi wynikami, możecie wysłać je do mnie na adres mc.com lub monkey gmail.com.

Nie pokażemy tego, co udało Wam się zrobić w następnym odcinku, ale dajcie znać, co myślicie o nowej serii o prezentowaniu treści w takiej formie graficznej. Czuję się znacznie bardziej komfortowo przy edycji niż przy nagrywaniu, więc na pewno chętnie przyjmę Wasze sugestie i komentarze dotyczące naszej pracy.