Stability AI, wiodąca marka w przestrzeni technologicznej, w sposób przełomowy wkroczyła w dziedzinę generowania wideo wraz z wprowadzeniem na rynek rozwiązania Stable Video Diffusion (SVD). Dzięki temu niezwykłemu posunięciu zaprezentowano dwa wysoce zaawansowane modele sztucznej inteligencji – SVD i SVD–XT, zaprojektowane do generowania krótkich klipów wideo ze zdjęć.
Jednak obecnie te najnowocześniejsze modele są dostępne wyłącznie do celów badawczych. Zdaniem firmy zarówno SVD, jak i SVD–XT zapewniają wyniki o wysokiej wierności, które dorównują wydajności innych istniejących sztucznych generatorów wideo lub potencjalnie je przewyższają.
Stability AI ma na celu wykorzystanie opinii użytkowników w zakresie dostrajania modeli przetwarzania obrazu na wideo, udostępniając je na zasadach open source w ramach podglądu badań. Przedsięwzięcie to oznacza zamiar firmy utorowania drogi do ostatecznego zastosowania tych modeli na rynku.
W poście na firmowym blogu szczegółowo opisano, że modele SVD i SVD-XT wykorzystują modele dyfuzji utajonej, które generują filmy w rozdzielczości 576 x 1024, wykorzystując pojedynczy nieruchomy obraz jako klatkę warunkującą. Mimo że wyjściowe filmy wideo są krótkie – maksymalnie do czterech sekund – modele te mogą generować treści w tempie od trzech klatek na sekundę do 30 klatek na sekundę. W szczególności model SVD jest skalibrowany tak, aby uzyskać 14 klatek ze nieruchomego obrazu, podczas gdy SVD-XT może wygenerować do 25 klatek.
Aby stworzyć SVD, Stability AI oparła się na ogromnej, skrupulatnie opracowanej bibliotece wideo składającej się z około 600 milionów próbek. Firma wykorzystała próbki zebrane w bazie danych do wytrenowania modelu podstawowego, który następnie udoskonalono przy użyciu mniejszego zestawu danych o wysokiej rozdzielczości do obsługi dalszych zadań, takich jak konwersja obrazu na wideo i tekstu na wideo, co umożliwiło przewidywanie sekwencja klatek z pojedynczego obrazu warunkującego.
Biała księga wydana przez Stability AI wyjaśnia potencjał SVD jako podstawy do udoskonalenia modelu dyfuzji w celu wygenerowania syntezy wielu widoków, umożliwiając w ten sposób wygenerowanie kilku spójnych widoków obiektu z pojedynczego nieruchomego obrazu.
Jak wynika z wpisu na blogu firmy, otwiera to mnóstwo możliwości potencjalnych zastosowań w różnych sektorach, takich jak edukacja, rozrywka i marketing.
Istotną informacją w ujawnieniu firmy jest to, że zewnętrzna ocena przeprowadzona przez weryfikatorów ujawniła, że wyniki SVD przewyższają jakością premierowe zamknięte modele zamiany tekstu na wideo produkowane przez konkurentów, takich jak Runway i Pika Labs.
Pomimo początkowego sukcesu Stability AI przyznaje, że obecne modele mają wiele ograniczeń. Na przykład modelom tym czasami brakuje fotorealistycznych wyników, generują nieruchome filmy lub mają problemy z dokładnym odwzorowaniem postaci ludzkich.
Ale to dopiero początek ich przygody z generowaniem wideo. Dane zawarte w niniejszym przeglądzie badawczym pomogą w ewolucji tych modeli poprzez identyfikację istniejących luk i wprowadzenie nowych funkcji, takich jak obsługa podpowiedzi tekstowych lub renderowanie tekstu w filmach, dzięki czemu będą one gotowe do zastosowań komercyjnych.
Dzięki potencjałowi różnorodnych aplikacji obejmujących sektory, w tym między innymi reklamę, edukację i rozrywkę, platformy takie jak AppMaster , znane z zapewniania użytkownikom narzędzi do łatwego tworzenia aplikacji mobilnych i internetowych, mogą uznać Stable Video Diffusion za przydatną integrację.
Firma przewiduje, że ustalenia z otwartego badania tych modeli wykażą więcej obaw (takich jak uprzedzenia) i pomogą w ułatwieniu późniejszego bezpieczniejszego wdrożenia.
Już teraz trwają plany opracowania różnych modeli, które wzmocniłyby i rozszerzyły bazę zbudowaną w drodze stabilnej dyfuzji.
Nie ma jednak pewności, kiedy te ulepszenia będą dostępne dla użytkowników.