Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stabilna sztuczna inteligencja ujawnia obiecujące modele generowania wideo

Stabilna sztuczna inteligencja ujawnia obiecujące modele generowania wideo

Stability AI, wiodąca marka w przestrzeni technologicznej, w sposób przełomowy wkroczyła w dziedzinę generowania wideo wraz z wprowadzeniem na rynek rozwiązania Stable Video Diffusion (SVD). Dzięki temu niezwykłemu posunięciu zaprezentowano dwa wysoce zaawansowane modele sztucznej inteligencji – SVD i SVD–XT, zaprojektowane do generowania krótkich klipów wideo ze zdjęć.

Jednak obecnie te najnowocześniejsze modele są dostępne wyłącznie do celów badawczych. Zdaniem firmy zarówno SVD, jak i SVD–XT zapewniają wyniki o wysokiej wierności, które dorównują wydajności innych istniejących sztucznych generatorów wideo lub potencjalnie je przewyższają.

Stability AI ma na celu wykorzystanie opinii użytkowników w zakresie dostrajania modeli przetwarzania obrazu na wideo, udostępniając je na zasadach open source w ramach podglądu badań. Przedsięwzięcie to oznacza zamiar firmy utorowania drogi do ostatecznego zastosowania tych modeli na rynku.

W poście na firmowym blogu szczegółowo opisano, że modele SVD i SVD-XT wykorzystują modele dyfuzji utajonej, które generują filmy w rozdzielczości 576 x 1024, wykorzystując pojedynczy nieruchomy obraz jako klatkę warunkującą. Mimo że wyjściowe filmy wideo są krótkie – maksymalnie do czterech sekund – modele te mogą generować treści w tempie od trzech klatek na sekundę do 30 klatek na sekundę. W szczególności model SVD jest skalibrowany tak, aby uzyskać 14 klatek ze nieruchomego obrazu, podczas gdy SVD-XT może wygenerować do 25 klatek.

Aby stworzyć SVD, Stability AI oparła się na ogromnej, skrupulatnie opracowanej bibliotece wideo składającej się z około 600 milionów próbek. Firma wykorzystała próbki zebrane w bazie danych do wytrenowania modelu podstawowego, który następnie udoskonalono przy użyciu mniejszego zestawu danych o wysokiej rozdzielczości do obsługi dalszych zadań, takich jak konwersja obrazu na wideo i tekstu na wideo, co umożliwiło przewidywanie sekwencja klatek z pojedynczego obrazu warunkującego.

Biała księga wydana przez Stability AI wyjaśnia potencjał SVD jako podstawy do udoskonalenia modelu dyfuzji w celu wygenerowania syntezy wielu widoków, umożliwiając w ten sposób wygenerowanie kilku spójnych widoków obiektu z pojedynczego nieruchomego obrazu.

Jak wynika z wpisu na blogu firmy, otwiera to mnóstwo możliwości potencjalnych zastosowań w różnych sektorach, takich jak edukacja, rozrywka i marketing.

Istotną informacją w ujawnieniu firmy jest to, że zewnętrzna ocena przeprowadzona przez weryfikatorów ujawniła, że ​​wyniki SVD przewyższają jakością premierowe zamknięte modele zamiany tekstu na wideo produkowane przez konkurentów, takich jak Runway i Pika Labs.

Pomimo początkowego sukcesu Stability AI przyznaje, że obecne modele mają wiele ograniczeń. Na przykład modelom tym czasami brakuje fotorealistycznych wyników, generują nieruchome filmy lub mają problemy z dokładnym odwzorowaniem postaci ludzkich.

Ale to dopiero początek ich przygody z generowaniem wideo. Dane zawarte w niniejszym przeglądzie badawczym pomogą w ewolucji tych modeli poprzez identyfikację istniejących luk i wprowadzenie nowych funkcji, takich jak obsługa podpowiedzi tekstowych lub renderowanie tekstu w filmach, dzięki czemu będą one gotowe do zastosowań komercyjnych.

Dzięki potencjałowi różnorodnych aplikacji obejmujących sektory, w tym między innymi reklamę, edukację i rozrywkę, platformy takie jak AppMaster , znane z zapewniania użytkownikom narzędzi do łatwego tworzenia aplikacji mobilnych i internetowych, mogą uznać Stable Video Diffusion za przydatną integrację.

Firma przewiduje, że ustalenia z otwartego badania tych modeli wykażą więcej obaw (takich jak uprzedzenia) i pomogą w ułatwieniu późniejszego bezpieczniejszego wdrożenia.

Już teraz trwają plany opracowania różnych modeli, które wzmocniłyby i rozszerzyły bazę zbudowaną w drodze stabilnej dyfuzji.

Nie ma jednak pewności, kiedy te ulepszenia będą dostępne dla użytkowników.

Powiązane posty

AppMaster na BubbleCon 2024: Eksploracja trendów No-Code
AppMaster na BubbleCon 2024: Eksploracja trendów No-Code
Firma AppMaster wzięła udział w konferencji BubbleCon 2024 w Nowym Jorku, zdobywając wiedzę, rozszerzając sieci kontaktów i badając możliwości napędzania innowacji w obszarze tworzenia oprogramowania bez kodu.
Podsumowanie FFDC 2024: Kluczowe wnioski z konferencji FlutterFlow Developers Conference w Nowym Jorku
Podsumowanie FFDC 2024: Kluczowe wnioski z konferencji FlutterFlow Developers Conference w Nowym Jorku
FFDC 2024 rozświetliło Nowy Jork, przynosząc deweloperom najnowocześniejsze spostrzeżenia na temat rozwoju aplikacji z FlutterFlow. Dzięki sesjom prowadzonym przez ekspertów, ekskluzywnym aktualizacjom i niezrównanemu networkingowi było to wydarzenie, którego nie można było przegapić!
Zwolnienia w branży technologicznej w 2024 r.: ciągła fala wpływająca na innowacyjność
Zwolnienia w branży technologicznej w 2024 r.: ciągła fala wpływająca na innowacyjność
W 254 firmach, w tym u takich gigantów jak Tesla i Amazon, likwidacja 60 000 miejsc pracy przyniesie kontynuację fali zwolnień w branży technologicznej, która zmieni krajobraz innowacji.
ROZPOCZNIJ BEZPŁATNIE
Zainspirowany do samodzielnego wypróbowania?

Najlepszym sposobem na zrozumienie mocy AppMaster jest zobaczenie tego na własne oczy. Stwórz własną aplikację w ciągu kilku minut z bezpłatną subskrypcją

Wprowadź swoje pomysły w życie