Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stabilna sztuczna inteligencja ujawnia obiecujące modele generowania wideo

Stabilna sztuczna inteligencja ujawnia obiecujące modele generowania wideo

Stability AI, wiodąca marka w przestrzeni technologicznej, w sposób przełomowy wkroczyła w dziedzinę generowania wideo wraz z wprowadzeniem na rynek rozwiązania Stable Video Diffusion (SVD). Dzięki temu niezwykłemu posunięciu zaprezentowano dwa wysoce zaawansowane modele sztucznej inteligencji – SVD i SVD–XT, zaprojektowane do generowania krótkich klipów wideo ze zdjęć.

Jednak obecnie te najnowocześniejsze modele są dostępne wyłącznie do celów badawczych. Zdaniem firmy zarówno SVD, jak i SVD–XT zapewniają wyniki o wysokiej wierności, które dorównują wydajności innych istniejących sztucznych generatorów wideo lub potencjalnie je przewyższają.

Stability AI ma na celu wykorzystanie opinii użytkowników w zakresie dostrajania modeli przetwarzania obrazu na wideo, udostępniając je na zasadach open source w ramach podglądu badań. Przedsięwzięcie to oznacza zamiar firmy utorowania drogi do ostatecznego zastosowania tych modeli na rynku.

W poście na firmowym blogu szczegółowo opisano, że modele SVD i SVD-XT wykorzystują modele dyfuzji utajonej, które generują filmy w rozdzielczości 576 x 1024, wykorzystując pojedynczy nieruchomy obraz jako klatkę warunkującą. Mimo że wyjściowe filmy wideo są krótkie – maksymalnie do czterech sekund – modele te mogą generować treści w tempie od trzech klatek na sekundę do 30 klatek na sekundę. W szczególności model SVD jest skalibrowany tak, aby uzyskać 14 klatek ze nieruchomego obrazu, podczas gdy SVD-XT może wygenerować do 25 klatek.

Aby stworzyć SVD, Stability AI oparła się na ogromnej, skrupulatnie opracowanej bibliotece wideo składającej się z około 600 milionów próbek. Firma wykorzystała próbki zebrane w bazie danych do wytrenowania modelu podstawowego, który następnie udoskonalono przy użyciu mniejszego zestawu danych o wysokiej rozdzielczości do obsługi dalszych zadań, takich jak konwersja obrazu na wideo i tekstu na wideo, co umożliwiło przewidywanie sekwencja klatek z pojedynczego obrazu warunkującego.

Biała księga wydana przez Stability AI wyjaśnia potencjał SVD jako podstawy do udoskonalenia modelu dyfuzji w celu wygenerowania syntezy wielu widoków, umożliwiając w ten sposób wygenerowanie kilku spójnych widoków obiektu z pojedynczego nieruchomego obrazu.

Jak wynika z wpisu na blogu firmy, otwiera to mnóstwo możliwości potencjalnych zastosowań w różnych sektorach, takich jak edukacja, rozrywka i marketing.

Istotną informacją w ujawnieniu firmy jest to, że zewnętrzna ocena przeprowadzona przez weryfikatorów ujawniła, że ​​wyniki SVD przewyższają jakością premierowe zamknięte modele zamiany tekstu na wideo produkowane przez konkurentów, takich jak Runway i Pika Labs.

Pomimo początkowego sukcesu Stability AI przyznaje, że obecne modele mają wiele ograniczeń. Na przykład modelom tym czasami brakuje fotorealistycznych wyników, generują nieruchome filmy lub mają problemy z dokładnym odwzorowaniem postaci ludzkich.

Ale to dopiero początek ich przygody z generowaniem wideo. Dane zawarte w niniejszym przeglądzie badawczym pomogą w ewolucji tych modeli poprzez identyfikację istniejących luk i wprowadzenie nowych funkcji, takich jak obsługa podpowiedzi tekstowych lub renderowanie tekstu w filmach, dzięki czemu będą one gotowe do zastosowań komercyjnych.

Dzięki potencjałowi różnorodnych aplikacji obejmujących sektory, w tym między innymi reklamę, edukację i rozrywkę, platformy takie jak AppMaster , znane z zapewniania użytkownikom narzędzi do łatwego tworzenia aplikacji mobilnych i internetowych, mogą uznać Stable Video Diffusion za przydatną integrację.

Firma przewiduje, że ustalenia z otwartego badania tych modeli wykażą więcej obaw (takich jak uprzedzenia) i pomogą w ułatwieniu późniejszego bezpieczniejszego wdrożenia.

Już teraz trwają plany opracowania różnych modeli, które wzmocniłyby i rozszerzyły bazę zbudowaną w drodze stabilnej dyfuzji.

Nie ma jednak pewności, kiedy te ulepszenia będą dostępne dla użytkowników.

Powiązane posty

Samsung przedstawia Galaxy A55 z innowacyjnymi zabezpieczeniami i wersją premium
Samsung przedstawia Galaxy A55 z innowacyjnymi zabezpieczeniami i wersją premium
Samsung poszerza swoją linię produktów ze średniej półki, wprowadzając Galaxy A55 i A35, wyposażone w zabezpieczenia Knox Vault i ulepszone elementy konstrukcyjne, nadające segmentowi flagowe cechy.
Cloudflare przedstawia zaporę sieciową dla sztucznej inteligencji chroniącą modele wielojęzyczne
Cloudflare przedstawia zaporę sieciową dla sztucznej inteligencji chroniącą modele wielojęzyczne
Cloudflare robi krok naprzód dzięki zaporze ogniowej dla sztucznej inteligencji, zaawansowanemu rozwiązaniu WAF zaprojektowanemu z myślą o zapobiegawczym identyfikowaniu i udaremnianiu potencjalnych nadużyć ukierunkowanych na modele wielkojęzyczne.
ChatGPT OpenAI teraz mówi: przyszłość interaktywnej sztucznej inteligencji głosowej
ChatGPT OpenAI teraz mówi: przyszłość interaktywnej sztucznej inteligencji głosowej
ChatGPT osiągnął kamień milowy dzięki wdrożeniu przez OpenAI funkcji głosowych. Użytkownicy mogą teraz korzystać z interakcji bez użycia rąk, ponieważ ChatGPT czyta odpowiedzi na głos w systemach iOS, Android i w Internecie.
ROZPOCZNIJ BEZPŁATNIE
Zainspirowany do samodzielnego wypróbowania?

Najlepszym sposobem na zrozumienie mocy AppMaster jest zobaczenie tego na własne oczy. Stwórz własną aplikację w ciągu kilku minut z bezpłatną subskrypcją

Wprowadź swoje pomysły w życie