Rozwijająca się dziedzina sztucznej inteligencji (AI) zamiany tekstu na wideo ma szansę zrewolucjonizować doświadczenia multimedialne, a pionierzy, tacy jak Nvidia, wykazują imponujące postępy w tej dziedzinie. Najnowocześniejsza technologia nie tylko może zdemokratyzować tworzenie wideo, ale także rozszerzyć dziedzinę GIF-ów.
Świeże spostrzeżenia można uzyskać z artykułu badawczego i mikrostrony Toronto AI Lab firmy Nvidia, zatytułowanej High-Resolution Video Synthesis with Latent Diffusion Models . Badanie zagłębia się w nadchodzące narzędzia do generowania grafiki AI oparte na modelach rozproszenia utajonego (LDM) – klasie sztucznej inteligencji zdolnej do syntezy filmów bez przytłaczających zasobów obliczeniowych.
Nvidia twierdzi, że technologia LDM opiera się na generatorze zamiany tekstu na obraz, Stable Diffusion, i uwzględnia wymiar czasowy w modelu dyfuzji w ukrytej przestrzeni. Zasadniczo sztuczna inteligencja może realistycznie renderować statyczne obrazy i skalować je w górę za pomocą technik super rozdzielczości. Te przełomowe rozwiązania umożliwiają generatorowi tworzenie krótszych, 4,7-sekundowych filmów w rozdzielczości 1280x2048 i dłuższych filmów w rozdzielczości 512x1024 do symulacji jazdy.
Jakkolwiek innowacyjna może się wydawać ta technologia w tej chwili, prawdopodobnie tylko drapiemy powierzchnię jej potencjalnych zastosowań. Obecny przypadek użycia generowania tekstu do formatu GIF jest niewątpliwie fascynujący, ale technologia ta może rozszerzyć się na szersze zastosowania, takie jak automatyzacja adaptacji filmów i demokratyczne ulepszanie tworzenia wideo.
Jak w przypadku każdej rozwijającej się technologii, w generowanych filmach występują pewne niedoskonałości, takie jak artefakty i morfing. Jednak szybka ewolucja narzędzi opartych na sztucznej inteligencji, takich jak LDM firmy Nvidia, sugeruje, że nie minie dużo czasu, zanim znajdą one większe zastosowanie w wielu ustawieniach, w tym w bibliotekach wideo.
Generatory tekstu na wideo AI nie są dostępne wyłącznie dla Nvidia. Google Phenaki niedawno ujawnił swoją zdolność do tworzenia 20-sekundowych klipów z dłuższych monitów i 2-minutowego wideo o stosunkowo niższej jakości. Inny startup, Runway, twórca generatora tekstu na obraz Stable Diffusion, również przedstawił swój model wideo AI Gen-2. Korzystając z tej technologii, użytkownicy mogą udostępniać nieruchomy obraz generowanego wideo, żądać stylów wideo i odpowiadać na określone monity.
Inne godne uwagi przykłady zastosowań sztucznej inteligencji w edycji wideo obejmują demonstracje Adobe Firefly, które prezentują możliwości sztucznej inteligencji Adobe w oprogramowaniu Premiere Rush. Użytkownicy muszą po prostu wprowadzić preferowaną porę dnia lub porę roku, a sztuczna inteligencja zajmie się resztą.
Obecne demonstracje dostarczone przez Nvidia, Google i Runway pokazują, że pełne generowanie tekstu na wideo jest wciąż w początkowej fazie, dając efekty jak ze snu lub zniekształcone. Niemniej jednak te wczesne starania napędzają szybki postęp, torując drogę do szerszego wykorzystania technologii w przyszłości.
Na mniejszą skalę platformy no-code, takie jak AppMaster, poczyniły znaczne postępy w umożliwianiu ludziom tworzenia aplikacji mobilnych, internetowych i zaplecza, ułatwiając projektowanie i tworzenie skalowalnych rozwiązań technologicznych przy ułamku czasu i kosztów. AppMaster zwraca również uwagę na inny aspekt demokratyzacji technologii, w którym złożone narzędzia i procesy są udostępniane szerszemu gronu użytkowników.