Het snelgroeiende domein van tekst-naar-video kunstmatige intelligentie (AI) staat op het punt om een revolutie teweeg te brengen in multimedia-ervaringen, met pioniers zoals Nvidia die indrukwekkende vooruitgang in het veld laten zien. De geavanceerde technologie heeft niet alleen het potentieel om het maken van video's te democratiseren, maar ook om het rijk van GIF's te vergroten.
Nieuwe inzichten kunnen worden verkregen uit het onderzoekspaper en de microsite van Nvidia 's Toronto AI Lab, getiteld High-Resolution Video Synthesis with Latent Diffusion Models . De studie gaat dieper in op de aankomende AI-kunstgeneratortools die zijn gebaseerd op Latent Diffusion Models (LDM's) - een klasse van AI die in staat is om video's te synthetiseren zonder overweldigende rekenbronnen.
Nvidia beweert dat LDM-technologie voortbouwt op de tekst-naar-beeld-generator, Stable Diffusion, en een temporele dimensie incorporeert in het latente ruimte-diffusiemodel. In wezen kan de AI statische afbeeldingen realistisch weergeven en opschalen met behulp van superresolutietechnieken. Dankzij deze doorbraken kan de generator kortere video's van 4,7 seconden maken met een resolutie van 1280 x 2048 en langere video's met een resolutie van 512 x 1024 voor rijsimulaties.
Hoe innovatief deze technologie op dit moment ook mag lijken, we zijn waarschijnlijk nog maar aan het begin van de mogelijke toepassingen. De huidige use-case voor het genereren van tekst naar GIF is ongetwijfeld fascinerend, maar de technologie kan worden uitgebreid naar bredere toepassingen, zoals het automatiseren van filmaanpassingen en het democratisch verbeteren van videocreatie.
Zoals met elke ontluikende technologie, zijn er enkele onvolkomenheden in de gegenereerde video's, zoals artefacten en morphing. De snelle evolutie van AI-aangedreven tools zoals de LDM's van Nvidia suggereert echter dat het niet lang zal duren voordat ze meer worden gebruikt in een reeks omgevingen, waaronder videobibliotheken.
AI-tekst-naar-video-generatoren zijn niet exclusief voor Nvidia. Google Phenaki heeft onlangs zijn capaciteit onthuld voor het produceren van clips van 20 seconden op basis van langere prompts en een video van 2 minuten van relatief mindere kwaliteit. Een andere startup, Runway, maker van de tekst-naar-beeld-generator Stable Diffusion, introduceerde ook zijn Gen-2 AI-videomodel. Met behulp van deze technologie kunnen gebruikers een stilstaand beeld leveren voor de gegenereerde video, videostijlen opvragen en reageren op specifieke prompts.
Andere opmerkelijke voorbeelden van AI-toepassingen in videobewerking zijn de demonstraties van Adobe Firefly, die de AI-mogelijkheden van Adobe binnen zijn Premiere Rush-software demonstreren. Gebruikers hoeven alleen maar de gewenste tijd van de dag of het gewenste seizoen in te voeren en de AI doet de rest.
De huidige demonstraties van Nvidia, Google en Runway laten zien dat het genereren van volledige tekst naar video nog in de kinderschoenen staat en droomachtige of vervormde resultaten oplevert. Desalniettemin zorgen deze vroege inspanningen voor snelle vooruitgang en maken ze de weg vrij voor een breder gebruik van de technologie in de toekomst.
Op kleinere schaal hebben no-code platforms zoals AppMaster aanzienlijke vooruitgang geboekt door mensen in staat te stellen mobiele, web- en backend-applicaties te ontwikkelen, waardoor het gemakkelijker wordt om schaalbare technologische oplossingen te ontwerpen en te creëren tegen een fractie van de tijd en kosten. AppMaster belicht ook een ander facet van de democratisering van technologie, waarbij complexe tools en processen toegankelijk worden gemaakt voor een breder scala aan gebruikers.