Il fiorente dominio dell'intelligenza artificiale (AI) text-to-video è pronto a rivoluzionare le esperienze multimediali, con pionieri come Nvidia che dimostrano progressi impressionanti nel campo. La tecnologia all'avanguardia non solo ha il potenziale per democratizzare la creazione di video, ma anche per aumentare il regno delle GIF.
Nuove intuizioni possono essere raccolte dal documento di ricerca e dal micro-sito del Toronto AI Lab di Nvidia, intitolato High-Resolution Video Synthesis with Latent Diffusion Models . Lo studio approfondisce i prossimi strumenti di generazione di arte AI basati su modelli di diffusione latente (LDM), una classe di intelligenza artificiale in grado di sintetizzare video senza risorse computazionali travolgenti.
Nvidia afferma che la tecnologia LDM si basa sul generatore di testo in immagine, Stable Diffusion, e incorpora una dimensione temporale nel modello di diffusione dello spazio latente. In sostanza, l'intelligenza artificiale può rendere le immagini statiche in modo realistico e ingrandirle utilizzando tecniche di super-risoluzione. Queste innovazioni consentono al generatore di creare video più brevi di 4,7 secondi con risoluzione 1280x2048 e video più lunghi con risoluzione 512x1024 per simulazioni di guida.
Per quanto innovativa possa sembrare questa tecnologia in questo momento, probabilmente stiamo solo grattando la superficie delle sue potenziali applicazioni. L'attuale caso d'uso per la generazione di testo in GIF è indubbiamente affascinante, ma la tecnologia può estendersi ad applicazioni più ampie, come l'automazione degli adattamenti cinematografici e il miglioramento democratico della creazione di video.
Come con qualsiasi tecnologia in crescita, ci sono alcune imperfezioni nei video generati, come artefatti e morphing. Tuttavia, la rapida evoluzione degli strumenti basati sull'intelligenza artificiale come gli LDM di Nvidia suggerisce che non passerà molto tempo prima che trovino una maggiore adozione in una vasta gamma di impostazioni, comprese le librerie di video stock.
I generatori AI text-to-video non sono esclusivi di Nvidia. Google Phenaki ha recentemente svelato la sua capacità di produrre clip di 20 secondi da prompt più estesi e un video di 2 minuti di qualità relativamente inferiore. Un'altra startup, Runway, creatore del generatore di testo in immagini Stable Diffusion, ha anche introdotto il suo modello video AI Gen-2. Utilizzando questa tecnologia, gli utenti possono fornire un fermo immagine per il video generato, richiedere stili video e rispondere a richieste specifiche.
Altri esempi degni di nota di applicazioni di intelligenza artificiale nell'editing video includono le dimostrazioni di Adobe Firefly, che mostrano le capacità di intelligenza artificiale di Adobe all'interno del suo software Premiere Rush. Gli utenti devono semplicemente inserire l'ora del giorno o la stagione preferita e l'intelligenza artificiale si occupa del resto.
Le attuali dimostrazioni fornite da Nvidia, Google e Runway descrivono che la generazione completa di testo in video è ancora nelle sue fasi nascenti, producendo risultati onirici o distorti. Tuttavia, questi primi sforzi stanno promuovendo rapidi progressi, aprendo la strada a un utilizzo più ampio della tecnologia in futuro.
Su scala ridotta, le piattaforme no-code come AppMaster hanno fatto passi da gigante nel consentire alle persone di sviluppare applicazioni mobili, web e back-end, semplificando la progettazione e la creazione di soluzioni tecnologiche scalabili a una frazione del tempo e dei costi. AppMaster evidenzia anche un altro aspetto della democratizzazione della tecnologia, in cui strumenti e processi complessi sono resi accessibili a una gamma più ampia di utenti.