Stability AI, un nome leader nello spazio tecnologico, ha fatto il suo ingresso rivoluzionario nel regno della generazione di video con il lancio della sua Stable Video Diffusion (SVD). Con questa mossa straordinaria, hanno presentato due modelli di intelligenza artificiale altamente avanzati: SVD e SVD–XT, progettati per generare brevi videoclip da immagini fisse.
Tuttavia, per ora, questi modelli all’avanguardia sono aperti solo a scopi di ricerca. Secondo l'azienda, sia SVD che SVD-XT garantiscono risultati ad alta fedeltà che competono o potenzialmente superano le prestazioni di altri generatori video artificiali esistenti.
Stability AI mira a trarre vantaggio dal feedback degli utenti nella messa a punto di questi modelli da immagine a video, rendendoli open source come parte dell'anteprima della ricerca. Questo impegno dimostra l'intenzione dell'azienda di aprire la strada all'eventuale applicazione commerciale di questi modelli.
Un post sul blog aziendale spiega in dettaglio che SVD e SVD-XT utilizzano modelli di diffusione latente che generano video 576 x 1024, utilizzando una singola immagine fissa come fotogramma di condizionamento. Anche se i video in uscita hanno una durata breve – al massimo quattro secondi – questi modelli possono generare contenuti a un ritmo che va da tre fotogrammi al secondo a 30 fotogrammi al secondo. Nello specifico, il modello SVD è calibrato per ricavare 14 fotogrammi da un'immagine fissa, mentre SVD-XT possiede la capacità di generare fino a 25 fotogrammi.
Per creare l'SVD, Stability AI si è affidata a un'immensa libreria video meticolosamente curata composta da circa 600 milioni di campioni. L'azienda ha utilizzato i campioni compilati nel database per addestrare un modello primario, che è stato successivamente perfezionato utilizzando un set di dati più piccolo e ad alta definizione per gestire attività a valle come la conversione da immagine a video e da testo a video, consentendole di prevedere una sequenza di fotogrammi da una singola immagine condizionante.
Un white paper pubblicato da Stability AI chiarisce il potenziale di SVD come base per perfezionare un modello di diffusione per generare una sintesi multi-vista, consentendo così la generazione di diverse viste coerenti di un oggetto da una singola immagine fissa.
Ciò apre una miriade di opportunità per potenziali usi in vari settori, come l’istruzione, l’intrattenimento e il marketing, secondo il post sul blog dell’azienda.
Una nota significativa nella divulgazione della società è che una valutazione esterna condotta da revisori umani ha rivelato che l'output di SVD supera la qualità dei modelli di testo in video chiusi di prima qualità prodotti da concorrenti come Runway e Pika Labs.
Nonostante il successo iniziale, Stability AI riconosce che ci sono molte limitazioni nei modelli attuali. Ad esempio, questi modelli occasionalmente mancano di risultati fotorealistici, generano video fissi o hanno difficoltà a replicare accuratamente le figure umane.
Ma è solo l'inizio della loro avventura nella generazione di video. I dati della presente anteprima della ricerca aiuteranno a far evolvere questi modelli identificando le lacune esistenti e introducendo nuove funzionalità, come il supporto di istruzioni di testo o il rendering del testo nei video, rendendoli pronti per applicazioni commerciali.
Con il potenziale di diverse applicazioni che abbracciano settori tra cui, ma non solo, pubblicità, istruzione e intrattenimento, piattaforme come AppMaster , rinomata per fornire agli utenti strumenti per creare facilmente applicazioni mobili e web, potrebbero trovare Stable Video Diffusion un'utile integrazione.
La società prevede che i risultati dell’indagine aperta su questi modelli segnaleranno ulteriori preoccupazioni (come i pregiudizi) e contribuiranno a facilitare un’implementazione più sicura in un secondo momento.
Sono già in corso piani per sviluppare una varietà di modelli che rafforzerebbero ed estenderebbero la base costruita dalla diffusione stabile.
Tuttavia, non è ancora chiaro quando questi miglioramenti saranno disponibili agli utenti.