Stability AI, een toonaangevende naam in de technische ruimte, heeft zijn baanbrekende intrede gedaan in de wereld van videogeneratie met de lancering van hun Stable Video Diffusion (SVD). Met deze opmerkelijke zet hebben ze twee zeer geavanceerde AI-modellen gepresenteerd: SVD en SVD-XT, ontworpen om korte videoclips te genereren uit stilstaande beelden.
Vanaf nu zijn deze ultramoderne modellen echter alleen toegankelijk voor onderzoeksdoeleinden. Volgens het bedrijf sanctioneren zowel SVD als SVD-XT hifi-resultaten die de prestaties van andere bestaande kunstmatige videogeneratoren evenaren of mogelijk overtreffen.
Stability AI wil profiteren van gebruikersfeedback bij het verfijnen van deze beeld-naar-video-modellen, door ze open source te maken als onderdeel van de onderzoekspreview. Dit streven duidt op de intentie van het bedrijf om de weg vrij te maken voor de uiteindelijke commerciële toepassing van deze modellen.
In een blogpost van het bedrijf wordt gedetailleerd beschreven dat SVD en SVD-XT latente diffusiemodellen gebruiken die video's van 576 x 1024 genereren, waarbij één enkel stilstaand beeld als conditioneringsframe wordt gebruikt. Ook al zijn de outputvideo's kort van duur (maximaal vier seconden), kunnen deze modellen inhoud genereren met een snelheid variërend van drie frames per seconde tot 30 frames per seconde. Concreet is het SVD-model gekalibreerd om 14 frames uit een stilstaand beeld af te leiden, terwijl SVD-XT de mogelijkheid heeft om maximaal 25 frames te genereren.
Om de SVD te creëren, vertrouwde Stability AI op een immense, zorgvuldig samengestelde videobibliotheek bestaande uit ongeveer 600 miljoen samples. Het bedrijf gebruikte de in de database verzamelde voorbeelden om een primair model te trainen, dat vervolgens werd verfijnd met behulp van een kleinere, high-definition dataset om stroomafwaartse taken zoals beeld-naar-video- en tekst-naar-video-conversie af te handelen, waardoor het model kon voorspellen een reeks frames uit een enkel conditioneringsbeeld.
Een whitepaper uitgegeven door Stability AI licht het potentieel van SVD toe als basis voor het verfijnen van een diffusiemodel om een synthese met meerdere weergaven te genereren, waardoor het genereren van verschillende consistente weergaven van een object uit een enkel stilstaand beeld mogelijk wordt.
Dit opent een overvloed aan mogelijkheden voor potentieel gebruik in verschillende sectoren, zoals onderwijs, entertainment en marketing, aldus de blogpost van het bedrijf.
Een belangrijke opmerking in de openbaarmaking van het bedrijf is dat uit een externe evaluatie, uitgevoerd door menselijke reviewers, bleek dat de output van SVD de kwaliteit overtreft van première gesloten tekst-naar-video-modellen geproduceerd door concurrenten zoals Runway en Pika Labs.
Ondanks het aanvankelijke succes erkent Stability AI dat er veel beperkingen zijn in de huidige modellen. Deze modellen missen bijvoorbeeld af en toe fotorealistische output, genereren stilstaande video's of worstelen met het nauwkeurig repliceren van menselijke figuren.
Maar het is slechts het begin van hun onderneming in het genereren van video's. De gegevens uit de huidige onderzoekspreview zullen deze modellen helpen ontwikkelen door de bestaande hiaten te identificeren en nieuwe functies te introduceren, zoals het ondersteunen van tekstprompts of tekstweergave in de video's, waardoor ze klaar worden gemaakt voor commerciële toepassingen.
Met het potentieel van diverse toepassingen die sectoren omvatten, maar niet beperkt tot reclame, onderwijs en entertainment, kunnen platforms als AppMaster , bekend om het bieden van tools aan gebruikers om eenvoudig mobiele en webapplicaties te maken, Stable Video Diffusion een nuttige integratie vinden.
Het bedrijf verwacht dat de bevindingen uit het open onderzoek naar deze modellen meer zorgen (zoals vooroordelen) zullen signaleren en zullen helpen bij het faciliteren van een veiligere implementatie later.
Er zijn al plannen in de maak om een verscheidenheid aan modellen te ontwikkelen die de basis die door stabiele verspreiding is opgebouwd, kunnen versterken en uitbreiden.
Het blijft echter onzeker wanneer deze verbeteringen beschikbaar zullen zijn voor gebruikers.