Le domaine en plein essor de l'intelligence artificielle (IA) du texte à la vidéo est sur le point de révolutionner les expériences multimédias, avec des pionniers tels que Nvidia démontrant des avancées impressionnantes dans le domaine. La technologie de pointe a non seulement le potentiel de démocratiser la création vidéo, mais aussi d'augmenter le domaine des GIF.
De nouvelles informations peuvent être tirées du document de recherche et du microsite du Toronto AI Lab de Nvidia, intitulé High-Resolution Video Synthesis with Latent Diffusion Models . L'étude se penche sur les prochains outils de génération d'art de l'IA basés sur les modèles de diffusion latente (LDM) - une classe d'IA capable de synthétiser des vidéos sans ressources de calcul écrasantes.
Nvidia affirme que la technologie LDM s'appuie sur le générateur de texte en image, Stable Diffusion, et intègre une dimension temporelle au modèle de diffusion spatiale latente. Essentiellement, l'IA peut restituer des images statiques de manière réaliste et les mettre à l'échelle à l'aide de techniques de super-résolution. Ces percées permettent au générateur de créer des vidéos plus courtes de 4,7 secondes avec une résolution de 1280x2048 et des vidéos plus longues de résolution 512x1024 pour les simulations de conduite.
Aussi innovante que cette technologie puisse sembler en ce moment, nous ne faisons probablement qu'effleurer la surface de ses applications potentielles. Le cas d'utilisation actuel de la génération de texte en GIF est sans aucun doute fascinant, mais la technologie peut s'étendre à des applications plus larges, telles que l'automatisation des adaptations de films et l'amélioration démocratique de la création vidéo.
Comme pour toute technologie en plein essor, il existe certaines imperfections dans les vidéos générées, telles que les artefacts et le morphing. Cependant, l'évolution rapide des outils alimentés par l'IA comme les LDM de Nvidia suggère qu'il ne faudra pas longtemps avant qu'ils ne soient plus adoptés dans une gamme de paramètres, y compris les bibliothèques de vidéos de stock.
Les générateurs de texte en vidéo AI ne sont pas exclusifs à Nvidia. Google Phenaki a récemment dévoilé sa capacité à produire des clips de 20 secondes à partir d'invites plus étendues et une vidéo de 2 minutes de qualité relativement moindre. Une autre startup, Runway, créateur du générateur de texte en image Stable Diffusion, a également présenté son modèle vidéo Gen-2 AI. Grâce à cette technologie, les utilisateurs peuvent fournir une image fixe pour la vidéo générée, demander des styles vidéo et répondre à des invites spécifiques.
D'autres exemples notables d'applications d'IA dans le montage vidéo incluent les démonstrations d'Adobe Firefly, qui présentent les capacités d'IA d'Adobe dans son logiciel Premiere Rush. Les utilisateurs doivent simplement saisir l'heure de la journée ou la saison préférée, et l'IA s'occupe du reste.
Les démonstrations actuelles fournies par Nvidia, Google et Runway montrent que la génération de texte intégral en vidéo en est encore à ses balbutiements, produisant des résultats oniriques ou déformés. Néanmoins, ces premiers efforts propulsent des progrès rapides, ouvrant la voie à une utilisation plus large de la technologie à l'avenir.
À plus petite échelle, les plates no-code telles AppMaster ont fait des progrès significatifs en permettant aux gens de développer des applications mobiles, Web et backend, facilitant ainsi la conception et la création de solutions technologiques évolutives à une fraction du temps et du coût. AppMaster met également en évidence une autre facette de la démocratisation de la technologie, où des outils et des processus complexes sont rendus accessibles à un plus large éventail d'utilisateurs.