Stability AI, un nom leader dans le domaine technologique, a fait son entrée révolutionnaire dans le domaine de la génération vidéo avec le lancement de sa Stable Video Diffusion (SVD). Avec cette initiative remarquable, ils ont présenté deux modèles d'IA très avancés : SVD et SVD-XT, conçus pour générer de courts clips vidéo à partir d'images fixes.
Cependant, pour l’instant, ces modèles de pointe sont ouverts uniquement à des fins de recherche. Selon la société, SVD et SVD-XT autorisent des résultats haute fidélité qui rivalisent ou surpassent potentiellement les performances d'autres générateurs vidéo artificiels existants.
Stability AI vise à bénéficier des commentaires des utilisateurs pour affiner ces modèles image-vidéo, en les rendant open source dans le cadre de l'aperçu de la recherche. Cet effort témoigne de l'intention de l'entreprise d'ouvrir la voie à une éventuelle application commerciale de ces modèles.
Un article de blog de l'entreprise précise que SVD et SVD-XT utilisent des modèles de diffusion latente qui génèrent des vidéos de 576 x 1 024, en utilisant une seule image fixe comme image de conditionnement. Même si les vidéos de sortie sont de courte durée – maximum quatre secondes – ces modèles peuvent générer du contenu à un rythme allant de trois images par seconde à 30 images par seconde. Plus précisément, le modèle SVD est calibré pour dériver 14 images à partir d'une image fixe, tandis que le SVD-XT possède la capacité de générer jusqu'à 25 images.
Pour créer le SVD, Stability AI s'est appuyé sur une immense vidéothèque méticuleusement organisée, composée d'environ 600 millions d'échantillons. L'entreprise a utilisé les échantillons compilés dans la base de données pour former un modèle principal, qui a ensuite été affiné à l'aide d'un ensemble de données plus petit et haute définition pour gérer les tâches en aval telles que la conversion d'image en vidéo et de texte en vidéo, lui permettant ainsi de prédire une séquence d'images à partir d'une image de conditionnement singulière.
Un livre blanc publié par Stability AI élucide le potentiel du SVD comme base pour affiner un modèle de diffusion afin de générer une synthèse multi-vues, permettant ainsi la génération de plusieurs vues cohérentes d'un objet à partir d'une image fixe singulière.
Cela ouvre une pléthore d'opportunités d'utilisation potentielle dans divers secteurs, tels que l'éducation, le divertissement et le marketing, selon le blog de l'entreprise.
Une note importante dans la divulgation de la société est qu'une évaluation externe menée par des évaluateurs humains a révélé que la sortie de SVD dépasse la qualité des premiers modèles de synthèse texte-vidéo fermés produits par des concurrents tels que Runway et Pika Labs.
Malgré le succès initial, Stability AI reconnaît qu’il existe de nombreuses limites dans les modèles actuels. Par exemple, ces modèles manquent parfois de rendu photoréaliste, génèrent des vidéos fixes ou ont du mal à reproduire avec précision des figures humaines.
Mais ce n'est que le début de leur aventure dans la génération vidéo. Les données de l'aperçu de recherche actuel aideront à faire évoluer ces modèles en identifiant les lacunes existantes et en introduisant de nouvelles fonctionnalités, telles que la prise en charge des invites textuelles ou le rendu du texte dans les vidéos, les rendant ainsi prêtes pour des applications commerciales.
Avec le potentiel de diverses applications englobant des secteurs comprenant, sans s'y limiter, la publicité, l'éducation et le divertissement, des plates-formes comme AppMaster , réputées pour fournir aux utilisateurs des outils permettant de créer facilement des applications mobiles et Web, pourraient trouver dans Stable Video Diffusion une intégration utile.
La société estime que les résultats de l’enquête ouverte sur ces modèles mettront en évidence davantage de préoccupations (telles que des préjugés) et contribueront à faciliter un déploiement plus sûr ultérieurement.
Des projets sont déjà en cours pour développer une variété de modèles qui renforceraient et étendraient la base construite par diffusion stable.
Cependant, il reste incertain quand ces améliorations seront disponibles pour les utilisateurs.