Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stability AI dévoile des modèles de génération vidéo prometteurs

Stability AI dévoile des modèles de génération vidéo prometteurs

Stability AI, un nom leader dans le domaine technologique, a fait son entrée révolutionnaire dans le domaine de la génération vidéo avec le lancement de sa Stable Video Diffusion (SVD). Avec cette initiative remarquable, ils ont présenté deux modèles d'IA très avancés : SVD et SVD-XT, conçus pour générer de courts clips vidéo à partir d'images fixes.

Cependant, pour l’instant, ces modèles de pointe sont ouverts uniquement à des fins de recherche. Selon la société, SVD et SVD-XT autorisent des résultats haute fidélité qui rivalisent ou surpassent potentiellement les performances d'autres générateurs vidéo artificiels existants.

Stability AI vise à bénéficier des commentaires des utilisateurs pour affiner ces modèles image-vidéo, en les rendant open source dans le cadre de l'aperçu de la recherche. Cet effort témoigne de l'intention de l'entreprise d'ouvrir la voie à une éventuelle application commerciale de ces modèles.

Un article de blog de l'entreprise précise que SVD et SVD-XT utilisent des modèles de diffusion latente qui génèrent des vidéos de 576 x 1 024, en utilisant une seule image fixe comme image de conditionnement. Même si les vidéos de sortie sont de courte durée – maximum quatre secondes – ces modèles peuvent générer du contenu à un rythme allant de trois images par seconde à 30 images par seconde. Plus précisément, le modèle SVD est calibré pour dériver 14 images à partir d'une image fixe, tandis que le SVD-XT possède la capacité de générer jusqu'à 25 images.

Pour créer le SVD, Stability AI s'est appuyé sur une immense vidéothèque méticuleusement organisée, composée d'environ 600 millions d'échantillons. L'entreprise a utilisé les échantillons compilés dans la base de données pour former un modèle principal, qui a ensuite été affiné à l'aide d'un ensemble de données plus petit et haute définition pour gérer les tâches en aval telles que la conversion d'image en vidéo et de texte en vidéo, lui permettant ainsi de prédire une séquence d'images à partir d'une image de conditionnement singulière.

Un livre blanc publié par Stability AI élucide le potentiel du SVD comme base pour affiner un modèle de diffusion afin de générer une synthèse multi-vues, permettant ainsi la génération de plusieurs vues cohérentes d'un objet à partir d'une image fixe singulière.

Cela ouvre une pléthore d'opportunités d'utilisation potentielle dans divers secteurs, tels que l'éducation, le divertissement et le marketing, selon le blog de l'entreprise.

Une note importante dans la divulgation de la société est qu'une évaluation externe menée par des évaluateurs humains a révélé que la sortie de SVD dépasse la qualité des premiers modèles de synthèse texte-vidéo fermés produits par des concurrents tels que Runway et Pika Labs.

Malgré le succès initial, Stability AI reconnaît qu’il existe de nombreuses limites dans les modèles actuels. Par exemple, ces modèles manquent parfois de rendu photoréaliste, génèrent des vidéos fixes ou ont du mal à reproduire avec précision des figures humaines.

Mais ce n'est que le début de leur aventure dans la génération vidéo. Les données de l'aperçu de recherche actuel aideront à faire évoluer ces modèles en identifiant les lacunes existantes et en introduisant de nouvelles fonctionnalités, telles que la prise en charge des invites textuelles ou le rendu du texte dans les vidéos, les rendant ainsi prêtes pour des applications commerciales.

Avec le potentiel de diverses applications englobant des secteurs comprenant, sans s'y limiter, la publicité, l'éducation et le divertissement, des plates-formes comme AppMaster , réputées pour fournir aux utilisateurs des outils permettant de créer facilement des applications mobiles et Web, pourraient trouver dans Stable Video Diffusion une intégration utile.

La société estime que les résultats de l’enquête ouverte sur ces modèles mettront en évidence davantage de préoccupations (telles que des préjugés) et contribueront à faciliter un déploiement plus sûr ultérieurement.

Des projets sont déjà en cours pour développer une variété de modèles qui renforceraient et étendraient la base construite par diffusion stable.

Cependant, il reste incertain quand ces améliorations seront disponibles pour les utilisateurs.

Postes connexes

Samsung dévoile le Galaxy A55 avec une sécurité innovante et une construction haut de gamme
Samsung dévoile le Galaxy A55 avec une sécurité innovante et une construction haut de gamme
Samsung élargit sa gamme de milieu de gamme en présentant les Galaxy A55 et A35, dotés de la sécurité Knox Vault et d'éléments de conception améliorés, conférant au segment des qualités phares.
Cloudflare dévoile un pare-feu pour l'IA pour protéger les grands modèles de langage
Cloudflare dévoile un pare-feu pour l'IA pour protéger les grands modèles de langage
Cloudflare va de l'avant avec Firewall for AI, un WAF avancé conçu pour identifier et contrecarrer de manière préventive les abus potentiels ciblant les grands modèles de langage.
ChatGPT d'OpenAI parle maintenant : l'avenir de l'IA vocale interactive
ChatGPT d'OpenAI parle maintenant : l'avenir de l'IA vocale interactive
ChatGPT a franchi une étape importante avec le déploiement de fonctionnalités vocales par OpenAI. Les utilisateurs peuvent désormais profiter d'une interaction mains libres puisque ChatGPT lit les réponses à haute voix sur iOS, Android et le Web.
Commencez gratuitement
Inspiré pour essayer cela vous-même?

La meilleure façon de comprendre la puissance d'AppMaster est de le constater par vous-même. Créez votre propre application en quelques minutes avec un abonnement gratuit

Donnez vie à vos idées