Stability AI, un nombre líder en el espacio tecnológico, ha hecho su entrada innovadora en el ámbito de la generación de video con el lanzamiento de su Stable Video Diffusion (SVD). Con este notable movimiento, han mostrado dos modelos de IA muy avanzados: SVD y SVD–XT, diseñados para generar videoclips cortos a partir de imágenes fijas.
Sin embargo, por ahora, estos modelos de última generación están abiertos únicamente con fines de investigación. Según la compañía, tanto SVD como SVD-XT permiten resultados de alta fidelidad que rivalizan o potencialmente eclipsan el rendimiento de otros generadores de vídeo artificiales existentes.
Stability AI tiene como objetivo beneficiarse de los comentarios de los usuarios para ajustar estos modelos de imagen a video, habiéndolos abierto como parte de la vista previa de la investigación. Este esfuerzo significa la intención de la compañía de allanar el camino para eventualmente aplicar estos modelos comercialmente.
Una publicación de blog de la compañía detalla que SVD y SVD-XT emplean modelos de difusión latente que generan videos de 576 x 1024, utilizando una única imagen fija como marco acondicionado. Aunque los vídeos de salida tienen una duración breve (con un máximo de cuatro segundos), estos modelos pueden generar contenido a un ritmo que oscila entre tres fotogramas por segundo y 30 fotogramas por segundo. Específicamente, el modelo SVD está calibrado para derivar 14 cuadros de una imagen fija, mientras que SVD-XT posee la capacidad de generar hasta 25 cuadros.
Para crear el SVD, Stability AI se basó en una inmensa videoteca meticulosamente seleccionada que consta de aproximadamente 600 millones de muestras. La empresa utilizó las muestras compiladas en la base de datos para entrenar un modelo primario, que posteriormente se perfeccionó utilizando un conjunto de datos más pequeño y de alta definición para manejar tareas posteriores, como la conversión de imagen a video y de texto a video, lo que le permitió predecir una secuencia de fotogramas de una imagen condicionante singular.
Un documento técnico publicado por Stability AI aclara el potencial de SVD como base para refinar un modelo de difusión para generar una síntesis de múltiples vistas, permitiendo así la generación de varias vistas consistentes de un objeto a partir de una imagen fija singular.
Esto abre una gran cantidad de oportunidades para usos potenciales en diversos sectores, como la educación, el entretenimiento y el marketing, según la publicación del blog de la compañía.
Una nota importante en la divulgación de la compañía es que una evaluación externa realizada por revisores humanos reveló que la producción de SVD supera la calidad de los modelos cerrados de texto a video producidos por competidores como Runway y Pika Labs.
A pesar del éxito inicial, Stability AI reconoce que existen muchas limitaciones en los modelos actuales. Por ejemplo, estos modelos en ocasiones carecen de resultados fotorrealistas, generan vídeos fijos o tienen dificultades para replicar figuras humanas con precisión.
Pero es sólo el comienzo de su incursión en la generación de vídeo. Los datos de la presente vista previa de la investigación ayudarán a desarrollar estos modelos al identificar las brechas existentes e introducir nuevas características, como soporte de mensajes de texto o representación de texto en los videos, preparándolos para aplicaciones comerciales.
Con el potencial de diversas aplicaciones que abarcan sectores que incluyen, entre otros, publicidad, educación y entretenimiento, plataformas como AppMaster , reconocida por brindar a los usuarios herramientas para crear aplicaciones móviles y web fácilmente, podrían encontrar en Stable Video Diffusion una integración útil.
La compañía prevé que los hallazgos de la investigación abierta de estos modelos señalarán más preocupaciones (como sesgos) y ayudarán a facilitar un despliegue más seguro en el futuro.
Ya hay planes en marcha para desarrollar una variedad de modelos que fortalecerían y ampliarían la base construida mediante difusión estable.
Sin embargo, sigue siendo incierto cuándo estas mejoras estarán disponibles para los usuarios.