El floreciente dominio de la inteligencia artificial (IA) de texto a video está a punto de revolucionar las experiencias multimedia, con pioneros como Nvidia demostrando avances impresionantes en el campo. La tecnología de vanguardia no solo tiene el potencial de democratizar la creación de videos, sino también de aumentar el ámbito de los GIF.
Se pueden obtener nuevos conocimientos del artículo de investigación y el micrositio del laboratorio de inteligencia artificial de Toronto de Nvidia, titulado Síntesis de video de alta resolución con modelos de difusión latente . El estudio profundiza en las próximas herramientas generadoras de arte de IA basadas en modelos de difusión latente (LDM), una clase de IA capaz de sintetizar videos sin recursos computacionales abrumadores.
Nvidia afirma que la tecnología LDM se basa en el generador de texto a imagen, Stable Diffusion, e incorpora una dimensión temporal al modelo de difusión espacial latente. En esencia, la IA puede representar imágenes estáticas de manera realista y mejorarlas utilizando técnicas de superresolución. Estos avances permiten que el generador cree videos más cortos de 4,7 segundos con una resolución de 1280x2048 y videos más largos con una resolución de 512x1024 para simulaciones de conducción.
Por más innovadora que parezca esta tecnología en este momento, es probable que solo estemos rascando la superficie de sus posibles aplicaciones. El caso de uso actual para la generación de texto a GIF es sin duda fascinante, pero la tecnología puede extenderse a aplicaciones más amplias, como la automatización de adaptaciones de películas y la mejora democrática de la creación de videos.
Al igual que con cualquier tecnología emergente, existen algunas imperfecciones en los videos generados, como artefactos y morphing. Sin embargo, la rápida evolución de las herramientas impulsadas por IA como los LDM de Nvidia sugiere que no pasará mucho tiempo antes de que encuentren una mayor adopción en una variedad de entornos, incluidas las bibliotecas de videos de archivo.
Los generadores de texto a video de IA no son exclusivos de Nvidia. Google Phenaki reveló recientemente su capacidad para producir clips de 20 segundos a partir de indicaciones más extensas y un video de 2 minutos de calidad comparativamente menor. Otra startup, Runway, creadora del generador de texto a imagen Stable Diffusion, también presentó su modelo de video AI Gen-2. Al utilizar esta tecnología, los usuarios pueden proporcionar una imagen fija para el video generado, solicitar estilos de video y responder a indicaciones específicas.
Otros ejemplos notables de aplicaciones de IA en la edición de video incluyen las demostraciones de Adobe Firefly, que muestran las capacidades de IA de Adobe dentro de su software Premiere Rush. Los usuarios simplemente necesitan ingresar la hora del día o la estación preferida, y la IA se encarga del resto.
Las demostraciones actuales proporcionadas por Nvidia, Google y Runway muestran que la generación completa de texto a video aún está en sus etapas iniciales, lo que produce resultados distorsionados o de ensueño. Sin embargo, estos primeros esfuerzos están impulsando avances rápidos, allanando el camino para una utilización más amplia de la tecnología en el futuro.
En una escala más pequeña, las plataformas no-code como AppMaster han logrado avances significativos al permitir que las personas desarrollen aplicaciones móviles, web y back-end, lo que facilita el diseño y la creación de soluciones tecnológicas escalables en una fracción del tiempo y el costo. AppMaster también destaca otra faceta de la democratización de la tecnología, donde las herramientas y los procesos complejos se vuelven accesibles para una gama más amplia de usuarios.