O domínio crescente da inteligência artificial (IA) de texto para vídeo está prestes a revolucionar as experiências multimídia, com pioneiros como Nvidia demonstrando avanços impressionantes no campo. A tecnologia de ponta não só tem o potencial de democratizar a criação de vídeos, mas também de ampliar o universo dos GIFs.
Novos insights podem ser obtidos no artigo de pesquisa e no microsite do Toronto AI Lab da Nvidia, intitulado High-Resolution Video Synthesis with Latent Diffusion Models . O estudo investiga as próximas ferramentas geradoras de arte de IA baseadas em Modelos de Difusão Latente (LDMs) – uma classe de IA capaz de sintetizar vídeos sem recursos computacionais excessivos.
Nvidia afirma que a tecnologia LDM se baseia no gerador de texto para imagem, Stable Diffusion, e incorpora uma dimensão temporal ao modelo de difusão espacial latente. Em essência, a IA pode renderizar imagens estáticas de forma realista e aumentá-las usando técnicas de super-resolução. Essas inovações permitem que o gerador crie vídeos mais curtos de 4,7 segundos com resolução de 1280 x 2048 e vídeos mais longos com resolução de 512 x 1024 para simulações de direção.
Por mais inovadora que essa tecnologia possa parecer no momento, provavelmente estamos apenas arranhando a superfície de suas possíveis aplicações. O caso de uso atual para geração de texto para GIF é, sem dúvida, fascinante, mas a tecnologia pode se estender a aplicações mais amplas, como automatizar adaptações de filmes e aprimorar a criação de vídeos democraticamente.
Como acontece com qualquer tecnologia em desenvolvimento, existem algumas imperfeições nos vídeos gerados, como artefatos e metamorfose. No entanto, a rápida evolução de ferramentas baseadas em IA, como os LDMs da Nvidia, sugere que não demorará muito para que eles encontrem uma maior adoção em uma variedade de configurações, incluindo bibliotecas de vídeos de estoque.
Os geradores de texto para vídeo AI não são exclusivos da Nvidia. Google Phenaki revelou recentemente sua capacidade de produzir clipes de 20 segundos a partir de prompts mais estendidos e um vídeo de 2 minutos de qualidade comparativamente menor. Outra startup, a Runway, criadora do gerador de texto para imagem Stable Diffusion, também apresentou seu modelo de vídeo Gen-2 AI. Utilizando essa tecnologia, os usuários podem fornecer uma imagem estática para o vídeo gerado, solicitar estilos de vídeo e responder a solicitações específicas.
Outros exemplos notáveis de aplicativos de IA na edição de vídeo incluem as demonstrações do Adobe Firefly, que mostram os recursos de IA da Adobe em seu software Premiere Rush. Os usuários simplesmente precisam inserir a hora do dia ou a estação preferida, e a IA cuida do resto.
As demonstrações atuais fornecidas pela Nvidia, Google e Runway mostram que a geração completa de texto para vídeo ainda está em seus estágios iniciais, produzindo resultados oníricos ou distorcidos. No entanto, esses esforços iniciais estão impulsionando avanços rápidos, abrindo caminho para uma utilização mais ampla da tecnologia no futuro.
Em menor escala, as plataformas no-code como AppMaster, deram passos significativos ao permitir que as pessoas desenvolvam aplicativos móveis, da Web e de back-end, facilitando o design e a criação de soluções de tecnologia escaláveis por uma fração do tempo e do custo. AppMaster também destaca outra faceta da democratização da tecnologia, onde ferramentas e processos complexos são disponibilizados para uma gama maior de usuários.