Stability AI, um nome líder no espaço tecnológico, fez sua entrada inovadora no reino da geração de vídeo com o lançamento de seu Stable Video Diffusion (SVD). Com este movimento notável, eles apresentaram dois modelos de IA altamente avançados – SVD e SVD–XT, projetados para gerar pequenos videoclipes a partir de imagens estáticas.
No entanto, a partir de agora, estes modelos de última geração estão abertos apenas para fins de investigação. De acordo com a empresa, tanto o SVD quanto o SVD – XT sancionam resultados de alta fidelidade que rivalizam ou potencialmente ofuscam o desempenho de outros geradores de vídeo artificiais existentes.
Stability AI visa se beneficiar do feedback do usuário no ajuste fino desses modelos de imagem para vídeo, abrindo-os como parte da visualização da pesquisa. Este esforço significa a intenção da empresa de preparar o caminho para uma eventual aplicação comercial destes modelos.
Uma postagem no blog da empresa detalhou que SVD e SVD-XT empregam modelos de difusão latente que geram vídeos de 576 x 1024, usando uma única imagem estática como quadro de condicionamento. Embora os vídeos de saída tenham duração curta – máximo de quatro segundos – esses modelos podem gerar conteúdo em um ritmo que varia de três quadros por segundo a 30 quadros por segundo. Especificamente, o modelo SVD é calibrado para derivar 14 quadros de uma imagem estática, enquanto o SVD-XT possui a capacidade de gerar até 25 quadros.
Para criar o SVD, Stability AI contou com uma imensa videoteca meticulosamente selecionada, composta por aproximadamente 600 milhões de amostras. A empresa usou as amostras compiladas no banco de dados para treinar um modelo primário, que foi posteriormente refinado usando um conjunto de dados menor e de alta definição para lidar com tarefas posteriores, como conversão de imagem em vídeo e de texto em vídeo, permitindo prever uma sequência de quadros de uma imagem condicionante singular.
Um whitepaper divulgado pela Stability AI elucida o potencial do SVD como base para refinar um modelo de difusão para gerar uma síntese multivisualização, permitindo assim a geração de várias visualizações consistentes de um objeto a partir de uma imagem estática singular.
Isso abre uma infinidade de oportunidades para usos potenciais em diversos setores, como educação, entretenimento e marketing, de acordo com a postagem no blog da empresa.
Uma observação significativa na divulgação da empresa é que uma avaliação externa conduzida por revisores humanos revelou que a produção do SVD supera a qualidade dos principais modelos fechados de texto para vídeo produzidos por concorrentes como Runway e Pika Labs.
Apesar do sucesso inicial, Stability AI reconhece que existem muitas limitações nos modelos atuais. Por exemplo, esses modelos ocasionalmente carecem de resultados fotorrealistas, geram vídeos estáticos ou têm dificuldade em replicar figuras humanas com precisão.
Mas é apenas o início da sua aventura na geração de vídeo. Os dados da presente prévia da pesquisa ajudarão a evoluir esses modelos, identificando as lacunas existentes e introduzindo novos recursos, como suporte a prompts de texto ou renderização de texto nos vídeos, tornando-os prontos para aplicações comerciais.
Com o potencial de diversas aplicações abrangendo setores que incluem, entre outros, publicidade, educação e entretenimento, plataformas como o AppMaster , conhecido por capacitar os usuários com ferramentas para criar facilmente aplicativos móveis e da Web, podem considerar o Stable Video Diffusion uma integração útil.
A empresa prevê que as conclusões da investigação aberta destes modelos sinalizarão mais preocupações (tais como preconceitos) e ajudarão a facilitar uma implementação mais segura posteriormente.
Já estão em curso planos para desenvolver uma variedade de modelos que fortaleceriam e ampliariam a base construída pela difusão estável.
No entanto, permanece incerto quando essas melhorias estarão disponíveis para os usuários.