Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stability AI revela modelos promissores de geração de vídeo

Stability AI revela modelos promissores de geração de vídeo

Stability AI, um nome líder no espaço tecnológico, fez sua entrada inovadora no reino da geração de vídeo com o lançamento de seu Stable Video Diffusion (SVD). Com este movimento notável, eles apresentaram dois modelos de IA altamente avançados – SVD e SVD–XT, projetados para gerar pequenos videoclipes a partir de imagens estáticas.

No entanto, a partir de agora, estes modelos de última geração estão abertos apenas para fins de investigação. De acordo com a empresa, tanto o SVD quanto o SVD – XT sancionam resultados de alta fidelidade que rivalizam ou potencialmente ofuscam o desempenho de outros geradores de vídeo artificiais existentes.

Stability AI visa se beneficiar do feedback do usuário no ajuste fino desses modelos de imagem para vídeo, abrindo-os como parte da visualização da pesquisa. Este esforço significa a intenção da empresa de preparar o caminho para uma eventual aplicação comercial destes modelos.

Uma postagem no blog da empresa detalhou que SVD e SVD-XT empregam modelos de difusão latente que geram vídeos de 576 x 1024, usando uma única imagem estática como quadro de condicionamento. Embora os vídeos de saída tenham duração curta – máximo de quatro segundos – esses modelos podem gerar conteúdo em um ritmo que varia de três quadros por segundo a 30 quadros por segundo. Especificamente, o modelo SVD é calibrado para derivar 14 quadros de uma imagem estática, enquanto o SVD-XT possui a capacidade de gerar até 25 quadros.

Para criar o SVD, Stability AI contou com uma imensa videoteca meticulosamente selecionada, composta por aproximadamente 600 milhões de amostras. A empresa usou as amostras compiladas no banco de dados para treinar um modelo primário, que foi posteriormente refinado usando um conjunto de dados menor e de alta definição para lidar com tarefas posteriores, como conversão de imagem em vídeo e de texto em vídeo, permitindo prever uma sequência de quadros de uma imagem condicionante singular.

Um whitepaper divulgado pela Stability AI elucida o potencial do SVD como base para refinar um modelo de difusão para gerar uma síntese multivisualização, permitindo assim a geração de várias visualizações consistentes de um objeto a partir de uma imagem estática singular.

Isso abre uma infinidade de oportunidades para usos potenciais em diversos setores, como educação, entretenimento e marketing, de acordo com a postagem no blog da empresa.

Uma observação significativa na divulgação da empresa é que uma avaliação externa conduzida por revisores humanos revelou que a produção do SVD supera a qualidade dos principais modelos fechados de texto para vídeo produzidos por concorrentes como Runway e Pika Labs.

Apesar do sucesso inicial, Stability AI reconhece que existem muitas limitações nos modelos atuais. Por exemplo, esses modelos ocasionalmente carecem de resultados fotorrealistas, geram vídeos estáticos ou têm dificuldade em replicar figuras humanas com precisão.

Mas é apenas o início da sua aventura na geração de vídeo. Os dados da presente prévia da pesquisa ajudarão a evoluir esses modelos, identificando as lacunas existentes e introduzindo novos recursos, como suporte a prompts de texto ou renderização de texto nos vídeos, tornando-os prontos para aplicações comerciais.

Com o potencial de diversas aplicações abrangendo setores que incluem, entre outros, publicidade, educação e entretenimento, plataformas como o AppMaster , conhecido por capacitar os usuários com ferramentas para criar facilmente aplicativos móveis e da Web, podem considerar o Stable Video Diffusion uma integração útil.

A empresa prevê que as conclusões da investigação aberta destes modelos sinalizarão mais preocupações (tais como preconceitos) e ajudarão a facilitar uma implementação mais segura posteriormente.

Já estão em curso planos para desenvolver uma variedade de modelos que fortaleceriam e ampliariam a base construída pela difusão estável.

No entanto, permanece incerto quando essas melhorias estarão disponíveis para os usuários.

Posts relacionados

Samsung lança Galaxy A55 com segurança inovadora e construção premium
Samsung lança Galaxy A55 com segurança inovadora e construção premium
A Samsung amplia sua linha intermediária apresentando o Galaxy A55 e A35, com segurança Knox Vault e elementos de design atualizados, infundindo qualidades emblemáticas no segmento.
Cloudflare lança firewall para IA para proteger grandes modelos de linguagem
Cloudflare lança firewall para IA para proteger grandes modelos de linguagem
A Cloudflare dá um passo à frente com o Firewall for AI, um WAF avançado projetado para identificar preventivamente e impedir possíveis abusos direcionados a grandes modelos de linguagem.
ChatGPT da OpenAI agora fala: O futuro da IA ​​interativa por voz
ChatGPT da OpenAI agora fala: O futuro da IA ​​interativa por voz
ChatGPT alcançou um marco com o OpenAI lançando recursos de voz. Os usuários agora podem desfrutar da interação com as mãos livres enquanto o ChatGPT lê as respostas em voz alta no iOS, Android e na Web.
Comece gratuitamente
Inspirado para tentar isso sozinho?

A melhor maneira de entender o poder do AppMaster é ver por si mesmo. Faça seu próprio aplicativo em minutos com assinatura gratuita

Dê vida às suas ideias