Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

Stability AI revela modelos promissores de geração de vídeo

Stability AI revela modelos promissores de geração de vídeo

Stability AI, um nome líder no espaço tecnológico, fez sua entrada inovadora no reino da geração de vídeo com o lançamento de seu Stable Video Diffusion (SVD). Com este movimento notável, eles apresentaram dois modelos de IA altamente avançados – SVD e SVD–XT, projetados para gerar pequenos videoclipes a partir de imagens estáticas.

No entanto, a partir de agora, estes modelos de última geração estão abertos apenas para fins de investigação. De acordo com a empresa, tanto o SVD quanto o SVD – XT sancionam resultados de alta fidelidade que rivalizam ou potencialmente ofuscam o desempenho de outros geradores de vídeo artificiais existentes.

Stability AI visa se beneficiar do feedback do usuário no ajuste fino desses modelos de imagem para vídeo, abrindo-os como parte da visualização da pesquisa. Este esforço significa a intenção da empresa de preparar o caminho para uma eventual aplicação comercial destes modelos.

Uma postagem no blog da empresa detalhou que SVD e SVD-XT empregam modelos de difusão latente que geram vídeos de 576 x 1024, usando uma única imagem estática como quadro de condicionamento. Embora os vídeos de saída tenham duração curta – máximo de quatro segundos – esses modelos podem gerar conteúdo em um ritmo que varia de três quadros por segundo a 30 quadros por segundo. Especificamente, o modelo SVD é calibrado para derivar 14 quadros de uma imagem estática, enquanto o SVD-XT possui a capacidade de gerar até 25 quadros.

Para criar o SVD, Stability AI contou com uma imensa videoteca meticulosamente selecionada, composta por aproximadamente 600 milhões de amostras. A empresa usou as amostras compiladas no banco de dados para treinar um modelo primário, que foi posteriormente refinado usando um conjunto de dados menor e de alta definição para lidar com tarefas posteriores, como conversão de imagem em vídeo e de texto em vídeo, permitindo prever uma sequência de quadros de uma imagem condicionante singular.

Um whitepaper divulgado pela Stability AI elucida o potencial do SVD como base para refinar um modelo de difusão para gerar uma síntese multivisualização, permitindo assim a geração de várias visualizações consistentes de um objeto a partir de uma imagem estática singular.

Isso abre uma infinidade de oportunidades para usos potenciais em diversos setores, como educação, entretenimento e marketing, de acordo com a postagem no blog da empresa.

Uma observação significativa na divulgação da empresa é que uma avaliação externa conduzida por revisores humanos revelou que a produção do SVD supera a qualidade dos principais modelos fechados de texto para vídeo produzidos por concorrentes como Runway e Pika Labs.

Apesar do sucesso inicial, Stability AI reconhece que existem muitas limitações nos modelos atuais. Por exemplo, esses modelos ocasionalmente carecem de resultados fotorrealistas, geram vídeos estáticos ou têm dificuldade em replicar figuras humanas com precisão.

Mas é apenas o início da sua aventura na geração de vídeo. Os dados da presente prévia da pesquisa ajudarão a evoluir esses modelos, identificando as lacunas existentes e introduzindo novos recursos, como suporte a prompts de texto ou renderização de texto nos vídeos, tornando-os prontos para aplicações comerciais.

Com o potencial de diversas aplicações abrangendo setores que incluem, entre outros, publicidade, educação e entretenimento, plataformas como o AppMaster , conhecido por capacitar os usuários com ferramentas para criar facilmente aplicativos móveis e da Web, podem considerar o Stable Video Diffusion uma integração útil.

A empresa prevê que as conclusões da investigação aberta destes modelos sinalizarão mais preocupações (tais como preconceitos) e ajudarão a facilitar uma implementação mais segura posteriormente.

Já estão em curso planos para desenvolver uma variedade de modelos que fortaleceriam e ampliariam a base construída pela difusão estável.

No entanto, permanece incerto quando essas melhorias estarão disponíveis para os usuários.

Posts relacionados

AppMaster na BubbleCon 2024: Explorando tendências sem código
AppMaster na BubbleCon 2024: Explorando tendências sem código
A AppMaster participou da BubbleCon 2024 em Nova York, obtendo insights, expandindo redes e explorando oportunidades para impulsionar a inovação no espaço de desenvolvimento sem código.
Resumo do FFDC 2024: Principais insights da conferência de desenvolvedores do FlutterFlow em Nova York
Resumo do FFDC 2024: Principais insights da conferência de desenvolvedores do FlutterFlow em Nova York
O FFDC 2024 iluminou a cidade de Nova York, trazendo aos desenvolvedores insights de ponta sobre desenvolvimento de aplicativos com o FlutterFlow. Com sessões lideradas por especialistas, atualizações exclusivas e networking incomparável, foi um evento imperdível!
Demissões na área de tecnologia em 2024: a onda contínua que afeta a inovação
Demissões na área de tecnologia em 2024: a onda contínua que afeta a inovação
Com 60.000 empregos cortados em 254 empresas, incluindo gigantes como Tesla e Amazon, 2024 verá uma onda contínua de demissões no setor de tecnologia remodelando o cenário da inovação.
Comece gratuitamente
Inspirado para tentar isso sozinho?

A melhor maneira de entender o poder do AppMaster é ver por si mesmo. Faça seu próprio aplicativo em minutos com assinatura gratuita

Dê vida às suas ideias