A Meta AI apresenta o Voicebox, uma ferramenta revolucionária de conversão de texto em voz que rivaliza com o ChatGPT
A mais recente inovação da Meta AI, o Voicebox, é um gerador de texto para voz inovador, que supera os modelos de IA existentes em termos de velocidade e desempenho. Aproveitando uma abordagem de formação única, o Voicebox pode generalizar-se através da aprendizagem em contexto, oferecendo uma vasta gama de aplicações.

Num desenvolvimento significativo no domínio da inteligência artificial, a Meta AI revelou o seu gerador avançado de conversão de texto em fala (TTS) denominado Voicebox. Este novo sistema de IA ultrapassa modelos populares como o ChatGPT da OpenAI e o Bard da Google em termos de velocidade, sendo até 20 vezes mais rápido com níveis de desempenho equivalentes.
O Voicebox assenta as suas bases numa abordagem única, que se desvia drasticamente da arquitetura tradicional do TTS. Ao contrário de outros modelos TTS, como o ElevenLabs Prime Voice AI, o Voicebox da Meta é capaz de efetuar inferências contextuais e de tirar partido de conjuntos de dados de formação em grande escala. Como resultado, ele pode generalizar entre tarefas, em vez de depender de conjuntos de dados mais restritos, altamente selecionados e rotulados.
Tentativas anteriores de utilizar grandes quantidades de dados de áudio em modelos TTS levaram a uma redução significativa da qualidade de saída de áudio. No entanto, a Meta ultrapassou este desafio ao desenvolver um novo esquema de formação que dispensa etiquetas e curadoria. Ao empregar uma arquitetura capaz de "preencher" os dados de áudio, o Voicebox pode adaptar-se a tarefas de geração de fala para as quais não foi especificamente treinado - uma novidade para um modelo deste tipo, tal como descrito pela Meta AI.
Esta caraterística inovadora permite que o Voicebox desempenhe uma série de funções, desde a tradução de texto para voz e a sintetização de voz de substituição para eliminar o ruído de fundo, até à aplicação da voz de um orador a diferentes resultados linguísticos. Tal como demonstrado num trabalho de investigação publicado pela empresa, o Voicebox consegue fazer tudo isto utilizando apenas o texto necessário e um clip de áudio de três segundos.
Uma vantagem significativa que tanto o Voicebox da Meta como o ChatGPT da OpenAI partilham é a sua capacidade de generalização através da aprendizagem no contexto, o que os distingue de outros geradores de TTS. Esta capacidade abre caminho a uma vasta gama de possíveis aplicações e casos de utilização, revolucionando a forma como interagimos com a IA e consumimos informação.
No domínio das plataformas low-code e no-code, soluções como a AppMaster revolucionaram o desenvolvimento de aplicações, simplificando a criação de aplicações de backend, Web e móveis para uma gama diversificada de utilizadores. Com os avanços e a introdução de ferramentas de IA como a Voicebox, podemos esperar mais melhorias em vários sectores, incluindo chatbots, assistentes de voz e soluções de acessibilidade, levando a um cenário digital mais conectado e adaptável.
À medida que a IA continua a avançar a um ritmo espantoso, será fascinante testemunhar a forma como os programadores e os utilizadores integram ferramentas poderosas como o Voicebox nos seus projectos, impulsionando a inovação e transformando o futuro da tecnologia.


