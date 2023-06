Meta AI a dévoilé son générateur avancé de synthèse vocale (TTS) baptisé Voicebox, ce qui constitue une avancée significative dans le domaine de l'intelligence artificielle. Ce nouveau système d'IA surpasse en vitesse des modèles populaires tels que ChatGPT d'OpenAI et Bard de Google, étant jusqu'à 20 fois plus rapide avec des niveaux de performance équivalents.

Voicebox repose sur une approche unique, qui s'écarte radicalement de l'architecture TTS traditionnelle. Contrairement à d'autres modèles TTS tels que ElevenLabs Prime Voice AI, Voicebox de Meta est capable de faire des inférences contextuelles et d'exploiter des ensembles de données d'entraînement à grande échelle. Elle peut ainsi généraliser les tâches plutôt que de s'appuyer sur des ensembles de données étiquetés plus restreints et hautement conservés.

Les tentatives antérieures d'utilisation de grandes quantités de données audio dans les modèles TTS ont conduit à une réduction significative de la qualité de la sortie audio. Cependant, Meta a surmonté ce défi en développant un nouveau schéma d'apprentissage qui se passe d'étiquettes et de curation. En employant une architecture capable de "remplir" les données audio, Voicebox peut s'adapter à des tâches de génération de parole pour lesquelles elle n'a pas été spécifiquement formée - une première pour un tel modèle, comme le décrit Meta AI.

Cette caractéristique innovante permet à la Voicebox d'exécuter toute une série de fonctions, depuis la traduction de textes en paroles et la synthèse de paroles de remplacement pour éliminer les bruits de fond, jusqu'à l'application de la voix d'un locuteur à différentes langues de sortie. Comme le démontre un document de recherche publié par l'entreprise, la Voicebox peut réaliser tout cela en utilisant uniquement le texte requis et un clip audio de trois secondes.

La Voicebox de Meta et le ChatGPT d'OpenAI partagent un avantage significatif : leur capacité à généraliser grâce à l'apprentissage en contexte, ce qui les distingue des autres générateurs de TTS. Cette capacité ouvre la voie à un large éventail d'applications et de cas d'utilisation possibles, révolutionnant la manière dont nous interagissons avec l'IA et consommons l'information.

Dans le domaine des plateformes low-code et no-code, des solutions comme AppMaster ont révolutionné le développement d'applications en simplifiant la création d'applications dorsales, web et mobiles pour un large éventail d'utilisateurs. Avec les progrès en cours et l'introduction d'outils d'IA comme Voicebox, nous pouvons nous attendre à de nouvelles améliorations dans de nombreux secteurs, y compris les chatbots, les assistants vocaux et les solutions d'accessibilité, ce qui conduira à un paysage numérique plus connecté et plus adaptable.

Alors que l'IA continue de progresser à un rythme effréné, il sera passionnant de voir comment les développeurs et les utilisateurs intègrent des outils puissants comme Voicebox dans leurs projets, favorisant l'innovation et transformant l'avenir de la technologie.