2023年6月20日·阅读约1分钟

Meta AI推出Voicebox--可与ChatGPT媲美的革命性文本转语音工具

Meta AI的最新创新产品Voicebox是一个突破性的文本到语音生成器，在速度和性能方面超过了现有的AI模型。利用独特的训练方法，Voicebox可以通过语境学习进行概括，提供广泛的应用。

在人工智能领域的一项重大发展中，Meta AI披露了其先进的文本到语音（TTS）生成器，名为 Voicebox。这个新的人工智能系统在速度上超过了流行的模型，如OpenAI的ChatGPT和谷歌的Bard，在同等的性能水平下快20倍。

Voicebox将其基础建立在一个独特的方法上，大大偏离了传统的TTS架构。与ElevenLabs Prime Voice AI等其他TTS模型不同，Meta的Voicebox能够进行上下文推理，并利用大规模的训练数据集。因此，它可以在不同的任务中进行归纳，而不是依赖较窄的、高度策划的、标记的数据集。

以前试图在TTS模型中使用大量的音频数据，导致音频输出质量大大降低。然而，Meta通过开发一种新的训练方案克服了这一挑战，该方案摒弃了标签和策划。通过采用能够 "填入 "音频数据的架构，Voicebox可以适应它没有被专门训练过的语音生成任务--这是Meta AI描述的这种模型的第一次。

这一创新功能使Voicebox能够执行一系列功能，从将文本翻译成语音和合成替代语音以消除背景噪音，到将说话者的声音应用于不同的语言输出。正如该公司发表的一篇研究论文所展示的，Voicebox只需使用所需的文本输出和三秒钟的音频片段就能实现这一切。

Meta公司的Voicebox和OpenAI的ChatGPT都有一个显著的优势，那就是它们能够通过语境学习进行概括，这使它们与其他TTS生成器不同。这种能力为一系列可能的应用和用例创造了条件，彻底改变了我们与人工智能互动和消费信息的方式。

在low-code 和no-code 平台领域，像 AppMaster 这样的解决方案通过简化不同用户的后端、网络和移动应用的创建，彻底改变了应用开发。随着进步的展开和像Voicebox这样的人工智能工具的引入，我们可以期待对多个行业的进一步增强，包括聊天机器人、语音助手和无障碍解决方案，从而导致一个更加连接和适应的数字景观。

随着人工智能继续以惊人的速度发展，见证开发者和用户如何将像Voicebox这样的强大工具整合到他们的项目中，推动创新并改变技术的未来，将是令人着迷的。