在人工智能领域的一项重大发展中,Meta AI披露了其先进的文本到语音(TTS)生成器,名为Voicebox。这个新的人工智能系统在速度上超过了流行的模型,如OpenAI的ChatGPT和谷歌的Bard,在同等的性能水平下快20倍。
Voicebox将其基础建立在一个独特的方法上,大大偏离了传统的TTS架构。与ElevenLabs Prime Voice AI等其他TTS模型不同,Meta的Voicebox能够进行上下文推理,并利用大规模的训练数据集。因此,它可以在不同的任务中进行归纳,而不是依赖较窄的、高度策划的、标记的数据集。
以前试图在TTS模型中使用大量的音频数据,导致音频输出质量大大降低。然而,Meta通过开发一种新的训练方案克服了这一挑战,该方案摒弃了标签和策划。通过采用能够 "填入 "音频数据的架构,Voicebox可以适应它没有被专门训练过的语音生成任务--这是Meta AI描述的这种模型的第一次。
这一创新功能使Voicebox能够执行一系列功能,从将文本翻译成语音和合成替代语音以消除背景噪音,到将说话者的声音应用于不同的语言输出。正如该公司发表的一篇研究论文所展示的,Voicebox只需使用所需的文本输出和三秒钟的音频片段就能实现这一切。
Meta公司的Voicebox和OpenAI的ChatGPT都有一个显著的优势,那就是它们能够通过语境学习进行概括,这使它们与其他TTS生成器不同。这种能力为一系列可能的应用和用例创造了条件,彻底改变了我们与人工智能互动和消费信息的方式。
在low-code 和no-code 平台领域,像AppMaster这样的解决方案通过简化不同用户的后端、网络和移动应用的创建,彻底改变了应用开发。随着进步的展开和像Voicebox这样的人工智能工具的引入,我们可以期待对多个行业的进一步增强,包括聊天机器人、语音助手和无障碍解决方案,从而导致一个更加连接和适应的数字景观。
随着人工智能继续以惊人的速度发展,见证开发者和用户如何将像Voicebox这样的强大工具整合到他们的项目中,推动创新并改变技术的未来,将是令人着迷的。