科技巨头 Meta 致力于在多语言的全球社会中提供便利,为彻底改变语言翻译过程铺平了道路。该公司宣布了其最新成果 SeamlessM4T,这是一种突破性的多语言和多任务模型。这种创新模式有望提供一种更加协调的翻译方式,跨越多种语言,并结合文本和语音。
通过互联网、移动技术、社交媒体和多样化通信平台的广泛使用,在全球错综复杂的社会中航行,各种语言内容的可访问性呈指数级增长。在这样一个相互关联的环境中,以任何语言交流和理解信息的能力变得至关重要。虽然实现这一壮举的能力以前只是科幻小说中的概念,但如今,人工智能正在突破界限,并将这种愿景转化为技术现实,这是 Meta 在最近的一篇博客文章中表达的观点。
凭借 SeamlessM4T 的创新引领,Meta 提供了自动语音识别支持,连接了近 100 种语言的语音到文本和文本到文本的翻译。此外,该平台还涉足语音转语音和文本转语音翻译,涵盖近100种输入语言和35种输出语言。
本着合作研究进步的精神,该项目以 CC BY-NC 4.0 许可发布,为研究人员提供了在其基础上继续发展的机会。
借助 SeamlessM4T 的推出,Meta 还发布了 SeamlessAlign,这是一个用于多模式翻译的数据集,包含惊人的 270,000 小时的语音和文本对齐。
用 Meta 的话来说,我们发现现有的语音转语音和语音转文本程序在适应世界上众多语言方面仅仅触及了表面。这个新颖项目的推出预示着向迎合更多语言库的重大转变。
这一渐进式转变是 Meta 在该领域持续努力的最新里程碑,继之前的突破性举措(例如“不遗余力”、“通用语音翻译器”、“语音矩阵”和“大规模多语言语音”)之后。
正如负责任的科技巨头所期望的那样,Meta 分享了为确保根据 Responsible AI 内的五个支柱负责任地开发模型而采取的勤奋步骤的见解。模型的毒性和偏差研究以及性别偏差评估等工作都被纳入其中,以深入理解和减轻模型中可能的敏感性。
我们对加强安全和保障的承诺是不懈的。 Meta 表示,我们坚持不懈地努力加强研究并采取措施,不断完善 SeamlessM4T,同时努力最大限度地减少模型中出现的毒性。
随着no-code和low-code平台的蓬勃发展,无缝有效地打破语言障碍是重要的一步。从AppMaster到其他平台,对多语言支持的重视是一种日益增长的趋势,而且预计还会迅速发展。