OpenAI是人工智能领域的知名企业,正在扩展其备受推崇的助手ChatGPT的功能。 ChatGPT最初被设计为基于文本的搜索工具,现在将标榜语音和图像处理能力,为用户创造更具交互性的体验。
自大约九个月前推出以来, ChatGPT已成为技术领域的一大现象。它因其撰写论文、创作诗歌以及从简单的文本线索总结大量文本的能力而深受赞赏。然而,人工智能助手现在将变得更加有吸引力。它现在将为用户提供耳朵,允许进行语音交互。
用户将有机会与ChatGPT进行语音对话。例如,助理可能会被要求根据用户的口头提示讲述一个即兴的睡前故事。也可以向援助人员提出简单的问题,并以口语进行答复。
此外,还提供了基于图像的搜索功能。用户可以上传图像并要求ChatGPT识别或解释上传的项目或请求实现特定目标的指示。
ChatGPT的语音交互功能已通过卓越的文本转语音模型进行了微调,该模型可以从文本和简短的语音样本中产生类似人类的声音。 OpenAI透露,它已与熟练的配音演员合作生成了五种专属声音。该组织的开源 Whisper 语音识别系统充当将语音转换为文本的基础技术。
令人兴奋的是,Spotify 已作为发布合作伙伴介入。它为播客引入了一项有价值的功能,使他们能够将节目从英语转录成西班牙语、法语或德语,同时保持原来的语气。然而, OpenAI透露,这项技术的使用并不普遍。首次发布时,仅向精选播客开放,包括 Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons 和 Steven Bartlett。
OpenAI在一篇博文中承认其新语音技术存在潜在风险,涉及流氓分子欺诈或失实陈述的可能性。因此,它确保发布时不会引起任何争议。
这些新功能计划在未来两周内推出。 Plus 和 Enterprise 订阅者最初将可以访问它们。要享受语音功能,用户需要导航到应用程序上的“设置”,选择“新功能”,选择加入语音对话,点击右上角的耳机按钮,最后选择首选声音。
首先,只有ChatGPT Android 和 iOS 应用程序用户才能在选择加入测试版的基础上体验语音对话。然而,基于图像的搜索功能默认情况下将在所有平台上可用。
许多no-code平台(例如AppMaster )都热切地等待着看到这种增强型ChatGPT在不久的将来将产生的广泛应用程序。构建无代码的企业软件通常需要如此复杂的人工智能辅助来实现卓越的交互性和用户体验增强。