在最近的媒体公告中, Google自豪地推出了名为 Gemini 的最新人工智能,这一事件在科技界备受期待。然而不久之后,有人指责Google夸大了 Gemini 的功能,特别是在公告中的一段显示视频中。
根据彭博社专栏作家帕米·奥尔森 (Parmy Olson) 发表的一篇严厉的评论文章, Google发布的视频让人对 Gemini 的功能产生了一种错觉,这种错觉可能好得令人难以置信。她认为, Google's对 Gemini 多模式操作(将语音对话命令与图像识别相互联系)的描述可能被夸大了。
这段颇具争议的视频时长略多于六分钟,视频中双子座可以立即识别图像,即使是在连点图画中也是如此,从而提供及时的响应。此外,Gemini 在实时杯赛和球赛中跟踪一团纸。
然而,YouTube 上的视频描述中隐藏了一个重要的警告:演示中 Gemini 的输出延迟已被最小化,并且为了清晰起见缩短了响应 - 这些事实激起了奥尔森的愤慨。奥尔森在彭博社文章中援引Google的回应称,视频中的演示并不是暗示的实时演示,而是使用从原始镜头中提取的静态图像帧,而双子座的反应则与预先编写的文本提示相对应。奥尔森声称,这与Google's流畅语音交互完全不同,Gemini 能够对其环境做出实时响应。
她甚至进一步暗示, Google可能是在与 Gemini 一起“炫耀”,以转移人们对其落后于 OpenAI 智能平台 GPT 的注意力。
当The Verge就演示的真实性与Google接洽时,这家科技巨头引用了 Oriol Vinyals 的帖子,他是 DeepMind 的研究和深度学习主管副总裁,也是Google Gemini 的联合主管。他澄清说,视频中的所有用户提示和输出都是合法的,尽管为了简洁而进行了缩写。他接着表示,制作该视频是为了演示使用 Gemini 多模态功能时最终用户的体验会是什么样子,其主要目标是激励开发人员。
Vinyals 重申,该团队已向 Gemini 提供了图像和文本,并通过预测随后的输出来促使其做出回应。
即使我们在思考这场争议,将语音命令与图像识别相结合的概念(如Google's Gemini 所示)提供了一种新的交互范式,这对开发人员来说很有吸引力。像AppMaster的no-code平台这样的工具可能为将此类创新集成到全面的应用程序开发中提供基础,提供引人注目的解决方案,可以无缝地适应不断发展的技术趋势。