为了实现人工智能领域的飞跃, Google推出了最新的人工智能模型 Gemini。与传统模型不同,这种创新模型能够从一开始就解释异构数据格式——文本、代码、音频、图像和视频。
通常,多模态模型是通过针对不同信息格式单独训练不同组件然后将它们集成来开发的。尽管如此,与这种标准做法不同的是,Gemini 采用了不同的方法。该模型从一开始就对各种数据格式进行了训练,并使用其他多模态数据进行了微调。这种方法有助于 Gemini 理解和推理多种数据类型,优于当前的多模态模型。谷歌和Google首席执行官桑达尔·皮查伊 ( Sundar Pichai以及谷歌 DeepMind 首席执行官兼联合创始人Demis Hassabis强调了 Gemini 的优势,并表示该模型的能力几乎与每个领域的最佳模型不相上下。
值得注意的是,双子座具有强大的推理能力,使其能够感知复杂的书面和视觉信息。因此,它擅长从大量数据中提取难以找到的知识。一个单独的例子是它能够筛选数十万份文档,以获取有价值的见解,从而在许多领域取得突破。此外,Gemini 的多模式特性使其在破译数学和物理等学科中的复杂问题时特别有效。
最初的 Gemini 1.0 提供三种变体:Ultra、Pro 和 Nano,每种都满足不同的尺寸要求。据Google称,在初步基准测试中,Gemini Ultra 在模型开发和研究方面的表现优于 32 个常用学术基准中的 30 个。值得注意的是,Gemini Ultra 也是有史以来第一个超越人类专家的模型。这是使用大规模多任务语言理解 (MMLU) 进行衡量的,涵盖数学、物理、历史、法律、医学和伦理学等 57 个学科。
Gemini Pro 现已与 Bard 集成,这是 Bard 自发布以来最实质性的更新。值得注意的是,Pixel 8 Pro 还经过优化,可利用 Gemini Nano 的功能来支持录音机应用中的 Summarize 和Google键盘中的 Smart Reply 等功能。
在接下来的几个月中,Gemini 预计将被纳入更多的 Google 产品中,例如搜索、广告、Chrome 和 Duet AI。从 12 月 13 日开始,开发者将可以通过 Google AI Studio 或 Google Cloud Vortex AI 中的 Gemini API 访问 Gemini Pro。
除此之外,Gemini 还可以理解多种流行的编程语言,包括 Python、Java、C++ 和 Go。根据 Pichai 和 Hassabis 的说法,Gemini 良好的语言能力和对复杂信息的推理能力使其成为全球顶级的编码基础模型。
Google还聘请 Gemini 设计了一种先进的代码生成系统,称为 AlphaCode 2。该系统是两年前发布的第一个版本的升级版,可以解决涉及复杂数学和理论计算机科学的竞争性编程问题。
除了一系列公告之外,还推出了名为 Cloud TPU v5p 的新 TPU 系统,该系统专为训练最先进的 AI 模型而设计,进一步补充了 Gemini 的推出。下一代TPU将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型。这将确保更新的服务和功能在更短的时间内到达客户手中。
Google强调在 Gemini 的开发过程中遵守负责任的人工智能原则。它在网络犯罪、说服和自主等潜在风险领域进行了研究。还创建了安全分类器来识别、标记和隔离包含暴力或负面刻板印象的内容。
Gemini 的推出标志着人工智能发展的一个重要里程碑,并开启了Google的新时代。目前正在努力将 Gemini 的功能扩展到未来版本,计划和内存的改进以及增加处理更多信息的上下文窗口,有望在未来提供更好的响应。
随着no-code和low-code领域的范围不断扩大, AppMaster等平台使开发人员和业务专业人员能够构建可扩展且功能强大的应用程序,以补充 Gemini 等人工智能进步。 AppMaster拥有一系列令人印象深刻的功能,在快速发展的应用程序开发环境中作为多功能且经济高效的解决方案脱颖而出。