Grow with AppMaster Grow with AppMaster.
Become our partner arrow ico

克劳德 2.1 法学硕士的出现,人类提升了语言处理游戏

克劳德 2.1 法学硕士的出现,人类提升了语言处理游戏

Anthropic在大型语言模型 (LLM) 领域树立了新的基石,推出了 Claude 2.1,能够在其上下文窗口中摄取大量 200,000 个代币。 Anthropic表示,从长远来看,这相当于超过 50 万字或超过 500 页打印的数据,这是一个了不起的进步。

最近推出的模型并不仅限于扩大数据容纳范围。它在准确性方面超越了其前身,提供了测试版工具的使用,而且成本低廉,标志着Anthropic's开创性系列的重大进步。

Claude 2.1 配备了 Claude 生成式 AI 聊天机器人,使免费和付费用户都可以使用他的增强功能。但有一个问题!扩展的代币上下文窗口是付费 Pro 客户的专属福利,而免费用户的代币上限仍为 100,000 个。尽管如此,这仍然大大超出了 GPT-3.5 的代币限制。

Claude 2.1 中的 beta 工具属性为开发人员打开了新的大门,使他们能够将 API 和定义的函数编织到 Claude 模型中。这反映了 OpenAI 模型中存在的功能,提供了类似的灵活性和集成性。

在此之前,Claude 在代币上下文窗口容量方面已经比 OpenAI 拥有竞争优势,拥有 100,000 个代币限制,直到 OpenAI 发布了具有 128,000 个代币上下文窗口的 GPT-4 Turbo 预览版。然而,该模型仍然仅限于以每月 20 美元订阅的 ChatGPT Plus 用户,并且只能以聊天机器人格式访问。希望使用 GPT-4 API 的开发人员必须选择按使用付费的系统。

尽管广泛的上下文窗口(可以同时分析的数据的表示)似乎对大量文档或不同的信息集很有吸引力,但与较小的数据段相比,法学硕士是否可以有效地处理大量数据尚不确定。人工智能企业家兼专家 Greg Kamradt 一直在使用一种他称之为“大海捞针”分析的技术来密切研究这个问题。

通过在输入 LLM 的广泛文档的各个部分中嵌入随机语句,他测试在查询 LLM 时是否检索到较大文档中的小信息。他对 Claude 2.1(他获得了早期访问权)的分析得出的结论是“在 200K 个标记(大约 470 页)的情况下,Claude 2.1 成功地回忆起了特定文档深度的事实。”

一旦代币突破约 90K 大关,召回性能就开始恶化,并且在文档底部受到的影响尤其严重。这个缺陷并不是 Claude 2.1 所独有的,GPT-4 在其最大上下文中也表现出了类似的不完美召回。

Kamradt 的研究花费了大约 1,000 美元的 API 调用费用。 (Anthropic 确实为 GPT-4 上执行的相同测试提供了积分)。他的要点强调了精心设计提示的重要性,而不是假设数据检索一致,并且较少的输入通常可以确保更好的结果。

通常,开发人员在从广泛的数据集中挖掘信息以改进检索结果时,会将数据分割成更小的部分,而不管上下文窗口的潜在容量如何。

使用旨在探测当前模型中典型弱点的全面复杂的事实查询集合对 Claude 2.1 的准确性进行评估,结果显示与之前的版本相比,错误陈述减少了 50%。根据Anthropic's声明,当前的迭代更有可能承认无知,而不是生成伪造信息。报告进一步强调了理解和总结方面取得的实质性进展。

相关帖子

AppMaster 出席 BubbleCon 2024:探索无代码趋势
AppMaster 出席 BubbleCon 2024:探索无代码趋势
AppMaster 参加了在纽约举行的 BubbleCon 2024,获得了见解,扩展了网络,并探索了推动无代码开发领域创新的机会。
FFDC 2024 总结:纽约 FlutterFlow 开发者大会的重要见解
FFDC 2024 总结:纽约 FlutterFlow 开发者大会的重要见解
FFDC 2024 点亮了纽约市,为开发者带来了使用 FlutterFlow 进行应用开发的前沿见解。这是一场不容错过的活动,有专家主持的会议、独家更新和无与伦比的交流!
2024 年科技行业裁员:持续影响创新的浪潮
2024 年科技行业裁员:持续影响创新的浪潮
包括特斯拉和亚马逊等巨头在内的 254 家公司将裁员 60,000 人,2024 年科技裁员浪潮将继续,重塑创新格局。
免费开始
有灵感自己尝试一下吗?

了解 AppMaster 强大功能的最佳方式是亲身体验。免费订阅,在几分钟内制作您自己的应用程序

将您的想法变为现实