2023年11月22日·阅读约1分钟

克劳德 2.1 法学硕士的出现，人类提升了语言处理游戏

Anthropic 凭借最新的 Claude 2.1 LLM 在大型语言模型 (LLM) 领域取得了重大飞跃。

Anthropic在大型语言模型 (LLM) 领域树立了新的基石，推出了 Claude 2.1，能够在其上下文窗口中摄取大量 200,000 个代币。 Anthropic表示，从长远来看，这相当于超过 50 万字或超过 500 页打印的数据，这是一个了不起的进步。

最近推出的模型并不仅限于扩大数据容纳范围。它在准确性方面超越了其前身，提供了测试版工具的使用，而且成本低廉，标志着Anthropic's开创性系列的重大进步。

Claude 2.1 配备了 Claude 生成式 AI 聊天机器人，使免费和付费用户都可以使用他的增强功能。但有一个问题！扩展的代币上下文窗口是付费 Pro 客户的专属福利，而免费用户的代币上限仍为 100,000 个。尽管如此，这仍然大大超出了 GPT-3.5 的代币限制。

Claude 2.1 中的 beta 工具属性为开发人员打开了新的大门，使他们能够将 API 和定义的函数编织到 Claude 模型中。这反映了 OpenAI 模型中存在的功能，提供了类似的灵活性和集成性。

在此之前，Claude 在代币上下文窗口容量方面已经比 OpenAI 拥有竞争优势，拥有 100,000 个代币限制，直到 OpenAI 发布了具有 128,000 个代币上下文窗口的 GPT-4 Turbo 预览版。然而，该模型仍然仅限于以每月 20 美元订阅的 ChatGPT Plus 用户，并且只能以聊天机器人格式访问。希望使用 GPT-4 API 的开发人员必须选择按使用付费的系统。

尽管广泛的上下文窗口（可以同时分析的数据的表示）似乎对大量文档或不同的信息集很有吸引力，但与较小的数据段相比，法学硕士是否可以有效地处理大量数据尚不确定。人工智能企业家兼专家 Greg Kamradt 一直在使用一种他称之为“大海捞针”分析的技术来密切研究这个问题。

通过在输入 LLM 的广泛文档的各个部分中嵌入随机语句，他测试在查询 LLM 时是否检索到较大文档中的小信息。他对 Claude 2.1（他获得了早期访问权）的分析得出的结论是“在 200K 个标记（大约 470 页）的情况下，Claude 2.1 成功地回忆起了特定文档深度的事实。”

一旦代币突破约 90K 大关，召回性能就开始恶化，并且在文档底部受到的影响尤其严重。这个缺陷并不是 Claude 2.1 所独有的，GPT-4 在其最大上下文中也表现出了类似的不完美召回。

Kamradt 的研究花费了大约 1,000 美元的 API 调用费用。（Anthropic 确实为 GPT-4 上执行的相同测试提供了积分）。他的要点强调了精心设计提示的重要性，而不是假设数据检索一致，并且较少的输入通常可以确保更好的结果。

通常，开发人员在从广泛的数据集中挖掘信息以改进检索结果时，会将数据分割成更小的部分，而不管上下文窗口的潜在容量如何。

使用旨在探测当前模型中典型弱点的全面复杂的事实查询集合对 Claude 2.1 的准确性进行评估，结果显示与之前的版本相比，错误陈述减少了 50%。根据Anthropic's声明，当前的迭代更有可能承认无知，而不是生成伪造信息。报告进一步强调了理解和总结方面取得的实质性进展。

Easy to start

Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started

相关新闻