Anthropic大規模言語モデル (LLM) の領域に新しい台座を設定し、コンテキスト ウィンドウで 200,000 ものトークンを大量に取り込むことができる Claude 2.1 のリリースを明らかにしました。これを大局的に考えると、これは 50 万語以上、または印刷物で 500 ページ以上に相当するデータに相当し、これは驚くべき進歩であるとAnthropicは述べています。
最近発売されたモデルは、データ対応の拡大にとどまりません。これは、精度において先代を上回り、すべてコストを削減しながらベータ ツールの使用を提供し、 Anthropic's先駆的なシリーズにおける大幅な進歩を示しています。
Claude 2.1 には、Claude 生成 AI チャットボットを強化する機能が搭載されており、無料ユーザーと有料ユーザーの両方がその強化された機能にアクセスできるようになります。ただし、落とし穴があります。拡張されたトークン コンテキスト ウィンドウは有料の Pro 顧客専用の特典ですが、無料ユーザーの場合は依然として 100,000 トークンの制限に制限されています。それにもかかわらず、これは依然として GPT-3.5 のトークン制限を大幅に超えています。
Claude 2.1 のベータ ツール属性は開発者に新しい扉を開き、API や定義された関数を Claude モデルに織り込むことができるようにします。これは OpenAI のモデルに存在する機能を反映しており、同様の柔軟性と統合を提供します。
これに先立ち、Claude は、OpenAI が 128,000 トークン コンテキスト ウィンドウを備えた GPT-4 Turbo のプレビュー バージョンを発表するまで、トークン コンテキスト ウィンドウ容量の点で OpenAI に対して競争力を有しており、100,000 トークン制限を誇っていました。ただし、このモデルは月額 20 ドルで購読している ChatGPT Plus ユーザーに限定されており、チャットボット形式でのみアクセスできます。 GPT-4 API を利用したい開発者は、従量制のシステムを選択する必要があります。
同時に分析できるデータの表現である広範なコンテキスト ウィンドウは、膨大なドキュメントやさまざまな情報セットにとって魅力的に見えるかもしれませんが、LLM が小さなセグメントと比較して大量のデータを効率的に処理できるかどうかは定かではありません。 AI 起業家で専門家のグレッグ・カムラット氏は、「干し草の山の中の針」分析と彼が呼ぶ手法を使って、この問題を綿密に調査してきました。
LLM に入力される広範なドキュメントのさまざまなセクションにランダムなステートメントを埋め込むことで、LLM がクエリされたときに、より大きなドキュメント内の小さな情報が取得されるかどうかをテストします。彼が早期アクセス権を与えられたクロード 2.1 の分析では、「200,000 トークン (約 470 ページ) で、クロード 2.1 は特定の文書の深さで事実を思い出すことができた」と結論付けられました。
トークンが約 90,000 のマークを超えると、リコールのパフォーマンスが低下し始め、特に文書のベース部分に影響を受けました。この欠陥は Claude 2.1 に限ったものではなく、GPT-4 も最大コンテキストで同様の不完全な再現を示しました。
Kamradt 氏の研究では、API 呼び出しで約 1,000 ドルが発生しました。 (Anthropic は、GPT-4 で実行されたのと同じテストのクレジットを提供しました)。彼の教訓は、一貫したデータ取得を前提とするのではなく、注意してプロンプトを作成することの重要性と、一般に入力が少ないほど優れた結果が得られることを強調しました。
多くの場合、開発者は、コンテキスト ウィンドウの潜在的な容量に関係なく、取得結果を向上させるために広範なデータセットから情報をマイニングするときに、データをより小さなセグメントに分割します。
現在のモデルの典型的な弱点を調査するために設計された、複雑で事実に基づくクエリの包括的なコレクションを使用して Claude 2.1 の精度を評価したところ、以前のバージョンと比較して虚偽の記述が 50% 減少したことが明らかになりました。 Anthropic's発表によると、現在の反復は偽造情報を生成するというよりも、無知を告白する可能性が高いという。この報告書はさらに、理解と要約において大幅な進歩があったことを強調しています。