وضعت Anthropic قاعدة جديدة في عالم نماذج اللغات الكبيرة (LLMs)، حيث كشفت عن إطلاق Claude 2.1، القادر على استيعاب 200000 رمز مميز في نافذة السياق الخاصة به. ولوضع هذا في منظوره الصحيح، فإن هذا يعادل أكثر من نصف مليون كلمة أو ما يزيد عن 500 صفحة مطبوعة من البيانات - وهي خطوة ملحوظة، حسبما ذكرت Anthropic.
النموذج الذي تم إطلاقه مؤخرًا لا يتوقف عند توسيع استيعاب البيانات. إنها تتفوق على سابقتها من حيث الدقة، حيث توفر استخدام أداة بيتا، وكل ذلك بتكلفة منخفضة، مما يمثل تقدمًا كبيرًا في سلسلة Anthropic's الرائدة.
يأتي Claude 2.1 مجهزًا لتمكين برنامج الدردشة الآلي Claude المولد بتقنية الذكاء الاصطناعي، مما يجعل ميزاته المحسنة في متناول المستخدمين المجانيين والمدفوعين على حد سواء. هناك صيد، على أية حال! تعد نافذة سياق الرمز المميز الموسعة ميزة حصرية لعملاء Pro الذين يدفعون، في حين يظل المستخدمون المجانيون بحد أقصى 100000 رمز مميز. ومع ذلك، لا يزال هذا يتجاوز حد الرمز المميز لـ GPT-3.5 بهامش كبير.
تفتح سمة الأداة التجريبية في Claude 2.1 أبوابًا جديدة للمطورين، مما يمكنهم من نسج واجهات برمجة التطبيقات والوظائف المحددة في نموذج Claude. ويعكس هذا القدرات الموجودة في نماذج OpenAI، مما يوفر مرونة وتكاملًا مماثلين.
قبل ذلك، كان لدى Claude بالفعل ميزة تنافسية على OpenAI من حيث سعة نافذة سياق الرمز المميز، والتي تضم حدًا يبلغ 100000 رمزًا مميزًا، حتى كشفت OpenAI عن نسخة معاينة من GPT-4 Turbo مع نافذة سياق رمزية تبلغ 128000 رمزًا مميزًا. ومع ذلك، يظل هذا النموذج مقتصرًا على مستخدمي ChatGPT Plus الذين يشتركون بسعر 20 دولارًا شهريًا ولا يمكن الوصول إليه إلا بتنسيق chatbot. يتعين على المطورين الراغبين في استخدام واجهة برمجة تطبيقات GPT-4 اختيار نظام الدفع لكل استخدام.
على الرغم من أن نافذة السياق الواسعة - وهي تمثيل للبيانات التي يمكن تحليلها في وقت واحد - قد تبدو جذابة بالنسبة للمستندات الضخمة أو مجموعات متنوعة من المعلومات، فإنه ليس من المؤكد ما إذا كان حاملو شهادة LLM يمكنهم معالجة كميات كبيرة من البيانات بكفاءة مقارنة بالأجزاء الأصغر. قام رجل الأعمال والخبير في مجال الذكاء الاصطناعي، جريج كامرادت، بالتحقيق عن كثب في هذه المشكلة باستخدام تقنية يشير إليها بتحليل "الإبرة في كومة قش".
ومن خلال تضمين بيانات عشوائية في أقسام مختلفة من مستند واسع يتم تغذيته في LLM، فإنه يختبر ما إذا كان يتم استرداد أجزاء صغيرة من المعلومات داخل مستندات أكبر عند الاستعلام عن LLM. وقد خلص تحليله لكلود 2.1، والذي تم منحه الوصول المبكر إليه، إلى أنه "عند 200 ألف رمز مميز (حوالي 470 صفحة)، تمكن كلود 2.1 من تذكر الحقائق في أعماق مستند محددة."
بدأ أداء الاستدعاء في التدهور بمجرد أن تجاوزت الرموز المميزة علامة ~90 ألف وتأثرت بشكل خاص في قاعدة المستند. لا يقتصر هذا الخلل على Claude 2.1، فقد أظهر GPT-4 استدعاءً غير كامل مماثل في سياقه الأقصى.
تتكبد دراسة Kamradt ما يقرب من 1000 دولار أمريكي في مكالمات واجهة برمجة التطبيقات (API). (قدمت شركة Anthropic اعتمادات لنفس الاختبارات التي تم إجراؤها على GPT-4). وقد سلطت أفكاره الضوء على أهمية صياغة المطالبات بعناية، وعدم افتراض استرجاع البيانات بشكل متسق، وأن المدخلات الأقل تضمن بشكل عام نتائج أفضل.
في كثير من الأحيان، يقوم المطورون بتقسيم البيانات إلى أجزاء أصغر عند استخراج المعلومات من مجموعات بيانات واسعة لتحسين نتائج الاسترجاع، بغض النظر عن السعة المحتملة لنافذة السياق.
كشف تقييم دقة كلود 2.1 باستخدام مجموعة شاملة من الاستعلامات الواقعية المعقدة المصممة لاستكشاف نقاط الضعف النموذجية في النماذج الحالية عن انخفاض بنسبة 50% في البيانات الكاذبة مقارنة بالإصدار السابق. من المرجح أن يعترف التكرار الحالي بالجهل بدلاً من توليد معلومات مزيفة، وفقًا لإعلان Anthropic's. ويسلط التقرير الضوء كذلك على التقدم الكبير في الفهم والتلخيص.