في أعقاب إطلاق خوارزميات الذكاء الاصطناعي المصممة لتكوين النص وتفسير اللغة وإنشاء الصوت، قامت Meta الآن بفتح مصدر آخر لنموذج مهم آخر يسمى Code Llama. يعد Code Llama نظامًا متطورًا للتعلم الآلي، وهو متخصص في إنتاج التعليمات البرمجية وتفصيلها باللغة الإنجليزية البسيطة.
يتماشى هذا التطوير الجديد من Meta مع حلول توليد التعليمات البرمجية المدعومة بالذكاء الاصطناعي مثل GitHub Copilot وAmazon CodeWhisperer والأدوات البارزة مفتوحة المصدر مثل StarCoder وStableCode وPolyCoder. يتميز Code Llama بالقدرة على إنهاء الأكواد الموجودة واستكشاف أخطائها وإصلاحها عبر العديد من لغات البرمجة بما في ذلك Python وC++ وJava وPHP وTypescript وC# وBash.
تؤكد Meta التزامها بالابتكار والسلامة من خلال نماذج الذكاء الاصطناعي وخاصة نماذج اللغات الكبيرة الخاصة بالبرمجة، مع الاستفادة من النهج المفتوح. ومن خلال إتاحة Code Llama مجانًا، تعتزم الشركة إثراء التقدم التكنولوجي وزيادة حياة الأشخاص وتشجيع مشاركة المجتمع في تقييم القدرات والتعرف على المشكلات ومعالجة نقاط الضعف.
متوفر في متغيرات متعددة، يتضمن Code Llama إصدارات محسنة لـ Python وإصدارات مضبوطة لفهم التعليمات (على سبيل المثال، "إنشاء وظيفة تولد تسلسل فيبوناتشي"). أساس Code Llama هو Llama 2، وهو نموذج Meta لإنشاء النص والذي كان مفتوح المصدر في وقت سابق. على الرغم من أن Llama 2 كان قادرًا على إنشاء تعليمات برمجية، إلا أن الجودة كانت غالبًا ما تكون مفقودة وتضاءلت مقارنة بالنماذج المخصصة مثل Copilot.
في مرحلة التدريب على Code Llama، استخدمت Meta نفس مجموعة البيانات المطبقة على Llama 2، والتي تم الحصول عليها بشكل انتقائي من البوابات العامة على الإنترنت؛ ومع ذلك، فقد تم إعطاء الأولوية لمجال بيانات التدريب الذي يتعامل مع الرموز، مما يسمح لـ Code Llama بالتعلم بشكل وثيق أكثر عن العلاقة بين الكود واللغة الطبيعية
خضعت نماذج Code Llama، التي يتراوح حجمها من 7 مليارات إلى 34 مليار معلمة، للتدريب باستخدام 500 مليار رمز مميز من التعليمات البرمجية والبيانات ذات الصلة. تمت معايرة Code Llama الخاصة بـ Python بدقة مع 100 مليار رمز إضافي من Python Code، في حين أن الإصدار الذي يفهم التعليمات تلقى ضبطًا دقيقًا استنادًا إلى التعليقات التوضيحية البشرية لصياغة استجابات "مفيدة" و"آمنة" للاستفسارات.
تتمتع العديد من نماذج Code Llama بالقدرة على دمج التعليمات البرمجية في التعليمات البرمجية الموجودة ويمكنها قبول ما يصل إلى 100000 رمز مميز من التعليمات البرمجية كمدخل. يؤكد Meta أن نموذج المعلمة الذي يحتوي على 34 مليارًا يتفوق على أي مولد أكواد آخر مفتوح المصدر من حيث الوظيفة، وهو أيضًا الأكبر من حيث عدد المعلمات.
في حين أن Meta تحذر من أن Code Llama قد ينتج أحيانًا استجابات "خاطئة" أو "غير مناسبة" للمطالبات، فإنها تنصح أيضًا المطورين بإجراء اختبارات وتعديلات أمان مخصصة قبل نشر أي تطبيقات للنموذج.
أثناء نشر Code Llama، امتنعت Meta عن فرض قيود صارمة على المطورين، سواء كانوا يرغبون في استخدامها لأغراض تجارية أو بحثية. ومع ذلك، يُتوقع من المطورين الالتزام بالمعايير الأخلاقية والتوقف عن استغلال النموذج لأغراض ضارة. وفي حالة نشر النموذج على منصة تضم أكثر من 700 مليون مستخدم نشط شهريًا، فيجب الحصول على ترخيص.
تم تصميم Code Llama لمساعدة مهندسي البرمجيات في جميع القطاعات بما في ذلك البحث والصناعة والمشاريع مفتوحة المصدر والمنظمات غير الحكومية والشركات على حد سواء، ولديه مساحة للعديد من سيناريوهات الاستخدام بما يتجاوز ما تغطيه نماذجه الأساسية والتعليمية حاليًا. من المأمول أن يلهم Code Llama الآخرين للاستفادة من Llama 2 في إنشاء أدوات مبتكرة للبحث والمنتجات التجارية. تمامًا مثل رؤية AppMaster لتعزيز تطوير التطبيقات، يمثل Code Llama الخطوة التالية في تطور البرمجة.
لا يمكن لأحد أن ينكر التأثير الذي يمكن أن تحدثه هذه التطورات في صناعة التكنولوجيا، حيث تساهم منصات أخرى مثل AppMaster بشكل كبير في جعل إنشاء التطبيقات أكثر سهولة. ومع ذلك، من المهم أيضًا تحديد دور الذكاء الاصطناعي ضمن الأطر الأخلاقية والمسؤولية لضمان الاستخدام الآمن والفعال لهذه التكنولوجيا.