19 أغسطس 2023·1 دقيقة قراءة

AI2 تكشف عن "Dolma" ، مجموعة بيانات مفتوحة رائدة لتدريب النماذج اللغوية المتقدمة

أطلق معهد ألين للذكاء الاصطناعي (AI2) "Dolma" ، وهي خطوة مهمة نحو انفتاح تدريب الذكاء الاصطناعي مع مجموعة بيانات موسعة ومجانية الاستخدام.

مع مشهد الذكاء الاصطناعي الذي يشهد الاستخدام الواسع والوظيفة الحاسمة لنماذج اللغة مثل GPT-4 و Claude ، فإن البيانات الأولية التي تغذي هذه القوى الخوارزمية ، ومع ذلك ، لا تزال محجوبة في السرية. في خطوة تهدف إلى تعطيل هذا النموذج ، يقدم معهد ألين للذكاء الاصطناعي (AI2) "Dolma" ، وهي مجموعة بيانات نصية موسعة يمكن الوصول إليها مخصصة للفحص المتعمق والاستخدام المجاني. يهدف هذا الاختراق الهام إلى توجيه أبحاث الذكاء الاصطناعي نحو مسار أكثر انفتاحًا وشفافية.

الملقب على اسم الزلابية التبتية ويعكس الغرض منه لإشباع رغبة OLMo في البيانات ، تم تصميم Dolma للمساعدة في بناء نموذج اللغة المفتوحة المتوقع لـ AI2 ، والمختصر باسم OLMo. وفقًا لمعتقدات هيئة البحث في AI2 ، يجب أن يتمتع مجتمع أبحاث الذكاء الاصطناعي بحرية الوصول إلى والسلطة لتعديل ليس فقط النموذج ، ولكن أيضًا مجموعة البيانات التي يعتمد عليها - وجهة نظر مجسدة في إنشاء Dolma.

يوضح لوكا سولدييني ، الباحث في مجال الذكاء الاصطناعي 2 ، في منشور مدونة التحديد الدقيق والمنهجية الدقيقة التي تم دمجها لجعل مجموعة البيانات مناسبة لعمليات الذكاء الاصطناعي. تعد مجموعة البيانات هذه ، التي يشير إليها سولديني على أنها `` أداة بيانات '' ، الإصدار الأولي وفقًا لمشروع OLMo ، ويتم تجميع مزيد من المعلومات التفصيلية والشاملة حول التعهد في ورقة شاملة قادمة.

بدلاً من الممارسات الأقل شفافية لمنظمات مثل OpenAI و Meta ، التي تحتفظ بشكل أساسي بملكية معلومات مجموعة البيانات الرئيسية ، قررت AI2 اتخاذ مسار مختلف ، وقد يجادل المرء ، أكثر أخلاقية وديمقراطية. في حين أن التفاصيل الدقيقة لمجموعات بيانات الذكاء الاصطناعي شائعة الاستخدام غالبًا ما تتهرب من التدقيق العام ، هناك أيضًا تكهنات في مجتمع أبحاث الذكاء الاصطناعي حول الوسائل الأخلاقية والقانونية المشكوك فيها التي يتم من خلالها الحصول على هذه البيانات ، وأحيانًا توحي بالقرصنة.

كمجموعة بيانات مفتوحة ، تعد Dolma بعيدة عن كونها الأولى من نوعها. إنه يتفوق على أسلافه من حيث الحجم - يشمل 3 مليارات رمز فلكي ، وهو مصطلح أصلي للذكاء الاصطناعي يشير إلى قياس حجم المحتوى - وبساطته ووضوحه مع الاتفاق على استخدامه وحقوقه. تخضع Dolma لترخيص "ImpACT" للقطع الأثرية متوسطة الخطورة ، والتي تتطلب من المستخدمين تقديم التفاصيل ذات الصلة مثل معلومات الاتصال ، وحالات الاستخدام المقصودة ، والكشف عن أي إنشاء يتضمن تطبيق مجموعة بيانات Dolma. علاوة على ذلك ، يجب توزيع أي منتج من هذا القبيل بموجب نفس الترخيص ويجب أن يتوافق مع شروط عدم تطبيق Dolma في المجالات المحظورة ، بما في ذلك المراقبة أو المعلومات المضللة.

إذا وجدت المعلومات الشخصية طريقها بطريقة ما إلى قاعدة البيانات على الرغم من المنهجيات الصارمة لـ AI2 ، فقد قدمت المنظمة آلية طلب إزالة لضمان خصوصية المستخدم ، على الرغم من أن الحكم مخصص بشكل صارم لحالات محددة تمنع إلغاء الاشتراك الشامل خيار. تشير Dolma إلى تحرك نحو الانفتاح والشفافية ومصادر البيانات الأخلاقية في تطوير الذكاء الاصطناعي ، والتي يمكن أن تسهل التقدم في هذا المجال. يمكن لأدوات مثل منصة AppMasterno-code ، والتي تدعم أيضًا إمكانية وصول أكبر وشفافية أكبر في تطوير التطبيقات ، تعزيز هذه التطورات بشكل أكبر.

أخبار ذات صلة