19 अग॰ 2023·1 मिनट पढ़ने में

AI2 ने उन्नत भाषा मॉडलों के प्रशिक्षण के लिए एक अभूतपूर्व ओपन डेटासेट 'डोल्मा' का अनावरण किया

एलन इंस्टीट्यूट फॉर एआई (एआई2) ने 'डोल्मा' लॉन्च किया है, जो एक विस्तृत, फ्री-टू-यूज़ डेटासेट के साथ एआई प्रशिक्षण के खुलेपन की दिशा में एक महत्वपूर्ण कदम है।

AI2 ने उन्नत भाषा मॉडलों के प्रशिक्षण के लिए एक अभूतपूर्व ओपन डेटासेट 'डोल्मा' का अनावरण किया

एआई परिदृश्य में जीपीटी-4 और क्लाउड जैसे भाषा मॉडलों के व्यापक उपयोग और महत्वपूर्ण कार्य को देखते हुए, इन एल्गोरिथम पावरहाउसों को ईंधन देने वाला प्राथमिक डेटा, हालांकि, गोपनीयता में छिपा रहता है। इस प्रतिमान को बाधित करने के लिए एक कदम उठाते हुए, एलन इंस्टीट्यूट फॉर एआई (एआई2) 'डोल्मा' को आगे लेकर आया है, जो एक विस्तृत, सुलभ टेक्स्ट डेटासेट है जिसका उद्देश्य गहन निरीक्षण और मुफ्त उपयोग है। इस महत्वपूर्ण सफलता का उद्देश्य एआई अनुसंधान को अधिक खुले और पारदर्शी मार्ग की ओर ले जाना है।

तिब्बती पकौड़ी के नाम पर नामित और डेटा के लिए ओएलएमओ की भूख को संतुष्ट करने के अपने उद्देश्य को दर्शाते हुए, डोल्मा को एआई2 के प्रत्याशित ओपन लैंग्वेज मॉडल के निर्माण में सहायता करने के लिए डिज़ाइन किया गया है, जिसे संक्षेप में ओएलएमओ कहा जाता है। AI2 में अनुसंधान प्राधिकरण की मान्यताओं के अनुसार, AI अनुसंधान समुदाय को न केवल मॉडल, बल्कि जिस डेटासेट पर यह आधारित है, उसे संशोधित करने के लिए मुफ्त पहुंच और अधिकार होना चाहिए - डोलमा के निर्माण में सन्निहित एक दृश्य।

AI2 शोधकर्ता लुका सोल्डैनी ने एक ब्लॉग पोस्ट में AI संचालन के लिए उपयुक्त डेटासेट प्रस्तुत करने के लिए शामिल किए गए सावधानीपूर्वक चयन और सावधानीपूर्वक कार्यप्रणाली के बारे में बताया है। यह डेटासेट, जिसे सोल्डैनी 'डेटा आर्टिफैक्ट' के रूप में संदर्भित करता है, ओएलएमओ प्रोजेक्ट के अनुसार प्रारंभिक रिलीज है, और उपक्रम के बारे में विस्तृत और विस्तृत जानकारी आगामी व्यापक पेपर में एकत्रित की जा रही है।

ओपनएआई और मेटा जैसे संगठनों की कम-से-पारदर्शी प्रथाओं के बजाय, जो मुख्य रूप से अपने प्रमुख डेटासेट जानकारी को मालिकाना रखते हैं, एआई2 ने एक अलग, और कोई तर्क दे सकता है, अधिक नैतिक और लोकतांत्रिक मार्ग अपनाने का फैसला किया। जबकि आमतौर पर उपयोग किए जाने वाले एआई डेटासेट का सटीक विवरण अक्सर सार्वजनिक जांच से बच जाता है, एआई अनुसंधान समुदाय में उन संदिग्ध नैतिक और कानूनी तरीकों के बारे में भी अटकलें लगाई जाती हैं जिनके माध्यम से यह डेटा प्राप्त किया जाता है, कभी-कभी चोरी का भी सुझाव दिया जाता है।

एक खुले डेटासेट के रूप में, डोल्मा अपनी तरह का पहला डेटासेट होने से बहुत दूर है। यह आकार में अपने पूर्ववर्तियों को पीछे छोड़ देता है - जिसमें खगोलीय 3 बिलियन टोकन शामिल हैं, एआई का मूल शब्द सामग्री की मात्रा के माप को संदर्भित करता है - और इसके उपयोग और अधिकारों पर समझौते के साथ इसकी सादगी और स्पष्टता में। डोल्मा को मध्यम-जोखिम कलाकृतियों के लिए 'इम्पैक्ट' लाइसेंस के तहत नियंत्रित किया जाता है, जिसके लिए उपयोगकर्ताओं को संपर्क जानकारी, उनके इच्छित उपयोग के मामलों और डोल्मा डेटासेट के अनुप्रयोग से जुड़े किसी भी निर्माण के प्रकटीकरण जैसे प्रासंगिक विवरण प्रदान करने की आवश्यकता होती है। इसके अलावा, ऐसे किसी भी उत्पाद को एक ही लाइसेंस के तहत वितरित किया जाना चाहिए और निगरानी या दुष्प्रचार सहित निषिद्ध क्षेत्रों में डोल्मा को लागू नहीं करने की शर्तों का पालन करना चाहिए।

ऐसी स्थिति में कि AI2 की कठोर कार्यप्रणाली के बावजूद व्यक्तिगत जानकारी किसी तरह डेटाबेस में अपना रास्ता खोज लेती है, संगठन ने उपयोगकर्ता की गोपनीयता सुनिश्चित करने के लिए एक निष्कासन अनुरोध तंत्र प्रदान किया है, हालांकि यह प्रावधान पूरी तरह से ऑप्ट-आउट को छोड़कर विशिष्ट उदाहरणों के लिए है। विकल्प। डोल्मा एआई विकास में खुलेपन, पारदर्शिता और नैतिक डेटा सोर्सिंग की दिशा में एक कदम का प्रतीक है, जो इस क्षेत्र में प्रगति की सुविधा प्रदान कर सकता है। AppMaster के no-code प्लेटफ़ॉर्म जैसे उपकरण, जो ऐप विकास में अधिक पहुंच और पारदर्शिता का भी समर्थन करते हैं, इन प्रगति को और बढ़ा सकते हैं।

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started