AI2 'Dolma' উন্মোচন করেছে, উন্নত ভাষার মডেলের প্রশিক্ষণের জন্য একটি গ্রাউন্ডব্রেকিং ওপেন ডেটাসেট
অ্যালেন ইনস্টিটিউট ফর AI (AI2) 'Dolma' চালু করেছে, একটি বিস্তৃত, বিনামূল্যে-ব্যবহারের ডেটাসেট সহ AI প্রশিক্ষণের উন্মুক্ততার দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ।

AI ল্যান্ডস্কেপ GPT-4 এবং Claude-এর মতো ভাষার মডেলগুলির ব্যাপক ব্যবহার এবং সমালোচনামূলক ফাংশন প্রত্যক্ষ করে, এই অ্যালগরিদমিক পাওয়ারহাউসগুলিকে উত্সাহিত করে প্রাথমিক ডেটা, তবে, গোপনীয়তার মধ্যে আবৃত থাকে। এই দৃষ্টান্তকে ব্যাহত করার জন্য একটি পদক্ষেপে, অ্যালেন ইনস্টিটিউট ফর AI (AI2) এগিয়ে নিয়ে এসেছে 'Dolma', একটি বিস্তৃত, অ্যাক্সেসযোগ্য পাঠ্য ডেটাসেট যা গভীরভাবে পরিদর্শন এবং বিনামূল্যে ব্যবহারের উদ্দেশ্যে। এই সমালোচনামূলক অগ্রগতির লক্ষ্য AI গবেষণাকে আরও উন্মুক্ত এবং স্বচ্ছ পথের দিকে নিয়ে যাওয়া।
তিব্বতীয় ডাম্পলিং-এর নামে ডাকনাম দেওয়া হয়েছে এবং ডেটার জন্য OLMO-এর ক্ষুধা মেটাতে এর উদ্দেশ্য প্রতিফলিত করে, Dolma কে AI2-এর প্রত্যাশিত ওপেন ল্যাঙ্গুয়েজ মডেল তৈরিতে সহায়তা করার জন্য ডিজাইন করা হয়েছে, সংক্ষেপে OLMO নামে পরিচিত। AI2-এর গবেষণা কর্তৃপক্ষের বিশ্বাস অনুসারে, AI গবেষণা সম্প্রদায়ের শুধুমাত্র মডেল নয়, এটির উপর ভিত্তি করে ডেটাসেট পরিবর্তন করার জন্য অবাধ অ্যাক্সেস এবং কর্তৃত্ব থাকা উচিত - ডলমা তৈরিতে মূর্ত একটি দৃশ্য।
লুকা সোল্ডাইনি, একজন AI2 গবেষক, একটি ব্লগে AI অপারেশনের জন্য উপযোগী ডেটাসেট রেন্ডার করার জন্য তাদের অন্তর্ভুক্ত করা সূক্ষ্ম নির্বাচন এবং যত্নশীল পদ্ধতির ব্যাখ্যা করেছেন। এই ডেটাসেট, যাকে সোল্ডাইনি একটি 'ডেটা আর্টিফ্যাক্ট' হিসাবে উল্লেখ করেছেন, এটি OLMO প্রকল্পের অনুগামী প্রাথমিক প্রকাশ, এবং এই উদ্যোগ সম্পর্কে আরও বিস্তারিত এবং সম্পূর্ণ তথ্য একটি আসন্ন ব্যাপক কাগজে একত্রিত করা হচ্ছে।
ওপেনএআই এবং মেটা-র মতো সংস্থাগুলির কম-স্বচ্ছ অনুশীলনের পরিবর্তে, যারা প্রধানত তাদের মূল ডেটাসেট তথ্যের মালিকানা রাখে, AI2 একটি ভিন্ন সিদ্ধান্ত নেওয়ার সিদ্ধান্ত নিয়েছে, এবং কেউ যুক্তি দিতে পারে, আরও নৈতিক এবং গণতান্ত্রিক পথ। যদিও সাধারণত নিযুক্ত AI ডেটাসেটের সুনির্দিষ্ট বিবরণ প্রায়শই জনসাধারণের যাচাই-বাছাই এড়িয়ে যায়, AI গবেষণা সম্প্রদায়ের মধ্যে প্রশ্নবোধক নৈতিক এবং আইনি উপায়গুলির মাধ্যমে এই ডেটা প্রাপ্ত করা হয়, কখনও কখনও এমনকি জলদস্যুতারও পরামর্শ দেওয়া হয়।
একটি উন্মুক্ত ডেটাসেট হিসাবে, ডলমা তার ধরণের প্রথম হওয়া থেকে অনেক দূরে। এটি আকারে তার পূর্বসূরীদের গ্রহন করে – একটি জ্যোতির্বিদ্যা সংক্রান্ত 3 বিলিয়ন টোকেন ধারণ করে, একটি শব্দ যা AI এর নেটিভ যা বিষয়বস্তুর পরিমাণের পরিমাপকে নির্দেশ করে – এবং এর ব্যবহার এবং অধিকারের চুক্তির সাথে এর সরলতা এবং স্বচ্ছতায়। Dolma মাঝারি-ঝুঁকির আর্টিফ্যাক্টগুলির জন্য 'ইমপ্যাক্ট' লাইসেন্সের অধীনে পরিচালিত হয়, যার জন্য ব্যবহারকারীদের প্রাসঙ্গিক বিশদ যেমন যোগাযোগের তথ্য, তাদের উদ্দিষ্ট ব্যবহারের ক্ষেত্রে এবং Dolma ডেটাসেটের প্রয়োগের সাথে জড়িত যেকোন সৃষ্টির প্রকাশ প্রদান করতে হয়। তদুপরি, এই জাতীয় যেকোন পণ্য একই লাইসেন্সের অধীনে বিতরণ করা প্রয়োজন এবং নজরদারি বা বিভ্রান্তি সহ নিষিদ্ধ ক্ষেত্রগুলিতে ডলমা প্রয়োগ না করার শর্তাবলী মেনে চলতে হবে।
AI2-এর কঠোর পদ্ধতি থাকা সত্ত্বেও ব্যক্তিগত তথ্য কোনোভাবে ডাটাবেসে প্রবেশ করার সুযোগ না পাওয়ায়, সংস্থাটি ব্যবহারকারীর গোপনীয়তা নিশ্চিত করার জন্য একটি অপসারণের অনুরোধের ব্যবস্থা প্রদান করেছে, যদিও বিধানটি সম্পূর্ণরূপে অপ্ট-আউট ব্যতীত নির্দিষ্ট দৃষ্টান্তগুলির জন্য কঠোরভাবে। বিকল্প ডলমা এআই ডেভেলপমেন্টে উন্মুক্ততা, স্বচ্ছতা এবং নৈতিক ডেটা সোর্সিংয়ের দিকে একটি পদক্ষেপের ইঙ্গিত দেয়, যা এই ডোমেনে অগ্রগতি সহজতর করতে পারে। AppMasterno-code প্ল্যাটফর্মের মতো টুল, যা অ্যাপ ডেভেলপমেন্টে বৃহত্তর অ্যাক্সেসযোগ্যতা এবং স্বচ্ছতা সমর্থন করে, এই অগ্রগতিগুলিকে আরও উন্নত করতে পারে।


