১৯ আগ, ২০২৩·1 মিনিট পড়তে

AI2 'Dolma' উন্মোচন করেছে, উন্নত ভাষার মডেলের প্রশিক্ষণের জন্য একটি গ্রাউন্ডব্রেকিং ওপেন ডেটাসেট

অ্যালেন ইনস্টিটিউট ফর AI (AI2) 'Dolma' চালু করেছে, একটি বিস্তৃত, বিনামূল্যে-ব্যবহারের ডেটাসেট সহ AI প্রশিক্ষণের উন্মুক্ততার দিকে একটি গুরুত্বপূর্ণ পদক্ষেপ।

AI2 'Dolma' উন্মোচন করেছে, উন্নত ভাষার মডেলের প্রশিক্ষণের জন্য একটি গ্রাউন্ডব্রেকিং ওপেন ডেটাসেট

AI ল্যান্ডস্কেপ GPT-4 এবং Claude-এর মতো ভাষার মডেলগুলির ব্যাপক ব্যবহার এবং সমালোচনামূলক ফাংশন প্রত্যক্ষ করে, এই অ্যালগরিদমিক পাওয়ারহাউসগুলিকে উত্সাহিত করে প্রাথমিক ডেটা, তবে, গোপনীয়তার মধ্যে আবৃত থাকে। এই দৃষ্টান্তকে ব্যাহত করার জন্য একটি পদক্ষেপে, অ্যালেন ইনস্টিটিউট ফর AI (AI2) এগিয়ে নিয়ে এসেছে 'Dolma', একটি বিস্তৃত, অ্যাক্সেসযোগ্য পাঠ্য ডেটাসেট যা গভীরভাবে পরিদর্শন এবং বিনামূল্যে ব্যবহারের উদ্দেশ্যে। এই সমালোচনামূলক অগ্রগতির লক্ষ্য AI গবেষণাকে আরও উন্মুক্ত এবং স্বচ্ছ পথের দিকে নিয়ে যাওয়া।

তিব্বতীয় ডাম্পলিং-এর নামে ডাকনাম দেওয়া হয়েছে এবং ডেটার জন্য OLMO-এর ক্ষুধা মেটাতে এর উদ্দেশ্য প্রতিফলিত করে, Dolma কে AI2-এর প্রত্যাশিত ওপেন ল্যাঙ্গুয়েজ মডেল তৈরিতে সহায়তা করার জন্য ডিজাইন করা হয়েছে, সংক্ষেপে OLMO নামে পরিচিত। AI2-এর গবেষণা কর্তৃপক্ষের বিশ্বাস অনুসারে, AI গবেষণা সম্প্রদায়ের শুধুমাত্র মডেল নয়, এটির উপর ভিত্তি করে ডেটাসেট পরিবর্তন করার জন্য অবাধ অ্যাক্সেস এবং কর্তৃত্ব থাকা উচিত - ডলমা তৈরিতে মূর্ত একটি দৃশ্য।

লুকা সোল্ডাইনি, একজন AI2 গবেষক, একটি ব্লগে AI অপারেশনের জন্য উপযোগী ডেটাসেট রেন্ডার করার জন্য তাদের অন্তর্ভুক্ত করা সূক্ষ্ম নির্বাচন এবং যত্নশীল পদ্ধতির ব্যাখ্যা করেছেন। এই ডেটাসেট, যাকে সোল্ডাইনি একটি 'ডেটা আর্টিফ্যাক্ট' হিসাবে উল্লেখ করেছেন, এটি OLMO প্রকল্পের অনুগামী প্রাথমিক প্রকাশ, এবং এই উদ্যোগ সম্পর্কে আরও বিস্তারিত এবং সম্পূর্ণ তথ্য একটি আসন্ন ব্যাপক কাগজে একত্রিত করা হচ্ছে।

ওপেনএআই এবং মেটা-র মতো সংস্থাগুলির কম-স্বচ্ছ অনুশীলনের পরিবর্তে, যারা প্রধানত তাদের মূল ডেটাসেট তথ্যের মালিকানা রাখে, AI2 একটি ভিন্ন সিদ্ধান্ত নেওয়ার সিদ্ধান্ত নিয়েছে, এবং কেউ যুক্তি দিতে পারে, আরও নৈতিক এবং গণতান্ত্রিক পথ। যদিও সাধারণত নিযুক্ত AI ডেটাসেটের সুনির্দিষ্ট বিবরণ প্রায়শই জনসাধারণের যাচাই-বাছাই এড়িয়ে যায়, AI গবেষণা সম্প্রদায়ের মধ্যে প্রশ্নবোধক নৈতিক এবং আইনি উপায়গুলির মাধ্যমে এই ডেটা প্রাপ্ত করা হয়, কখনও কখনও এমনকি জলদস্যুতারও পরামর্শ দেওয়া হয়।

একটি উন্মুক্ত ডেটাসেট হিসাবে, ডলমা তার ধরণের প্রথম হওয়া থেকে অনেক দূরে। এটি আকারে তার পূর্বসূরীদের গ্রহন করে – একটি জ্যোতির্বিদ্যা সংক্রান্ত 3 বিলিয়ন টোকেন ধারণ করে, একটি শব্দ যা AI এর নেটিভ যা বিষয়বস্তুর পরিমাণের পরিমাপকে নির্দেশ করে – এবং এর ব্যবহার এবং অধিকারের চুক্তির সাথে এর সরলতা এবং স্বচ্ছতায়। Dolma মাঝারি-ঝুঁকির আর্টিফ্যাক্টগুলির জন্য 'ইমপ্যাক্ট' লাইসেন্সের অধীনে পরিচালিত হয়, যার জন্য ব্যবহারকারীদের প্রাসঙ্গিক বিশদ যেমন যোগাযোগের তথ্য, তাদের উদ্দিষ্ট ব্যবহারের ক্ষেত্রে এবং Dolma ডেটাসেটের প্রয়োগের সাথে জড়িত যেকোন সৃষ্টির প্রকাশ প্রদান করতে হয়। তদুপরি, এই জাতীয় যেকোন পণ্য একই লাইসেন্সের অধীনে বিতরণ করা প্রয়োজন এবং নজরদারি বা বিভ্রান্তি সহ নিষিদ্ধ ক্ষেত্রগুলিতে ডলমা প্রয়োগ না করার শর্তাবলী মেনে চলতে হবে।

AI2-এর কঠোর পদ্ধতি থাকা সত্ত্বেও ব্যক্তিগত তথ্য কোনোভাবে ডাটাবেসে প্রবেশ করার সুযোগ না পাওয়ায়, সংস্থাটি ব্যবহারকারীর গোপনীয়তা নিশ্চিত করার জন্য একটি অপসারণের অনুরোধের ব্যবস্থা প্রদান করেছে, যদিও বিধানটি সম্পূর্ণরূপে অপ্ট-আউট ব্যতীত নির্দিষ্ট দৃষ্টান্তগুলির জন্য কঠোরভাবে। বিকল্প ডলমা এআই ডেভেলপমেন্টে উন্মুক্ততা, স্বচ্ছতা এবং নৈতিক ডেটা সোর্সিংয়ের দিকে একটি পদক্ষেপের ইঙ্গিত দেয়, যা এই ডোমেনে অগ্রগতি সহজতর করতে পারে। AppMasterno-code প্ল্যাটফর্মের মতো টুল, যা অ্যাপ ডেভেলপমেন্টে বৃহত্তর অ্যাক্সেসযোগ্যতা এবং স্বচ্ছতা সমর্থন করে, এই অগ্রগতিগুলিকে আরও উন্নত করতে পারে।

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started