19 Agu 2023·1 menit membaca

AI2 Meluncurkan 'Dolma', Kumpulan Data Terbuka Terobosan untuk Pelatihan Model Bahasa Lanjutan

Allen Institute for AI (AI2) telah meluncurkan 'Dolma', sebuah langkah signifikan menuju keterbukaan pelatihan AI dengan kumpulan data yang luas dan bebas digunakan.

AI2 Meluncurkan 'Dolma', Kumpulan Data Terbuka Terobosan untuk Pelatihan Model Bahasa Lanjutan

Dengan lanskap AI yang menyaksikan penggunaan luas dan fungsi kritis model bahasa seperti GPT-4 dan Claude, data primer yang mendorong pembangkit tenaga algoritmik ini tetap terselubung dalam kerahasiaan. Dalam upaya untuk mengubah paradigma ini, Allen Institute for AI (AI2) menghadirkan 'Dolma', kumpulan data teks yang luas dan dapat diakses yang ditujukan untuk pemeriksaan mendalam dan penggunaan gratis. Terobosan penting ini bertujuan untuk mengarahkan penelitian AI menuju jalur yang lebih terbuka dan transparan.

Dijuluki setelah pangsit Tibet dan mencerminkan tujuannya untuk memuaskan rasa lapar OLMo akan data, Dolma dirancang untuk membantu membangun model bahasa terbuka AI2 yang diantisipasi, disingkat OLMo. Menurut kepercayaan otoritas riset di AI2, komunitas riset AI harus memiliki akses bebas dan otoritas untuk memodifikasi tidak hanya model, tetapi juga kumpulan data yang menjadi dasarnya - pandangan yang diwujudkan dalam pembuatan Dolma.

Luca Soldaini, seorang peneliti AI2, menjelaskan dalam posting blog pemilihan cermat dan metodologi hati-hati yang mereka masukkan untuk membuat dataset cocok untuk operasi AI. Kumpulan data ini, yang disebut Soldaini sebagai 'artefak data', adalah rilis awal berdasarkan proyek OLMo, dan informasi lebih rinci dan lengkap tentang usaha tersebut sedang disusun dalam makalah komprehensif yang akan datang.

Alih-alih praktik organisasi yang kurang transparan seperti OpenAI dan Meta, yang terutama mempertahankan kepemilikan informasi kumpulan data utama mereka, AI2 memutuskan untuk mengambil jalan yang berbeda, dan orang mungkin berpendapat, rute yang lebih etis dan demokratis. Sementara detail yang tepat dari kumpulan data AI yang umum digunakan sering menghindari pengawasan publik, ada juga spekulasi dalam komunitas riset AI tentang cara etika dan hukum yang dipertanyakan melalui mana data ini diperoleh, kadang-kadang bahkan menyarankan pembajakan.

Sebagai kumpulan data terbuka, Dolma jauh dari yang pertama dari jenisnya. Ini mengalahkan pendahulunya dalam ukuran – mencakup 3 miliar token astronomi, istilah asli AI yang merujuk pada ukuran volume konten – dan dalam kesederhanaan dan kejelasannya dengan persetujuan tentang penggunaan dan haknya. Dolma diatur di bawah lisensi 'ImpACT' untuk artefak berisiko menengah, yang mengharuskan pengguna untuk memberikan detail terkait seperti informasi kontak, kasus penggunaan yang dimaksudkan, dan pengungkapan setiap kreasi yang melibatkan penerapan kumpulan data Dolma. Selain itu, produk semacam itu harus didistribusikan di bawah lisensi yang sama dan harus mematuhi ketentuan tidak menerapkan Dolma di bidang terlarang, termasuk pengawasan atau disinformasi.

Jika informasi pribadi entah bagaimana menemukan jalannya ke dalam database terlepas dari metodologi AI2 yang ketat, organisasi telah menyediakan mekanisme permintaan penghapusan untuk memastikan privasi pengguna, meskipun ketentuan tersebut hanya untuk kasus tertentu kecuali opt-out yang mencakup semua pilihan. Dolma menandakan langkah menuju keterbukaan, transparansi, dan sumber data etis dalam pengembangan AI, yang dapat memfasilitasi kemajuan dalam domain ini. Alat seperti platform no-codeAppMaster, yang juga mendukung aksesibilitas dan transparansi yang lebih besar dalam pengembangan aplikasi, dapat semakin meningkatkan kemajuan ini.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started