19 Ağu 2023·1 dk okuma

AI2, Gelişmiş Dil Modellerinin Eğitimi için Çığır Açan Açık Veri Kümesi 'Dolma'yı Tanıttı

Allen Yapay Zeka Enstitüsü (AI2), geniş, kullanımı ücretsiz bir veri kümesiyle yapay zeka eğitiminin açıklığına yönelik önemli bir adım olan 'Dolma'yı başlattı.

AI2, Gelişmiş Dil Modellerinin Eğitimi için Çığır Açan Açık Veri Kümesi 'Dolma'yı Tanıttı

Yapay zeka manzarası, GPT-4 ve Claude gibi dil modellerinin yaygın kullanımına ve kritik işlevine tanık olurken, bu algoritmik güç merkezlerini besleyen birincil veriler, yine de gizlilik içinde örtülü kalmaya devam ediyor. Allen Institute for AI (AI2), bu paradigmayı bozmaya yönelik bir hamleyle, derinlemesine inceleme ve ücretsiz kullanım için tasarlanmış kapsamlı, erişilebilir bir metin veri kümesi olan 'Dolma'yı öne çıkarıyor. Bu kritik atılım, AI araştırmasını daha açık ve şeffaf bir yola yönlendirmeyi amaçlıyor.

Takma adını Tibet mantılarından alan ve OLMo'nun veri açlığını giderme amacını yansıtan Dolma, AI2'nin beklenen açık dil modeli olan OLMo'nun oluşturulmasına yardımcı olmak için tasarlanmıştır. AI2'deki araştırma yetkilisinin inançlarına göre, AI araştırma topluluğu, yalnızca modele değil, aynı zamanda dayandığı veri kümesine de ücretsiz erişim ve değiştirme yetkisine sahip olmalıdır - Dolma'nın oluşturulmasında somutlaşan bir görüş.

Bir AI2 araştırmacısı olan Luca Soldaini, bir blog gönderisinde, veri setini yapay zeka operasyonlarına uygun hale getirmek için dahil ettikleri titiz seçim ve dikkatli metodolojiyi açıklıyor. Soldaini'nin bir "veri eseri" olarak adlandırdığı bu veri seti, OLMo projesi uyarınca ilk yayındır ve girişim hakkında daha ayrıntılı ve kapsamlı bilgiler yakında çıkacak kapsamlı bir belgede derlenmektedir.

OpenAI ve Meta gibi temel olarak önemli veri kümesi bilgilerini özel tutan kuruluşların şeffaf olmayan uygulamaları yerine, AI2 farklı ve daha etik ve demokratik bir yol izlemeye karar verdi. Yaygın olarak kullanılan yapay zeka veri setlerinin kesin ayrıntıları genellikle kamu incelemesinden kaçarken, yapay zeka araştırma topluluğunda bu verilerin elde edildiği şüpheli etik ve yasal araçlar hakkında spekülasyonlar da yapılıyor, hatta bazen korsanlık öne sürülüyor.

Açık bir veri kümesi olarak Dolma, türünün ilk örneği olmaktan çok uzaktır. İçerik hacminin ölçüsüne atıfta bulunan AI'ya özgü bir terim olan astronomik 3 milyar jetonu kapsayan boyut ve kullanımı ve hakları konusundaki anlaşma ile basitliği ve netliği ile öncekileri gölgede bırakıyor. Dolma, kullanıcıların iletişim bilgileri, amaçlanan kullanım durumları ve Dolma veri kümesinin uygulanmasını içeren herhangi bir yaratımın ifşası gibi ilgili ayrıntıları sağlamasını gerektiren orta riskli eserler için 'ImpACT' lisansı kapsamında yönetilir. Ayrıca, bu tür herhangi bir ürünün aynı lisans altında dağıtılması ve gözetleme veya dezenformasyon da dahil olmak üzere yasak alanlarda Dolma uygulanmama şartlarına uyması gerekir.

AI2'nin titiz metodolojilerine rağmen kişisel bilgilerin bir şekilde veritabanına girmesi ihtimaline karşı, kuruluş, kullanıcı gizliliğini sağlamak için bir kaldırma talebi mekanizması sağlamıştır, ancak hüküm, her şeyi kapsayan bir devre dışı bırakmayı engelleyen belirli durumlar için kesinlikle geçerlidir. seçenek. Dolma, bu alandaki ilerlemeleri kolaylaştırabilecek yapay zeka geliştirmede açıklık, şeffaflık ve etik veri kaynağına yönelik bir hareketi ifade eder. Uygulama geliştirmede daha fazla erişilebilirliği ve şeffaflığı da destekleyen AppMasterno-code platformu gibi araçlar bu gelişmeleri daha da geliştirebilir.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started