AI2 presenta "Dolma", un rivoluzionario set di dati aperto per la formazione di modelli linguistici avanzati
L'Allen Institute for AI (AI2) ha lanciato "Dolma", un passo significativo verso l'apertura della formazione AI con un ampio set di dati gratuito.

Con il panorama dell'IA che testimonia l'uso diffuso e la funzione critica di modelli linguistici come GPT-4 e Claude, i dati primari che alimentano queste potenze algoritmiche, tuttavia, rimangono velati nella segretezza. In una mossa destinata a interrompere questo paradigma, l'Allen Institute for AI (AI2) presenta "Dolma", un set di dati di testo ampio e accessibile destinato a un'ispezione approfondita e all'utilizzo gratuito. Questa svolta fondamentale mira a indirizzare la ricerca sull'IA verso un percorso più aperto e trasparente.
Soprannominato dopo i ravioli tibetani e riflettendo il suo scopo di soddisfare la fame di dati di OLMo, Dolma è progettato per aiutare a costruire il modello di linguaggio aperto anticipato di AI2, abbreviato in OLMo. Secondo le convinzioni dell'autorità di ricerca di AI2, la comunità di ricerca sull'IA dovrebbe avere libero accesso e autorità per modificare non solo il modello, ma anche il set di dati su cui si basa, una visione incarnata nella creazione di Dolma.
Luca Soldaini, un ricercatore AI2, spiega in un post sul blog la meticolosa selezione e l'attenta metodologia che hanno incorporato per rendere il set di dati adatto alle operazioni AI. Questo set di dati, che Soldaini definisce un "artefatto di dati", è il rilascio iniziale ai sensi del progetto OLMo e ulteriori informazioni dettagliate ed esaustive sull'impresa verranno raccolte in un prossimo documento completo.
Invece delle pratiche tutt'altro che trasparenti di organizzazioni come OpenAI e Meta, che mantengono principalmente le loro informazioni chiave sui set di dati proprietarie, AI2 ha deciso di intraprendere una strada diversa, e si potrebbe sostenere, più etica e democratica. Mentre i dettagli precisi dei set di dati AI comunemente utilizzati spesso sfuggono al controllo pubblico, ci sono state anche speculazioni nella comunità di ricerca sull'IA sui mezzi etici e legali discutibili attraverso i quali questi dati vengono ottenuti, a volte suggerendo persino la pirateria.
In quanto set di dati aperto, Dolma è ben lungi dall'essere il primo nel suo genere. Eclissa i suoi predecessori in termini di dimensioni - comprendendo l'astronomica cifra di 3 miliardi di token, un termine originario dell'intelligenza artificiale che si riferisce alla misura del volume dei contenuti - e nella sua semplicità e chiarezza con l'accordo sul suo utilizzo e sui diritti. Dolma è regolato dalla licenza "ImpACT" per artefatti a rischio medio, che richiede agli utenti di fornire dettagli pertinenti come informazioni di contatto, i casi d'uso previsti e la divulgazione di qualsiasi creazione che implichi l'applicazione del set di dati Dolma. Inoltre, qualsiasi prodotto di questo tipo deve essere distribuito con la stessa licenza e deve rispettare i termini di non applicazione di Dolma in campi proibiti, inclusa la sorveglianza o la disinformazione.
Nella remota possibilità che le informazioni personali trovino in qualche modo la loro strada nel database nonostante le rigorose metodologie di AI2, l'organizzazione ha fornito un meccanismo di richiesta di rimozione per garantire la privacy degli utenti, sebbene la disposizione sia strettamente per casi specifici, salvo un opt-out onnicomprensivo opzione. Dolma indica un passaggio verso l'apertura, la trasparenza e l'approvvigionamento etico dei dati nello sviluppo dell'IA, che può facilitare i progressi in questo dominio. Strumenti come la piattaforma no-code di AppMaster, che supporta anche una maggiore accessibilità e trasparenza nello sviluppo di app, possono migliorare ulteriormente questi progressi.


