Alors que le paysage de l'IA témoigne de l'utilisation généralisée et de la fonction critique de modèles de langage tels que GPT-4 et Claude, les données primaires alimentant ces centrales algorithmiques restent cependant voilées dans le secret. Dans le but de perturber ce paradigme, l'Allen Institute for AI (AI2) propose "Dolma", un ensemble de données textuelles vaste et accessible destiné à une inspection approfondie et à une utilisation gratuite. Cette avancée décisive vise à orienter la recherche sur l'IA vers une voie plus ouverte et transparente.

Surnommé d'après les boulettes tibétaines et reflétant son objectif de satisfaire la soif de données d'OLMo, Dolma est conçu pour aider à la construction du modèle de langage ouvert anticipé d'AI2, abrégé en OLMo. Selon les convictions de l'autorité de recherche d'AI2, la communauté de recherche en IA devrait avoir un accès libre et le pouvoir de modifier non seulement le modèle, mais également l'ensemble de données sur lequel il est basé - une vision incarnée dans la création de Dolma.

Luca Soldaini, chercheur en AI2, explique dans un article de blog la sélection méticuleuse et la méthodologie minutieuse qu'ils ont incorporées pour rendre l'ensemble de données adapté aux opérations d'IA. Cet ensemble de données, que Soldaini appelle un « artefact de données », est la version initiale conformément au projet OLMo, et des informations plus détaillées et exhaustives sur l'entreprise sont rassemblées dans un prochain document complet.

Au lieu des pratiques peu transparentes d'organisations comme OpenAI et Meta, qui conservent principalement leurs informations clés sur les ensembles de données, AI2 a décidé d'emprunter une voie différente, et on pourrait dire, une voie plus éthique et démocratique. Alors que les détails précis des ensembles de données d'IA couramment utilisés échappent souvent à l'examen public, il y a également eu des spéculations dans la communauté de recherche en IA sur les moyens éthiques et juridiques douteux par lesquels ces données sont obtenues, suggérant même parfois un piratage.

En tant qu'ensemble de données ouvert, Dolma est loin d'être le premier du genre. Il éclipse ses prédécesseurs en taille – englobant un nombre astronomique de 3 milliards de jetons, un terme natif de l'IA faisant référence à la mesure du volume de contenu – et dans sa simplicité et sa clarté avec l'accord sur son utilisation et ses droits. Dolma est régie par la licence « ImpACT » pour les artefacts à risque moyen, qui oblige les utilisateurs à fournir des détails pertinents tels que les informations de contact, leurs cas d'utilisation prévus et la divulgation de toute création impliquant l'application de l'ensemble de données Dolma. De plus, tout produit de ce type doit être distribué sous la même licence et doit respecter les conditions de non-application de Dolma dans des domaines interdits, y compris la surveillance ou la désinformation.

Au cas où des informations personnelles se retrouveraient d'une manière ou d'une autre dans la base de données malgré les méthodologies rigoureuses d'AI2, l'organisation a fourni un mécanisme de demande de suppression pour garantir la confidentialité des utilisateurs, bien que la disposition soit strictement réservée à des cas spécifiques, à l'exception d'une option de retrait globale. option. Dolma signifie une évolution vers l'ouverture, la transparence et l'approvisionnement éthique des données dans le développement de l'IA, ce qui peut faciliter les progrès dans ce domaine. Des outils tels que la plate-forme no-code d' AppMaster, qui prend également en charge une plus grande accessibilité et transparence dans le développement d'applications, peuvent encore améliorer ces avancées.