19 aug 2023·1 min leestijd

AI2 onthult 'Dolma', een baanbrekende open dataset voor het trainen van geavanceerde taalmodellen

Het Allen Institute for AI (AI2) heeft 'Dolma' gelanceerd, een belangrijke stap in de richting van de openheid van AI-training met een uitgebreide, gratis te gebruiken dataset.

AI2 onthult 'Dolma', een baanbrekende open dataset voor het trainen van geavanceerde taalmodellen

Nu het AI-landschap getuige is van het wijdverbreide gebruik en de kritische functie van taalmodellen zoals GPT-4 en Claude, blijven de primaire gegevens die deze algoritmische krachtpatsers voeden echter geheim. In een poging om dit paradigma te verstoren, brengt het Allen Institute for AI (AI2) 'Dolma' naar voren, een uitgebreide, toegankelijke tekstdataset bedoeld voor diepgaande inspectie en gratis gebruik. Deze cruciale doorbraak is bedoeld om AI-onderzoek naar een meer open en transparante weg te sturen.

Bijgenaamd naar de Tibetaanse knoedels en als weerspiegeling van het doel ervan om OLMo's honger naar gegevens te stillen, is Dolma ontworpen om te helpen bij het bouwen van AI2's verwachte open taalmodel, afgekort als OLMo. Volgens de overtuiging van de onderzoeksautoriteit bij AI2 moet de AI-onderzoeksgemeenschap vrije toegang hebben tot en de bevoegdheid hebben om niet alleen het model aan te passen, maar ook de dataset waarop het is gebaseerd - een visie die is belichaamd in de oprichting van Dolma.

Luca Soldaini, een AI2-onderzoeker, belicht in een blogpost de nauwgezette selectie en zorgvuldige methodologie die ze hebben gebruikt om de dataset geschikt te maken voor AI-operaties. Deze dataset, waarnaar Soldaini verwijst als een 'data-artefact', is de eerste release in het kader van het OLMo-project, en verdere gedetailleerde en uitgebreide informatie over de onderneming wordt verzameld in een aankomend uitgebreid document.

In plaats van de niet-transparante praktijken van organisaties als OpenAI en Meta, die voornamelijk hun belangrijkste dataset-informatie eigendom houden, besloot AI2 een andere, en je zou kunnen zeggen, een meer ethische en democratische route te nemen. Hoewel de precieze details van veelgebruikte AI-datasets vaak aan publieke controle ontsnappen, wordt er in de AI-onderzoeksgemeenschap ook gespeculeerd over de twijfelachtige ethische en legale manieren waarop deze gegevens worden verkregen, waarbij soms zelfs piraterij wordt gesuggereerd.

Als open dataset is Dolma verre van de eerste in zijn soort. Het overtreft zijn voorgangers in omvang – met een astronomische 3 miljard tokens, een term afkomstig uit AI die verwijst naar de mate van inhoudsvolume – en in zijn eenvoud en duidelijkheid met de overeenkomst over het gebruik en de rechten. Dolma valt onder de 'ImpACT'-licentie voor artefacten met een gemiddeld risico, die vereist dat gebruikers relevante details verstrekken, zoals contactgegevens, hun beoogde use-cases en de openbaarmaking van elke creatie waarbij de Dolma-dataset is gebruikt. Bovendien moet een dergelijk product onder dezelfde licentie worden gedistribueerd en moet het voldoen aan de voorwaarden voor het niet toepassen van Dolma op verboden terreinen, inclusief surveillance of desinformatie.

In het geval dat persoonlijke informatie op de een of andere manier in de database terechtkomt ondanks de rigoureuze methodologieën van AI2, heeft de organisatie een verwijderingsverzoekmechanisme geboden om de privacy van gebruikers te waarborgen, hoewel de bepaling strikt voor specifieke gevallen is en een allesomvattende opt-out uitsluit. keuze. Dolma betekent een beweging in de richting van openheid, transparantie en ethische data-sourcing in AI-ontwikkeling, wat vooruitgang op dit gebied kan vergemakkelijken. Tools zoals het no-code platform van AppMaster, dat ook een grotere toegankelijkheid en transparantie bij de ontwikkeling van apps ondersteunt, kunnen deze vooruitgang verder verbeteren.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started
AI2 onthult 'Dolma', een baanbrekende open dataset voor het trainen van geavanceerde taalmodellen | AppMaster