AI2 stellt „Dolma“ vor, einen bahnbrechenden offenen Datensatz für das Training fortgeschrittener Sprachmodelle
Das Allen Institute for AI (AI2) hat „Dolma“ auf den Markt gebracht, einen bedeutenden Schritt in Richtung der Offenheit des KI-Trainings mit einem umfangreichen, kostenlos nutzbaren Datensatz.

Da die KI-Landschaft Zeuge der weit verbreiteten Verwendung und kritischen Funktion von Sprachmodellen wie GPT-4 und Claude ist, bleiben die Primärdaten, die diese algorithmischen Kraftpakete antreiben, jedoch weiterhin geheim. Um dieses Paradigma zu durchbrechen, stellt das Allen Institute for AI (AI2) „Dolma“ vor, einen umfangreichen, zugänglichen Textdatensatz, der zur eingehenden Einsichtnahme und kostenlosen Nutzung gedacht ist. Dieser entscheidende Durchbruch zielt darauf ab, die KI-Forschung auf einen offeneren und transparenteren Weg zu lenken.
Dolma wurde nach den tibetischen Knödeln benannt und spiegelt seinen Zweck wider, den Datenhunger von OLMo zu stillen. Es soll beim Aufbau des erwarteten offenen Sprachmodells von AI2, abgekürzt als OLMo, helfen. Nach Ansicht der Forschungsbehörde von AI2 sollte die KI-Forschungsgemeinschaft freien Zugang und die Befugnis haben, nicht nur das Modell, sondern auch den Datensatz, auf dem es basiert, zu ändern – eine Ansicht, die in der Entwicklung von Dolma zum Ausdruck kommt.
Luca Soldaini, ein AI2-Forscher, erläutert in einem Blogbeitrag die sorgfältige Auswahl und sorgfältige Methodik, mit der sie den Datensatz für KI-Operationen geeignet gemacht haben. Bei diesem Datensatz, den Soldaini als „Datenartefakt“ bezeichnet, handelt es sich um die erste Veröffentlichung im Rahmen des OLMo-Projekts. Weitere detaillierte und umfassende Informationen über das Unternehmen werden in einem bevorstehenden umfassenden Papier zusammengestellt.
Anstelle der wenig transparenten Praktiken von Organisationen wie OpenAI und Meta, die ihre wichtigsten Datensatzinformationen hauptsächlich geheim halten, hat AI2 beschlossen, einen anderen, und man könnte argumentieren, einen ethischeren und demokratischeren Weg einzuschlagen. Während sich die genauen Details häufig verwendeter KI-Datensätze oft der öffentlichen Kontrolle entziehen, gibt es in der KI-Forschungsgemeinschaft auch Spekulationen über die fragwürdigen ethischen und rechtlichen Mittel, mit denen diese Daten gewonnen werden, was manchmal sogar auf Piraterie schließen lässt.
Als offener Datensatz ist Dolma bei weitem nicht der erste seiner Art. Es übertrifft seine Vorgänger in der Größe – es umfasst astronomische 3 Milliarden Token, ein in der KI heimischer Begriff, der sich auf das Maß des Inhaltsvolumens bezieht – und in seiner Einfachheit und Klarheit sowie der Vereinbarung über seine Nutzung und Rechte. Dolma unterliegt der „ImpACT“-Lizenz für Artefakte mit mittlerem Risiko, die von den Benutzern die Angabe relevanter Details wie Kontaktinformationen, ihre beabsichtigten Anwendungsfälle und die Offenlegung jeglicher Erstellung im Zusammenhang mit der Anwendung des Dolma-Datensatzes verlangt. Darüber hinaus muss jedes dieser Produkte unter derselben Lizenz vertrieben werden und den Bedingungen entsprechen, Dolma nicht in verbotenen Bereichen, einschließlich Überwachung oder Desinformation, einzusetzen.
Für den Fall, dass personenbezogene Daten trotz der strengen Methoden von AI2 irgendwie in die Datenbank gelangen, hat die Organisation einen Löschantragsmechanismus bereitgestellt, um die Privatsphäre der Benutzer zu gewährleisten. Die Bestimmung gilt jedoch ausschließlich für bestimmte Fälle, es sei denn, es gibt ein umfassendes Opt-out Möglichkeit. Dolma bedeutet einen Schritt hin zu Offenheit, Transparenz und ethischer Datenbeschaffung in der KI-Entwicklung, der Fortschritte in diesem Bereich erleichtern kann. Tools wie die no-code Plattform von AppMaster, die auch eine bessere Zugänglichkeit und Transparenz bei der App-Entwicklung unterstützt, können diese Fortschritte weiter verbessern.


