AI2 przedstawia „Dolma”, przełomowy zbiór otwartych danych do szkolenia zaawansowanych modeli językowych
Allen Institute for AI (AI2) uruchomił „Dolma”, znaczący krok w kierunku otwartości szkolenia AI z obszernym, darmowym zestawem danych.

W krajobrazie AI, który jest świadkiem powszechnego użycia i krytycznej funkcji modeli językowych, takich jak GPT-4 i Claude, podstawowe dane napędzające te algorytmiczne potęgi pozostają jednak ukryte w tajemnicy. Aby zakłócić ten paradygmat, Allen Institute for AI (AI2) przedstawia „Dolma”, obszerny, dostępny zbiór danych tekstowych przeznaczony do dogłębnej inspekcji i swobodnego użytku. Ten przełomowy przełom ma na celu skierowanie badań nad sztuczną inteligencją na bardziej otwartą i przejrzystą ścieżkę.
Nazwana na cześć pierogów tybetańskich i odzwierciedlająca jej cel, jakim jest zaspokojenie głodu danych OLMo, Dolma ma pomagać w budowaniu oczekiwanego modelu otwartego języka AI2, w skrócie OLMo. Zgodnie z przekonaniami autorytetu badawczego w AI2, społeczność naukowa zajmująca się sztuczną inteligencją powinna mieć swobodny dostęp i uprawnienia do modyfikowania nie tylko modelu, ale także zestawu danych, na którym jest oparty – pogląd zawarty w tworzeniu Dolmy.
Luca Soldaini, badacz AI2, wyjaśnia w poście na blogu skrupulatną selekcję i staranną metodologię, którą zastosowali, aby zestaw danych był odpowiedni do operacji AI. Ten zestaw danych, który Soldaini nazywa „artefaktem danych”, jest pierwszym wydaniem w ramach projektu OLMo, a dalsze szczegółowe i wyczerpujące informacje o przedsięwzięciu są zestawiane w nadchodzącym obszernym artykule.
Zamiast nieprzejrzystych praktyk organizacji takich jak OpenAI i Meta, które głównie zachowują poufność swoich kluczowych danych, AI2 zdecydowało się obrać inną, bardziej etyczną i demokratyczną drogę. Podczas gdy dokładne szczegóły powszechnie stosowanych zestawów danych AI często wymykają się publicznej analizie, w społeczności badaczy AI pojawiły się również spekulacje na temat wątpliwych etycznych i prawnych środków, za pomocą których te dane są pozyskiwane, czasem nawet sugerując piractwo.
Jako otwarty zbiór danych Dolma nie jest pierwszym tego rodzaju. Przyćmiewa swoich poprzedników pod względem wielkości – obejmujących astronomiczne 3 miliardy tokenów, termin pochodzący z AI odnoszący się do miary wolumenu treści – oraz swoją prostotą i przejrzystością w zgodzie z jej wykorzystaniem i prawami. Dolma podlega licencji „ImpACT” dla artefaktów średniego ryzyka, która wymaga od użytkowników podania odpowiednich informacji, takich jak dane kontaktowe, zamierzone przypadki użycia oraz ujawnienie wszelkich dzieł związanych z zastosowaniem zestawu danych Dolma. Ponadto każdy taki produkt musi być dystrybuowany na tej samej licencji i musi spełniać warunki niestosowania Dolmy w obszarach zabronionych, w tym inwigilacji lub dezinformacji.
Na wypadek, gdyby dane osobowe w jakiś sposób znalazły się w bazie danych pomimo rygorystycznych metodologii AI2, organizacja zapewniła mechanizm żądania usunięcia w celu zapewnienia prywatności użytkownika, chociaż przepis dotyczy wyłącznie określonych przypadków, z wyjątkiem wszechstronnej rezygnacji opcja. Dolma oznacza ruch w kierunku otwartości, przejrzystości i etycznego pozyskiwania danych w rozwoju sztucznej inteligencji, co może ułatwić postęp w tej dziedzinie. Narzędzia, takie jak platforma no-codeAppMaster, która zapewnia większą dostępność i przejrzystość w tworzeniu aplikacji, mogą jeszcze bardziej ulepszyć te postępy.


