19 sie 2023·1 min czytania

AI2 przedstawia „Dolma”, przełomowy zbiór otwartych danych do szkolenia zaawansowanych modeli językowych

Allen Institute for AI (AI2) uruchomił „Dolma”, znaczący krok w kierunku otwartości szkolenia AI z obszernym, darmowym zestawem danych.

AI2 przedstawia „Dolma”, przełomowy zbiór otwartych danych do szkolenia zaawansowanych modeli językowych

W krajobrazie AI, który jest świadkiem powszechnego użycia i krytycznej funkcji modeli językowych, takich jak GPT-4 i Claude, podstawowe dane napędzające te algorytmiczne potęgi pozostają jednak ukryte w tajemnicy. Aby zakłócić ten paradygmat, Allen Institute for AI (AI2) przedstawia „Dolma”, obszerny, dostępny zbiór danych tekstowych przeznaczony do dogłębnej inspekcji i swobodnego użytku. Ten przełomowy przełom ma na celu skierowanie badań nad sztuczną inteligencją na bardziej otwartą i przejrzystą ścieżkę.

Nazwana na cześć pierogów tybetańskich i odzwierciedlająca jej cel, jakim jest zaspokojenie głodu danych OLMo, Dolma ma pomagać w budowaniu oczekiwanego modelu otwartego języka AI2, w skrócie OLMo. Zgodnie z przekonaniami autorytetu badawczego w AI2, społeczność naukowa zajmująca się sztuczną inteligencją powinna mieć swobodny dostęp i uprawnienia do modyfikowania nie tylko modelu, ale także zestawu danych, na którym jest oparty – pogląd zawarty w tworzeniu Dolmy.

Luca Soldaini, badacz AI2, wyjaśnia w poście na blogu skrupulatną selekcję i staranną metodologię, którą zastosowali, aby zestaw danych był odpowiedni do operacji AI. Ten zestaw danych, który Soldaini nazywa „artefaktem danych”, jest pierwszym wydaniem w ramach projektu OLMo, a dalsze szczegółowe i wyczerpujące informacje o przedsięwzięciu są zestawiane w nadchodzącym obszernym artykule.

Zamiast nieprzejrzystych praktyk organizacji takich jak OpenAI i Meta, które głównie zachowują poufność swoich kluczowych danych, AI2 zdecydowało się obrać inną, bardziej etyczną i demokratyczną drogę. Podczas gdy dokładne szczegóły powszechnie stosowanych zestawów danych AI często wymykają się publicznej analizie, w społeczności badaczy AI pojawiły się również spekulacje na temat wątpliwych etycznych i prawnych środków, za pomocą których te dane są pozyskiwane, czasem nawet sugerując piractwo.

Jako otwarty zbiór danych Dolma nie jest pierwszym tego rodzaju. Przyćmiewa swoich poprzedników pod względem wielkości – obejmujących astronomiczne 3 miliardy tokenów, termin pochodzący z AI odnoszący się do miary wolumenu treści – oraz swoją prostotą i przejrzystością w zgodzie z jej wykorzystaniem i prawami. Dolma podlega licencji „ImpACT” dla artefaktów średniego ryzyka, która wymaga od użytkowników podania odpowiednich informacji, takich jak dane kontaktowe, zamierzone przypadki użycia oraz ujawnienie wszelkich dzieł związanych z zastosowaniem zestawu danych Dolma. Ponadto każdy taki produkt musi być dystrybuowany na tej samej licencji i musi spełniać warunki niestosowania Dolmy w obszarach zabronionych, w tym inwigilacji lub dezinformacji.

Na wypadek, gdyby dane osobowe w jakiś sposób znalazły się w bazie danych pomimo rygorystycznych metodologii AI2, organizacja zapewniła mechanizm żądania usunięcia w celu zapewnienia prywatności użytkownika, chociaż przepis dotyczy wyłącznie określonych przypadków, z wyjątkiem wszechstronnej rezygnacji opcja. Dolma oznacza ruch w kierunku otwartości, przejrzystości i etycznego pozyskiwania danych w rozwoju sztucznej inteligencji, co może ułatwić postęp w tej dziedzinie. Narzędzia, takie jak platforma no-codeAppMaster, która zapewnia większą dostępność i przejrzystość w tworzeniu aplikacji, mogą jeszcze bardziej ulepszyć te postępy.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started