AI2 lança 'Dolma', um conjunto de dados aberto inovador para treinamento de modelos avançados de linguagem
O Allen Institute for AI (AI2) lançou o 'Dolma', um passo significativo em direção à abertura do treinamento de IA com um conjunto de dados amplo e gratuito.

Com o cenário de IA testemunhando o uso generalizado e a função crítica de modelos de linguagem como GPT-4 e Claude, os dados primários que alimentam essas potências algorítmicas, no entanto, permanecem velados em segredo. Em um movimento definido para interromper esse paradigma, o Allen Institute for AI (AI2) apresenta 'Dolma', um conjunto de dados de texto expansivo e acessível destinado a inspeção aprofundada e uso gratuito. Este avanço crítico visa direcionar a pesquisa de IA para um caminho mais aberto e transparente.
Apelidado em homenagem aos bolinhos tibetanos e refletindo seu propósito de satisfazer a fome de dados do OLMo, o Dolma foi projetado para ajudar na construção do modelo de linguagem aberta antecipado do AI2, abreviado como OLMo. De acordo com as crenças da autoridade de pesquisa do AI2, a comunidade de pesquisa de IA deve ter livre acesso e autoridade para modificar não apenas o modelo, mas também o conjunto de dados no qual ele se baseia - uma visão incorporada na criação do Dolma.
Luca Soldaini, pesquisador de AI2, elucida em um post de blog a seleção meticulosa e a metodologia cuidadosa que eles incorporaram para tornar o conjunto de dados adequado para operações de IA. Este conjunto de dados, ao qual Soldaini se refere como um 'artefato de dados', é o lançamento inicial de acordo com o projeto OLMo, e mais informações detalhadas e exaustivas sobre o empreendimento estão sendo reunidas em um documento abrangente a ser publicado.
Em vez das práticas pouco transparentes de organizações como OpenAI e Meta, que mantêm principalmente suas principais informações de conjuntos de dados proprietárias, a AI2 decidiu seguir um caminho diferente, e pode-se argumentar, mais ético e democrático. Embora os detalhes precisos dos conjuntos de dados de IA comumente empregados muitas vezes escapem ao escrutínio público, também houve especulação na comunidade de pesquisa de IA sobre os meios éticos e legais questionáveis pelos quais esses dados são obtidos, às vezes até sugerindo pirataria.
Como um conjunto de dados aberto, Dolma está longe de ser o primeiro de seu tipo. Ele eclipsa seus antecessores em tamanho – abrangendo astronômicos 3 bilhões de tokens, termo nativo da IA que se refere à medida de volume de conteúdo – e em sua simplicidade e clareza com o acordo sobre seu uso e direitos. Dolma é regido pela licença 'ImpACT' para artefatos de médio risco, que exige que os usuários forneçam detalhes pertinentes, como informações de contato, seus casos de uso pretendidos e a divulgação de qualquer criação envolvendo a aplicação do conjunto de dados Dolma. Além disso, qualquer produto precisa ser distribuído sob a mesma licença e deve cumprir os termos de não aplicação de Dolma em campos proibidos, incluindo vigilância ou desinformação.
Na chance remota de que informações pessoais de alguma forma cheguem ao banco de dados, apesar das metodologias rigorosas do AI2, a organização forneceu um mecanismo de solicitação de remoção para garantir a privacidade do usuário, embora a provisão seja estritamente para instâncias específicas, impedindo uma desativação abrangente. opção. Dolma significa um movimento em direção à abertura, transparência e fornecimento ético de dados no desenvolvimento de IA, o que pode facilitar avanços neste domínio. Ferramentas como a plataforma no-code do AppMaster, que também suporta maior acessibilidade e transparência no desenvolvimento de aplicativos, podem aprimorar ainda mais esses avanços.


