19 ago 2023·1 min de lectura

AI2 presenta 'Dolma', un innovador conjunto de datos abiertos para entrenar modelos de lenguaje avanzado

El Instituto Allen para la IA (AI2) ha lanzado 'Dolma', un paso significativo hacia la apertura de la capacitación en IA con un conjunto de datos expansivo y de uso gratuito.

AI2 presenta 'Dolma', un innovador conjunto de datos abiertos para entrenar modelos de lenguaje avanzado

Con el panorama de la IA presenciando el uso generalizado y la función crítica de los modelos de lenguaje como GPT-4 y Claude, los datos principales que alimentan estas potencias algorítmicas, sin embargo, permanecen velados en secreto. En un movimiento destinado a interrumpir este paradigma, el Instituto Allen para la IA (AI2) presenta 'Dolma', un conjunto de datos de texto accesible y expansivo destinado a la inspección en profundidad y al uso gratuito. Este avance crítico tiene como objetivo orientar la investigación de la IA hacia un camino más abierto y transparente.

Apodado en honor a las albóndigas tibetanas y reflejando su propósito de satisfacer el hambre de datos de OLMo, Dolma está diseñado para ayudar en la construcción del modelo de lenguaje abierto anticipado de AI2, abreviado como OLMo. De acuerdo con las creencias de la autoridad de investigación en AI2, la comunidad de investigación de IA debe tener libre acceso y autoridad para modificar no solo el modelo, sino también el conjunto de datos en el que se basa, una visión incorporada en la creación de Dolma.

Luca Soldaini, investigador de AI2, aclara en una publicación de blog la meticulosa selección y la cuidadosa metodología que incorporaron para hacer que el conjunto de datos sea adecuado para las operaciones de IA. Este conjunto de datos, al que Soldaini se refiere como un "artefacto de datos", es el lanzamiento inicial de conformidad con el proyecto OLMo, y se recopilará información más detallada y exhaustiva sobre la empresa en un próximo documento completo.

En lugar de las prácticas menos que transparentes de organizaciones como OpenAI y Meta, que principalmente mantienen la propiedad de la información de su conjunto de datos clave, AI2 decidió tomar una ruta diferente, y se podría argumentar, más ética y democrática. Si bien los detalles precisos de los conjuntos de datos de IA comúnmente empleados a menudo evaden el escrutinio público, también ha habido especulaciones en la comunidad de investigación de IA sobre los medios éticos y legales cuestionables a través de los cuales se obtienen estos datos, a veces incluso sugiriendo piratería.

Como conjunto de datos abierto, Dolma está lejos de ser el primero de su tipo. Eclipsa a sus predecesores en tamaño, que abarca unos astronómicos 3 mil millones de tokens, un término nativo de IA que se refiere a la medida del volumen de contenido, y en su simplicidad y claridad con el acuerdo sobre su uso y derechos. Dolma se rige por la licencia 'ImpACT' para artefactos de riesgo medio, que requiere que los usuarios proporcionen detalles pertinentes, como información de contacto, los casos de uso previstos y la divulgación de cualquier creación que involucre la aplicación del conjunto de datos de Dolma. Además, cualquier producto de este tipo debe distribuirse bajo la misma licencia y debe cumplir con los términos de no aplicar Dolma en campos prohibidos, incluida la vigilancia o la desinformación.

En caso de que la información personal de alguna manera llegue a la base de datos a pesar de las rigurosas metodologías de AI2, la organización ha proporcionado un mecanismo de solicitud de eliminación para garantizar la privacidad del usuario, aunque la provisión es estrictamente para instancias específicas, salvo una opción de exclusión total. opción. Dolma significa un movimiento hacia la apertura, la transparencia y el abastecimiento de datos éticos en el desarrollo de IA, lo que puede facilitar los avances en este dominio. Herramientas como la plataforma no-code de AppMaster, que también admite una mayor accesibilidad y transparencia en el desarrollo de aplicaciones, pueden mejorar aún más estos avances.

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started