AI2 представляет Dolma, новаторский открытый набор данных для обучения продвинутым языковым моделям
Институт Аллена по искусственному интеллекту (AI2) запустил «Dolma», важный шаг на пути к открытости обучения искусственному интеллекту с обширным бесплатным набором данных.

Однако в среде ИИ, где широко используются и критически важны такие языковые модели, как GPT-4 и Claude, первичные данные, питающие эти мощные алгоритмы, остаются скрытыми. Чтобы разрушить эту парадигму, Алленовский институт искусственного интеллекта (AI2) представляет «Dolma», обширный доступный набор текстовых данных, предназначенный для углубленного изучения и бесплатного использования. Этот важный прорыв направлен на то, чтобы направить исследования ИИ на более открытый и прозрачный путь.
Dolma, названная в честь тибетских пельменей и отражающая ее цель — удовлетворить потребность OLMo в данных, призвана помочь в создании ожидаемой модели открытого языка AI2, сокращенно OLMo. Согласно убеждению исследовательского центра AI2, исследовательское сообщество ИИ должно иметь свободный доступ и право изменять не только модель, но и набор данных, на котором она основана — точка зрения, воплощенная в создании Dolma.
Лука Солдайни, исследователь AI2, объясняет в своем блоге тщательный отбор и тщательную методологию, которую они использовали, чтобы сделать набор данных пригодным для операций ИИ. Этот набор данных, который Солдайни называет «артефактом данных», является первоначальным выпуском в рамках проекта OLMo, и дальнейшая подробная и исчерпывающая информация об этом предприятии будет собрана в готовящемся всеобъемлющем документе.
Вместо менее чем прозрачных практик таких организаций, как OpenAI и Meta, которые в основном сохраняют конфиденциальность своей ключевой информации о наборах данных, AI2 решил пойти другим, и, можно сказать, более этичным и демократичным путем. Хотя точные детали обычно используемых наборов данных ИИ часто ускользают от внимания общественности, в сообществе исследователей ИИ также высказывались предположения о сомнительных этических и юридических средствах, с помощью которых эти данные были получены, иногда даже предполагая пиратство.
Как открытый набор данных, Dolma далеко не первый в своем роде. Он затмевает своих предшественников по размеру, охватывающему астрономические 3 миллиарда токенов, термин, свойственный ИИ, относящийся к мере объема контента, а также по своей простоте и ясности с соглашением о его использовании и правах. Dolma регулируется лицензией ImpACT для артефактов со средним уровнем риска, которая требует от пользователей предоставления соответствующей информации, такой как контактная информация, их предполагаемые варианты использования и раскрытие любого создания, связанного с применением набора данных Dolma. Более того, любой такой продукт должен распространяться по той же лицензии и должен соответствовать условиям неприменения Долмы в запрещенных областях, включая слежку или дезинформацию.
На случай, если личная информация каким-то образом попадет в базу данных, несмотря на строгие методологии AI2, организация предоставила механизм запроса на удаление для обеспечения конфиденциальности пользователя, хотя это положение предназначено строго для определенных случаев, исключая всеобъемлющий отказ. вариант. Dolma означает движение к открытости, прозрачности и этичному поиску данных при разработке ИИ, что может способствовать прогрессу в этой области. Такие инструменты, как платформа no-codeAppMaster, которая также поддерживает большую доступность и прозрачность в разработке приложений, могут еще больше улучшить эти достижения.


