2023년 8월 19일·1분 읽기

AI2, 고급 언어 모델 훈련을 위한 획기적인 공개 데이터세트 'Dolma' 공개

Allen Institute for AI(AI2)는 광범위하고 무료로 사용할 수 있는 데이터 세트를 통해 AI 교육의 개방성을 향한 중요한 단계인 'Dolma'를 출시했습니다.

그러나 GPT-4 및 Claude와 같은 언어 모델의 광범위한 사용과 중요한 기능을 목격하는 AI 환경에서 이러한 알고리즘 강국에 연료를 공급하는 기본 데이터는 비밀에 가려져 있습니다. 이 패러다임을 방해하기 위한 움직임으로 Allen Institute for AI(AI2)는 심층 검사 및 무료 사용을 위한 광범위하고 액세스 가능한 텍스트 데이터 세트인 'Dolma'를 제공합니다. 이 중요한 혁신은 AI 연구를 보다 개방적이고 투명한 경로로 이끄는 것을 목표로 합니다.

티베트 만두의 이름을 따서 명명된 Dolma는 OLMo의 데이터에 대한 갈망을 충족시키려는 목적을 반영하여 AI2의 예상 개방형 언어 모델(OLMo로 축약됨)을 구축하는 데 도움이 되도록 설계되었습니다. AI2의 연구 기관의 신념에 따르면 AI 연구 커뮤니티는 모델뿐만 아니라 모델이 기반으로 하는 데이터 세트에 대한 자유로운 액세스와 수정 권한을 가져야 합니다. Dolma 생성에 구체화된 관점입니다.

AI2 연구원인 Luca Soldaini는 블로그 게시물에서 AI 작업에 적합한 데이터 세트를 렌더링하기 위해 통합한 세심한 선택과 신중한 방법론을 설명합니다. Soldaini가 '데이터 아티팩트'라고 부르는 이 데이터 세트는 OLMo 프로젝트에 따른 초기 릴리스이며, 작업에 대한 보다 상세하고 철저한 정보는 곧 나올 종합 문서에서 수집되고 있습니다.

주로 핵심 데이터 세트 정보를 독점적으로 유지하는 OpenAI 및 Meta와 같은 조직의 투명하지 않은 관행 대신 AI2는 좀 더 윤리적이고 민주적인 경로를 취하기로 결정했습니다. 일반적으로 사용되는 AI 데이터 세트의 정확한 세부 정보는 공개 조사를 피하는 경우가 많지만, AI 연구 커뮤니티에서는 이 데이터를 얻는 데 사용되는 의심스러운 윤리적 및 법적 수단에 대한 추측이 있으며 때로는 불법 복제를 암시하기도 합니다.

개방형 데이터 세트인 Dolma는 최초가 아닙니다. 천문학적인 30억 개의 토큰, 콘텐츠 양의 척도를 나타내는 AI 고유의 용어를 포함하는 크기와 사용 및 권리에 대한 계약의 단순성과 명확성에서 이전 제품을 능가합니다. Dolma는 중간 위험 아티팩트에 대한 'ImpACT' 라이선스에 따라 관리되며, 사용자는 연락처 정보, 의도된 사용 사례 및 Dolma 데이터 세트의 적용과 관련된 생성 공개와 같은 관련 세부 정보를 제공해야 합니다. 또한 그러한 제품은 동일한 라이선스로 배포되어야 하며 감시 또는 허위 정보를 포함하여 금지된 분야에 Dolma를 적용하지 않는다는 조건을 준수해야 합니다.

AI2의 엄격한 방법론에도 불구하고 개인 정보가 어떻게든 데이터베이스에 들어갈 가능성이 있는 경우 조직은 사용자 개인 정보를 보장하기 위해 제거 요청 메커니즘을 제공했습니다. 옵션. Dolma는 AI 개발에서 개방성, 투명성 및 윤리적 데이터 소싱을 향한 움직임을 의미하며, 이는 이 영역의 발전을 촉진할 수 있습니다. 앱 개발에서 더 큰 접근성과 투명성을 지원하는 AppMaster 의 no-code 플랫폼과 같은 도구는 이러한 발전을 더욱 향상시킬 수 있습니다.

Easy to start

Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started

관련 뉴스