2023年8月19日·1分で読めます

AI2 が高度な言語モデルをトレーニングするための画期的なオープン データセット「Dolma」を発表

アレン AI 研究所 (AI2) は、無料で使用できる広大なデータセットを使用した AI トレーニングのオープン化に向けた重要な一歩となる「Dolma」を開始しました。

AI2 が高度な言語モデルをトレーニングするための画期的なオープン データセット「Dolma」を発表

AI の世界では、GPT-4 や Claude などの言語モデルの広範な使用と重要な機能が目の当たりにしていますが、これらのアルゴリズムの強力な力を支える主要なデータは秘密のベールに包まれたままです。このパラダイムを破壊する動きとして、アレン AI 研究所 (AI2) は、詳細な検査と自由な使用を目的とした、広大でアクセス可能なテキスト データセットである「Dolma」を提案します。この重要なブレークスルーは、AI 研究をよりオープンで透明性のある方向に導くことを目的としています。

チベット餃子にちなんで名付けられた Dolma は、OLMo のデータへの渇望を満たすという目的を反映しており、AI2 の予想されるオープン言語モデル (OLMo と略称) の構築を支援するように設計されています。 AI2 の研究権威の信念によれば、AI 研究コミュニティはモデルだけでなくモデルの基礎となるデータセットにも自由にアクセスし、変更する権限を持つべきであり、これは Dolma の作成に具体化された見解です。

AI2 研究者の Luca Soldaini は、ブログ投稿で、データセットを AI 操作に適したものにするために組み込まれた細心の注意を払った選択と慎重な方法論を説明しています。ソルダイニ氏が「データ成果物」と呼ぶこのデータセットは、OLMo プロジェクトに基づく最初のリリースであり、この取り組みに関するさらに詳細で網羅的な情報は、近々出版される包括的な論文にまとめられる予定です。

主に主要なデータセット情報を機密扱いにする OpenAI や Meta のような組織の不透明な慣行の代わりに、AI2 は別の、より倫理的で民主的なルートを取ることを決定しました。一般的に使用されている AI データセットの正確な詳細は一般の監視を逃れることが多い一方で、AI 研究コミュニティでは、このデータを取得する際の倫理的および法的手段に疑問があり、場合によっては著作権侵害を示唆する憶測も流れています。

オープンなデータセットとして、Dolma はこの種の最初のものではありません。これは、コンテンツ量の尺度を指す AI 固有の用語である天文学的な 30 億トークンを含む規模と、その使用と権利に関する合意の単純さと明確さにおいて、前任者を上回っています。 Dolma は、中リスクのアーティファクトに対する「ImpACT」ライセンスに基づいて管理されており、ユーザーは連絡先情報、使用目的、Dolma データセットのアプリケーションに関連する作成物の開示などの関連詳細を提供する必要があります。さらに、そのような製品は同じライセンスに基づいて配布する必要があり、監視や偽情報などの禁止分野に Dolma を適用しないという条件に従わなければなりません。

AI2 の厳格な方法論にも関わらず、万が一個人情報が何らかの形でデータベースに侵入した場合に備えて、組織はユーザーのプライバシーを確​​保するために削除リクエストのメカニズムを提供していますが、この規定は包括的なオプトアウトを除き、厳密に特定の場合にのみ適用されます。オプション。 Dolma は、AI 開発におけるオープン性、透明性、倫理的なデータ ソーシングへの移行を意味しており、これによりこの分野の進歩が促進されます。 AppMasterのno-codeプラットフォームのようなツールは、アプリ開発におけるアクセシビリティと透明性の向上もサポートしており、これらの進歩をさらに強化できます。

Easy to start
Create something amazing

Experiment with AppMaster with free plan.
When you will be ready you can choose the proper subscription.

Get Started