AI2 推出“Dolma”,这是一个用于训练高级语言模型的突破性开放数据集
艾伦人工智能研究所 (AI2) 推出了“Dolma”,这是通过广泛、免费使用的数据集向人工智能培训开放性迈出的重要一步。

随着人工智能领域见证了 GPT-4 和 Claude 等语言模型的广泛使用和关键功能,然而,为这些算法动力源提供动力的主要数据仍然处于保密状态。为了打破这种范式,艾伦人工智能研究所 (AI2) 推出了“Dolma”,这是一个广泛的、可访问的文本数据集,旨在进行深入检查和免费使用。这一重大突破旨在引导人工智能研究走向更加开放和透明的道路。
卓玛以西藏饺子命名,反映了其满足 OLMo 对数据渴求的目的,旨在帮助构建 AI2 预期的开放语言模型(缩写为 OLMo)。根据 AI2 研究权威的信念,人工智能研究社区不仅应该有权自由访问和修改模型,还应该有权修改其所基于的数据集——这一观点体现在卓玛的创建中。
AI2 研究人员 Luca Soldaini 在一篇博客文章中阐述了他们为呈现适合 AI 操作的数据集而采用的精心选择和谨慎方法。 Soldaini 将这个数据集称为“数据工件”,是根据 OLMo 项目首次发布的数据集,有关该项目的进一步详细和详尽的信息正在即将发表的综合论文中进行整理。
AI2 没有像 OpenAI 和 Meta 这样的组织采取不太透明的做法,主要保留其关键数据集信息的专有性,而是决定采取不同的(有人可能会说)更道德和民主的路线。虽然常用人工智能数据集的精确细节往往逃避公众监督,但人工智能研究界也有人猜测这些数据的获取方式是否存在可疑的道德和法律手段,有时甚至暗示盗版。
作为一个开放数据集,卓玛远不是同类中的第一个。它在规模上(包含 30 亿个天文数字的代币,这是人工智能的一个术语,指的是内容量的衡量标准)以及其使用和权利协议的简单性和清晰度上都超越了它的前辈。 Dolma 受中等风险工件的“ImpACT”许可证管辖,该许可证要求用户提供相关详细信息,例如联系信息、其预期用例以及涉及 Dolma 数据集应用的任何创作的披露。此外,任何此类产品都需要在同一许可证下分发,并且必须遵守不在禁止领域(包括监视或虚假信息)应用卓玛的条款。
尽管 AI2 采用严格的方法,但如果个人信息以某种方式进入数据库,该组织提供了删除请求机制来确保用户隐私,尽管该规定严格针对特定情况,禁止全面选择退出选项。卓玛标志着人工智能开发中向开放、透明和道德数据源迈进,这可以促进该领域的进步。 AppMaster的no-code平台等工具还支持应用程序开发的更高可访问性和透明度,可以进一步增强这些进步。


