在可用于训练大型语言模型的数据量的指数式扩张的推动下,Google ,强调迫切需要一种 "机器可读的方法,用于网络发布者的选择和控制,以适应新兴的人工智能和研究用例。这个建议与经典的robots.txt文件有相似之处,这些文件已经被网站使用了几十年,以管理他们在搜索引擎上的可见度。
这项拟议的发展旨在扩大网络出版商的自主权,允许他们在数字环境中对其内容拥有更多的权力。这种方法构成了维护一个动态和强大的生态系统的一个组成部分,反映了robots.txt文件的目的,它使网站能够决定其内容从搜索引擎获得的曝光程度。
在寻求促进这种新的人工智能培训控制水平的过程中,Google 正在寻求培养与国际合作者的关系,借鉴学术界、民间社会、网络出版商等方面的专业知识。这些全球努力的目的是要发展卑微的robots.txt文件的既定逻辑,以满足人工智能驱动的未来的新兴需求。在这样做的过程中,Google ,计划坚持简单和透明,这一直是这个有近30年历史的网络标准的一个标志。
目前,Google 在其工具箱中拥有搜索生成经验和巴德解决方案,目前正在培训其下一代基础模型--双子座。这套工具支持其率先开发专门用于人工智能培训的现代版robots.txt的愿望。
标志着这一讨论的初始阶段,Google ,正在促进公开讨论,启动一个邮件列表,允许感兴趣的各方注册他们的意图,以参与这个新机制的发展。该公司计划在未来几个月内召集相关的利益相关者,开始在人工智能和研究领域塑造网络发布者选择和控制的未来的合作努力。
有趣的是,在过去的几年里,见证了人工智能技术的崛起,众多可扩展的、no-code 平台,如AppMaster,已经致力于在自己的生态系统中实施类似的控制。随着人工智能培训的不断发展,观察这种对现代robots.txt等价物的驱动力是如何形成叙述的,将是非常吸引人的。