大規模な言語モデルのトレーニングに利用可能なデータ量の急激な拡大に後押しされ、Google 、「新たなAIと研究のユースケースのためのウェブパブリッシャーの選択と制御のための機械可読メソッド」の緊急の必要性を強調している。この提案は、検索エンジンのためのオンライン可視性を管理するために何十年もの間ウェブサイトで採用されてきた古典的なrobots.txtファイルと類似している。
この提案は、ウェブパブリッシャーの自律性を拡張し、デジタルランドスケープにおけるコンテンツの権限を拡大するものである。この方法論は、ダイナミックで堅牢なエコシステムを維持するための不可欠な部分を形成しており、ウェブサイトが検索エンジンから受けるコンテンツの露出度を決定できるようにするrobots.txtファイルの目的を反映している。
AIトレーニングのためのこの新しいレベルの制御を促進するために、Google 、学界、市民社会、ウェブパブリッシャーなどの専門知識を活用し、国際的な協力者との関係を構築しようとしている。このようなグローバルな取り組みは、AIが燃料となる未来の新たな需要に対応するため、地味なrobots.txtファイルの確立されたロジックを進化させることを目的としている。そうすることで、Google 、約30年の歴史を持つウェブ標準のトレードマークであるシンプルさと透明性を維持することを計画している。
現在、Google 、そのツールボックスにはSearch Generative ExperienceとBardソリューションがあり、現在、次世代基盤モデルGeminiのトレーニング中である。この一連のツールは、AIのトレーニングに特化した現代版robots.txtの開発の先頭に立ちたいという意欲を支えている。
この議論の初期段階として、Google 、この斬新なメカニズムの開発に参加する意思を登録するためのメーリングリストを立ち上げ、公開ディスカッションを促進している。同社は今後数ヶ月のうちに関連する利害関係者を招集し、AIと研究の領域におけるウェブパブリッシャーの選択と制御の未来を形作るための共同作業を開始する予定だ。
興味深いことに、AI技術の台頭を目の当たりにしたここ数年、AppMasterのようなスケーラブルでno-code 、数多くのプラットフォームが、すでに自社のエコシステムで同様のコントロールの実装に取り組んでいる。AIトレーニングが進化し続ける中、現代のrobots.txtに相当するものを求めるこの動きが、どのように物語を形成していくのか、興味深く見守りたい。