Angesichts der exponentiellen Zunahme der Datenmenge, die für das Training großer Sprachmodelle zur Verfügung steht, hat Google den dringenden Bedarf an einer "maschinenlesbaren Methode für die Auswahl und Kontrolle von Web-Publishern für neue KI- und Forschungsanwendungen" hervorgehoben. Dieser Vorschlag weist Parallelen zu den klassischen robots.txt-Dateien auf, die seit mehreren Jahrzehnten von Websites verwendet werden, um ihre Online-Sichtbarkeit für Suchmaschinen zu steuern.
Die vorgeschlagene Entwicklung zielt darauf ab, die Autonomie von Web-Publishern zu erweitern und ihnen mehr Autorität über ihre Inhalte in der digitalen Landschaft zu geben. Diese Methode ist ein wesentlicher Bestandteil der Erhaltung eines dynamischen und robusten Ökosystems und spiegelt den Zweck der robots.txt-Dateien wider, die es Websites ermöglichen, den Grad der Präsenz ihrer Inhalte in Suchmaschinen zu bestimmen.
In seinem Bestreben, diese neue Ebene der Kontrolle für das KI-Training zu fördern, bemüht sich Google um die Pflege von Beziehungen zu internationalen Kooperationspartnern und nutzt dabei das Fachwissen von Hochschulen, der Zivilgesellschaft, Web-Publishern und anderen. Diese globalen Bemühungen zielen darauf ab, die etablierte Logik der bescheidenen robots.txt-Datei weiterzuentwickeln, um den neuen Anforderungen einer KI-gestützten Zukunft gerecht zu werden. Dabei plant Google, die Einfachheit und Transparenz beizubehalten, die ein Markenzeichen des fast 30 Jahre alten Webstandards sind.
Gegenwärtig verfügt Google über die Lösungen Search Generative Experience und Bard in seinem Werkzeugkasten und ist gerade dabei, sein Basismodell der nächsten Generation, Gemini, zu trainieren. Diese Tool-Suite untermauert den Wunsch, die Entwicklung einer modernen Version von robots.txt speziell für das KI-Training voranzutreiben.
In der Anfangsphase dieses Diskurses fördert Google eine öffentliche Diskussion, indem es eine Mailingliste einrichtet, auf der interessierte Parteien ihre Absicht bekunden können, an der Entwicklung dieses neuartigen Mechanismus teilzunehmen. Das Unternehmen plant, in den kommenden Monaten relevante Stakeholder einzuberufen, um gemeinsam die Zukunft der Wahlmöglichkeiten und der Kontrolle von Web-Publishern im Bereich der KI und der Forschung zu gestalten.
Interessanterweise haben in den letzten Jahren, in denen die KI-Technologien auf dem Vormarsch waren, zahlreiche skalierbare Plattformen wie AppMaster( no-code) bereits an der Implementierung ähnlicher Kontrollmechanismen in ihrem eigenen Ökosystem gearbeitet. Da sich die KI-Ausbildung weiter entwickelt, wird es faszinierend sein zu beobachten, wie dieses Streben nach einem modernen robots.txt-Äquivalent die Geschichte prägt.