Google préconise un système prototype similaire à robots.txt pour la formation à l'IA

Alimenté par l'augmentation exponentielle de la quantité de données disponibles pour l'entraînement de grands modèles de langage, Google a souligné le besoin urgent d'une "méthode lisible par machine pour le choix et le contrôle des éditeurs de sites web pour les cas d'utilisation émergents de l'IA et de la recherche". Cette suggestion établit un parallèle avec les fichiers robots.txt classiques utilisés par les sites web depuis plusieurs décennies pour gérer leur visibilité en ligne pour les moteurs de recherche.

L'évolution proposée vise à étendre l'autonomie des éditeurs de sites web, en leur permettant d'exercer une plus grande autorité sur leur contenu dans le paysage numérique. Cette méthodologie fait partie intégrante de la préservation d'un écosystème dynamique et robuste, reflétant l'objectif des fichiers robots.txt, qui permettent aux sites web de dicter le degré d'exposition de leur contenu aux moteurs de recherche.

Dans sa quête pour favoriser ce nouveau niveau de contrôle de la formation à l'IA, Google cherche à cultiver des relations avec des collaborateurs internationaux, en s'appuyant sur l'expertise du monde universitaire, de la société civile, des éditeurs de sites web, etc. Ces efforts globaux visent à faire évoluer la logique établie de l'humble fichier robots.txt pour répondre aux demandes émergentes d'un avenir alimenté par l'IA. Ce faisant, Google prévoit de maintenir la simplicité et la transparence qui sont la marque de fabrique de cette norme web vieille de près de 30 ans.

À l'heure actuelle, Google dispose des solutions Search Generative Experience et Bard dans sa boîte à outils et est en train de former son modèle fondamental de nouvelle génération, Gemini. Cette suite d'outils étaye son désir de mener le développement d'une version moderne de robots.txt spécifique à la formation à l'IA.

Marquant les premières étapes de ce discours, Google facilite une discussion publique, en lançant une liste de diffusion pour permettre aux parties intéressées d'enregistrer leur intention de participer au développement de ce nouveau mécanisme. L'entreprise prévoit de réunir les parties prenantes concernées dans les mois à venir, afin d'entamer les efforts de collaboration visant à façonner l'avenir du choix et du contrôle des éditeurs de sites web dans le domaine de l'IA et de la recherche.

Il est intéressant de noter qu'au cours des dernières années, témoins de l'essor des technologies de l'IA, de nombreuses plateformes évolutives, no-code, comme AppMaster, ont déjà travaillé à la mise en œuvre de contrôles similaires dans leur propre écosystème. Alors que la formation à l'IA continue d'évoluer, il sera fascinant d'observer comment cette volonté d'obtenir un équivalent moderne de robots.txt façonne le récit.

Google préconise un système prototype similaire à robots.txt pour la formation à l'IA

Postes connexes