Google aboga por un sistema prototípico similar a robots.txt para el entrenamiento de la IA

Impulsado por la expansión exponencial de la cantidad de datos disponibles para el entrenamiento de grandes modelos lingüísticos, Google ha destacado la urgente necesidad de un "método legible por máquina para la elección y el control de los editores web para los casos de uso emergentes de IA e investigación". Esta sugerencia establece un paralelismo con los clásicos archivos robots.txt que llevan varias décadas empleando los sitios web para gestionar su visibilidad en línea de cara a los motores de búsqueda.

El desarrollo propuesto pretende ampliar la autonomía de los editores web, permitiéndoles una mayor autoridad sobre sus contenidos en el panorama digital. Esta metodología forma parte integral de la preservación de un ecosistema dinámico y robusto, reflejando el propósito de los archivos robots.txt, que permiten a los sitios web dictar el grado de exposición que su contenido recibe de los motores de búsqueda.

En su afán por fomentar este nuevo nivel de control para el entrenamiento de la IA, Google está tratando de cultivar relaciones con colaboradores internacionales, aprovechando la experiencia del mundo académico, la sociedad civil y los editores web, entre otros. Estos esfuerzos globales pretenden hacer evolucionar la lógica establecida del humilde archivo robots.txt para satisfacer las demandas emergentes de un futuro alimentado por la IA. Con ello, Google pretende mantener la sencillez y transparencia que han caracterizado a esta norma web de casi 30 años de antigüedad.

En la actualidad, Google cuenta con las soluciones Search Generative Experience y Bard en su caja de herramientas y está en proceso de formación de su modelo fundacional de próxima generación, Gemini. Este conjunto de herramientas sustenta su deseo de encabezar el desarrollo de una versión moderna de robots.txt específica para la formación de IA.

En las etapas iniciales de este discurso, Google está facilitando un debate público, lanzando una lista de correo para permitir a las partes interesadas registrar su intención de participar en el desarrollo de este novedoso mecanismo. La empresa tiene previsto convocar a las partes interesadas en los próximos meses, iniciando los esfuerzos de colaboración para dar forma al futuro de la elección y el control de los editores web en el ámbito de la IA y la investigación.

Curiosamente, en los últimos años, testigos del auge de las tecnologías de IA, numerosas plataformas escalables, no-code como AppMaster, ya han trabajado en la implantación de controles similares en su propio ecosistema. A medida que la formación en IA siga evolucionando, será fascinante observar cómo este impulso hacia un equivalente moderno de robots.txt da forma a la narrativa.

Google aboga por un sistema prototípico similar a robots.txt para el entrenamiento de la IA

Entradas relacionadas