Google anunció anoche que está buscando desarrollar un protocolo complementario al protocolo robots.txt de 30 años. Esto se debe a todas las nuevas tecnologías generativas de IA que Google y otras empresas están lanzando.
Este anuncio llega poco después de las noticias sobre Open AI accediendo a contenido de pago para su servicio ChatGPT. Pero sé que a muchos de ustedes no les sorprende que Google y otros estén explorando alternativas a robots.txt con toda esta tecnología generativa de inteligencia artificial flotando en la web.
Nada está cambiando hoy, todo lo que Google anunció fue que en los «próximos meses» mantendrán discusiones con la «comunidad» para generar nuevas ideas para una nueva solución.
Google escribió: «Hoy, estamos iniciando una discusión pública, invitando a miembros de la web y las comunidades de IA a opinar sobre los enfoques de los protocolos complementarios. Nos gustaría una amplia gama de voces de todos los editores web, la sociedad civil, la academia y más campos de todo el mundo para unirse a la discusión, y convocaremos a los interesados en participar en los próximos meses».
Google agregó que cree que «es hora de que la web y las comunidades de inteligencia artificial exploren medios legibles por máquina adicionales para la elección y el control del editor web para casos de uso de investigación e inteligencia artificial emergentes».
Lo que todo esto significa en este momento es que no lo sé. Pero aquí hay algunas respuestas a mi tweet al respecto:
¿Qué tal permitir expresiones regulares en robots.txt? Apuesto a que eso resolvería el 75% de los desafíos de la directiva de rastreo con los que se encuentran los SEO.
—Eric Heiken (@EricHeiken) 6 de julio de 2023
Creo que funciona bien, aunque tal vez después de 30 años debería convertirse en robots.xml o algo así, ya que se han agregado muchas cosas, y el archivo estructurado podría ser más propenso a errores accidentales.
— Miloš Mileusnić (@mileusna) 6 de julio de 2023
“Ahora que ya hemos capacitado a nuestros LLM en todo su contenido patentado y protegido por derechos de autor, finalmente comenzaremos a pensar en brindarle una forma de optar por no utilizar ninguno de sus contenidos futuros para enriquecernos”. https://t.co/dda8hHQPfq
— Barry Adams 📰 (@badams) 6 de julio de 2023
Gary Illyes de Google, que trabajó en este protocolo a lo largo de los años, escribió en LinkedIn: «Es hora. Hace casi 30 años nació robots.txt y sirvió bien a Internet todo este tiempo. Con las tecnologías emergentes de IA, necesitamos complementarlo con nuevas instrucciones (reglas) que fueron diseñadas específicamente para aplicaciones de IA».
Y John Müller:
Estoy emocionado de ver que esto suceda. https://t.co/UTdmeCVwhl
— John Mueller (oficial) · No #30D (@JohnMu) 6 de julio de 2023
Hoy, estamos iniciando una discusión pública para explorar un medio legible por máquina para la elección y el control del editor web para casos de uso de investigación e inteligencia artificial emergentes. Obtenga más información sobre este esfuerzo, incluido cómo unirse a la discusión registrándose: https://t.co/iF9WNyhN3O
— Google SearchLiaison (@searchliaison) 6 de julio de 2023
Si quieres participar, rellena este formulario.
¿Alguno de ustedes tiene alguna idea?
Discusión del foro en Gorjeo.