La mayoría de los principales editores de noticias bloquean los robots de recuperación y entrenamiento de IA

La mayoría de los principales editores de noticias bloquean los robots de entrenamiento de IA a través de robots.txt, pero también bloquean los robots de recuperación que determinan si los sitios aparecen en las respuestas generadas por IA.

BuzzStream analizó los archivos robots.txt de 100 sitios de noticias importantes en EE. UU. y el Reino Unido y encontró 79% bloquear al menos un robot de entrenamiento. Más notablemente, 71% También bloquee al menos un robot de recuperación o de búsqueda en vivo.

Los robots de capacitación recopilan contenido para crear modelos de inteligencia artificial, mientras que los robots de recuperación obtienen contenido en tiempo real cuando los usuarios hacen preguntas. Es posible que los sitios que bloquean los robots de recuperación no aparezcan cuando las herramientas de inteligencia artificial intentan citar fuentes, incluso si el modelo subyacente fue entrenado en su contenido.

Lo que muestran los datos

BuzzStream examinó los 50 sitios de noticias principales en cada mercado según la participación de tráfico de SimilarWeb y luego deduplicó la lista. El estudio agrupó los bots en tres categorías: entrenamiento, recuperación/búsqueda en vivo e indexación.

Bloques de robots de entrenamiento

Entre los robots de entrenamiento, CCBot de Common Crawl fue el bloqueado con mayor frecuencia con un 75 %, seguido de Anthropic-ai con un 72 %, ClaudeBot con un 69 % y GPTBot con un 62 %.

Google-Extended, que entrena a Gemini, fue el robot de entrenamiento menos bloqueado con un 46% en general. Los editores estadounidenses lo bloquearon en un 58%, casi el doble de la tasa del 29% entre los editores del Reino Unido.

Harry Clarkson-Bennett, director de SEO de The Telegraph, dijo a BuzzStream:

«Los editores están bloqueando los robots de IA que utilizan robots.txt porque casi no hay intercambio de valor. Los LLM no están diseñados para enviar tráfico de referencia y los editores (¡todavía!) necesitan tráfico para sobrevivir».

Bloques de bots de recuperación

El estudio encontró que el 71% de los sitios bloquean al menos un robot de recuperación o de búsqueda en vivo.

Claude-Web fue bloqueado por el 66% de los sitios, mientras que OAI-SearchBot de OpenAI, que impulsa la búsqueda en vivo de ChatGPT, fue bloqueado por el 49%. El usuario de ChatGPT fue bloqueado en un 40%.

Perplexity-User, que maneja las solicitudes de recuperación iniciadas por los usuarios, fue el menos bloqueado con un 17%.

Bloques de indexación

PerplexityBot, que Perplexity utiliza para indexar páginas para su corpus de búsqueda, fue bloqueado por el 67% de los sitios.

Sólo el 14% de los sitios bloquearon todos los robots de IA rastreados en el estudio, mientras que el 18% no bloqueó ninguno.

La brecha en la aplicación de la ley

El estudio reconoce que robots.txt es una directiva, no una barrera, y los bots pueden ignorarlo.

Cubrimos esta brecha en la aplicación de la ley cuando Gary Illyes de Google confirmó que el archivo robots.txt no puede impedir el acceso no autorizado. Funciona más como un letrero de «no entrar» que como una puerta cerrada.

Clarkson-Bennett planteó el mismo punto en el informe de BuzzStream:

«El archivo robots.txt es una directiva. Es como un letrero que dice por favor manténgase alejado, pero no detiene a un robot desobediente o malicioso. Muchos de ellos ignoran flagrantemente estas directivas».

Cloudflare documentó que Perplexity utilizó un comportamiento de rastreo sigiloso para evitar las restricciones de robots.txt. La empresa rotó direcciones IP, cambió ASN y falsificó su agente de usuario para que apareciera como un navegador.

Cloudflare eliminó a Perplexity de la lista como bot verificado y ahora lo bloquea activamente. Perplexity cuestionó las afirmaciones de Cloudflare y publicó una respuesta.

Para los editores que se toman en serio el bloqueo de los rastreadores de inteligencia artificial, el bloqueo a nivel de CDN o la toma de huellas digitales del bot pueden ser necesarios más allá de las directivas de robots.txt.

Por qué esto importa

Los números de bloqueo de recuperación merecen atención aquí. Además de optar por no recibir capacitación en IA, muchos editores están optando por no participar en la capa de citas y descubrimiento que utilizan las herramientas de búsqueda de IA para mostrar las fuentes.

OpenAI separa sus rastreadores por función: GPTBot recopila datos de entrenamiento, mientras que OAI-SearchBot impulsa la búsqueda en vivo en ChatGPT. Bloquear a uno no bloquea al otro. Perplexity hace una distinción similar entre PerplexityBot para indexación y Perplexity-User para recuperación.

Estas opciones de bloqueo afectan de dónde pueden extraer las citas las herramientas de inteligencia artificial. Si un sitio bloquea los robots de recuperación, es posible que no aparezca cuando los usuarios pidan respuestas a los asistentes de IA, incluso si el modelo ya contiene el contenido de capacitación de ese sitio.

Vale la pena observar el patrón extendido de Google. Los editores estadounidenses lo bloquean a una tasa de casi el doble que en el Reino Unido, aunque no queda claro a partir de los datos si eso refleja diferentes cálculos de riesgo en torno al crecimiento de Gemini o diferentes relaciones comerciales con Google.

Mirando hacia el futuro

El método robots.txt tiene límites, y los sitios que quieran bloquear los rastreadores de IA pueden encontrar que las restricciones a nivel de CDN son más efectivas que el método robots.txt solo.

La revisión del año de Cloudflare encontró que GPTBot, ClaudeBot y CCBot tenían la mayor cantidad de directivas de no autorización total en los principales dominios. El informe también señaló que la mayoría de los editores utilizan bloqueos parciales para Googlebot y Bingbot en lugar de bloques completos, lo que refleja el doble papel que desempeña el rastreador de Google en la indexación de búsquedas y el entrenamiento de IA.

Para aquellos que rastrean la visibilidad de la IA, la categoría de bot de recuperación es lo que deben observar. Los bloques de entrenamiento afectan los modelos futuros, mientras que los bloques de recuperación afectan si su contenido aparece en las respuestas de IA en este momento.

Imagen de portada: Kitinut Jinapuck/Shutterstock