Los Claude Bots de Anthropic hacen que las decisiones sobre robots.txt sean más granulares

Los Claude Bots de Anthropic hacen que las decisiones sobre robots.txt sean más granulares


Anthropic actualizó la documentación de su rastreador esta semana con un desglose formal de sus tres rastreadores web y sus propósitos individuales.

La página ahora enumera ClaudeBot (recopilación de datos de entrenamiento), Claude-User (que busca páginas cuando los usuarios de Claude hacen preguntas) y Claude-SearchBot (indexa contenido para resultados de búsqueda) como bots separados, cada uno con su propia cadena de agente de usuario robots.txt.

Cada bot recibe una explicación de «¿Qué sucede cuando lo desactivas?». Para Claude-SearchBot, antrópico escribió eso bloquearlo «evita que nuestro sistema indexe su contenido para optimizar la búsqueda, lo que puede reducir la visibilidad y precisión de su sitio en los resultados de búsqueda de los usuarios».

Para Claude-User, el lenguaje es similar. Bloquearlo «evita que nuestro sistema recupere su contenido en respuesta a la consulta de un usuario, lo que puede reducir la visibilidad de su sitio para la búsqueda web dirigida por el usuario».

La actualización formaliza un patrón que se está volviendo más común entre los productos de búsqueda de IA. OpenAI ejecuta la misma estructura de tres niveles con GPTBot, OAI-SearchBot y ChatGPT-User. Perplexity opera una versión de dos niveles con PerplexityBot para indexación y Perplexity-User para recuperación.

Anthropic dice que sus tres bots respetan el archivo robots.txt, incluido Claude-User. OpenAI y Perplexity trazan una línea más clara para los buscadores iniciados por el usuario, advirtiendo que las reglas de robots.txt pueden no aplicarse al usuario de ChatGPT y, en general, no se aplican al usuario de Perplexity. Para Anthropic y OpenAI, bloquear el robot de entrenamiento no bloquea el robot de búsqueda ni el buscador solicitado por el usuario.

Qué cambió con respecto a la página anterior

La versión anterior de la página del rastreador de Anthropic hacía referencia únicamente a ClaudeBot y utilizaba un lenguaje más amplio sobre la recopilación de datos para el desarrollo de modelos. Antes de ClaudeBot, Anthropic operaba bajo los agentes de usuario Claude-Web y Anthropic-AI, ambos ahora obsoletos.

El paso de un rastreador listado a tres refleja lo que hizo OpenAI a fines de 2024 cuando separó GPTBot de OAI-SearchBot y ChatGPT-User. OpenAI actualizó esa documentación nuevamente en diciembre, agregando una nota de que GPTBot y OAI-SearchBot comparten información para evitar rastreos duplicados cuando ambos están permitidos.

OpenAI también señaló en esa actualización de diciembre que ChatGPT-User, que maneja la navegación iniciada por el usuario, puede no estar gobernado por robots.txt de la misma manera que sus rastreadores automatizados. La documentación de Anthropic no hace una distinción similar para Claude-User.

Por qué esto importa

La estrategia general de “bloquear rastreadores de IA” que muchos sitios adoptaron en 2024 ya no funciona como lo hacía. El bloqueo de ClaudeBot detiene la recopilación de datos de entrenamiento, pero no hace nada con Claude-SearchBot o Claude-User. Lo mismo ocurre por parte de OpenAI.

Un estudio de BuzzStream que cubrimos en enero encontró que el 79% de los principales sitios de noticias bloquean al menos un robot de entrenamiento de IA. Pero el 71% también bloquea al menos un robot de recuperación o de búsqueda, lo que podría eliminarlos de las citas de búsqueda impulsadas por IA en el proceso.

Eso importa más ahora que hace un año. El análisis de Hostinger de 66,7 mil millones de solicitudes de bots mostró que la cobertura del rastreador de búsqueda de OpenAI creció del 4,7% a más del 55% de los sitios en su muestra, incluso cuando la cobertura del rastreador de entrenamiento cayó del 84% al 12%. Los sitios web permiten robots de búsqueda mientras bloquean los robots de entrenamiento, y la brecha se está ampliando.

Las advertencias de visibilidad difieren según la empresa. Anthropic dice que bloquear Claude-SearchBot «puede reducir» la visibilidad. OpenAI es más directo y les dice a los editores que los sitios que optaron por no participar en OAI-SearchBot no aparecerán en las respuestas de búsqueda de ChatGPT, aunque es posible que aún aparezcan enlaces de navegación. Ambos están posicionando sus rastreadores de búsqueda junto a Googlebot y Bingbot, no junto a sus propios rastreadores de capacitación.

Qué significa esto

Al administrar archivos robots.txt, la antigua lista de bloqueo de copiar y pegar necesita una auditoría. La lista completa de rastreadores de IA de SEJ incluye cadenas de agentes de usuario verificadas en todas las empresas.

Un archivo robots.txt estratégico ahora requiere como mínimo entradas separadas para los robots de capacitación y de búsqueda, en el entendido de que los buscadores iniciados por el usuario pueden no seguir las mismas reglas.

Mirando hacia el futuro

La división en tres niveles crea una nueva categoría de decisión de los editores que es paralela a lo que hizo Google hace años con Google-Extended. Ese agente de usuario permite que los sitios opten por no participar en la capacitación de Gemini mientras permanecen en los resultados de la Búsqueda de Google. Ahora Anthropic y OpenAI ofrecen la misma separación para sus plataformas.

A medida que la búsqueda impulsada por IA aumenta su participación en el tráfico de referencias, aumenta el costo de bloquear los rastreadores de búsqueda. Los datos del resumen del año de Cloudflare que informamos en diciembre mostraron que los rastreadores de IA ya representan una parte mensurable del tráfico web, y la brecha entre el volumen de rastreo y el tráfico de referencia sigue siendo amplia. La forma en que los editores naveguen por estas decisiones de tres vías determinará la cantidad de herramientas de búsqueda de IA web que realmente puedan surgir.

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *