Hostinger analizó 66 mil millones de solicitudes de bots en más de 5 millones de sitios web y descubrió que los rastreadores de IA están siguiendo dos caminos diferentes.
Los robots de formación LLM están perdiendo acceso a la web a medida que más sitios los bloquean. Mientras tanto, los robots asistentes de IA que impulsan herramientas de búsqueda como ChatGPT están ampliando su alcance.
El análisis se basa en registros de servidor anónimos de tres ventanas de 6 días, con la clasificación de bots asignada a las clasificaciones de proyectos AI.txt.
Los robots de entrenamiento están siendo bloqueados
El hallazgo más sorprendente involucra al GPTBot de OpenAI, que recopila datos para el entrenamiento de modelos. La cobertura de su sitio web cayó del 84% al 12% durante el período del estudio.
ExternalAgent de Meta fue el rastreador de categoría de entrenamiento más grande por volumen de solicitudes en los datos de Hostinger. Hostinger dice que este grupo de robots de entrenamiento muestra las caídas más fuertes en general, impulsadas en parte por los sitios que bloquean los rastreadores de entrenamiento de IA.
Estos números se alinean con patrones que he seguido a través de múltiples estudios. BuzzStream descubrió que el 79% de los principales editores de noticias ahora bloquean al menos un robot de capacitación. El resumen del año de Cloudflare mostró que GPTBot, ClaudeBot y CCBot tenían la mayor cantidad de directivas de rechazo total en los principales dominios.
Los datos cuantifican lo que sugirieron esos estudios. Hostinger interpreta la caída en la cobertura de los robots de entrenamiento como una señal de que más sitios están bloqueando esos rastreadores, incluso cuando los volúmenes de solicitudes siguen siendo altos.
Los robots asistentes cuentan una historia diferente
Si bien los robots de entrenamiento enfrentan resistencia, los robots que impulsan las herramientas de búsqueda de IA están ampliando el acceso.
OAI-SearchBot de OpenAI, que busca contenido para la función de búsqueda de ChatGPT, alcanzó una cobertura promedio del 55,67%. El bot de TikTok creció hasta alcanzar una cobertura del 25,67% con 1.400 millones de solicitudes. El bot de Apple alcanzó una cobertura del 24,33%.
Estos rastreos del asistente los activa el usuario y son más específicos. Atiende a los usuarios directamente en lugar de recopilar datos de capacitación, lo que puede explicar por qué los sitios los tratan de manera diferente.
La búsqueda clásica permanece estable
Los rastreadores de motores de búsqueda tradicionales se mantuvieron estables durante todo el estudio. El robot de Google mantuvo una cobertura promedio del 72% con 14,7 mil millones de solicitudes. Bingbot se mantuvo en una cobertura del 57,67%.
La estabilidad contrasta con los cambios en la categoría de IA. El principal rastreador de Google se enfrenta a una posición única, ya que bloquearlo afecta la visibilidad de la búsqueda.
Las herramientas de SEO muestran un declive
Los rastreadores de SEO y marketing vieron una cobertura cada vez menor. Ahrefs mantuvo la mayor huella con una cobertura del 60%, pero la categoría en general se redujo. Hostinger atribuye esto a dos factores. Estas herramientas se centran cada vez más en sitios que realizan activamente trabajos de SEO. Y los propietarios de sitios web están bloqueando los rastreadores que consumen muchos recursos.
Informé sobre las preocupaciones sobre los recursos cuando los datos de Vercel mostraron que GPTBot generaba 569 millones de solicitudes en un solo mes. Para algunos editores, los costos del ancho de banda se convirtieron en un problema comercial.
Por qué esto importa
Los datos confirman un patrón que se ha estado construyendo durante el año pasado. Los operadores de sitios están trazando una línea entre los rastreadores de IA que permitirán y los que no.
La decisión se reduce a la función. Los robots de capacitación recopilan contenido para mejorar los modelos sin devolver el tráfico. Los robots asistentes obtienen contenido para responder preguntas específicas de los usuarios, lo que significa que pueden mostrar su contenido en los resultados de búsqueda de IA.
Hostinger sugiere un camino intermedio: bloquear los robots de entrenamiento y al mismo tiempo permitir robots asistentes que impulsen el descubrimiento. Esto le permite participar en la búsqueda de IA sin contribuir al entrenamiento del modelo.
Mirando hacia el futuro
OpenAI recomienda permitir OAI-SearchBot si desea que su sitio aparezca en los resultados de búsqueda de ChatGPT, incluso si bloquea GPTBot.
La documentación de OpenAI aclara la diferencia. OAI-SearchBot controla la inclusión en los resultados de búsqueda de ChatGPT y respeta el archivo robots.txt. ChatGPT-User maneja la navegación iniciada por el usuario y es posible que no esté gobernada por robots.txt de la misma manera.
Hostinger recomienda verificar los registros del servidor para ver qué está afectando realmente a su sitio y luego tomar decisiones de bloqueo según sus objetivos. Si le preocupa la carga del servidor, puede utilizar el bloqueo a nivel de CDN. Si quieres potencialmente aumente su visibilidad de IA, revise los agentes de usuario de rastreadores de IA actuales y permita solo los bots específicos que respaldan su estrategia.
Imagen de portada: BestForBest/Shutterstock



