Cloudflare publicó su sexto resumen anual, que ofrece una visión integral del tráfico de Internet, la seguridad y la actividad de los rastreadores de IA a lo largo de 2025.
El informe se basa en datos de la red de Cloudflare, que abarca más de 330 ciudades en 125 países y maneja más de 81 millones de solicitudes HTTP por segundo en promedio.
Los hallazgos del rastreador de IA se destacan. El robot de Google rastreó muchas más páginas web que cualquier otro robot de IA, lo que refleja el enfoque de doble propósito de Google para rastrear tanto para la indexación de búsquedas como para el entrenamiento de IA.
Tráfico principal del rastreador de IA del robot de Google
Cloudflare analizó las solicitudes exitosas de contenido HTML de los principales rastreadores de inteligencia artificial durante octubre y noviembre de 2025. Los resultados mostraron que el robot de Google alcanzó el 11,6 % de las páginas web únicas de la muestra.
Eso es más de 3 veces las páginas vistas por GPTBot de OpenAI con un 3,6%. Es casi 200 veces más que PerplexityBot, que rastreó sólo el 0,06% de las páginas.
Bingbot quedó en tercer lugar con un 2,6%, seguido de Meta-ExternalAgent y ClaudeBot con un 2,4% cada uno.
El informe señaló que debido a que el robot de Google rastrea tanto para la indexación de búsquedas como para el entrenamiento de modelos de IA, los editores web enfrentan una decisión difícil. Bloquear el entrenamiento de inteligencia artificial del robot de Google significa arriesgar la visibilidad de las búsquedas.
Cloudflare escribió:
«Debido a que el robot de Google se utiliza para rastrear contenido tanto para la indexación de búsqueda como para el entrenamiento del modelo de IA, y debido al dominio establecido desde hace mucho tiempo de Google en la búsqueda, los operadores de sitios web son esencialmente incapaces de bloquear el entrenamiento de IA del robot de Google sin arriesgar la capacidad de descubrimiento de la búsqueda».
Relacionado: Lista completa de rastreadores para agentes de usuario de IA
Los bots de IA ahora representan el 4,2% de las solicitudes de HTML
A lo largo de 2025, los robots de IA (excluyendo el robot de Google) promediaron el 4,2% de las solicitudes de HTML en toda la base de clientes de Cloudflare. La proporción osciló entre el 2,4% a principios de abril y el 6,4% a finales de junio.
El robot de Google por sí solo representó el 4,5% de las solicitudes de HTML, un poco más que todos los demás robots de IA combinados.
La proporción de tráfico HTML generado por humanos comenzó en 2025 siete puntos porcentuales por debajo del tráfico de bots que no son de IA. En septiembre, el tráfico humano comenzó a superar el tráfico de bots que no eran de IA en algunos días. Al 2 de diciembre, los humanos generaron el 47% de las solicitudes HTML, mientras que los robots que no son de IA generaron el 44%.
Las relaciones de rastreo a referencia muestran una amplia variación
Cloudflare rastrea la frecuencia con la que las plataformas de búsqueda e inteligencia artificial envían tráfico a los sitios en relación con la frecuencia con la que rastrean. Una proporción alta significa un rastreo intenso sin enviar a los usuarios de regreso a los sitios de origen.
Anthropic tuvo las proporciones más altas entre las plataformas de IA, que oscilaron entre aproximadamente 25.000:1 y 100.000:1 durante la segunda mitad del año después de estabilizarse de la volatilidad anterior.
Los ratios de OpenAI alcanzaron 3.700:1 en marzo. La perplejidad mantuvo las proporciones más bajas entre las principales plataformas de IA, generalmente por debajo de 400:1 y por debajo de 200:1 a partir de septiembre.
En comparación, la proporción de rastreo y referencia de búsqueda de Google se mantuvo mucho más baja, generalmente entre 3:1 y 30:1 durante todo el año.
El rastreo de acciones del usuario se multiplicó por 20
No todo el rastreo de IA es para el entrenamiento de modelos. El rastreo de «acción del usuario» ocurre cuando los bots visitan sitios en respuesta a preguntas de los usuarios formuladas a los chatbots.
Esta categoría experimentó el crecimiento más rápido en 2025. El volumen de rastreo de acciones de los usuarios aumentó más de 15 veces desde enero hasta principios de diciembre. La tendencia coincidió estrechamente con el patrón de tráfico del bot ChatGPT-User de OpenAI, que visita páginas cuando los usuarios hacen preguntas sobre ChatGPT.
El crecimiento mostró un patrón de uso semanal a partir de mediados de febrero, lo que sugiere un mayor uso en escuelas y lugares de trabajo. La actividad disminuyó entre junio y agosto, cuando los estudiantes estaban de vacaciones y los profesionales tomaban vacaciones.
Los rastreadores de IA más bloqueados en Robots.txt
Cloudflare analizó archivos robots.txt en casi 3900 de los 10 000 dominios principales. Los rastreadores de IA fueron los agentes de usuario bloqueados con mayor frecuencia.
GPTBot, ClaudeBot y CCBot tuvieron el mayor número de directivas de rechazo total. Estas directivas indican a los rastreadores que se mantengan alejados de sitios completos.
Googlebot y Bingbot mostraron un patrón diferente. Sus directivas de no permitir se inclinaban en gran medida hacia bloqueos parciales, probablemente centrados en puntos finales de inicio de sesión y áreas sin contenido en lugar de bloqueo completo del sitio.
La sociedad civil se convirtió en el sector más atacado
Por primera vez, las organizaciones del sector vertical “Personas y Sociedad” fueron las más afectadas por los ataques. Esta categoría incluye instituciones religiosas, organizaciones sin fines de lucro, organizaciones cívicas y bibliotecas.
El sector recibió el 4,4% del tráfico mitigado global, frente a menos del 2% a principios de año. La proporción de ataques saltó a más del 17% a finales de marzo y alcanzó un máximo del 23,2% a principios de julio.
Muchas de estas organizaciones están protegidas por el Proyecto Galileo de Cloudflare.
Los juegos de azar y juegos, el sector vertical más atacado en 2024, vieron caer su participación a más de la mitad, hasta el 2,6%.
Otros hallazgos clave
El informe de Cloudflare incluyó varios hallazgos adicionales sobre tráfico, seguridad y conectividad.
El tráfico global de Internet creció un 19% año tras año. El crecimiento se mantuvo relativamente estable hasta mediados de abril y luego se aceleró después de mediados de agosto.
El cifrado poscuántico ahora protege el 52% del tráfico humano hacia Cloudflare, casi el doble del 29% de principios de año.
ChatGPT siguió siendo el principal servicio de IA generativa a nivel mundial. Google Gemini, Windsurf AI, Grok/xAI y DeepSeek fueron los nuevos ingresantes al top 10.
El tráfico de Starlink se duplicó en 2025 y el servicio se lanzó en más de 20 nuevos países.
Casi la mitad de los 174 cortes importantes de Internet observados a nivel mundial fueron causados por apagones ordenados por los gobiernos. Los cortes de cable cayeron casi un 50%, mientras que los cortes de energía se duplicaron.
Los países europeos dominaron las métricas de calidad de Internet. España encabezó la lista de calidad general de Internet, con velocidades de descarga promedio superiores a 300 Mbps.
Por qué esto importa
Los datos del rastreador de IA deberían afectar su forma de pensar sobre el acceso y el tráfico de los bots.
El rastreador de doble propósito de Google crea una ventaja competitiva. Puede bloquear otros rastreadores de IA y al mismo tiempo mantener el acceso del robot de Google para la visibilidad de la búsqueda, pero no puede separar el rastreo de búsqueda de Google del rastreo de entrenamiento de IA.
Los índices de rastreo y referencia ayudan a cuantificar lo que los editores ya sospechaban. Las plataformas de inteligencia artificial rastrean mucho pero envían poco tráfico. La brecha entre el rastreo y la referencia varía ampliamente según la plataforma.
Los datos de ataques de la sociedad civil son importantes si trabaja con organizaciones sin fines de lucro u organizaciones de defensa. Estos grupos enfrentan ahora la mayor tasa de ataques.
Mirando hacia el futuro
Cloudflare espera que las métricas de IA cambien a medida que el espacio continúa evolucionando. La compañía agregó varios conjuntos de datos nuevos relacionados con la IA al informe de este año que no estaban disponibles en ediciones anteriores.
Las proporciones de rastreo y referencia pueden cambiar a medida que las plataformas de inteligencia artificial ajusten sus funciones de búsqueda y su comportamiento de referencia. Los índices de OpenAI ya mostraron cierta disminución a lo largo del año a medida que crecía el uso de búsqueda de ChatGPT.
Para la gestión de robots.txt, los datos muestran que la mayoría de los editores eligen bloqueos parciales para los principales rastreadores de búsqueda y bloquean por completo los rastreadores exclusivos de IA. El estado de fin de año de estas directivas proporciona una base para rastrear cómo evolucionarán las políticas de los editores en 2026.
Imagen destacada: Mamun_Sheikh/Shutterstock



