La visibilidad de la IA juega un papel crucial para los SEO, y esto comienza con el control de los rastreadores de IA. Si los rastreadores de IA no pueden acceder a sus páginas, usted será invisible para los motores de descubrimiento de IA.
Por otro lado, los rastreadores de IA no monitoreados pueden saturar los servidores con solicitudes excesivas, provocando fallas y facturas de alojamiento inesperadas.
Las cadenas de agente de usuario son esenciales para controlar qué rastreadores de IA pueden acceder a su sitio web, pero la documentación oficial suele estar desactualizada, incompleta o falta por completo. Por lo tanto, seleccionamos una lista verificada de rastreadores de IA a partir de los registros de nuestro servidor real como referencia útil.
Cada agente de usuario se valida con listas de IP oficiales cuando están disponibles, lo que garantiza la precisión. Mantendremos y actualizaremos esta lista para detectar nuevos rastreadores y cambios en los existentes.
La lista completa de rastreadores de IA verificados (diciembre de 2025)
| Nombre | Objetivo | Tasa de rastreo de SEJ (páginas/hora) | Lista de IP verificadas | Robots.txt no permitir | Agente de usuario completo |
|---|---|---|---|---|---|
| GPTBot | Recopilación de datos de entrenamiento de IA para modelos GPT (ChatGPT, GPT-4o) | 100 | Lista oficial de IP | Agente de usuario: GPTBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.3; + |
| Usuario de ChatGPT | Agente de IA para navegación web en tiempo real cuando los usuarios interactúan con ChatGPT | 2400 | Lista oficial de IP | Agente de usuario: Usuario de ChatGPT Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko); compatible; ChatGPT-Usuario/1.0; + |
| OAI-SearchBot | Indexación de búsqueda de IA para funciones de búsqueda de ChatGPT (no para capacitación) | 150 | Lista oficial de IP | Agente de usuario: OAI-SearchBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; + |
| claudebot | Recopilación de datos de entrenamiento de IA para modelos Claude | 500 | Lista oficial de IP | Agente de usuario: ClaudeBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com) |
| Claude-Usuario | Agente de IA para acceso web en tiempo real cuando los usuarios de Claude navegan | <10 | No disponible | Agente de usuario: Claude-Usuario No permitir: /carpeta-muestra |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com) |
| Claude-SearchBot | Indexación de búsqueda de IA para las capacidades de búsqueda de Claude | <10 | No disponible | Agente de usuario: Claude-SearchBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Claude-SearchBot/1.0; + |
| Google-CloudVertexBot | Agente de IA para Vertex AI Agent Builder (solo solicitud de los propietarios del sitio) | <10 | Lista oficial de IP | Agente de usuario: Google-CloudVertexBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/141.0.7390.122 Mobile Safari/537.36 (compatible; Google-CloudVertexBot; + |
| Google extendido | Token que controla el uso del entrenamiento de IA del contenido rastreado por el robot de Google. | Agente de usuario: Google extendido Permitir: / No permitir: /carpeta-privada |
|||
| Géminis-investigación-profunda | Agente de investigación de IA para la función de investigación profunda de Google Gemini | <10 | Lista oficial de IP | Agente de usuario: Gemini-Deep-Research Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Gemini-Deep-Research; + Chrome/135.0.0.0 Safari/537.36 |
| El chat de Gemini cuando un usuario pide abrir una página web | <10 | ||||
| Bingbot | Impulsa las respuestas de IA de Bing Search y Bing Chat (Copilot) | 1300 | Lista oficial de IP | Agente de usuario: BingBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; bingbot/2.0; + Chrome/116.0.1938.76 Safari/537.36 |
| Applebot-Extendido | No rastrea pero controla cómo Apple usa los datos de Applebot. | <10 | Lista oficial de IP | Agente de usuario: Applebot-Extended Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, como Gecko) Versión/17.4 Safari/605.1.15 (Applebot/0.1; + |
| PerplejidadBot | Indexación de búsqueda por IA para el motor de respuestas de Perplexity | 150 | Lista oficial de IP | Agente de usuario: PerplexityBot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; PerplexityBot/1.0; + |
| Usuario perplejo | Agente de IA para navegación en tiempo real cuando los usuarios de Perplexity solicitan información | <10 | Lista oficial de IP | Usuario-agente: Perplejidad-Usuario Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Perplexity-User/1.0; + |
| Meta-Agente externo | Recopilación de datos de entrenamiento de IA para LLM de Meta (Llama, etc.) | 1100 | No disponible | Agente de usuario: meta-agente externo Permitir: / No permitir: /carpeta-privada |
meta-agente externo/1.1 (+ |
| Meta-WebIndexer | Solía hacerlo mejorar la búsqueda de Meta AI. | <10 | No disponible | Agente de usuario: Meta-WebIndexer Permitir: / No permitir: /carpeta-privada |
meta-webindexer/1.1 (+ |
| araña de bytes | Datos de entrenamiento de IA para LLM de ByteDance para productos como TikTok | <10 | No disponible | Agente de usuario: Bytespider Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, como Gecko) Mobile Safari/537.36 (compatible; Bytespider; |
| Amazonbot | Entrenamiento de IA para Alexa y otros servicios de IA de Amazon | 1050 | No disponible | Agente de usuario: Amazonbot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; Amazonbot/0.1; + Chrome/119.0.6045.214 Safari/537.36 |
| PatoAsistenteBot | Indexación de búsqueda por IA para el motor de búsqueda DuckDuckGo | 20 | Lista oficial de IP | Agente de usuario: DuckAssistBot Permitir: / No permitir: /carpeta-privada |
DuckAssistBot/1.2; (+ |
| Usuario de MistralAI | El buscador de citas en tiempo real de Mistral para el asistente “Le Chat” | <10 | No disponible | Agente de usuario: MistralAI-Usuario Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; MistralAI-User/1.0; + |
| Webz.io | Extracción de datos y web scraping utilizados por otras empresas de formación en IA. Anteriormente conocido como Omgili. | <10 | No disponible | Agente de usuario: webzio Permitir: / No permitir: /carpeta-privada |
webzio (+ |
| Diffbot | Extracción de datos y web scraping utilizados por empresas de todo el mundo. | <10 | No disponible | Agente de usuario: Diffbot Permitir: / No permitir: /carpeta-privada |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.2) Gecko/20090729 Firefox/3.5.2 (.NET CLR 3.5.30729; Diffbot/0.1; + |
| Rastreador ICC | Recopilación de datos de IA y aprendizaje automático | <10 | No disponible | Agente de usuario: ICC-Crawler Permitir: / No permitir: /carpeta-privada |
ICC-Crawler/3.0 (compatible con Mozilla; ; |
| CCBot | Archivo web de código abierto utilizado como datos de entrenamiento por múltiples empresas de IA | <10 | Lista oficial de IP | Agente de usuario: CCBot Permitir: / No permitir: /carpeta-privada |
CCBot/2.0 ( |
Todas las cadenas de agente de usuario anteriores se han verificado con los registros del servidor de Search Engine Journal.
Rastreadores de agentes de IA populares con agente de usuario no identificable
Descubrimos que las siguientes personas no se identificaron:
- usted.com.
- Operador agente de ChatGPT.
- Charla del copiloto de Bing.
- Grok.
- Búsqueda profunda.
No hay forma de rastrear el acceso de este rastreador a páginas web excepto identificando la IP explícita.
Configuramos una página trampa. (mi.gramo., /specific-page-for-you-com/) y utilizó el chat en la página para solicitarle a you.com que lo visite, lo que nos permite ubicar el registro de visita correspondiente y la dirección IP en los registros de nuestro servidor. A continuación se muestra la captura de pantalla:
¿Qué pasa con los navegadores Agentic AI?
Desafortunadamente, los navegadores de IA como Comet o Atlas de ChatGPT no se diferencian en la cadena de agentes de usuario y no se pueden identificar en los registros del servidor ni combinarlos con las visitas normales de los usuarios.

Esto es decepcionante para los SEO porque el seguimiento de las visitas de un navegador agente a un sitio web es importante para informar el punto de vista.
Cómo comprobar qué está rastreando su servidor
Algunas empresas de alojamiento ofrecen una interfaz de usuario (UI) que facilita el acceso y la visualización de los registros del servidor, según el servicio de alojamiento que esté utilizando.
Si su alojamiento no ofrece esto, puede obtener archivos de registro del servidor (generalmente ubicados /var/log/apache2/access.log en servidores basados en Linux) vía FTP o solicítelo al soporte de su servidor para que se lo envíe.
Una vez que tenga el archivo de registro, puede verlo y analizarlo en Google Sheets (si el archivo está en formato CSV), en el analizador de registros de Screaming Frog o, si su archivo de registro tiene menos de 100 MB, puede intentar analizarlo con Gemini AI.
Cómo verificar la legitimidad vs. Bots falsos
Los rastreadores falsos pueden falsificar a agentes de usuarios legítimos para eludir las restricciones y extraer contenido de manera agresiva. Por ejemplo, cualquiera puede hacerse pasar por ClaudeBot desde su computadora portátil e iniciar una solicitud de rastreo desde la terminal. En el registro de su servidor, verá que Claudebot lo está rastreando:
curl -A 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)'
La verificación puede ayudar a ahorrar ancho de banda del servidor y evitar la recopilación ilegal de contenido. El método de verificación más confiable que puede aplicar es verificar la IP solicitada.
Verifique todas las IP y escanee para que coincidan si es una de las IP declaradas oficialmente enumeradas anteriormente. Si es así, puedes permitir la solicitud; en caso contrario, bloquear.
Varios tipos de firewalls pueden ayudarlo con esto a través de IP verificadas en la lista permitida (que permite el paso de solicitudes de bot legítimas), y todas las demás solicitudes que se hacen pasar por rastreadores de IA en sus cadenas de agentes de usuario están bloqueadas.
Por ejemplo, en WordPress, puede utilizar el complemento gratuito de Wordfence para incluir en la lista de direcciones IP legítimas las listas oficiales (como se muestra arriba) y agregar reglas personalizadas de bloqueo como se muestra a continuación:
Configuración de IP de lista permitida en Wordfence
Bloquear la configuración del agente de usuario en Wordfence
La regla de la lista de permitidos es superior y permitirá que los rastreadores legítimos pasen y bloqueen cualquier solicitud de suplantación que provenga de diferentes IP.
Sin embargo, tenga en cuenta que es posible falsificar una dirección IP y, en ese caso, cuando el agente de usuario del bot y las IP sean falsificados, no podrá bloquearlo.
Conclusión: mantenga el control de los rastreadores de IA para obtener una visibilidad confiable de la IA
Los rastreadores de IA ahora son parte de nuestro ecosistema web, y los bots enumerados aquí representan las principales plataformas de IA que actualmente indexan la web, aunque es probable que esta lista crezca.
Verifique los registros de su servidor con regularidad para ver qué está afectando realmente a su sitio y asegúrese de no bloquear sin darse cuenta a los rastreadores de IA si la visibilidad en los motores de búsqueda de IA es importante para su negocio. Si no desea que los rastreadores de IA accedan a su contenido, bloquéelos mediante robots.txt utilizando el nombre del agente de usuario.
Mantendremos esta lista actualizada a medida que surjan nuevos rastreadores y actualicemos los existentes, por lo que le recomendamos marcar esta URL como favorita o volver a visitar este artículo periódicamente para mantener actualizada su lista de rastreadores de IA.
Más recursos:
Imagen de portada: BestForBest/Shutterstock



