Google agregó silenciosamente un nuevo bot a la documentación de su rastreador que rastrea en nombre de los clientes comerciales de su producto Vertex AI. La documentación dice que el nuevo rastreador puede rastrear sitios a petición del propietario del sitio.
Agentes de IA de Vertex
El nuevo rastreador, llamado Google-CloudVertexBot, rastrea el contenido de los sitios web para los clientes de Vertex AI, que es diferente de los otros robots enumerados en la documentación de Search Central que están vinculados a la Búsqueda de Google o a la publicidad.
La documentación oficial de Google Cloud ofrece la siguiente información:
“En Vertex AI Agent Builder, existen varios tipos de almacenes de datos. Un almacén de datos sólo puede contener un tipo de datos”.
Continúa enumerando seis tipos de datos, uno de los cuales son datos de sitios web públicos. Sobre el rastreo, la documentación dice que existen dos tipos de rastreo de sitios web:
- Indexación básica de sitios web
- Indexación avanzada de sitios web
Documentación
La documentación explica los datos del sitio web:
“Un almacén de datos con datos de sitios web utiliza datos indexados de sitios web públicos. Puede proporcionar un conjunto de dominios y configurar búsquedas o recomendaciones sobre los datos rastreados desde los dominios. Estos datos incluyen texto e imágenes etiquetadas con metadatos”.
La descripción de la indexación básica de sitios web no dice nada sobre la verificación del propietario del sitio, pero alguien de Google se comunicó conmigo y me informó que la indexación básica de sitios web solo utiliza una porción de lo que ya rastrea Google.
La indexación avanzada de sitios web, que utiliza el nuevo Google-CloudVertexBot, requiere verificación de dominio y existen cuotas de indexación. Parece que el nuevo rastreador no rastrea sitios web públicos, sino que rastrea «a petición de los propietarios del sitio», por lo que es posible que no rastree sitios públicos.
La notación del registro de cambios para este nuevo rastreador dice esto:.
Esto es lo que dice el registro de cambios:
“Presentación del rastreador Google-CloudVertexBot
Qué: Se agregó Google-CloudVertexBot a la lista de rastreadores de Google, un nuevo rastreador que rastrea sitios a solicitud de los propietarios del sitio al crear agentes Vertex AI.
Por qué: El nuevo rastreador se introdujo para ayudar a los propietarios de sitios a identificar el nuevo tráfico del rastreador”.
Nuevo rastreador de Google
El nuevo rastreador se llama Google-CloudVertexBot.
Esta es la nueva información al respecto:
“Google-CloudVertexBot rastrea sitios a petición de los propietarios del sitio al crear agentes Vertex AI.
Fichas de agente de usuario
- Google-CloudVertexBot
- robot de Google”
Subcadena de agente de usuario
Google-CloudVertexBot
Google-CloudVertexBot
La documentación indica que el nuevo rastreador no indexa sitios públicos y el registro de cambios indica que se agregó para que los propietarios de los sitios puedan identificar el tráfico del nuevo rastreador. ¿Deberías bloquear el nuevo rastreador con un archivo robots.txt? por si acaso? Parece que no es necesario agregarlo al archivo robots.txt porque solo se rastrea según la solicitud del propietario del sitio.
Lea la nueva documentación de Google:
Google-CloudVertexBot
Imagen destacada de Shutterstock/ShotPrime Studio