Google actualizó su documentación sobre rastreadores y robots de Google para agregar una variedad de IP para bots activados por usuarios de productos de Google. Los nombres de los feeds cambiaron, lo cual es importante para los editores que incluyen en la lista blanca direcciones IP controladas por Google. El cambio será útil para los editores que quieran bloquear los raspadores que utilizan la nube de Google y otros rastreadores no asociados directamente con Google.
Nueva lista de direcciones IP
Google dice que la lista contiene rangos de direcciones IP que se han utilizado durante mucho tiempo, por lo que no son rangos de direcciones IP nuevos.
Hay dos tipos de rangos de direcciones IP:
- Rangos de IP iniciados por los usuarios pero controlados por Google y que se resuelven en un nombre de host de Google.com.
Se trata de herramientas como Google Site Verifier y, presumiblemente, la herramienta Rich Results Tester. - Rangos de IP iniciados por los usuarios pero no controlados por Google y que se resuelven en un nombre de host gae.googleusercontent.com.
Estas son aplicaciones que están en la nube de Google o scripts de aplicaciones que se llaman desde Google Sheets.
Las listas que corresponden a cada categoría ahora son diferentes.
Anteriormente la lista que correspondía a las direcciones IP de Google era esta: special-crawlers.json (resolviendo en gae.googleusercontent.com)
Ahora la lista de “rastreadores especiales” corresponde a rastreadores que no están controlados por Google.
“Las IP en el objeto user-triggered-fetchers.json se resuelven en los nombres de host gae.googleusercontent.com. Estas IP se utilizan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere recuperar fuentes RSS externas a petición del usuario de ese sitio».
La nueva lista que corresponde a los rastreadores controlados por Google es:
captadores-activados-por-usuario-google.json
“Herramientas y funciones de productos donde el usuario final activa una búsqueda. Por ejemplo, Google Site Verifier actúa a petición de un usuario. Debido a que la recuperación fue solicitada por un usuario, estos recuperadores ignoran las reglas de robots.txt.
Los captadores controlados por Google se originan a partir de las IP en el objeto user-triggered-fetchers-google.json y se resuelven en un nombre de host de google.com”.
La lista de IP de Google Cloud y rastreadores de aplicaciones que Google no controla se puede encontrar aquí:
La lista de IP de Google activadas por los usuarios y controladas por Google está aquí:
Nueva sección de contenido
Hay una nueva sección de contenido que explica de qué se trata la nueva lista.
“Los captadores controlados por Google se originan a partir de las IP en el objeto user-triggered-fetchers-google.json y se resuelven en un nombre de host de google.com. Las IP en el objeto user-triggered-fetchers.json se resuelven en los nombres de host gae.googleusercontent.com. Estas IP se utilizan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere recuperar fuentes RSS externas a solicitud del usuario de ese sitio. ***-***-***-***.gae.googleusercontent.com o google-proxy-***-***-***-***.google.com captadores activados por el usuario .json y captadores-google.json activados por el usuario”
Registro de cambios de Google
El registro de cambios de Google explicó los cambios de esta manera:
“Exportar un rango adicional de direcciones IP de búsqueda de Google
Qué: se agregó una lista adicional de direcciones IP para recuperadores controlados por productos de Google, a diferencia de, por ejemplo, un Apps Script controlado por el usuario. La nueva lista, user-triggered-fetchers-google.json, contiene rangos de IP que se han utilizado durante mucho tiempo.Por qué: Técnicamente fue posible exportar las gamas”.
Lea la documentación actualizada:
Verificación del robot de Google y otros rastreadores de Google
Lea la documentación antigua:
Archive.org: verificación del robot de Google y otros rastreadores de Google
Imagen destacada de Shutterstock/JHVEPhoto