Google dice que implementa cientos de rastreadores indocumentados

Gary Illyes y Martin Splitt de Google publicaron un podcast sobre Googlebot, explicando que no es sólo una cosa independiente sino cientos de rastreadores en diferentes productos y servicios, la mayoría de los cuales no están documentados públicamente.

¿Qué es el robot de Google?

Gary aclara que el nombre «Googlebot» es un nombre histórico que se origina en los primeros días cuando Google tenía un solo rastreador. Ese ya no es el caso porque Google opera muchos rastreadores en diferentes productos, pero el nombre Googlebot se quedó, aunque ya no es una sola cosa.

Además, explica que el robot de Google no es la infraestructura de rastreo en sí ni un sistema singular. El robot de Google es en realidad un cliente que interactúa con un servicio de rastreo interno más grande: la infraestructura.

Martín Splitt preguntó:

«¿Cómo puedo imaginar el robot de Google? ¿Cómo se ve aproximadamente nuestra infraestructura de rastreo?»

Gary respondió:

«Quiero decir, llamarlo robot de Google es un nombre inapropiado. Y es algo que en aquel entonces, tal vez a principios de la década de 2000, funcionaba bien porque entonces probablemente teníamos un rastreador porque teníamos un producto. Pero poco después salió otro producto, creo que fue AdWords. Y luego comenzamos a tener más rastreadores y luego salieron más productos y luego más rastreadores y luego más rastreadores.

Pero el nombre del robot de Google de alguna manera se quedó. Generalmente, cuando hablábamos de nuestra infraestructura de rastreo en general, tendíamos a llamarla Googlebot, pero eso era tremendamente inexacto porque Googlebot era solo una cosa que se comunicaba con nuestra infraestructura de rastreo”.

La infraestructura de rastreo tiene un nombre

A continuación, Gary explica que la infraestructura de rastreo tiene un nombre interno dentro de Google, pero se negó a decir cuál es ese nombre.

Continuó:

«Googlebot no es nuestra infraestructura de rastreador. Nuestra infraestructura de rastreador no tiene un nombre externo. Tiene un nombre interno. No importa cuál sea. Llamémoslo Jack. Y lo es, no sé cómo decirlo. Es software como servicio, si lo prefieres. SaaS. ¿Verdad? Entonces, Jack tiene puntos finales API, por así decirlo. Y luego puedes llamar a esos puntos finales API para realizar una búsqueda desde Internet.

Y luego, cuando realiza esas llamadas a la API, también debe especificar algunos parámetros, como cuánto tiempo está dispuesto a esperar, hasta que regresen los bytes o cuál es su agente de usuario que desea enviar. ¿Cuál es el token de producto robots.txt que desea obedecer y todos estos parámetros?

Y establecemos un parámetro predeterminado para la mayoría de estas cosas, no para todas, pero sí para la mayoría. Por lo tanto, generalmente puedes omitirlos, lo que hace que estas llamadas sean más simples, supongo, porque no tienes que especificar todo. Pero por lo demás, en realidad es solo una llamada API a algo en la nube o en algún centro de datos aleatorio. Y luego eso realizará una búsqueda para usted como desarrollador de software o producto.

Entonces, este producto, porque podemos llamarlo producto en este momento, incluso si es interno, ha existido durante mucho, mucho, mucho, mucho tiempo. …Pero en esencia, siempre ha estado haciendo lo mismo. Básicamente, lo dices, buscas algo de Internet sin interrumpir Internet. Y luego lo hará si las restricciones del sitio lo permiten. Eso es todo. Si quisiera ponerlo en una frase, sería esa”.

Cientos de rastreadores que los SEO no conocen

No todos los rastreadores de Googlebot están documentados; hay muchos que los SEO no conocen. Gary dijo que muchos equipos internos de Google utilizan la infraestructura de rastreo para diferentes propósitos. Dijo que potencialmente hay docenas o cientos de rastreadores internos, pero que sólo los principales rastreadores están documentados públicamente.

Los rastreadores más pequeños o de bajo volumen a menudo no están documentados debido a limitaciones prácticas, pero si un rastreador se vuelve lo suficientemente grande, puede revisarse y documentarse.

Retomando el tema de que hay múltiples clientes (rastreadores), Gary continuó:

«…tratamos de documentar una gran parte de ellos, pero Google es una gran empresa, por lo que hay muchos equipos que quieren realizar búsquedas en Internet. Así que hay muchos rastreadores, muchos rastreadores con nombre, lo que significa que necesitaríamos documentar docenas, si no cientos, de rastreadores diferentes o rastreadores o recuperaciones especiales».

Gary explica que documentar los cientos de rastreadores no es factible.

«Y en una página HTML simple, eso es algo inviable. Así que tratamos de trazar una línea y decir que si el rastreador es realmente pequeño, es decir, que no recupera demasiado de Internet, entonces intentamos no documentarlo porque el espacio en el sitio del rastreador, los rastreadores de barras de development.google.com, es en realidad bastante valioso.

Podríamos intentar abordar esto de manera diferente, pero por el momento básicamente solo se documentan los rastreadores principales y los rastreadores especiales y las recuperaciones debido, literalmente, a la falta de espacio”.

Diferencia entre rastreadores y buscadores

Gary explica que hay rastreadores y buscadores que entran en la categoría de robots de Google, pero que en realidad son cosas diferentes.

Él explica cuál es la diferencia:

«Entonces, la forma más sencilla de explicarlo es que los rastreadores trabajan en lotes y luego los captadores trabajan en URL individuales, lo que significa que le das una URL a un captador y luego buscará solo una URL. No puedes darle una lista de URL para buscar.

Y luego, para los rastreadores, es un flujo constante, generalmente de URL, que se ejecuta continuamente para su equipo y busca para su equipo desde Internet.

E internamente, también tenemos esta política según la cual las recuperaciones deben estar controladas de alguna manera por el usuario. Básicamente, hay alguien al otro lado de la línea que está esperando la respuesta del buscador.

Mientras que con los rastreadores es como hacerlo cuando tengas tiempo”.

Martin y Gary dicen que hay muchos rastreadores y buscadores que utilizan internamente y que no están documentados. Gary explicó que tiene una herramienta que activa una alerta cuando un rastreador y un buscador cruzan un umbral específico de rastreos y recuperaciones por día, que luego hará un seguimiento con el equipo responsable de los rastreos para ver qué está haciendo y por qué, así como para verificar que no está haciendo algo accidentalmente. Si se trata de un rastreador que recupera muchas URL de manera notable, entonces decidirá si lo documenta o no para que el ecosistema web pueda conocerlo.

Escuche el podcast Search Off The Record aquí: