Buenos atributos de rastreadores web

Buenos atributos de rastreadores web


Myriam Jessier le preguntó a Google sobre cuáles serían buenos atributos de un rastreador web. En el que tanto Martin Splitt como Gary Illyes dieron algunas respuestas.

Myriam Jessier preguntó en Bluesky: «¿Cuáles son los buenos atributos? Uno debe considerar al elegir un rastreador para revisar las cosas en un sitio para la búsqueda de SEO y Gen AI?»

Martin Splitt de Google respondió con esta lista de atributos:

  • Soporte HTTP/2
  • declarar identidad en el agente de usuario
  • respetar robots.txt
  • retroceso si el servidor se ralentiza
  • Sigue a las directivas de almacenamiento en caché*
  • mecanismos de reintento razonable
  • Sigue las redirecciones
  • manejar errores con gracia*

Gary Illyes de Google envió la conversación a un nuevo documento de IETF que habla sobre las mejores prácticas de Crawler. Gary escribió que este documento fue publicado hace unas semanas.

Cubre las mejores prácticas recomendadas que incluyen:

  • Los rastreadores deben apoyar y respetar el protocolo de exclusión de los robots.
  • Los rastreadores deben ser fácilmente identificables a través de su cadena de agente de usuario.
  • Los rastreadores no deben interferir con la operación regular de un sitio.
  • Los rastreadores deben apoyar las directivas de almacenamiento en caché.
  • Los rastreadores deben exponer los rangos IP de los que se arrastran en un formato estandarizado.
  • Los rastreadores deben exponer una página que explique cómo se utilizan los datos rastreados y cómo se puede bloquear.

Echa un vistazo a ese documento completo aquí: puede ver que Gary Illyes lo coautoró pero no bajo el nombre de Google.

Discusión del foro en Bluesky.

Crédito de imagen a Lizzi

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *