Myriam Jessier le preguntó a Google sobre cuáles serían buenos atributos de un rastreador web. En el que tanto Martin Splitt como Gary Illyes dieron algunas respuestas.
Myriam Jessier preguntó en Bluesky: «¿Cuáles son los buenos atributos? Uno debe considerar al elegir un rastreador para revisar las cosas en un sitio para la búsqueda de SEO y Gen AI?»
Martin Splitt de Google respondió con esta lista de atributos:
- Soporte HTTP/2
- declarar identidad en el agente de usuario
- respetar robots.txt
- retroceso si el servidor se ralentiza
- Sigue a las directivas de almacenamiento en caché*
- mecanismos de reintento razonable
- Sigue las redirecciones
- manejar errores con gracia*
Gary Illyes de Google envió la conversación a un nuevo documento de IETF que habla sobre las mejores prácticas de Crawler. Gary escribió que este documento fue publicado hace unas semanas.
Cubre las mejores prácticas recomendadas que incluyen:
- Los rastreadores deben apoyar y respetar el protocolo de exclusión de los robots.
- Los rastreadores deben ser fácilmente identificables a través de su cadena de agente de usuario.
- Los rastreadores no deben interferir con la operación regular de un sitio.
- Los rastreadores deben apoyar las directivas de almacenamiento en caché.
- Los rastreadores deben exponer los rangos IP de los que se arrastran en un formato estandarizado.
- Los rastreadores deben exponer una página que explique cómo se utilizan los datos rastreados y cómo se puede bloquear.
Echa un vistazo a ese documento completo aquí: puede ver que Gary Illyes lo coautoró pero no bajo el nombre de Google.
Discusión del foro en Bluesky.
Crédito de imagen a Lizzi