Google recuerda a los sitios web que utilicen Robots.txt para bloquear las URL de acción

En una publicación de LinkedIn, Gary Illyes, analista de Google, reiteró una guía de larga data para los propietarios de sitios web: use el archivo robots.txt para evitar que los rastreadores web accedan a URL que desencadenan acciones como agregar artículos a carritos o listas de deseos.

Illyes destacó la queja común de que el tráfico innecesario de los rastreadores sobrecarga los servidores, a menudo debido a que los robots de los motores de búsqueda rastrean las URL destinadas a las acciones de los usuarios.

El escribio:

“Al observar lo que estamos rastreando en los sitios en las quejas, con demasiada frecuencia se trata de URL de acciones como ‘agregar al carrito’ y ‘agregar a la lista de deseos’. Estos son inútiles para los rastreadores y probablemente no quieras que los rastreen”.

Para evitar esta carga desperdiciada en el servidor, Illyes recomendó bloquear el acceso en el archivo robots.txt para URL con parámetros como «?añadir a la cesta» o «?añadir a la lista de deseos.”

Como ejemplo, sugiere:

“Si tiene URL como:
https://example.com/product/scented-candle-v1?add_to_cart
y
https://example.com/product/scented-candle-v1?add_to_wishlist

Probablemente deberías agregar una regla de no permitirlos en tu archivo robots.txt”.

Si bien el uso del método HTTP POST también puede evitar el rastreo de dichas URL, Illyes señaló que los rastreadores aún pueden realizar solicitudes POST, por lo que se recomienda usar robots.txt.

Relacionado: 8 problemas comunes de Robots.txt y cómo solucionarlos

Reforzando las mejores prácticas de décadas de antigüedad

Alan Perkins, que participó en el hilo, señaló que esta guía hace eco de los estándares web introducidos en la década de 1990 por las mismas razones.

Citando un documento de 1993 titulado «Un estándar para la exclusión de robots»:

“En 1993 y 1994 hubo ocasiones en las que los robots visitaron servidores WWW donde no eran bienvenidos por diversas razones… los robots atravesaron partes de los servidores WWW que no eran adecuadas, por ejemplo, árboles virtuales muy profundos, información duplicada, información temporal o scripts cgi con efectos secundarios (como la votación)”.

El estándar robots.txt, que propone reglas para restringir el acceso de rastreadores con buen comportamiento, surgió como una solución de «consenso» entre las partes interesadas de la web en 1994.

Relacionado: 6 hábitos de SEO de la vieja escuela que nunca envejecen

Obediencia y excepciones

Illyes afirmó que los rastreadores de Google obedecen plenamente las reglas de robots.txt, con raras excepciones ampliamente documentadas para escenarios que involucran «obtenciones contractuales o activadas por el usuario».

Esta adhesión al protocolo robots.txt ha sido un pilar de las políticas de rastreo web de Google.

Por qué le importa a SEJ

Si bien el consejo puede parecer rudimentario, el resurgimiento de esta mejor práctica de décadas de antigüedad subraya su relevancia.

Al aprovechar el estándar robots.txt, los sitios pueden ayudar a controlar que los rastreadores demasiado entusiastas acaparen el ancho de banda con solicitudes improductivas.

Ver también: Cómo abordar los riesgos de seguridad con archivos Robots.txt

Cómo esto puede ayudarte

Ya sea que tenga un blog pequeño o una importante plataforma de comercio electrónico, seguir el consejo de Google de aprovechar el archivo robots.txt para bloquear el acceso del rastreador a las URL de acción puede resultar útil de varias maneras:

Carga reducida del servidor: Puede reducir las solicitudes innecesarias del servidor y el uso de ancho de banda evitando que los rastreadores accedan a URL que invoquen acciones como agregar artículos a carritos o listas de deseos.
Eficiencia mejorada de las orugas: Dar reglas más explícitas en su archivo robots.txt sobre qué URL deben evitar los rastreadores puede conducir a un rastreo más eficiente de las páginas/contenido que desea indexar y clasificar.
Mejor experiencia de usuario: Con los recursos del servidor centrados en las acciones reales del usuario en lugar de visitas desperdiciadas del rastreador, los usuarios finales probablemente experimentarán tiempos de carga más rápidos y una funcionalidad más fluida.
Manténgase alineado con los estándares: La implementación de la guía hace que su sitio cumpla con los estándares del protocolo robots.txt ampliamente adoptados, que han sido las mejores prácticas de la industria durante décadas.

Revisar las directivas de robots.txt podría ser un paso simple pero impactante para los sitios web que buscan ejercer más control sobre la actividad de los rastreadores.

Los mensajes de Illyes indican que las antiguas reglas de robots.txt siguen siendo relevantes en nuestro entorno web moderno.

Imagen de portada: BestForBest/Shutterstock