Google confirma que Robots.txt no puede impedir el acceso no autorizado

Gary Illyes de Google confirmó una observación común de que robots.txt tiene un control limitado sobre el acceso no autorizado por parte de los rastreadores. Luego, Gary ofreció una descripción general de los controles de acceso que todos los SEO y propietarios de sitios web deberían conocer.

Argumento común sobre Robots.txt

Parece que cada vez que surge el tema de Robots.txt, siempre hay una persona que tiene que señalar que no puede bloquear todos los rastreadores.

Gary estuvo de acuerdo con ese punto:

“robots.txt no puede impedir el acceso no autorizado al contenido”, un argumento común que surge hoy en día en las discusiones sobre robots.txt; sí, parafraseé. Esta afirmación es cierta, sin embargo, no creo que nadie familiarizado con robots.txt haya afirmado lo contrario”.

A continuación, profundizó en la deconstrucción de lo que realmente significa bloquear rastreadores. Enmarcó el proceso de bloquear rastreadores como la elección de una solución que controla o cede el control inherentemente a un sitio web. Lo planteó como una solicitud de acceso (navegador o rastreador) y el servidor responde de múltiples maneras.

Enumeró ejemplos de control:

Un archivo robots.txt (deja que el rastreador decida si rastrear o no).
Cortafuegos (WAF, también conocido como cortafuegos de aplicaciones web: el cortafuegos controla el acceso)
Protección de contraseña

Aquí están sus comentarios:

“Si necesita autorización de acceso, necesita algo que autentique al solicitante y luego controle el acceso. Los firewalls pueden realizar la autenticación en función de IP, su servidor web en función de las credenciales entregadas a HTTP Auth o un certificado para su cliente SSL/TLS, o su CMS en función de un nombre de usuario y una contraseña, y luego una cookie 1P.

Siempre hay alguna información que el solicitante pasa a un componente de la red que le permitirá a ese componente identificar al solicitante y controlar su acceso a un recurso. robots.txt, o cualquier otra directiva de alojamiento de archivos, entrega la decisión de acceder a un recurso al solicitante que puede no ser lo que usted desea. Estos archivos se parecen más a esos molestos puntales de control de carriles en los aeropuertos que todo el mundo quiere atravesar, pero no lo hacen.

Hay un lugar para postes, pero también hay un lugar para puertas blindadas e iris sobre tu Stargate.

TL;DR: no piense en robots.txt (u otras directivas de alojamiento de archivos) como una forma de autorización de acceso, use las herramientas adecuadas para eso, porque hay muchas «.

Utilice las herramientas adecuadas para controlar los bots

Hay muchas formas de bloquear raspadores, robots piratas, rastreadores de búsqueda, visitas de agentes de usuarios de IA y rastreadores de búsqueda. Además de bloquear los rastreadores de búsqueda, un firewall de algún tipo es una buena solución porque puede bloquear por comportamiento (como velocidad de rastreo), dirección IP, agente de usuario y país, entre muchas otras formas. Las soluciones típicas pueden estar a nivel de servidor con algo como Fail2Ban, basadas en la nube como Cloudflare WAF o como un complemento de seguridad de WordPress como Wordfence.

Lea la publicación de Gary Illyes en LinkedIn:

robots.txt no puede impedir el acceso no autorizado al contenido

Imagen destacada de Shutterstock/Ollyy