Google muestra cómo bloquear bots y mejorar el rendimiento del sitio

Martin Splitt de Google respondió una pregunta sobre los robots maliciosos que afectan el rendimiento del sitio, ofreciendo sugerencias que todo SEO y propietario de un sitio debería conocer y poner en práctica.

Los bots maliciosos son un problema de SEO

Muchos SEO que realizan auditorías de sitios comúnmente pasan por alto la seguridad y el tráfico de bots como parte de sus auditorías porque los especialistas en marketing digital no comprenden ampliamente que los eventos de seguridad afectan el rendimiento del sitio y pueden explicar por qué un sitio no se rastrea adecuadamente. Mejorar los elementos básicos de la web no hará nada para mejorar el rendimiento del sitio cuando una mala postura de seguridad contribuye al bajo rendimiento del sitio.

Todos los sitios web están bajo ataque y los efectos del rastreo excesivo pueden desencadenar un código de respuesta de “error de servidor 500”, lo que indica una incapacidad para servir páginas web y obstaculiza la capacidad de Google para rastrear páginas web.

Cómo defenderse de los ataques de bots

La persona que hizo la pregunta quería el consejo de Google sobre cómo luchar contra las oleadas de robots raspadores que afectan el rendimiento de su servidor.

Esta es la pregunta formulada:

“Nuestro sitio web está experimentando interrupciones significativas debido al scraping dirigido por software automatizado, lo que genera problemas de rendimiento, aumento de la carga del servidor y posibles problemas de seguridad de los datos. A pesar del bloqueo de IP y otras medidas preventivas, el problema persiste. ¿Qué podemos hacer?

Martin Splitt de Google sugirió identificar el servicio que sirve como fuente de los ataques y notificarles sobre un uso abusivo de sus servicios. También recomendó las capacidades de firewall de una CDN (Content Delivery Network).

Martín respondió:

“Esto suena como un problema de denegación de servicio distribuido si el rastreo es tan agresivo que provoca una degradación del rendimiento.

Puede intentar identificar al propietario de la red de donde proviene el tráfico, agradecer a «su proveedor de alojamiento» y enviar una notificación de abuso. Generalmente puedes usar la información de WHOIS para eso.

Alternativamente, las CDN a menudo tienen funciones para detectar el tráfico de bots y bloquearlo y, por definición, quitan el tráfico de su servidor y lo distribuyen bien, así que eso es una victoria. La mayoría de las CDN reconocen robots de motores de búsqueda legítimos y no los bloquean, pero si eso es una preocupación importante para usted, considere preguntarles antes de comenzar a usarlos”.

¿Funcionará el consejo de Google?

Identificar el proveedor de la nube o el centro de datos del servidor que aloja los bots maliciosos es un buen consejo. Pero hay muchos escenarios en los que eso no funcionará.

Tres razones por las que contactar a los proveedores de recursos no funcionará

1. Muchos bots están ocultos

Los bots suelen utilizar VPN y redes “Tor” de código abierto que ocultan el origen de los bots, frustrando todos los intentos de identificar los servicios en la nube o el servidor web que proporciona la infraestructura para los bots. Los piratas informáticos también se esconden detrás de computadoras domésticas y comerciales comprometidas, llamadas botnets, para lanzar sus ataques. No hay forma de identificarlos.

2. Los robots cambian de dirección IP

Algunos bots responden al bloqueo de IP cambiando instantáneamente a una red diferente para reanudar inmediatamente su ataque. Un ataque puede originarse desde un servidor alemán y, cuando se bloquea, cambiará a un proveedor de red en Asia.

3. Uso ineficiente del tiempo

Contactar a los proveedores de red sobre usuarios abusivos es inútil cuando la fuente del tráfico está confusa o proviene de cientos de fuentes. Muchos propietarios de sitios y SEO se sorprenderán al descubrir cuán intensos son los ataques a sus sitios web. Incluso tomar medidas contra un pequeño grupo de delincuentes es un uso ineficiente del tiempo porque hay literalmente millones de otros bots que reemplazarán a los bloqueados por un proveedor de nube.

¿Y qué pasa con las botnets compuestas por miles de computadoras comprometidas en todo el mundo? ¿Crees que tienes tiempo para notificar a todos esos ISP?

Esas son tres razones por las que notificar a los proveedores de infraestructura no es un enfoque viable para detener los robots que afectan el rendimiento del sitio. Siendo realistas, es un uso inútil e ineficiente del tiempo.

Utilice un WAF para bloquear bots

Usar un firewall de aplicaciones web (WAF) es una buena idea y esa es la función que sugiere Martin Splitt cuando mencionó el uso de una CDN (red de entrega de contenido). Una CDN, como Cloudflare, envía a los navegadores y rastreadores la página web solicitada desde un servidor ubicado más cerca de ellos, lo que acelera el rendimiento del sitio y reduce los recursos del servidor para el propietario del sitio.

Una CDN también tiene un WAF (Web Application Firewall) que bloquea automáticamente los bots maliciosos. La sugerencia de Martin de utilizar una CDN es definitivamente una buena opción, especialmente porque tiene el beneficio adicional de mejorar el rendimiento del sitio.

Una opción que Martin no mencionó es utilizar un complemento WAF de WordPress como Wordfence. Wordfence tiene un WAF que apaga automáticamente los bots según su comportamiento. Por ejemplo, si un bot solicita cantidades ridículas de páginas, creará automáticamente un bloqueo de IP temporal. Si el bot gira a otra dirección IP, identificará el comportamiento de rastreo y lo bloqueará nuevamente.

Otra solución a considerar es una plataforma SaaS como Sucuri que ofrece un WAF y una CDN para acelerar el rendimiento. Tanto Wordfence como Sucuri son proveedores confiables de seguridad para WordPress y vienen con versiones gratuitas limitadas pero efectivas.

Escuche la pregunta y la respuesta en el minuto 6:36 del podcast de Google SEO Office Hours: