El informe de spam web de Google explica el papel de SpamBrain

El Informe anual de spam web de Google que cubre 2022 destacó todas las formas en que su sistema antispam SpamBrain se volvió más hábil para detectar múltiples formas de spam. Si bien el informe se trata principalmente de informar cuánto más spam atraparon en comparación con el año anterior, los detalles sobre cómo funciona SpamBrain parecían igual de importantes.

Plataforma SpamBrain de Google

SpamBrain es el nombre que Google le dio a su sistema de aprendizaje automático que Google llama una plataforma desde la cual lanzar algoritmos que detectan múltiples formas de contenido no deseado.

El aprendizaje automático es una forma de inteligencia artificial que utiliza datos para aprender a ser cada vez más competente en la tarea para la que está diseñado.

No se sabe mucho sobre SpamBrain, aparte de que es una plataforma de aprendizaje automático y es «central» para las iniciativas de Google para evitar que el spam se clasifique.

El informe de spam web de Google señala esto sobre SpamBrain:

«También mejoramos SpamBrain como una plataforma robusta y versátil, lanzando múltiples soluciones para mejorar nuestra cobertura de diferentes tipos de abuso».

Mejoras a SpamBrain

El informe Webspam señaló que las mejoras en el sistema dieron como resultado la detección de un 500 % más de sitios de spam que el año anterior.

La capacitación adicional resultó en un aumento de diez veces en la capacidad de SpamBrain para identificar sitios web pirateados.

Enlace de detección de spam

El informe señaló que la capacitación especial sobre enlaces no deseados resultó en la captura de cincuenta veces más sitios que crean enlaces no deseados en comparación con el año anterior, citando la capacidad de aprendizaje de SpamBrain como la clave de su éxito.

«Gracias a la capacidad de aprendizaje de SpamBrain, detectamos 50 veces más sitios con enlaces no deseados en comparación con la actualización anterior de enlaces no deseados».

Guardián de indexación

Un hecho interesante sobre SpamBrain es cómo identifica el spam en el momento del rastreo.

Si se detecta que una página rastreada es spam, se bloquea de inmediato, lo que evita que ingrese al índice de búsqueda de Google y evita que se desperdicien recursos rastreando páginas web no deseadas.

El bloqueo del spam en el momento del rastreo es una capacidad que se anunció en 2021, que señaló que la indexación no solo se bloquea cuando se rastrea el spam, sino también cuando intenta colarse a través de la consola de búsqueda y los mapas del sitio.

Escribieron en 2021:

“…tenemos sistemas que pueden detectar spam cuando rastreamos páginas u otro contenido. El rastreo es cuando nuestros sistemas automáticos visitan contenido y lo consideran para incluirlo en el índice que usamos para proporcionar resultados de búsqueda. Parte del contenido detectado como spam no se agrega al índice.

Estos sistemas también funcionan para el contenido que descubrimos a través de mapas de sitio y Search Console.

Por ejemplo, Search Console tiene una función de indexación de solicitudes para que los creadores puedan informarnos sobre nuevas páginas que deben agregarse rápidamente. Observamos a los spammers pirateando sitios vulnerables, fingiendo ser los dueños de estos sitios, verificándose en Search Console y usando la herramienta para pedirle a Google que rastree e indexe las muchas páginas de spam que crearon.

Usando IA, pudimos identificar verificaciones sospechosas y evitamos que las URL de spam ingresaran a nuestro índice de esta manera”.

Por lo tanto, es justo decir que una de las muchas funciones de SpamBrain es actuar como un guardián, bloqueando el spam antes de que tenga la oportunidad de ingresar al índice de Google.

Scam Protection ahora es multilingüe

Algo nuevo para SpamBrain es que el sistema de identificación de estafas ahora es multilingüe, lo que reduce los clics en sitios fraudulentos en un 50 % en comparación con el año anterior.

¿Qué pasa con el contenido de spam?

El informe de este año se centró en la detección de spam de enlaces, la identificación de sitios pirateados y las mejoras en la detección de spam en el momento del rastreo.

Lo que no mencionó fue nada que ver con la identificación de contenido spam.

¿Esto se debe a que el lado del contenido es manejado por el algoritmo de contenido útil y no por SpamBrain?

Lea el informe de spam web de Google:

Cómo luchamos contra el spam en la Búsqueda de Google en 2022

Imagen destacada de Shutterstock/Asier Romero