Google sobre la protección de la señal de texto ancla de la influencia del sitio de spam

En una sesión de horas de oficina de SEO de Google, Duy Nguyen del equipo de calidad de búsqueda de Google respondió una pregunta sobre los enlaces en los sitios de spam y cómo la confianza tiene algo que ver con eso.

Fue interesante cómo Googler dijo que estaban protegiendo la señal de texto de anclaje. No es algo que se discuta comúnmente.

Generar confianza con Google es una consideración importante para muchos editores y SEO.

Existe la idea de que la «confianza» ayudará a que un sitio sea indexado y clasificado correctamente.

También se sabe que no existe una métrica de «confianza», lo que a veces confunde a algunos en la comunidad de búsqueda.

¿Cómo puede confiar el algoritmo si no está midiendo algo?

Los empleados de Google realmente no responden a esa pregunta, pero hay patentes y trabajos de investigación que dan una idea.

Google no confía en los enlaces de los sitios de spam

La persona que envió una pregunta al horario de oficina de SEO preguntó:

“Si un dominio es penalizado, ¿afecta a los enlaces que salen de él?”

El Googler, Duy Nguyen, respondió:

“Supongo que por ‘penalizar’ quiere decir que el dominio fue degradado por nuestros algoritmos de spam o acciones manuales.

En general, sí, no confiamos en los enlaces de sitios que sabemos que son spam.

Esto nos ayuda a mantener la calidad de nuestras señales de anclaje”.

Confianza y enlaces

Los Googlers hablan de confianza y está claro que están hablando de que sus algoritmos confían en algo o no confían en algo.

En este caso no se trata de no contar los enlaces que están en sitios de spam, en particular, se trata de no contar la señal de texto ancla.

La comunidad SEO habla de “generar confianza”, pero en este caso, se trata realmente de no generar spam.

¿Cómo determina Google que un sitio es spam?

No todos los sitios son penalizados o reciben una acción manual. Algunos sitios ni siquiera están indexados y ese es el trabajo de Spam Brain de Google, una plataforma de inteligencia artificial que analiza las páginas web en diferentes puntos, comenzando en el momento del rastreo.

La plataforma cerebral de spam funciona como:

Guardián de indexación
Spam Brain bloquea los sitios en el momento del rastreo, incluido el contenido que se descubre a través de la consola de búsqueda y los mapas del sitio.
Caza el spam indexado
Spam Brain también detecta el spam que ha sido indexado en el momento en que los sitios se consideran para la clasificación.

La forma en que funciona la plataforma Spam Brain es que entrena una IA sobre el conocimiento que tiene Google sobre el spam.

Google comentó sobre cómo funciona el cerebro de spam:

“Al combinar nuestro profundo conocimiento del spam con la IA, el año pasado pudimos crear nuestra propia IA para combatir el spam que es increíblemente eficaz para detectar tendencias de spam conocidas y nuevas”.

no sabemos qué”conocimiento del correo no deseadoGoogle está hablando, pero hay varias patentes y trabajos de investigación al respecto.

Aquellos que quieran profundizar en este tema pueden considerar leer un artículo que escribí sobre el concepto de algoritmos de clasificación de distancia de enlace, un método para clasificar enlaces.

También publiqué un artículo completo sobre varios trabajos de investigación que describen algoritmos relacionados con enlaces que pueden describir qué es el algoritmo Penguin.

Aunque muchas de las patentes y trabajos de investigación pertenecen a los últimos diez años, en realidad no ha habido nada más publicado por los motores de búsqueda y los investigadores universitarios desde entonces.

La importancia de esas patentes y trabajos de investigación es que es posible que puedan incorporarse al algoritmo de Google de una forma diferente, como para capacitación e IA como Spam Brain.

La patente discutida en el artículo de clasificación de la distancia del enlace describe cómo el método asigna puntajes de clasificación para las páginas en función de las distancias entre un conjunto de «sitios semilla» confiables y las páginas a las que se vinculan. Los sitios semilla son como puntos de partida para calcular qué sitios son normales y cuáles no (es decir, spam).

La intuición es que cuanto más lejos está un sitio de un sitio semilla, más probable es que el sitio se considere spam. Esta parte, sobre la determinación del spam a través de la distancia del enlace, se analiza en los trabajos de investigación citados en el artículo de Penguin al que me referí anteriormente.

La patente, (Producir una clasificación para páginas usando distancias en un gráfico de enlace web), explica:

“El sistema luego asigna longitudes a los enlaces en función de las propiedades de los enlaces y las propiedades de las páginas adjuntas a los enlaces.

A continuación, el sistema calcula las distancias más cortas desde el conjunto de páginas iniciales hasta cada página del conjunto de páginas basándose en las longitudes de los enlaces entre las páginas.

A continuación, el sistema determina una puntuación de clasificación para cada página del conjunto de páginas en función de las distancias más cortas calculadas”.

Gráfico de enlace reducido

La misma patente también menciona lo que se conoce como gráfico de enlace reducido.

Pero no es solo una patente que analiza los gráficos de enlace reducidos. Los gráficos de enlaces reducidos también se investigaron fuera de Google.

Un gráfico de enlaces es como un mapa de Internet que se crea mapeando con enlaces.

En un gráfico de enlaces reducidos, se eliminan los enlaces de baja calidad y los sitios asociados.

Lo que queda es lo que se llama un gráfico de enlace reducido.

Aquí hay una cita de la patente de Google citada anteriormente:

“Un gráfico de enlace reducido

Tenga en cuenta que los enlaces que participan en las k rutas más cortas desde las semillas a las páginas constituyen un subgráfico que incluye todos los enlaces que están clasificados como «flujos» desde las semillas.

Aunque este subgráfico incluye muchos menos enlaces que el gráfico de enlaces original, los k caminos más cortos desde las semillas hasta cada página en este subgráfico tienen la misma longitud que los caminos del gráfico original.

…Además, el flujo de clasificación de cada página se puede retrotraer a las k semillas más cercanas a través de las rutas de este subgráfico”.

Google no confía en los enlaces de sitios penalizados

Es algo obvio que Google no confía en los enlaces de sitios web penalizados.

Pero a veces uno no sabe si un sitio está penalizado o marcado como spam por Spam Brain.

Investigar para ver si es posible que no se confíe en un sitio es una buena idea antes de intentar obtener un enlace de un sitio.

En mi opinión, las métricas de terceros no deben usarse para tomar decisiones comerciales como esta porque los cálculos utilizados para producir una puntuación están ocultos.

Si un sitio ya está enlazado a sitios posiblemente spam que tienen enlaces entrantes de posibles enlaces pagos como PBN (redes privadas de blogs), entonces es probable que sea un sitio spam.

Imagen destacada de Shutterstock/Krakenimages.com

Mire el horario de oficina de SEO: