En un video de Google Search Central, Gary Illyes de Google explicó parte de la indexación de páginas web que implica seleccionar canónicos, explicando qué significa un canónico para Google, una explicación en miniatura de las señales de una página web, menciona la pieza central de una página y dice qué hace con los duplicados que implica una nueva forma de pensar sobre ellos.
¿Qué es una página web canónica?
Hay varias formas de considerar qué significa canónico, el punto de vista del editor y del SEO desde nuestro lado del cuadro de búsqueda y qué significa canónico desde el lado de Google.
Los editores identifican lo que creen que es la página web «original» y la concepción de los canónicos por parte de los SEO consiste en elegir la versión «más fuerte» de una página web con fines de clasificación.
La canonicalización para Google es algo completamente diferente de lo que los editores y los SEO creen que es, por lo que es bueno escucharlo de un Googler como Gary Illyes.
La documentación oficial de Google sobre canonicalización utiliza la palabra deduplicación para hacer referencia al proceso de elección de un canonical y enumera cinco razones típicas por las que un sitio puede tener páginas duplicadas.
Cinco razones para páginas duplicadas
- “Variantes regionales: por ejemplo, un contenido para EE. UU. y el Reino Unido, accesible desde diferentes URL, pero esencialmente el mismo contenido en el mismo idioma.
- Variantes de dispositivo: por ejemplo, una página con una versión móvil y otra de escritorio.
- Variantes de protocolo: por ejemplo, las versiones HTTP y HTTPS de un sitio.
- Funciones del sitio: por ejemplo, los resultados de las funciones de clasificación y filtrado de una página de categoría.
- Variantes accidentales: por ejemplo, la versión de demostración del sitio se deja accidentalmente accesible a los rastreadores”.
Los canónicos se pueden considerar de tres maneras diferentes y existen al menos cinco razones para las páginas duplicadas.
Gary describe una forma más de pensar en los canónicos.
Las señales se utilizan para elegir Canonicals
Ilyes comparte una definición más de canónico, esta vez desde el punto de vista de la indexación, y habla sobre las señales que se utilizan para seleccionar canónicos.
Gary explica:
“Google determina si la página es un duplicado de otra página ya conocida y qué versión debe mantenerse en el índice, la versión canónica.
Pero en este contexto, la versión canónica es la página de un grupo de páginas duplicadas que mejor representa al grupo según las señales que hemos recopilado sobre cada versión”.
Gary se detiene para explicar la agrupación duplicada y poco después vuelve a hablar de señales.
Él continuó:
“En su mayor parte, sólo aparecen páginas canónicas en los resultados de búsqueda. Pero ¿cómo sabemos qué página es canónica?
Entonces, una vez que Google tenga el contenido de su página, o más específicamente el contenido principal o la pieza central de una página, lo agrupará con una o más páginas con contenido similar, si corresponde. Esto es una agrupación duplicada”.
Sólo quiero detenerme aquí para señalar que Gary se refiere al contenido principal como la «pieza central de una página», lo cual es interesante porque hay un concepto introducido por Martin Splitt de Google llamado Anotación de pieza central. Realmente no explicó qué es la anotación central, pero esta parte que Gary compartió ayuda.
La siguiente es la parte del video donde Gary habla sobre qué son realmente las señales.
Illyes explica qué son las “señales”:
“Luego compara un puñado de señales que ya ha calculado para cada página para seleccionar una versión canónica.
Las señales son datos que el motor de búsqueda recopila sobre páginas y sitios web y que se utilizan para su posterior procesamiento.
Algunas señales son muy sencillas, como las anotaciones del propietario del sitio en HTML como rel=”canonical”, mientras que otras, como la importancia de una página individual en Internet, son menos sencillas”.
Los clústeres duplicados tienen uno canónico
Gary explica a continuación que se elige una página para representar lo canónico para cada grupo de páginas duplicadas en los resultados de búsqueda. Cada grupo de duplicados tiene un canónico.
Él continúa:
“Cada uno de los grupos duplicados tendrá una única versión del contenido seleccionado como canónico.
Esta versión representará el contenido de los resultados de búsqueda de todas las demás versiones.
Las otras versiones del clúster se convierten en versiones alternativas que pueden servirse en diferentes contextos, como si el usuario estuviera buscando una página muy específica del clúster”.
Versiones alternativas de páginas web
La última parte es realmente interesante y es importante tenerla en cuenta porque puede resultar útil para poder clasificar para múltiples variaciones de una palabra clave, especialmente para páginas web de comercio electrónico.
A veces, el sistema de gestión de contenidos (CMS) crea páginas web duplicadas para tener en cuenta las variaciones de un producto, como el tamaño o el color de un producto, que luego pueden afectar la descripción. Google puede elegir esas variaciones para clasificarlas en los resultados de búsqueda cuando esa página de variante coincida más estrechamente con una consulta de búsqueda.
Es importante pensar en esto porque podría resultar tentador redirigir páginas web variantes sin índice para mantenerlas fuera del índice de búsqueda por temor al (inexistente) problema de canibalización de palabras clave. Agregar un noindex a páginas que son variantes de una página puede ser contraproducente porque hay escenarios en los que esas páginas variantes son las mejores para clasificar para una consulta de búsqueda más matizada que contiene colores, tamaños o números de versión diferentes a los de la página canónica.
Principales conclusiones sobre Canonicals (y más) para recordar
Hay mucha información incluida en la discusión de Gary sobre los canónicos, incluidos algunos temas secundarios sobre el contenido principal.
Aquí hay siete conclusiones a considerar:
- El contenido principal se conoce como pieza central.
- Google calcula un «puñado de señales» para cada página que descubre.
- Las señales son datos que se utilizan para un “procesamiento posterior” después de que se descubren las páginas web.
- Algunas señales están bajo el control del editor, como sugerencias (y presumiblemente directivas). La pista que mencionó Illyes es el atributo de enlace rel=canonical.
- Otras señales están fuera del control del editor, como la importancia de la página en el contexto de Internet.
- Algunas páginas duplicadas pueden servir como versiones alternativas.
- Las versiones alternativas de páginas web aún pueden clasificarse y son útiles para Google (y el editor) a efectos de clasificación.
Mire el episodio de Search Central sobre indexación:
Cómo indexa la Búsqueda de Google las páginas
Imagen destacada de Google video/modificada por el autor