Gary Illyes de Google discutió el concepto de «contenido de la pieza central», cómo lo identifican y por qué los 404 suaves son el error más crítico que se interpone en la forma de indexar el contenido. El contexto de la discusión fue el reciente evento de Dive Deep Dive de Google Search en Asia, según lo resumido por Kenichi Suzuki.
Contenido principal del cuerpo
Según Gary Illyes, Google hace todo lo posible para identificar el contenido principal de una página web. La frase «contenido principal» será familiar para aquellos que hayan leído las pautas de la calidad de búsqueda de Google. El concepto de «contenido principal» se introduce por primera vez en la Parte 1 de las pautas, en una sección que enseña cómo identificar el contenido principal, que es seguido por una descripción de la calidad del contenido principal.
Las pautas de calidad definen el contenido principal (también conocido como MC) como:
“El contenido principal es cualquier parte de la página que ayuda directamente a la página a alcanzar su propósito. MC puede ser texto, imágenes, videos, características de la página (por ejemplo, calculadoras, juegos), y puede ser contenido creado por usuarios del sitio web, como videos, revisiones, artículos, comentarios publicados por usuarios, etc.
El MC también incluye el título en la parte superior de la página (ejemplo). Los títulos descriptivos de MC permiten a los usuarios tomar decisiones informadas sobre qué páginas visitar. Los títulos útiles resumen el MC en la página «.
Los Illyes de Google se refirieron al contenido principal como el contenido de la pieza central, diciendo que se usa para «clasificación y recuperación». El contenido en esta sección de una página web tiene mayor peso que el contenido en el pie de página, el encabezado y las áreas de navegación (incluida la navegación de la barra lateral).
Suzuki resumió lo que dijo Illyes:
«Los sistemas de Google priorizan en gran medida el» contenido principal «(que él también llama la» pieza central «) de una página para la clasificación y la recuperación. Las palabras y frases ubicadas en esta área tienen significativamente más peso que los de encabezados, pies de página o barras laterales de navegación. Para clasificarse por términos importantes, debe asegurarse de que se presenten prominentemente dentro del cuerpo principal de su página».
Análisis de ubicación de contenido para identificar el contenido principal
Esta parte de la presentación de Illyes es importante para acertar. Gary Illyes dijo que Google analiza la página web representada para ubicar el contenido para que pueda asignar la cantidad de peso apropiada a las palabras ubicadas en el contenido principal.
No se trata de identificar la posición de las palabras clave en la página. Se trata solo de identificar el contenido dentro de una página web.
Esto es lo que Suzuki transcribió:
«Google realiza un análisis posicional en la página renderizada para comprender dónde se encuentra el contenido. Luego utiliza estos datos para asignar una puntuación de importancia a las palabras (tokens) en la página. Mover un término de un área de baja importancia (como una barra lateral) al área de contenido principal aumentará directamente su peso y potencial para clasificar».
Conocimiento: El HTML semántico es una excelente manera de ayudar a Google a identificar el contenido principal y las áreas menos importantes. El HTML semántico hace que las páginas web sean menos ambiguas porque utiliza elementos HTML para identificar las diferentes áreas de una página web, como la sección de encabezado superior, áreas de navegación, pies de página e incluso para identificar elementos publicitarios y de navegación que pueden integrarse dentro del área de contenido principal. Este proceso técnico de SEO de hacer que una página web sea menos ambigua se llama desambiguación.
Relacionado:
3. La tokenización es la base del índice de Google
Debido a la prevalencia de las tecnologías de IA hoy en día, muchos SEO son conscientes del concepto de tokenización. Google también usa tokenización para convertir palabras y frases en un formato legible por máquina para la indexación. Lo que se almacena en el índice de Google no es el HTML original; Es la representación tokenizada del contenido.
Ver también: Introducción a LLM para SEO con ejemplos
4. «Los 404 suaves son un error crítico
Esta parte es importante porque enmarca los 404 suaves como un error crítico. Los 404 suaves son páginas que deberían devolver una respuesta 404, pero en su lugar devolver una respuesta de 200 OK. Esto puede suceder cuando un SEO o editor redirige una página web que falta a la página de inicio para conservar su PageRank. A veces, una página web faltante redirigirá a una página de error que devuelve una respuesta de 200 OK, que también es incorrecta.
Muchos SEO creen erróneamente que el código de respuesta 404 es un error que necesita arreglar. Un 404 es algo que necesita arreglar solo si la URL está rota y se supone que apunta a una URL diferente que está en vivo con el contenido real.
Pero en el caso de una URL para una página web que se ha ido y probablemente nunca regrese porque no ha sido reemplazada por otro contenido, una respuesta 404 es la correcta. Si el contenido ha sido reemplazado o reemplazado por otra página web, entonces es apropiado en ese caso redirigir la URL anterior a la URL donde existe el contenido de reemplazo.
El punto de todo esto es que, para Google, un 404 suave es un error crítico. Eso significa que los SEO que intentan arreglar un evento que no es de error como una respuesta 404 redirigiendo la URL a la página de inicio en realidad está creando un error crítico al hacerlo.
Suzuki señaló lo que dijo Illyes:
«Una página que devuelve un código de estado de 200 OK pero muestra un mensaje de error o tiene contenido principal muy delgado/vacío se considera un» 40 404 «. Google identifica y elimina activamente estas páginas a medida que desperdician el presupuesto de rastreo y proporcionan una experiencia de usuario deficiente.
Relacionado: Google advierte sobre los errores suaves de 404 y su impacto en el SEO
Comida para llevar
- Contenido principal
Google da prioridad a la parte principal de contenido de una página web determinada. Aunque Gary Illyes no lo mencionó, puede ser útil usar HTML semántico para describir claramente qué partes de la página son el contenido principal y qué partes no son. - Google toca el contenido para la indexación
El uso de la tokenización de Google permite la comprensión semántica de las consultas y el contenido. La importancia para el SEO es que Google ya no se basa en gran medida en las palabras clave de combinación exacta, que libera a los editores y SEO para centrarse en escribir sobre temas (no palabras clave) desde el punto de vista de cómo son útiles para los usuarios. - Los 404 suaves son un error crítico
Los 404 suaves se consideran comúnmente como algo para evitar, pero generalmente no se entienden como un error crítico que puede afectar negativamente el presupuesto de rastreo. Esto eleva la importancia de evitar 404 suaves.
Ver también: Cómo Bing Ai Search utiliza contenido del sitio web
Imagen destacada de Shutterstock/Krakenimages.com