Por qué Google indexa páginas web bloqueadas

Por qué Google indexa páginas web bloqueadas


John Mueller de Google respondió una pregunta sobre por qué Google indexa páginas cuyo rastreo no está permitido mediante robots.txt y por qué es seguro ignorar los informes relacionados de Search Console sobre esos rastreos.

Tráfico de bot para consultar las URL de parámetros

La persona que hizo la pregunta documentó que los bots estaban creando enlaces a URL de parámetros de consulta inexistentes (?q=xyz) a páginas con metaetiquetas noindex que también están bloqueadas en robots.txt. Lo que generó la pregunta es que Google está rastreando los enlaces a esas páginas, siendo bloqueado por robots.txt (sin ver una metaetiqueta de robots noindex) y luego siendo reportado en Google Search Console como «Indexado, aunque bloqueado por robots.txt».

La persona hizo la siguiente pregunta:

“Pero aquí está la gran pregunta: ¿por qué Google indexaría páginas cuando ni siquiera pueden ver el contenido? ¿Cuál es la ventaja en eso?

John Mueller de Google confirmó que si no pueden rastrear la página no podrán ver la metaetiqueta noindex. También hace una mención interesante del sitio: operador de búsqueda, aconsejando ignorar los resultados porque los usuarios «promedio» no verán esos resultados.

Él escribió:

“Sí, tienes razón: si no podemos rastrear la página, no podemos ver el noindex. Dicho esto, si no podemos rastrear las páginas, entonces no hay mucho que indexar. Entonces, si bien es posible que vea algunas de esas páginas con un sitio específico: consulta, el usuario promedio no las verá, por lo que no me preocuparía por eso. Noindex también está bien (sin robots.txt no permitido), solo significa que las URL terminarán siendo rastreadas (y terminarán en el informe de Search Console para rastreadas/no indexadas; ninguno de estos estados causa problemas al resto del sitio). . La parte importante es que no los hagas rastreables e indexables”.

Relacionado: Google recuerda a los sitios web que utilicen Robots.txt para bloquear las URL de acción

Conclusiones:

1. Confirmación de limitaciones del sitio: búsqueda

La respuesta de Mueller confirma las limitaciones en el uso del operador de búsqueda avanzada Site:search por motivos de diagnóstico. Una de esas razones es que no está conectado al índice de búsqueda normal, es algo completamente separado.

John Mueller de Google comentó sobre el operador de búsqueda de sitios en 2021:

“La respuesta corta es que una consulta de sitio: no debe ser completa ni utilizarse con fines de diagnóstico.

Una consulta de sitio es un tipo específico de búsqueda que limita los resultados a un determinado sitio web. Básicamente es solo la palabra sitio, dos puntos y luego el dominio del sitio web.

Esta consulta limita los resultados a un sitio web específico. No pretende ser una colección completa de todas las páginas de ese sitio web”.

El operador del sitio no refleja el índice de búsqueda de Google, lo que lo hace poco confiable para comprender qué páginas ha indexado o no ha indexado Google. Al igual que otros operadores de búsqueda avanzada de Google, no son herramientas confiables para comprender cualquier cosa relacionada con cómo Google clasifica o indexa el contenido.

2. La etiqueta Noindex sin utilizar un archivo robots.txt está bien para este tipo de situaciones en las que un bot se vincula a páginas inexistentes que el robot de Google descubre. Las etiquetas Noindex en páginas que no están bloqueadas por un disallow en el archivo robots.txt permiten a Google rastrear la página y leer la directiva noindex, asegurando que la página no aparecerá en el índice de búsqueda, lo cual es preferible si el objetivo es mantener un página fuera del índice de búsqueda de Google.

3. Las URL con la etiqueta noindex generarán una entrada «rastreada/no indexada» en Search Console y no tendrán un efecto negativo en el resto del sitio web.
Estas entradas de Search Console, en el contexto de páginas que están bloqueadas intencionalmente, solo indican que Google rastreó la página pero no la indexó, esencialmente diciendo que esto sucedió, no (en este contexto específico) que haya algún problema que deba solucionarse.

Esta entrada es útil para alertar a los editores sobre páginas que están bloqueadas inadvertidamente por una etiqueta noindex o por alguna otra causa que impide que la página se indexe. Entonces es algo para investigar.

4. Cómo maneja el robot de Google las URL con etiquetas noindex cuyo rastreo está bloqueado por un archivo robots.txt no permitido, pero que también se pueden descubrir mediante enlaces.
Si el robot de Google no puede rastrear una página, entonces no podrá leer ni aplicar la etiqueta noindex, por lo que la página aún puede indexarse ​​según el descubrimiento de URL desde un enlace interno o externo.

La documentación de Google sobre la metaetiqueta noindex tiene una advertencia sobre el uso de robots.txt para no permitir páginas que tengan una etiqueta noindex en los metadatos:

“Para que la regla noindex sea efectiva, la página o el recurso no debe estar bloqueado por un archivo robots.txt y el rastreador debe poder acceder a él. Si la página está bloqueada por un archivo robots.txt o el rastreador no puede acceder a la página, el rastreador nunca verá la regla noindex y la página aún puede aparecer en los resultados de búsqueda, por ejemplo, si otras páginas enlazan con ella».

5. En qué se diferencian las búsquedas del sitio de las búsquedas habituales en el proceso de indexación de Google
Sitio: las búsquedas se limitan a un dominio específico y están desconectadas del índice de búsqueda principal, lo que hace que no reflejen el índice de búsqueda real de Google y sean menos útiles para diagnosticar problemas de indexación.

Lea la pregunta y la respuesta en LinkedIn:

¿Por qué Google indexaría páginas cuando ni siquiera pueden ver el contenido?

Imagen destacada de Shutterstock/Krakenimages.com

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *