Google sobre errores Phantom Noindex en Search Console

Google sobre errores Phantom Noindex en Search Console


John Mueller de Google respondió recientemente una pregunta sobre errores fantasmas de no índice reportados en Google Search Console. Mueller afirmó que estos informes pueden ser reales.

Noindex en la consola de búsqueda de Google

Una directiva de robots noindex es uno de los pocos comandos que Google debe obedecer, una de las pocas formas en que el propietario de un sitio puede ejercer control sobre Googlebot, el indexador de Google.

Y, sin embargo, no es totalmente raro que Search Console informe que no puede indexar una página debido a una directiva noindex que aparentemente no tiene ninguna directiva noindex, al menos ninguna que sea visible en el código HTML.

Cuando Google Search Console (GSC) informa «URL enviada marcada como ‘noindex'», informa una situación aparentemente contradictoria:

  • El sitio pidió a Google que indexara la página mediante una entrada en un mapa del sitio.
  • La página envió a Google una señal para que no la indexara (a través de una directiva noindex).

Es un mensaje confuso de Search Console que una página impide que Google la indexe cuando eso no es algo que el editor o el SEO puedan observar que sucede a nivel de código.

La persona que hizo la pregunta publicó en Bluesky:

«Durante los últimos 4 meses, el sitio web ha experimentado un error noindex (en la metaetiqueta ‘robots’) que se niega a desaparecer de Search Console. No hay noindex en ninguna parte del sitio web ni robots.txt. Ya hemos investigado esto… ¿Qué podría estar causando este error?»

Noindex se muestra solo para Google

John Mueller de Google respondió la pregunta y compartió que siempre había un noindex que mostraba a Google en las páginas que examinaba donde sucedía este tipo de cosas.

Mueller respondió:

«Los casos que he visto en el pasado fueron en los que en realidad no había un índice, solo que a veces solo se mostraba a Google (lo que aún puede ser muy difícil de depurar). Dicho esto, no dudes en enviarme un mensaje privado con algunas URL de ejemplo».

Si bien Mueller no dio más detalles sobre lo que puede estar pasando, hay formas de solucionar este problema para descubrir qué está pasando.

Cómo solucionar problemas de errores Phantom Noindex

Es posible que haya un código en alguna parte que esté provocando que se muestre un noindex solo para Google. Por ejemplo, puede haber sucedido que una página en algún momento tuviera un noindex y un caché del lado del servidor (como un complemento de almacenamiento en caché) o un CDN (como Cloudflare) haya almacenado en caché los encabezados HTTP de ese momento, lo que a su vez causaría que el antiguo encabezado noindex se mostrara al robot de Google (porque visita el sitio con frecuencia) mientras se entrega una versión nueva al propietario del sitio.

Verificar el encabezado HTTP es fácil, hay muchos verificadores de encabezados HTTP como este en KeyCDN o este en SecurityHeaders.com.

Un código de respuesta de encabezado de servidor 520 es el que envía Cloudflare cuando bloquea un agente de usuario.

Captura de pantalla: Código de respuesta 520 de Cloudflare

A continuación se muestra una captura de pantalla de un código de respuesta de 200 servidores generado por cloudflare:

Captura de pantalla: Código de respuesta del servidor 200

Verifiqué la misma URL usando dos verificadores de encabezado diferentes, uno de los cuales devolvió un código de respuesta del servidor 520 (bloqueado) y el otro verificador de encabezado envió un código de respuesta 200 (OK). Eso muestra cuán diferente puede responder Cloudflare a algo como un verificador de encabezados. Lo ideal es intentar comprobar con varios verificadores de encabezados para ver si hay una respuesta 520 consistente de Cloudflare.

En la situación en la que una página web muestra algo exclusivamente a Google que de otro modo no sería visible para alguien que mira el código, lo que debe hacer es hacer que Google mire la página por usted utilizando un rastreador de Google real y desde una dirección IP de Google. La forma de hacerlo es colocando la URL en la prueba de resultados enriquecidos de Google. Google enviará un rastreador desde una dirección IP de Google y si hay algo en el servidor (o CDN) que muestra un no índice, lo detectará. Además de los datos estructurados, la prueba de resultados enriquecidos también proporcionará la respuesta HTTP y una instantánea de la página web que muestra exactamente lo que el servidor le muestra a Google.

Cuando ejecuta una URL a través de la prueba de resultados enriquecidos de Google, la solicitud:

  • Se origina en los centros de datos de Google: el bot utiliza una dirección IP real de Google.
  • Pasa las comprobaciones de DNS inversas: si el servidor, el complemento de seguridad o la CDN verifican la IP, se resolverá nuevamente en googlebot.com o google.com.

Si la página está bloqueada por noindex, la herramienta no podrá proporcionar ningún resultado de datos estructurados. Debería proporcionar un estado que diga «Página no elegible» o «Error de rastreo». Si ve eso, haga clic en el enlace «Ver detalles» o expanda la sección de error. Debería mostrar algo como “Metaetiqueta de robots: noindex” o ‘noindex’ detectado en la metaetiqueta ‘robots'».

Este enfoque no envía el agente de usuario GoogleBot, sino que utiliza la cadena de agente de usuario Google-InspectionTool/1.0. Eso significa que si el bloqueo del servidor es por dirección IP, este método lo detectará.

Otro ángulo a verificar es para la situación en la que una etiqueta noindex maliciosa está escrita específicamente para bloquear GoogleBot, aún puede falsificar (imitar) la cadena del agente de usuario de GoogleBot con la extensión User Agent Switcher de Google para Chrome o configurar una aplicación como Screaming Frog configurada para identificarse con el agente de usuario de GoogleBot y eso debería detectarlo.

Captura de pantalla: Conmutador de agente de usuario de Chrome

Errores fantasmas de Noindex en Search Console

Este tipo de errores puede resultar complicado de diagnosticar, pero antes de levantar las manos, tómate un tiempo para ver si alguno de los pasos descritos aquí te ayudará a identificar la razón oculta responsable de este problema.

Imagen destacada de Shutterstock/AYO Production

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *