Mueller de Google explica el error «Página indexada sin contenido»

El defensor de búsqueda de Google, John Mueller, respondió a una pregunta sobre el error «Página indexada sin contenido» en Search Console, explicando que el problema generalmente se debe al bloqueo del servidor o CDN en lugar de JavaScript.

El intercambio tuvo lugar en Reddit después de que un usuario informara que su página de inicio cayó de la posición 1 a la posición 15 tras la aparición del error.

¿Lo que está sucediendo?

Mueller aclaró un error común sobre la causa de la «Página indexada sin contenido» en Search Console.

Mueller escribió:

«Por lo general, esto significa que su servidor/CDN está bloqueando que Google reciba cualquier contenido. Esto no está relacionado con nada de JavaScript. Generalmente es un bloqueo de nivel bastante bajo, a veces basado en la dirección IP del robot de Google, por lo que probablemente será imposible realizar pruebas desde fuera de las herramientas de prueba de Search Console».

El usuario de Reddit ya había intentado varios pasos de diagnóstico. Ejecutaron comandos curl para buscar la página como Googlebot, verificaron el bloqueo de JavaScript y probaron con la prueba de resultados enriquecidos de Google. Las herramientas de inspección de escritorio arrojaron errores de «Algo salió mal», mientras que las herramientas móviles funcionaron normalmente.

Mueller señaló que los métodos de prueba externos estándar no detectarán estos bloqueos.

Añadió:

«Además, esto significaría que las páginas de su sitio comenzarán a desaparecer del índice (pronto o ya), por lo que es una buena idea tratar esto como algo urgente».

El sitio afectado utiliza Webflow como CMS y Cloudflare como CDN. El usuario informó que la página de inicio se había indexado normalmente sin cambios recientes en el sitio.

Por qué esto importa

He cubierto este tipo de problema repetidamente a lo largo de los años. Las configuraciones de CDN y del servidor pueden bloquear inadvertidamente el robot de Google sin afectar a los usuarios habituales ni a las herramientas de prueba estándar. Los bloqueos a menudo apuntan a rangos de IP específicos, lo que significa que las pruebas curl y los rastreadores de terceros no reproducirán el problema.

Cubrí cuando Google agregó por primera vez «indexado sin contenido» al informe de cobertura del índice. La documentación de ayuda de Google en ese momento señaló que el estado significa «por alguna razón Google no pudo leer el contenido» y especificó «este no es un caso de bloqueo de robots.txt». La causa subyacente casi siempre es algo que se encuentra más abajo en la pila.

Me llamó la atención el detalle de Cloudflare. Informé sobre un patrón similar cuando Mueller avisó al propietario de un sitio cuyo rastreo se detuvo en varios dominios simultáneamente. Todos los sitios afectados utilizaron Cloudflare, y Mueller señaló a la «infraestructura compartida» como el probable culpable. El patrón aquí parece familiar.

Más recientemente, cubrí una interrupción de Cloudflare en noviembre que provocó picos de 5xx que afectaron el rastreo. Ese fue un incidente generalizado. Este caso parece ser algo más específico, probablemente una regla de protección contra bots o una configuración de firewall que trata las direcciones IP del robot de Google de manera diferente al resto del tráfico.

La herramienta de inspección de URL de Search Console y la prueba de URL activa siguen siendo las principales formas de identificar estos bloqueos. Cuando esas herramientas devuelven errores mientras pasan las pruebas externas, la causa probable es el bloqueo a nivel del servidor. Mueller hizo un comentario similar en agosto cuando advirtió sobre las caídas en la tasa de rastreo, sugiriendo a los propietarios de sitios «verificar lo que realmente sucedió» y verificar «si fue una CDN la que realmente bloqueó el robot de Google».

Mirando hacia el futuro

Si ve el error «Página indexada sin contenido», verifique la CDN y las configuraciones del servidor para conocer las reglas que afectan los rangos de IP del robot de Google. Google publica las direcciones IP de su rastreador, lo que puede ayudar a identificar si las reglas de seguridad están dirigidas a ellos.

La herramienta de inspección de URL de Search Console es la forma más confiable de ver qué recibe Google al rastrear una página. Las herramientas de prueba externas no detectarán bloqueos basados en IP que solo afecten a la infraestructura de Google.

Específicamente para los usuarios de Cloudflare, verifique la configuración de administración de bots, las reglas de firewall y cualquier control de acceso basado en IP. Es posible que la configuración haya cambiado mediante actualizaciones automáticas o nuevas configuraciones predeterminadas en lugar de cambios manuales.