Google: si no puede bloquear ningún resultado de búsqueda interna encontrado, entonces bloquee todos los resultados de búsqueda

John Mueller de Google despotricó un poco en Reddit sobre el tema de que sus páginas de resultados de búsqueda internas se puedan rastrear e indexar. Como sabe, en general, Google no quiere indexar los resultados de búsqueda, pero John dijo que esto es especialmente cierto para las páginas de resultados de búsqueda que no tienen resultados encontrados.

En resumen, dijo John, «si no puede seleccionar qué páginas de resultados de búsqueda deben ser indexables, debe bloquearlas todas para que no sean indexables: use la metaetiqueta robots.txt disallow o noindex robots».

La diatriba es un poco divertida de leer, así que aquí está:

Desafortunadamente, muchos CMS, plataformas de alojamiento, plataformas de comercio electrónico, etc. todavía no tienen páginas de resultados de búsqueda robotizadas o sin índice de forma predeterminada. Hemos dado esa orientación durante probablemente más de una década. Especialmente si una página de resultados de búsqueda no arroja resultados, no hay razón para que sea indexable. E incluso para otras páginas de resultados de búsqueda, es una buena práctica bloquearlas todas o permitir que solo se indexe un conjunto seleccionado a mano (por ejemplo, consultas de tipo de producto conocido, donde los resultados son más como páginas de categorías). Si no puede limitar las páginas de resultados de búsqueda indexables, le recomiendo encarecidamente no indexar o robotizar *todas* las páginas de búsqueda. Todavía es una ocurrencia regular que veamos sitios que envían spam a los resultados de búsqueda con páginas de resultados de búsqueda abiertas; no se necesita mucho trabajo para prevenirlo, y limpiarlo después es una molestia.

En 2007, Google les dijo a los webmasters que bloquearan la indexación de los resultados de búsqueda internos. La directriz original dice «Use robots.txt para evitar el rastreo de las páginas de resultados de búsqueda u otras páginas generadas automáticamente que no agregan mucho valor para los usuarios que provienen de los motores de búsqueda». Ahora dice «Use el archivo robots.txt en su servidor web para administrar su presupuesto de rastreo al evitar el rastreo de espacios infinitos, como las páginas de resultados de búsqueda».

Luego, diez años más tarde, John Mueller de Google explicó por qué Google no quiere sus páginas de resultados de búsqueda en su índice. Dijo, «hacen espacios infinitos (arrastrándose), a menudo son páginas de baja calidad, a menudo conducen a resultados de búsqueda vacíos/soft-404». Más tarde explicó que es un problema de dilución y que este tipo de páginas pueden dar lugar a respuestas 404 blandas en Search Console.

Foro de discusión en Reddit.