El rastreo es esencial para todos los sitios web, tanto grandes como pequeños.
Si su contenido no se rastrea, no tiene ninguna posibilidad de obtener visibilidad en las superficies de Google.
Hablemos de cómo optimizar el rastreo para darle a su contenido la exposición que merece.
¿Qué es el rastreo en SEO?
En el contexto del SEO, el rastreo es el proceso mediante el cual los robots de los motores de búsqueda (también conocidos como rastreadores web o arañas) descubren sistemáticamente contenido en un sitio web.
Esto puede ser texto, imágenes, videos u otros tipos de archivos a los que pueden acceder los bots. Independientemente del formato, el contenido se encuentra exclusivamente a través de enlaces.
Cómo funciona el rastreo web
Un rastreador web funciona descubriendo URL y descargando el contenido de la página.
Durante este proceso, pueden pasar el contenido al índice del motor de búsqueda y extraer enlaces a otras páginas web.
Estos enlaces encontrados se clasificarán en diferentes categorías:
- Nuevas URL que son desconocidos para el motor de búsqueda.
- URL conocidas que no brindan orientación sobre el rastreo se revisará periódicamente para determinar si se han realizado cambios en el contenido de la página y, por lo tanto, el índice del motor de búsqueda debe actualizarse.
- URL conocidas que se han actualizado y dar una guía clara. Deben volver a rastrearse y reindexarse, por ejemplo, a través de una marca de fecha y hora de la última modificación del mapa del sitio XML.
- URL conocidas que no se han actualizado y dar una guía clara. No se deben volver a rastrear ni a indexar, como un encabezado de respuesta HTTP 304 No modificado.
- URL inaccesibles que no pueden o no deben ser seguidos, por ejemplo, aquellos detrás de un formulario de inicio de sesión o enlaces bloqueados por una etiqueta de robots «nofollow».
- URL no permitidas que los bots de los motores de búsqueda no rastrearán, por ejemplo, los bloqueados por el archivo robots.txt.
Todas las URL permitidas se agregarán a una lista de páginas que se visitarán en el futuro, conocida como cola de rastreo.
Sin embargo, se les dará diferentes niveles de prioridad.
Esto depende no solo de la categorización del enlace, sino de una serie de otros factores que determinan la importancia relativa de cada página a los ojos de cada motor de búsqueda.
Los motores de búsqueda más populares tienen sus propios bots que usan algoritmos específicos para determinar qué rastrean y cuándo. Esto significa que no todos rastrean igual.
Googlebot se comporta de manera diferente a Bingbot, DuckDuckBot, Yandex Bot o Yahoo Slurp.
Por qué es importante que su sitio pueda ser rastreado
Si una página de un sitio no se rastrea, no se clasificará en los resultados de búsqueda, ya que es muy poco probable que se indexe.
Pero las razones por las que gatear es fundamental son mucho más profundas.
El rastreo rápido es esencial para el contenido de tiempo limitado.
A menudo, si no se rastrea y se le da visibilidad rápidamente, se vuelve irrelevante para los usuarios.
Por ejemplo, las audiencias no se interesarán por las últimas noticias de la semana pasada, un evento que ya pasó o un producto que ya está agotado.
Pero incluso si no trabaja en una industria donde el tiempo de comercialización es crítico, el rastreo rápido siempre es beneficioso.
Cuando actualice un artículo o publique un cambio significativo de SEO en la página, cuanto más rápido lo rastree Googlebot, más rápido se beneficiará de la optimización, o verá su error y podrá revertirlo.
No puede fallar rápido si Googlebot se arrastra lentamente.
Piense en el rastreo como la piedra angular del SEO; su visibilidad orgánica depende completamente de que se haga bien en su sitio web.
Medición del rastreo: Presupuesto de rastreo vs. Eficacia de rastreo
Contrariamente a la opinión popular, Google no tiene como objetivo rastrear e indexar todo el contenido de todos los sitios web en Internet.
No se garantiza el rastreo de una página. De hecho, la mayoría de los sitios tienen una parte sustancial de las páginas que Googlebot nunca ha rastreado.
Si ve la exclusión «Descubierto: actualmente no indexado» en el informe de indexación de páginas de Google Search Console, este problema lo está afectando.
Pero si no ve esta exclusión, no significa necesariamente que no tenga problemas de rastreo.
Existe una idea errónea común acerca de qué métricas son significativas al medir el rastreo.
Falacia del presupuesto de rastreo
Los profesionales de SEO a menudo buscan presupuesto de rastreoque se refiere a la cantidad de URL que Googlebot puede y desea rastrear dentro de un marco de tiempo específico para un sitio web en particular.
Este concepto impulsa la maximización del rastreo. Esto se ve reforzado por el informe de estado de rastreo de Google Search Console que muestra el número total de solicitudes de rastreo.
Pero la idea de que gatear más es inherentemente mejor es completamente errónea. El número total de rastreos no es más que una métrica de vanidad.
Atraer 10 veces la cantidad de rastreos por día no necesariamente se correlaciona con una (re) indexación más rápida del contenido que le interesa. Todo lo que se correlaciona con es poner más carga en sus servidores, lo que le cuesta más dinero.
El enfoque nunca debe estar en aumentar la cantidad total de rastreo, sino en el rastreo de calidad que resulta en valor de SEO.
Valor de eficacia de rastreo
El rastreo de calidad significa reducir el tiempo entre la publicación o la realización de actualizaciones significativas en una página relevante para SEO y la próxima visita de Googlebot. Este retraso es el eficacia de rastreo.
Para determinar la eficacia del rastreo, el enfoque recomendado es extraer el valor de fecha y hora creado o actualizado de la base de datos y compararlo con la marca de tiempo del próximo rastreo de Googlebot de la URL en los archivos de registro del servidor.
Si esto no es posible, podría considerar calcularlo utilizando la fecha de última modificación en los mapas de sitio XML y consultar periódicamente las URL relevantes con la API de inspección de URL de Search Console hasta que arroje un estado de último rastreo.
Al cuantificar el tiempo de demora entre la publicación y el rastreo, puede medir el impacto real de las optimizaciones de rastreo con una métrica importante.
A medida que disminuye la eficacia del rastreo, el contenido relevante para SEO nuevo o actualizado se mostrará más rápido a su audiencia en las superficies de Google.
Si la puntuación de eficacia del rastreo de su sitio muestra que Googlebot está tardando demasiado en visitar contenido importante, ¿qué puede hacer para optimizar el rastreo?
Soporte de motor de búsqueda para rastreo
Se ha hablado mucho en los últimos años sobre cómo los motores de búsqueda y sus socios se centran en mejorar el rastreo.
Después de todo, es lo mejor para ellos. Un rastreo más eficiente no solo les da acceso a un mejor contenido para potenciar sus resultados, sino que también ayuda al ecosistema mundial al reducir los gases de efecto invernadero.
La mayor parte de la conversación se ha centrado en dos API que tienen como objetivo optimizar el rastreo.
La idea es que, en lugar de que las arañas de los motores de búsqueda decidan qué rastrear, los sitios web pueden enviar URL relevantes directamente a los motores de búsqueda a través de la API para activar un rastreo.
En teoría, esto no solo le permite indexar su contenido más reciente más rápido, sino que también ofrece una vía para eliminar de manera efectiva las URL antiguas, algo que actualmente no es compatible con los motores de búsqueda.
Soporte que no es de Google de IndexNow
La primera API es Índice ahora. Esto es compatible con Bing, Yandex y Seznam, pero, lo que es más importante, no con Google. También está integrado en muchas herramientas de SEO, CRM y CDN, lo que puede reducir el esfuerzo de desarrollo necesario para aprovechar IndexNow.
Esto puede parecer una victoria rápida para el SEO, pero tenga cuidado.
¿Una parte significativa de su público objetivo utiliza los motores de búsqueda compatibles con IndexNow? De lo contrario, la activación de rastreos de sus bots puede tener un valor limitado.
Pero lo que es más importante, evalúe lo que hace la integración en IndexNow para mejorar el peso del servidor frente a la mejora de la puntuación de eficacia del rastreo para esos motores de búsqueda. Puede ser que los costos no justifiquen el beneficio.
Soporte de Google de la API de indexación
El segundo es el API de indexación de Google. Google ha declarado repetidamente que la API solo se puede usar para rastrear páginas con anuncios de trabajo o marcas de eventos de transmisión. Y muchos han probado esto y han probado que esta afirmación es falsa.
Al enviar URL no conformes a la API de indexación de Google, verá un aumento significativo en el rastreo. Pero este es el caso perfecto de por qué la «optimización del presupuesto de rastreo» y basar las decisiones en la cantidad de rastreo es un error.
Porque para las URL que no cumplen, el envío no tiene impacto en la indexación. Y cuando te detienes a pensar en ello, esto tiene mucho sentido.
Solo estás enviando una URL. Google rastreará la página rápidamente para ver si tiene los datos estructurados especificados.
Si es así, acelerará la indexación. Si no, no lo hará. Google lo ignorará.
Por lo tanto, llamar a la API para páginas no compatibles no hace nada más que agregar una carga innecesaria en su servidor y desperdiciar recursos de desarrollo sin obtener ganancias.
Soporte de Google dentro de Google Search Console
La otra forma en que Google admite el rastreo es presentación manual en la consola de búsqueda de Google.
La mayoría de las URL que se envían de esta manera se rastrearán y su estado de indexación cambiará en una hora. Pero hay un límite de cuota de 10 URL dentro de las 24 horas, por lo que el problema obvio con esta táctica es la escala.
Sin embargo, esto no significa ignorarlo.
Puede automatizar el envío de direcciones URL que considera prioritarias mediante secuencias de comandos que imitan las acciones del usuario para acelerar el rastreo y la indexación para los pocos seleccionados.
Por último, para cualquiera que espere hacer clic en el botón ‘Validar corrección’ en las exclusiones ‘descubiertas actualmente no indexadas’ activará el rastreo, en mis pruebas hasta la fecha, esto no ha hecho nada para acelerar el rastreo.
Entonces, si los motores de búsqueda no nos ayudarán significativamente, ¿cómo podemos ayudarnos a nosotros mismos?
Cómo lograr un rastreo eficiente del sitio
Hay cinco tácticas que pueden marcar la diferencia en la eficacia del rastreo.
1. Garantice una respuesta rápida y saludable del servidor
Un servidor de alto rendimiento es fundamental. Debe ser capaz de manejar la cantidad de rastreo que Googlebot quiere hacer sin ningún impacto negativo en el tiempo de respuesta del servidor o sin errores.
Verifique que el estado del host de su sitio sea verde en Google Search Console, que los errores 5xx estén por debajo del 1 % y que los tiempos de respuesta del servidor tiendan por debajo de los 300 milisegundos.
2. Eliminar contenido sin valor
Cuando una parte importante del contenido de un sitio web es de baja calidad, está desactualizado o está duplicado, desvía a los rastreadores de visitar contenido nuevo o actualizado recientemente y contribuye a la inflación del índice.
La forma más rápida de comenzar a limpiar es verificar el informe de páginas de Google Search Console para la exclusión ‘Rastreado: actualmente no indexado’.
En la muestra proporcionada, busque patrones de carpetas u otras señales de problemas. Para aquellos que encuentre, corríjalos fusionando contenido similar con una redirección 301 o eliminando contenido con un 404 según corresponda.
3. Indique a Googlebot qué no rastrear
Si bien los enlaces rel=canonical y las etiquetas noindex son efectivos para mantener limpio el índice de Google de su sitio web, le cuestan rastrearlos.
Si bien a veces esto es necesario, considere si dichas páginas deben rastrearse en primer lugar. De lo contrario, detenga a Google en la etapa de rastreo con un rechazo de robot.txt.
Encuentre casos en los que bloquear el rastreador puede ser mejor que dar instrucciones de indexación consultando el informe de cobertura de Google Search Console para exclusiones de etiquetas canonicals o noindex.
Además, revise la muestra de URL «Indizadas, no enviadas en el mapa del sitio» y «Descubiertas: actualmente no indexadas» en Google Search Console. Encuentre y bloquee rutas no relevantes para SEO, como:
- Páginas de parámetros, como ?sort=oldest.
- Páginas funcionales, como “carrito de compras”.
- Espacios infinitos, como los creados por las páginas del calendario.
- Imágenes, guiones o archivos de estilo sin importancia.
- URL de API.
También debe considerar cómo su estrategia de paginación está afectando el rastreo.
4. Indique a Googlebot qué rastrear y cuándo
Un mapa del sitio XML optimizado es una herramienta eficaz para guiar a Googlebot hacia las URL relevantes para SEO.
Optimizado significa que se actualiza dinámicamente con un retraso mínimo e incluye la fecha y la hora de la última modificación para informar a los motores de búsqueda cuándo se modificó significativamente la última página y si se debe volver a rastrear.
5. Admite el rastreo a través de enlaces internos
Sabemos que el rastreo solo puede ocurrir a través de enlaces. Los mapas de sitio XML son un excelente lugar para comenzar; Los enlaces externos son poderosos pero difíciles de construir a granel con calidad.
Los enlaces internos, por otro lado, son relativamente fáciles de escalar y tienen un impacto positivo significativo en la eficacia del rastreo.
Preste especial atención a la navegación en todo el sitio móvil, las migas de pan, los filtros rápidos y los enlaces de contenido relacionado, asegurándose de que ninguno dependa de Javascript.
Optimizar el rastreo web
Espero que estés de acuerdo: el rastreo de sitios web es fundamental para el SEO.
Y ahora tiene un KPI real en la eficacia del rastreo para medir las optimizaciones, por lo que puede llevar su rendimiento orgánico al siguiente nivel.
Más recursos:
Imagen destacada: BestForBest/Shutterstock