Internet es un universo virtual en constante evolución con más de 1100 millones de sitios web.
¿Crees que Google puede rastrear todos los sitios web del mundo?
Incluso con todos los recursos, el dinero y los centros de datos que tiene Google, ni siquiera puede rastrear toda la web, ni quiere hacerlo.
¿Qué es el presupuesto de rastreo y es importante?
El presupuesto de rastreo se refiere a la cantidad de tiempo y recursos que Googlebot gasta en rastrear páginas web en un dominio.
Es importante optimizar su sitio para que Google encuentre su contenido más rápido e indexe su contenido, lo que podría ayudar a que su sitio obtenga una mejor visibilidad y tráfico.
Si tiene un sitio grande que tiene millones de páginas web, es particularmente importante administrar su presupuesto de rastreo para ayudar a Google a rastrear sus páginas más importantes y obtener una mejor comprensión de su contenido.
Google afirma que:
Si su sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si parece que sus páginas se rastrean el mismo día en que se publican, basta con mantener su mapa del sitio actualizado y verificar la cobertura de su índice con regularidad. Google también establece que cada página debe revisarse, consolidarse y evaluarse para determinar dónde se indexará después de que se haya rastreado.
El presupuesto de rastreo está determinado por dos elementos principales: el límite de capacidad de rastreo y la demanda de rastreo.
La demanda de rastreo es cuánto Google quiere rastrear en su sitio web. Las páginas más populares, es decir, una historia popular de CNN y las páginas que experimentan cambios significativos, se rastrearán más.
Googlebot quiere rastrear su sitio sin sobrecargar sus servidores. Para evitar esto, Googlebot calcula un límite de capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el tiempo de demora entre las búsquedas.
Tomando la capacidad de rastreo y la demanda de rastreo juntas, Google define el presupuesto de rastreo de un sitio como el conjunto de URL que Googlebot puede y quiere rastrear. Incluso si no se alcanza el límite de capacidad de rastreo, si la demanda de rastreo es baja, Googlebot rastreará menos su sitio.
Estos son los 12 mejores consejos para administrar el presupuesto de rastreo para sitios grandes y medianos con 10k a millones de URL.
1. Determine qué páginas son importantes y cuáles no deben rastrearse
Determine qué páginas son importantes y qué páginas no son tan importantes para rastrear (y, por lo tanto, Google las visita con menos frecuencia).
Una vez que determine eso a través del análisis, puede ver qué páginas de su sitio vale la pena rastrear y qué páginas de su sitio no vale la pena rastrear y excluirlas del rastreo.
Por ejemplo, Macys.com tiene más de 2 millones de páginas indexadas.
Administra su presupuesto de rastreo informando a Google que no rastree ciertas páginas en el sitio porque restringió a Googlebot de rastrear ciertas URL en el archivo robots.txt.
Googlebot puede decidir que no vale la pena mirar el resto de su sitio o aumentar su presupuesto de rastreo. Asegúrese de que la navegación facetada y los identificadores de sesión: estén bloqueados a través de robots.txt
2. Administrar contenido duplicado
Si bien Google no impone una penalización por tener contenido duplicado, desea proporcionar a Googlebot información original y única que satisfaga las necesidades de información del usuario final y que sea relevante y útil. Asegúrese de estar utilizando el archivo robots.txt.
Google declaró que no usará ningún índice, ya que aún lo solicitará pero luego lo descartará.
3. Bloquee el rastreo de URL sin importancia usando Robots.txt y dígale a Google qué páginas puede rastrear
Para un sitio de nivel empresarial con millones de páginas, Google recomienda bloquear el rastreo de URL sin importancia mediante robots.txt.
Además, desea asegurarse de que Googlebot y otros motores de búsqueda permitan rastrear sus páginas importantes, directorios que contienen su contenido dorado y páginas de dinero.
4. Cadenas de redirección largas
Mantenga su número de redireccionamientos a un número pequeño si puede. Tener demasiados redireccionamientos o bucles de redireccionamiento puede confundir a Google y reducir su límite de rastreo.
Google afirma que las cadenas de redireccionamiento largas pueden tener un efecto negativo en el rastreo.
5. Usa HTML
El uso de HTML aumenta las probabilidades de que un rastreador de cualquier motor de búsqueda visite su sitio web.
Si bien los robots de Google han mejorado en lo que respecta al rastreo e indexación de JavaScript, otros rastreadores de motores de búsqueda no son tan sofisticados como Google y pueden tener problemas con otros idiomas además de HTML.
6. Asegúrese de que sus páginas web carguen rápidamente y ofrezcan una buena experiencia de usuario
Haga que su sitio esté optimizado para Core Web Vitals.
Cuanto más rápido se carga su contenido, es decir, menos de tres segundos, más rápido Google puede proporcionar información a los usuarios finales. Si les gusta, Google seguirá indexando su contenido porque su sitio demostrará el estado de rastreo de Google, lo que puede hacer que su límite de rastreo aumente.
7. Tener contenido útil
Según Google, el contenido se clasifica por calidad, independientemente de la edad. Cree y actualice su contenido según sea necesario, pero no hay valor adicional en hacer que las páginas parezcan nuevas artificialmente al hacer cambios triviales y actualizar la fecha de la página.
Si su contenido satisface las necesidades de los usuarios finales y, por ejemplo, es útil y relevante, no importa si es antiguo o nuevo.
Si los usuarios no encuentran su contenido útil y relevante, entonces le recomiendo que actualice y actualice su contenido para que sea nuevo, relevante y útil y lo promocione a través de las redes sociales.
Además, vincule sus páginas directamente a la página de inicio, que puede verse como más importante y rastrearse con más frecuencia.
8. Cuidado con los errores de rastreo
Si ha eliminado algunas páginas de su sitio, asegúrese de que la URL devuelva un estado 404 o 410 para las páginas eliminadas de forma permanente. Un código de estado 404 es una señal fuerte para no volver a rastrear esa URL.
Sin embargo, las URL bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se elimine el bloqueo.
- Además, Google afirma que eliminará cualquier página blanda 404, que se seguirá rastreando y desperdiciará su presupuesto de rastreo. Para probar esto, ingrese a GSC y revise su informe de Cobertura de índice para ver si hay errores 404 leves.
Si su sitio tiene muchos códigos de estado de respuesta HTTP 5xx (errores del servidor) o los tiempos de espera de conexión indican lo contrario, el rastreo se ralentiza. Google recomienda prestar atención al informe de estadísticas de rastreo en Search Console y mantener la cantidad de errores del servidor al mínimo.
Por cierto, Google no respeta ni se adhiere a la regla de robots.txt de «retraso de rastreo» no estándar.
Incluso si usa el atributo nofollow, la página aún se puede rastrear y desperdiciar el presupuesto de rastreo si otra página en su sitio, o cualquier página en la web, no etiqueta el enlace como nofollow.
9. Mantenga los mapas del sitio actualizados
Los mapas de sitio XML son importantes para ayudar a Google a encontrar su contenido y pueden acelerar las cosas.
Es extremadamente importante mantener actualizadas las URL de su mapa del sitio, usar la etiqueta
- Solo incluye las URL que deseas que los motores de búsqueda indexen.
- Solo incluya direcciones URL que devuelvan un código de estado 200.
- Asegúrese de que un solo archivo de mapa de sitio tenga menos de 50 MB o 50 000 URL y, si decide usar varios mapas de sitio, cree un índice del mapa del sitio que los enumerará a todos.
- Asegúrate de que tu mapa del sitio esté Codificado en UTF-8.
- Incluir enlaces a versiones localizadas de cada URL. (Consulte la documentación de Google).
- Mantenga su mapa del sitio actualizado, es decir, actualice su mapa del sitio cada vez que hay una nueva URL o se actualiza o elimina una URL antigua.
10. Construya una buena estructura del sitio
Tener una buena estructura del sitio es importante para el rendimiento de SEO para la indexación y la experiencia del usuario.
La estructura del sitio puede afectar los resultados de las páginas de resultados del motor de búsqueda (SERP) de varias maneras, incluida la capacidad de rastreo, la tasa de clics y la experiencia del usuario.
Tener una estructura clara y lineal de su sitio puede usar su presupuesto de rastreo de manera eficiente, lo que ayudará a Googlebot a encontrar contenido nuevo o actualizado.
Recuerde siempre la regla de los tres clics, es decir, cualquier usuario debe poder pasar de cualquier página de su sitio a otra con un máximo de tres clics.
11. Enlace interno
Cuanto más fácil sea para los motores de búsqueda rastrear y navegar por su sitio, más fácil será para los rastreadores identificar su estructura, contexto y contenido importante.
Tener enlaces internos que apuntan a una página web puede informar a Google que esta página es importante, ayudar a establecer una jerarquía de información para el sitio web determinado y puede ayudar a difundir la equidad de los enlaces en todo su sitio.
12. Supervisa siempre las estadísticas de rastreo
Siempre revise y supervise GSC para ver si su sitio tiene algún problema durante el rastreo y busque formas de hacer que su rastreo sea más eficiente.
Puede utilizar el informe Estadísticas de rastreo para ver si Googlebot tiene problemas para rastrear su sitio.
Si se informan errores o advertencias de disponibilidad en GSC para su sitio, busque instancias en el disponibilidad de anfitriones gráficos donde las solicitudes de Googlebot excedieron la línea de límite roja, haga clic en el gráfico para ver qué URL estaban fallando e intente correlacionarlas con problemas en su sitio.
Además, puede usar la herramienta de inspección de URL para probar algunas URL en su sitio.
Si la herramienta de inspección de URL devuelve advertencias de carga del host, eso significa que Googlebot no puede rastrear tantas URL de su sitio como descubrió.
Terminando
La optimización del presupuesto de rastreo es crucial para sitios grandes debido a su gran tamaño y complejidad.
Con numerosas páginas y contenido dinámico, los rastreadores de motores de búsqueda enfrentan desafíos para rastrear e indexar de manera eficiente y efectiva el contenido del sitio.
Al optimizar su presupuesto de rastreo, los propietarios de sitios pueden priorizar el rastreo y la indexación de páginas importantes y actualizadas, asegurando que los motores de búsqueda gasten sus recursos de manera inteligente y efectiva.
Este proceso de optimización involucra técnicas como mejorar la arquitectura del sitio, administrar los parámetros de URL, establecer prioridades de rastreo y eliminar el contenido duplicado, lo que conduce a una mejor visibilidad del motor de búsqueda, una mejor experiencia del usuario y un mayor tráfico orgánico para sitios web grandes.
Más recursos:
Imagen destacada: BestForBest/Shutterstock