El seguimiento de citas de Bing AI, las páginas de inicio HTTP ocultas y las páginas están bajo el límite de rastreo – SEO Pulse

El seguimiento de citas de Bing AI, las páginas de inicio HTTP ocultas y las páginas están bajo el límite de rastreo – SEO Pulse


Bienvenido al Pulse for SEO de la semana: las actualizaciones cubren cómo realizar un seguimiento de la visibilidad de la IA, cómo una página fantasma puede alterar el nombre de su sitio en los resultados de búsqueda y qué nuevos datos de rastreo revelan sobre los límites de tamaño de archivos del robot de Google.

Esto es lo que importa para usted y su trabajo.

Bing Webmaster Tools agrega un panel de citas de IA

Microsoft introdujo un panel de rendimiento de IA en Bing Webmaster Tools, que brinda a los editores visibilidad de la frecuencia con la que se cita su contenido en Copilot y en las respuestas generadas por IA. La función ahora se encuentra en versión preliminar pública.

Hechos clave: El panel rastrea el total de citas, el promedio de páginas citadas por día, la actividad de citas a nivel de página y las consultas fundamentadas. Las consultas básicas muestran las frases que la IA utilizó al recuperar su contenido en busca de respuestas.

Por qué esto importa

Bing ahora ofrece un panel dedicado para la visibilidad de las citas mediante IA. Google incluye descripciones generales de IA y actividad del modo IA en los informes de rendimiento general de Search Console, pero no genera un informe separado ni proporciona recuentos de URL de estilo de cita. Las descripciones generales de IA también asignan todas las páginas vinculadas a una sola posición, lo que limita lo que puede aprender sobre el rendimiento de páginas individuales en las respuestas de IA.

El panel de Bing va más allá al rastrear qué páginas se citan, con qué frecuencia y qué frases desencadenaron la cita. La pieza que falta son los datos de clics. El panel muestra cuándo se cita su contenido, pero no si esas citas generan tráfico.

Ahora puede confirmar a qué páginas se hace referencia en las respuestas de IA e identificar patrones en las consultas de base, pero conectar la visibilidad de la IA con los resultados comerciales aún requiere combinar estos datos con sus propios análisis.

Lo que dicen los profesionales de SEO

Wil Reynolds, fundador de Seer Interactive, celebró la función en X y se centró en los nuevos datos de consultas de conexión a tierra:

«¡¡Bing ahora le brinda consultas básicas en las herramientas para webmasters de Bing!! Acabo de confirmarlo, ahora debo entender qué obtenemos de ellas, qué significan y cómo usarlos».

Koray Tuğberk GÜBÜR, fundador de Holistic SEO & Digital, lo comparó directamente con las herramientas de Google en X:

«Microsoft Bing Webmaster Tools siempre ha sido más útil y eficiente que Google Search Console y, una vez más, ha demostrado su compromiso con la transparencia».

Fabrice Canel, director principal de productos de Microsoft Bing, enmarcó el lanzamiento de X como un puente entre la optimización tradicional y la impulsada por la IA:

«Los editores ahora pueden ver cómo aparece su contenido en la era de la IA. GEO se une al SEO, potencia tu estrategia con señales reales».

La reacción en las redes sociales se centró en una frustración compartida. Estos son los datos que los profesionales han estado pidiendo, pero provienen de Bing y no de Google. Varias personas expresaron su esperanza de que Google y OpenAI siguieran con informes comparables.

Lea nuestra cobertura completa: Bing Webmaster Tools agrega datos de rendimiento de citas de IA

La página de inicio HTTP oculta puede alterar el nombre de su sitio en Google

John Mueller de Google compartió un caso de solución de problemas en Bluesky donde una página de inicio HTTP sobrante estaba causando problemas inesperados con el nombre del sitio y el favicon en los resultados de búsqueda. Es fácil pasar por alto el problema porque Chrome puede actualizar automáticamente las solicitudes HTTP a HTTPS, ocultando la página problemática de la navegación normal.

Hechos clave: El sitio usaba HTTPS, pero aún se podía acceder a una página de inicio HTTP predeterminada del servidor. La actualización automática de Chrome significó que el editor nunca vio la versión HTTP, pero el robot de Google no sigue el comportamiento de actualización de Chrome, por lo que el robot de Google estaba accediendo a la página equivocada.

Por qué esto importa

Este es el tipo de problema que no encontraría en una auditoría de sitio estándar porque su navegador nunca lo muestra. Si el nombre de su sitio o su favicon en los resultados de búsqueda no coincide con lo que espera y su página de inicio HTTPS parece correcta, vale la pena verificar la versión HTTP de su dominio.

Mueller sugirió ejecutar curl desde la línea de comando para ver la respuesta HTTP sin formato sin la actualización automática de Chrome. Si devuelve una página predeterminada del servidor en lugar de su página de inicio real, esa es la fuente del problema. También puede utilizar la herramienta de inspección de URL en Search Console con una prueba en vivo para ver lo que Google recuperó y procesó.

La documentación de Google sobre nombres de sitios menciona específicamente páginas de inicio duplicadas, incluidas las versiones HTTP y HTTPS, y recomienda utilizar los mismos datos estructurados para ambas. El caso de Mueller muestra lo que sucede cuando una versión HTTP contiene contenido diferente de la página de inicio HTTPS deseada.

Lo que dice la gente

Mueller describió el caso en Bluesky como “extraño” y señaló que el problema central es invisible en la navegación normal:

«Chrome actualiza automáticamente HTTP a HTTPS para que no veas la página HTTP. Sin embargo, el robot de Google la ve y la utiliza para influir en la selección del nombre del sitio y del favicon».

El caso resalta un patrón en el que las funciones del navegador a menudo ocultan lo que ven los rastreadores. Los ejemplos incluyen la actualización automática de Chrome, los modos de lectura, la representación del lado del cliente y el contenido de JavaScript. Para depurar problemas con el nombre del sitio y el favicon, verifique la respuesta del servidor directamente, no solo las cargas del navegador.

Lea nuestra cobertura completa: La página HTTP oculta puede causar problemas con el nombre del sitio en Google

Nuevos datos muestran que la mayoría de las páginas se ajustan bien al límite de rastreo del robot de Google

Una nueva investigación basada en páginas web del mundo real sugiere que la mayoría de las páginas se encuentran muy por debajo del límite de recuperación de 2 MB del robot de Google. Los datos, analizados por Roger Montti de Search Engine Journal, se basan en mediciones de HTTP Archive para poner la cuestión del límite de rastreo en un contexto práctico.

Hechos clave: Los datos de HTTP Archive sugieren que la mayoría de las páginas tienen un tamaño muy inferior a 2 MB. Google aclaró recientemente en la documentación actualizada que el límite del robot de Google para los tipos de archivos admitidos es de 2 MB, mientras que los PDF tienen un límite de 64 MB.

Por qué esto importa

La cuestión del límite de rastreo ha estado circulando en discusiones técnicas de SEO, particularmente después de que Google actualizó su documentación de Googlebot a principios de este mes.

Los nuevos datos responden a la pregunta práctica que la documentación por sí sola no puede responder. ¿Importa el límite de 2 MB para tus páginas? Para la mayoría de los sitios, la respuesta es no. Las páginas web estándar, incluso las que tienen mucho contenido, rara vez se acercan a ese umbral.

Donde el límite podría importar es en páginas con marcado extremadamente inflado, scripts en línea o datos incrustados que inflan el tamaño HTML más allá de los rangos típicos.

El patrón más amplio aquí es que Google hace que sus sistemas de rastreo sean más transparentes. Mover la documentación a un sitio de rastreo independiente, aclarar qué límites se aplican a qué rastreadores y ahora tener datos del mundo real para validar esos límites brinda una imagen más clara de lo que maneja el robot de Google.

Lo que dicen los profesionales técnicos de SEO

Dave Smart, consultor técnico de SEO en Tame the Bots y experto en productos Diamond de Google Search Central, puso los números en perspectiva en una publicación de LinkedIn:

«El robot de Google solo recuperará los primeros 2 MB del html inicial (u otro recurso como CSS, JavaScript), lo que parece una gran reducción con respecto a los 15 MB informados anteriormente, pero, sinceramente, 2 MB sigue siendo enorme».

Smart continuó actualizando su herramienta de búsqueda y renderizado Tame the Bots para simular el corte. En una publicación de Bluesky, agregó una advertencia sobre el riesgo práctico:

«A riesgo de exagerar hasta qué punto esto es un problema del mundo real (en realidad no lo es para el 99,99% de los sitios, me imagino), agregué funcionalidad para limitar los archivos basados ​​en texto a 2 MB para simular esto».

John Mueller de Google respaldó la herramienta en Bluesky y escribió:

«Si tiene curiosidad sobre el límite de recuperación de HTML de 2 MB del robot de Google, aquí tiene una forma de comprobarlo».

Mueller también compartió datos de Web Almanac en Reddit para poner el límite en contexto:

«La mediana en dispositivos móviles es de 33 kb, el percentil 90 es de 151 kb. Esto significa que el 90% de las páginas tienen menos de 151 kb de HTML».

Roger Montti, que escribe para Search Engine Journal, llegó a una conclusión similar después de revisar los datos del archivo HTTP. Montti señaló que los datos basados ​​en sitios web reales muestran que la mayoría de los sitios están muy por debajo del límite, y dijo que «es seguro decir que está bien eliminar el tamaño HTML de la lista de cosas de SEO de las que preocuparse».

Lea nuestra cobertura completa: Nuevos datos muestran que el límite de rastreo de 2 MB del robot de Google es suficiente

Tema de la semana: la brecha diagnóstica

Cada historia de esta semana apunta a algo que los practicantes no pudieron ver antes o comprobaron de manera incorrecta.

El panel de citas de IA de Bing llena un vacío de medición que ha existido desde que las respuestas de IA comenzaron a citar el contenido del sitio web. El caso de la página de inicio HTTP de Mueller revela una página invisible que las auditorías estándar del sitio y las comprobaciones del navegador pasarían por alto por completo porque Chrome la oculta. Y los datos del límite de rastreo del robot de Google responden a una pregunta que plantearon las actualizaciones de la documentación, pero que no pudieron resolver por sí solas.

El hilo conductor no es que se trate de problemas nuevos. Las citas de IA se han producido sin herramientas de medición. Las páginas HTTP fantasma han estado confundiendo los sistemas de nombres de sitios desde que Google introdujo la función. Y los límites de rastreo se han incluido en los documentos de Google durante años sin validación en el mundo real. Lo que cambió esta semana es que cada brecha recibió un diagnóstico concreto: un panel, un comando curl y un conjunto de datos.

La conclusión es que las herramientas y los datos para comprender cómo interactúan los motores de búsqueda con su contenido son cada vez más específicos. El desafío es saber dónde mirar.

Más recursos:


Imagen de portada: Accogliente Design/Shutterstock



Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *