Pregúntele a un SEO: ¿Pueden los sistemas de inteligencia artificial y los LLM representar JavaScript para leer contenido «oculto»?

Pregúntele a un SEO: ¿Pueden los sistemas de inteligencia artificial y los LLM representar JavaScript para leer contenido «oculto»?


Para Ask An SEO de esta semana, un lector preguntó:

«¿Existe alguna diferencia entre la forma en que los sistemas de inteligencia artificial manejan el contenido oculto interactivamente o renderizado en JavaScript en comparación con la indexación tradicional de Google? ¿Qué comprobaciones técnicas pueden realizar los SEO para confirmar que toda la información crítica de la página está disponible para las máquinas?»

Esta es una gran pregunta porque más allá de la exageración de la optimización de LLM, existe un desafío técnico muy real: garantizar que los LLM realmente puedan encontrar y leer su contenido.

Desde hace varios años, los SEO se han visto bastante alentados por las mejoras del robot de Google al poder rastrear y representar páginas con mucho JavaScript. Sin embargo, con los nuevos rastreadores de IA, es posible que este no sea el caso.

En este artículo, veremos las diferencias entre los dos tipos de rastreadores y cómo garantizar que ambos puedan acceder al contenido crítico de su página web.

¿Cómo procesa el robot de Google el contenido JavaScript?

El robot de Google procesa JavaScript en tres etapas principales: rastreo, renderizado e indexación. De una explicación básica y sencilla, así funciona cada etapa:

Arrastrándose

El robot de Google pondrá en cola las páginas para rastrearlas cuando las descubra en la web. Sin embargo, no se rastrearán todas las páginas que se pongan en cola, ya que el robot de Google comprobará si se permite el rastreo. Por ejemplo, verá si la página no puede rastrearse mediante un comando de no permitir en el archivo robots.txt.

Si la página no es apta para ser rastreada, el robot de Google la omitirá y renunciará a una solicitud HTTP. Si una página es apta para ser rastreada, se moverá para representar el contenido.

Representación

El robot de Google comprobará si la página es apta para ser indexada asegurándose de que no haya solicitudes para mantenerla fuera del índice, por ejemplo, a través de una metaetiqueta noindex. El robot de Google pondrá en cola la página que se va a representar. La renderización puede ocurrir en segundos o puede permanecer en la cola por un período de tiempo más largo. El renderizado es un proceso que consume muchos recursos y, como tal, puede que no sea instantáneo.

Mientras tanto, el bot recibirá la respuesta DOM; este es el contenido que se representa antes de ejecutar JavaScript. Normalmente, se trata del HTML de la página, que estará disponible tan pronto como se rastree la página.

Una vez que se ejecuta JavaScript, el robot de Google recibirá la página completamente construida, la «presentación del navegador».

Indexación

Las páginas y la información elegibles se almacenarán en el índice de Google y estarán disponibles para servir como resultados de búsqueda en el momento de la consulta del usuario.

¿Cómo maneja el robot de Google el contenido oculto de forma interactiva?

No todo el contenido está disponible para los usuarios cuando acceden a una página por primera vez. Por ejemplo, es posible que tengas que hacer clic en las pestañas para encontrar contenido complementario o expandir un acordeón para ver toda la información.

El robot de Google no tiene la capacidad de cambiar entre pestañas ni de hacer clic para abrir un acordeón. Por lo tanto, es importante asegurarse de que pueda analizar toda la información de la página.

La forma de hacer esto es asegurarse de que la información esté contenida dentro del DOM en la primera carga de la página. Es decir, el contenido puede estar «oculto a la vista» en la parte frontal antes de hacer clic en un botón, pero no está oculto en el código.

Piénselo así: el contenido HTML está «oculto en un cuadro»; JavaScript es la clave para abrir la caja. Si el robot de Google tiene que abrir el cuadro, es posible que no vea ese contenido de inmediato. Sin embargo, si el servidor abrió el cuadro antes de que el robot de Google lo solicitara, entonces debería poder acceder a ese contenido a través del DOM.

Cómo mejorar la probabilidad de que el robot de Google pueda leer su contenido

La clave para garantizar que el robot de Google pueda analizar el contenido es hacerlo accesible sin la necesidad de que el robot represente JavaScript. Una forma de hacerlo es forzando que el renderizado se realice en el propio servidor.

La representación del lado del servidor es el proceso mediante el cual una página web se representa en el servidor en lugar de en el navegador. Esto significa que se prepara un archivo HTML y se envía al navegador del usuario (o al robot del motor de búsqueda), y puede acceder al contenido de la página sin esperar a que se cargue JavaScript. Esto se debe a que el servidor esencialmente ha creado un archivo que ya ha mostrado contenido; Se puede acceder inmediatamente al HTML y al CSS. Mientras tanto, el navegador puede descargar los archivos JavaScript almacenados en el servidor.

Esto se opone a la representación del lado del cliente, que requiere que el navegador busque y compile JavaScript antes de que se pueda acceder al contenido en la página web. Este es un aumento mucho menor para el servidor, razón por la cual los desarrolladores de sitios web suelen preferirlo, pero significa que los bots tienen dificultades para ver el contenido de la página sin renderizar JavaScript primero.

¿Cómo procesan JavaScript los robots LLM?

Dado lo que sabemos ahora sobre cómo el robot de Google procesa JavaScript, ¿en qué se diferencia de los robots de IA?

El elemento más importante que hay que entender sobre lo siguiente es que, a diferencia del robot de Google, no existe un «único» organismo rector que represente a todos los bots que podrían incluirse en los «bots LLM». Es decir, lo que un robot podría ser capaz de hacer no será necesariamente el estándar para todos.

Los bots que rastrean la web para impulsar las bases de conocimiento de los LLM no son los mismos que los bots que visitan una página para brindar información oportuna a un usuario a través de un motor de búsqueda.

Y los bots de Claude no tienen la misma capacidad que los de OpenAI.

Cuando consideramos cómo garantizar que los robots de IA puedan acceder a nuestro contenido, tenemos que atender a los robots de menor capacidad.

Se sabe menos sobre cómo los robots LLM procesan JavaScript, principalmente porque, a diferencia de Google, los robots de IA no comparten esa información. Sin embargo, algunas personas muy inteligentes han estado realizando pruebas para identificar cómo lo maneja cada uno de los principales robots de LLM.

En 2024, Vercel publicó una investigación sobre las capacidades de renderizado de JavaScript de los principales robots de LLM, incluidos OpenAI, Anthropic, Meta, ByteDance y Perplexity. Según su estudio, ninguno de esos robots pudo renderizar JavaScript. Los únicos que lo fueron fueron Gemini (aprovechando la infraestructura de Googlebot), Applebot y CCbot de CommonCrawl.

Más recientemente, Glenn Gabe reconfirmó los hallazgos de Vercel a través de su propio análisis en profundidad de cómo ChatGPT, Perplexity y Claude manejan JavaScript. También explica cómo probar su propio sitio web en los LLM para ver cómo manejan su contenido.

Estos son los bots más conocidos, de algunas de las empresas de inteligencia artificial con mayor financiación en este espacio. Es lógico que si tienen dificultades con JavaScript, los que tienen menos financiación o tienen más nicho también lo tendrán.

¿Cómo manejan los robots de IA el contenido oculto de forma interactiva?

No bien. Es decir, si el contenido interactivo requiere cierta ejecución de JavaScript, es posible que tengan dificultades para analizarlo.

Para garantizar que los bots puedan ver el contenido oculto detrás de pestañas o en acordeones, es prudente asegurarse de que el contenido se cargue completamente en el DOM sin la necesidad de ejecutar JavaScript. Los visitantes humanos aún pueden interactuar con el contenido para revelarlo, pero los robots no necesitarán hacerlo.

Cómo comprobar si hay problemas de renderizado de JavaScript

Hay dos formas muy sencillas de comprobar si el robot de Google puede representar todo el contenido de su página:

Verifique el DOM a través de herramientas de desarrollador

El DOM (Document Object Model) es una interfaz para una página web que representa la página HTML como una serie de «nodos» y «objetos». Básicamente, vincula el código fuente HTML de una página web a JavaScript, lo que permite que funcione la funcionalidad de la página web. En términos simples, piense en una página web como un árbol genealógico. Cada elemento de una página web es un «nodo» en el árbol. Entonces, una etiqueta de encabezado

, un párrafo

y el cuerpo de la página en sí son todos nodos en el árbol genealógico.

Cuando un navegador carga una página web, lee el HTML y lo convierte en el árbol genealógico (el DOM).

Cómo comprobarlo

Te explicaré esto usando las herramientas para desarrolladores de Chrome como ejemplo.

Puede comprobar el DOM de una página accediendo a su navegador. Usando Chrome, haga clic derecho y seleccione «Inspeccionar». Desde allí, asegúrate de estar en la pestaña «Elementos».

Para ver si el contenido es visible en su página web sin tener que ejecutar JavaScript, puede buscarlo aquí. Si encuentra el contenido completamente dentro del DOM cuando carga la página por primera vez (y no interactúa más con ella), entonces debería ser visible para los robots de Google y LLM.

Utilice la consola de búsqueda de Google

Para comprobar si el contenido es visible específicamente para el robot de Google, puede utilizar Google Search Console.

Elija la página que desea probar y péguela en el campo «Inspeccionar cualquier URL». Luego, Search Console lo llevará a otra página donde podrá «Probar la URL activa». Cuando pruebe una página activa, se le presentará otra pantalla donde puede optar por «Ver página probada».

Cómo comprobar si un robot LLM puede ver su contenido

Según los experimentos de Glenn Gabe, puedes preguntar a los propios LLM qué pueden leer en una página web específica. Por ejemplo, puede pedirles que lean el texto de un artículo. Responderán con una explicación si no pueden hacerlo debido a JavaScript.

Ver el HTML fuente

Si estamos trabajando con el mínimo común denominador, es prudente asumir que, en este punto, los LLM no pueden leer contenido en JavaScript. Para asegurarse de que su contenido esté disponible en el HTML de una página web para que los bots puedan acceder a él definitivamente, asegúrese absolutamente de que el contenido de su página sea legible para estos bots. Asegúrese de que esté en el HTML fuente. Para comprobar esto, puede ir a Chrome y hacer clic derecho en la página. En el menú, seleccione «Ver fuente de la página». Si puede «encontrar» el texto en este código, sabrá que está en el HTML fuente de la página.

¿Qué significa esto para su sitio web?

Básicamente, el robot de Google se ha desarrollado a lo largo de los años para manejar mucho mejor JavaScript que los robots LLM más nuevos. Sin embargo, es muy importante comprender que los robots de LLM no intentan rastrear y representar la web de la misma manera que el robot de Google. No asuma que alguna vez intentarán imitar el comportamiento del robot de Google. No los considere «detrás» del robot de Google. Son una bestia completamente diferente.

Para su sitio web, esto significa que debe verificar si su página carga toda la información pertinente en el DOM en la primera carga de la página para satisfacer las necesidades del robot de Google. Para los bots de LLM, para asegurarse de que el contenido esté disponible para ellos, verifique su HTML estático.

Más recursos:


Imagen publicada: Paulo Bobita/Search Engine Journal

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *