Más sitios que bloquean el rastreo de LLM: ¿podría ser contraproducente para GEO?

Más sitios que bloquean el rastreo de LLM: ¿podría ser contraproducente para GEO?


Hostinger publicó un análisis que muestra que las empresas están bloqueando los sistemas de inteligencia artificial utilizados para entrenar modelos de lenguaje grandes y al mismo tiempo permiten que los asistentes de inteligencia artificial continúen leyendo y resumiendo más sitios web. La compañía examinó 66,7 mil millones de interacciones de bots en 5 millones de sitios web y descubrió que los rastreadores asistentes de IA utilizados por herramientas como ChatGPT ahora llegan a más sitios, incluso cuando las empresas restringen otras formas de acceso a la IA.

Análisis de hosting

Hostinger es un servidor web y también una plataforma sin código impulsada por agentes de inteligencia artificial para crear negocios en línea. La compañía dijo que analizó registros de sitios web anónimos para medir cómo los rastreadores verificados acceden a los sitios a escala, lo que le permite comparar cambios en cómo los motores de búsqueda y los sistemas de inteligencia artificial recuperan contenido en línea.

El análisis que publicaron muestra que los rastreadores asistentes de IA ampliaron su alcance en todos los sitios web durante un período de cinco meses. Los datos se recopilaron durante tres períodos de seis días en junio, agosto y noviembre de 2025.

SearchBot de OpenAI aumentó la cobertura del 52 por ciento al 68 por ciento de los sitios, mientras que Applebot (que indexa contenido para impulsar las funciones de búsqueda de Apple) se duplicó del 17 por ciento al 34 por ciento. Durante el mismo período, los rastreadores de búsqueda tradicionales esencialmente se mantuvieron constantes. Los datos indican que los asistentes de IA están añadiendo una nueva capa a la forma en que la información llega a los usuarios en lugar de reemplazar directamente a los motores de búsqueda.

Al mismo tiempo, los datos muestran que las empresas redujeron drásticamente el acceso a los rastreadores de capacitación en IA. GPTBot de OpenAI cayó del acceso en el 84 por ciento de los sitios web en agosto al 12 por ciento en noviembre. ExternalAgent de Meta cayó del 60 por ciento de cobertura al 41 por ciento de cobertura del sitio web. Estos rastreadores recopilan datos a lo largo del tiempo para mejorar los modelos de IA y actualizar su conocimiento paramétrico, pero muchas empresas los están bloqueando, ya sea para limitar el uso de datos o por temor a problemas de infracción de derechos de autor.

Conocimiento paramétrico

El conocimiento paramétrico, también conocido como memoria paramétrica, es la información que está «codificada» en el modelo durante el entrenamiento. Se llama «paramétrico» porque el conocimiento se almacena en los parámetros del modelo (los pesos). El conocimiento paramétrico es la memoria a largo plazo sobre entidades, por ejemplo, personas, cosas y empresas.

Cuando una persona le hace una pregunta a un LLM, el LLM puede reconocer una entidad como una empresa y luego recuperar los vectores asociados (hechos) que aprendió durante la capacitación. Entonces, cuando una empresa o empresa bloquea un robot de capacitación en su sitio web, impide que el LLM sepa algo sobre él, lo que podría no ser lo mejor para una organización preocupada por la visibilidad de la IA.

Permitir que un robot de entrenamiento de IA rastree el sitio web de una empresa le permite a esa empresa ejercer cierto control sobre lo que el LLM sabe sobre ella, incluido lo que hace, la marca, lo que esté en Acerca de nosotros, y le permite al LLM conocer los productos o servicios ofrecidos. Un sitio informativo puede beneficiarse de ser citado para obtener respuestas.

Las empresas están optando por no utilizar el conocimiento paramétrico

El análisis de Hostinger muestra que las empresas están bloqueando «agresivamente» los rastreadores de entrenamiento de IA. Si bien la investigación de Hostinger no menciona esto, el efecto de bloquear los robots de entrenamiento de IA es que las empresas esencialmente optan por no participar en el conocimiento paramétrico del LLM porque se impide que el LLM aprenda directamente del contenido de origen durante la capacitación, lo que elimina la capacidad del sitio de contar su propia historia y obliga al LLM a depender de datos de terceros o gráficos de conocimiento.

La investigación de Hostinger muestra:

“Basado en el seguimiento de 66,7 mil millones de interacciones de bots en 5 millones de sitios web, Hostinger descubrió una paradoja importante:

Las empresas están bloqueando agresivamente los robots de entrenamiento de IA, los sistemas que extraen contenido para construir modelos de IA. GPTBot de OpenAI cayó del 84% al 12% de los sitios web en tres meses.

Sin embargo, los rastreadores asistentes de IA, la tecnología que ChatGPT, Apple, etc. utilizan para responder las preguntas de los clientes, se están expandiendo rápidamente. SearchBot de OpenAI creció del 52% al 68% de los sitios; Applebot se duplicó al 34%”.

Una publicación reciente en Reddit muestra cómo el bloqueo del acceso de LLM al contenido se normaliza y se entiende como algo para proteger la propiedad intelectual (PI).

La publicación comienza con una pregunta inicial sobre cómo bloquear las IA:

“Quiero asegurarme de que mi sitio siga indexado en la Búsqueda de Google, pero no quiero que Gemini, ChatGPT u otros extraigan y utilicen mi contenido.

¿Cuál es la mejor manera de hacer esto?

Captura de pantalla de una conversación en Reddit

Más adelante en ese hilo, alguien preguntó si estaban bloqueando los LLM para proteger su propiedad intelectual y el autor original respondió afirmativamente, que esa era la razón.

La persona que inició la discusión respondió:

«Publicamos contenido único que realmente no existe en ningún otro lugar. Los LLM a menudo aprenden de nosotros sobre cosas en este pequeño nicho. Por lo tanto, necesitamos tráfico de Google, pero no LLM».

Esa puede ser una razón válida. Un sitio que publica información instructiva única sobre un producto de software que no existe en ningún otro lugar puede querer bloquear un LLM para que no indexe su contenido porque, si no lo hace, el LLM podrá responder preguntas y al mismo tiempo eliminar la necesidad de visitar el sitio.

Pero para otros sitios con contenido menos exclusivo, como un sitio de comparación y revisión de productos o un sitio de comercio electrónico, puede que no sea la mejor estrategia impedir que los LLM agreguen información sobre esos sitios a su memoria paramétrica.

Los mensajes de marca se pierden para los LLM

Como los asistentes de IA responden preguntas directamente, los usuarios pueden recibir información sin necesidad de visitar un sitio web. Esto puede reducir el tráfico directo y limitar el alcance de los detalles de precios, el contexto del producto y los mensajes de marca de una empresa. Es posible que el recorrido del cliente termine dentro de la interfaz de IA y las empresas que impiden que los LLM adquieran conocimientos sobre sus empresas y ofertas dependan esencialmente del rastreador de búsqueda y del índice de búsqueda para llenar ese vacío (¿y tal vez eso funcione?).

El uso cada vez mayor de asistentes de IA afecta al marketing y se extiende a la previsión de ingresos. Cuando los sistemas de inteligencia artificial resumen ofertas y recomendaciones, las empresas que bloquean los LLM tienen menos control sobre cómo aparecen los precios y el valor. Los esfuerzos publicitarios pierden visibilidad en una fase más temprana del proceso de decisión, y la atribución del comercio electrónico se vuelve más difícil cuando las compras siguen respuestas generadas por IA en lugar de visitas directas al sitio.

Según Hostinger, algunas organizaciones se están volviendo más selectivas sobre qué contenido está disponible para la IA, especialmente los asistentes de IA.

Tomas Rasymas, director de IA de Hostinger, comentó:

«Dado que los asistentes de IA responden cada vez más preguntas directamente, la Web está pasando de un modelo basado en clics a uno mediado por agentes. El riesgo real para las empresas no es el acceso a la IA en sí, sino la pérdida de control sobre cómo se presentan los precios, el posicionamiento y el valor cuando se toman decisiones».

Llevar

Bloquear a los LLM para que no utilicen datos de sitios web para capacitación no es realmente la posición predeterminada a tomar, a pesar de que muchas personas sienten verdadera ira y molestia ante la idea de una capacitación de LLM sobre su contenido. Puede resultar útil adoptar una respuesta más meditada que sopese los beneficios frente a las desventajas y considerar también si esas desventajas son reales o percibidas.

Imagen destacada de Shutterstock/Lightspring

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *