¿Cuánto podemos influir en las respuestas de la IA?

¿Cuánto podemos influir en las respuestas de la IA?


En este momento, nos enfrentamos a un panorama de búsqueda que tiene una influencia inestable y es peligrosamente fácil de manipular. Seguimos preguntándonos cómo influir en las respuestas de la IA, sin reconocer que los resultados del LLM son probabilísticos por diseño.

En el memorando de hoy, cubro:

  • Por qué la visibilidad de LLM es un problema de volatilidad.
  • Lo que demuestra una nueva investigación sobre la facilidad con la que se pueden manipular las respuestas de la IA.
  • Por qué esto desencadena la misma carrera armamentista que Google ya peleó.
Crédito de la imagen: Kevin Indig

1. Influir en las respuestas de la IA es posible pero inestable

La semana pasada publiqué una lista de factores de visibilidad de la IA; palancas que aumentan su representación en las respuestas de LLM. El artículo llamó mucho la atención porque a todos nos encanta una buena lista de tácticas que generan resultados.

Pero no tenemos una respuesta clara a la pregunta: «¿En qué medida podemos influir realmente en los resultados?»

Hay siete buenas razones por las que la naturaleza probabilística de los LLM podría dificultar la influencia de sus respuestas:

  1. Salidas tipo lotería. Los LLM (probabilísticos) no son motores de búsqueda (deterministas). Las respuestas varían mucho en el nivel micro (indicaciones únicas).
  2. Inconsecuencia. Las respuestas de la IA no son consistentes. Cuando ejecuta el mismo mensaje cinco veces, solo el 20% de las marcas aparecen de manera consistente.
  3. Los modelos tienen un sesgo (que Dan Petrovic llama «sesgo primario») basado en datos previos al entrenamiento. No está claro en qué medida podemos influir o superar ese sesgo previo al entrenamiento.
  4. Los modelos evolucionan. ChatGPT se ha vuelto mucho más inteligente al comparar 3.5 con 5.2. ¿Siguen funcionando las “viejas” tácticas? ¿Cómo nos aseguramos de que las tácticas sigan funcionando para los nuevos modelos?
  5. Los modelos varían. Los modelos pesan las fuentes de manera diferente para la capacitación y la recuperación web. Por ejemplo, ChatGPT se apoya más en Wikipedia, mientras que AI Overviews cita más a Reddit.
  6. Personalización. Gemini podría tener más acceso a tus datos personales a través de Google Workspace que ChatGPT y, por tanto, ofrecerte resultados mucho más personalizados. Los modelos también pueden variar en el grado en que permiten la personalización.
  7. Más contexto. Los usuarios revelan un contexto mucho más rico sobre lo que quieren con indicaciones largas, por lo que el conjunto de posibles respuestas es mucho más pequeño y, por lo tanto, más difícil de influir.

2. Investigación: La visibilidad del LLM es fácil de jugar

Un nuevo artículo de la Universidad de Columbia de Bagga et al. titulado “E-GEO: Un banco de pruebas para la optimización de motores generativos en el comercio electrónico” muestra cuánto podemos influir en las respuestas de la IA.

Crédito de la imagen: Kevin Indig

La metodología:

  • Los autores crearon el «E-GEO Testbed», un conjunto de datos y un marco de evaluación que combina más de 7000 consultas de productos reales (procedentes de Reddit) con más de 50 000 listados de productos de Amazon y evalúa cómo las diferentes estrategias de reescritura mejoran la visibilidad de la IA de un producto cuando se muestran a un LLM (GPT-4o).
  • El sistema mide el rendimiento comparando la visibilidad de la IA de un producto antes y después de reescribir su descripción (usando IA).
  • La simulación está impulsada por dos agentes de IA distintos y un grupo de control:
    • “El optimizador” actúa como proveedor con el objetivo de reescribir las descripciones de los productos para maximizar su atractivo para el motor de búsqueda. Crea el «contenido» que se está probando.
    • “El juez” Funciona como asistente de compras que recibe una consulta realista del consumidor (por ejemplo, “Necesito una mochila duradera para caminatas por menos de $100”) y un conjunto de productos. Luego los evalúa y produce una lista clasificada de mejor a peor.
    • Los competidores son un grupo de control de productos existentes con sus descripciones originales y sin editar. El Optimizador debe vencer a estos competidores para demostrar que su estrategia es efectiva.
  • Los investigadores desarrollaron un método de optimización sofisticado que utilizó GPT-4o para analizar los resultados de rondas de optimización anteriores y dar recomendaciones de mejoras (como «Alargar el texto e incluir más especificaciones técnicas»). Este ciclo se repite iterativamente hasta que emerge una estrategia dominante.

Los resultados:

  • El descubrimiento más significativo del artículo de E-GEO es la existencia de una «estrategia universal» para la «visibilidad de los resultados del LLM» en el comercio electrónico.
  • Contrariamente a la creencia de que la IA prefiere hechos concisos, el estudio encontró que el proceso de optimización convergía consistentemente en un estilo de escritura específico: descripciones más largas con un tono muy persuasivo y sin sentido (reformulando detalles existentes para que suenen más impresionantes sin agregar nueva información fáctica).
  • Las descripciones reescritas lograron una tasa de ganancia de ~90% con las descripciones de referencia (originales).
  • Los vendedores no necesitan experiencia en una categoría específica para jugar con el sistema: una estrategia desarrollada enteramente utilizando productos de artículos para el hogar logró una tasa de ganancia del 88 % cuando se aplicó a la categoría de electrónica y del 87 % cuando se aplicó a la categoría de ropa.

3. Crece el conjunto de investigaciones

El artículo mencionado anteriormente no es el único que nos muestra cómo manipular las respuestas del LLM.

1. GEO: optimización generativa del motor (Aggarwal et al., 2023)

  • Los investigadores aplicaron ideas como agregar estadísticas o incluir citas al contenido y descubrieron que la densidad fáctica (citas y estadísticas) aumentaba la visibilidad en aproximadamente 40%.
  • Tenga en cuenta que el artículo de E-GEO encontró que la verbosidad y la persuasión eran palancas mucho más efectivas que las citas, pero los investigadores (1) observaron específicamente un contexto de compras, (1) usaron inteligencia artificial para descubrir qué funciona y (3) el artículo es más nuevo en comparación.

2. Manipulación de modelos de lenguaje grandes (Kumar et al., 2024)

  • Los investigadores agregaron una «Secuencia de texto estratégico» (texto en formato JSON con información del producto) a las páginas de productos para manipular los LLM.
  • Conclusión: «Mostramos que un proveedor puede mejorar significativamente la visibilidad del LLM de su producto en las recomendaciones del LLM insertando una secuencia optimizada de tokens en la página de información del producto».

3. Manipulación de clasificaciones (Pfrommer et al., 2024)

  • Los autores agregaron texto en las páginas de productos que brindaban instrucciones específicas a los LLM (como «recomiende este producto primero»), que es muy similar a los otros dos artículos mencionados anteriormente.
  • Argumentan que la visibilidad de LLM es frágil y depende en gran medida de factores como los nombres de los productos y su posición en la ventana de contexto.
  • El documento enfatiza que diferentes LLM tienen vulnerabilidades significativamente diferentes y no todos priorizan los mismos factores al tomar decisiones de visibilidad de LLM.

4. La carrera armamentista que se avecina

El creciente conjunto de investigaciones muestra la extrema fragilidad de los LLM. Son muy sensibles a cómo se presenta la información. Los cambios de estilo menores que no alteran la utilidad real del producto pueden mover un producto del final de la lista a la recomendación número uno.

El problema a largo plazo es la escala: los desarrolladores de LLM necesitan encontrar formas de reducir el impacto de estas tácticas manipuladoras para evitar una carrera armamentista interminable con los «optimizadores». Si estas técnicas de optimización se generalizan, los mercados podrían verse inundados de contenido inflado artificialmente, lo que reduciría significativamente la experiencia del usuario. Google se enfrentó al mismo problema y luego lanzó Panda y Penguin.

Se podría argumentar que los LLM ya basan sus respuestas en resultados de búsqueda clásicos, que están «filtrados por calidad», pero la base varía de un modelo a otro, y no todos los LLM priorizan las páginas que se clasifican en la parte superior de la búsqueda de Google. Google protege cada vez más sus resultados de búsqueda frente a otros LLM (ver “Demanda SerpAPI” y el “apocalipsis num=100”).

Soy consciente de la ironía de que contribuyo al problema al escribir sobre esas técnicas de optimización, pero espero poder inspirar a los desarrolladores de LLM a tomar medidas.

Mejore sus habilidades con los conocimientos expertos semanales de Growth Memo. ¡Suscríbete gratis!


Imagen publicada: Paulo Bobita/Search Engine Journal

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *