Las recomendaciones de IA cambian con casi todas las consultas: Sparktoro

Las recomendaciones de IA cambian con casi todas las consultas: Sparktoro


Las herramientas de inteligencia artificial producen diferentes listas de recomendaciones de marcas casi cada vez que responden a la misma pregunta, según un nuevo informe de SparkToro.

Los datos mostraron una probabilidad <1 entre 100 de que ChatGPT o la IA de Google en la búsqueda (descripciones generales de IA/modo AI) arrojaran la misma lista de marcas en ejecuciones repetidas del mismo mensaje.

Rand Fishkin, cofundador de SparkToro, realizó la investigación con Patrick O’Donnell de Gumshoe.ai, una startup de seguimiento de IA. El equipo ejecutó 2961 mensajes en las descripciones generales de IA de ChatGPT, Claude y Google Search (con el modo AI usado cuando las descripciones generales no aparecían) utilizando cientos de voluntarios durante noviembre y diciembre.

Lo que encontraron los datos

Los autores probaron 12 mensajes que solicitaban recomendaciones de marcas en todas las categorías, incluidos cuchillos de chef, auriculares, hospitales de atención oncológica, consultores de marketing digital y novelas de ciencia ficción.

Cada mensaje se ejecutó entre 60 y 100 veces por plataforma. Casi todas las respuestas fueron únicas en tres aspectos: la lista de marcas presentadas, el orden de las recomendaciones y la cantidad de artículos devueltos.

Fishkin resumió el hallazgo principal:

«Si le pides a una herramienta de inteligencia artificial recomendaciones de marcas o productos cien veces, casi todas las respuestas serán únicas».

Claude mostró una consistencia ligeramente mayor al producir la misma lista dos veces, pero era menos probable que produjera el mismo orden. Ninguna de las plataformas se acercó a la definición de repetibilidad confiable de los autores.

El problema de la variabilidad inmediata

Los autores también examinaron cómo los usuarios reales escriben mensajes. Cuando se pidió a 142 participantes que escribieran sus propias indicaciones sobre auriculares para un familiar que viajaba, casi no había dos indicaciones similares.

La puntuación de similitud semántica entre esas indicaciones escritas por humanos fue de 0,081. Fishkin comparó la relación con:

“Pollo Kung Pao y mantequilla de maní”.

Las indicaciones compartían una intención central, pero poco más.

A pesar de la diversidad inmediata, las herramientas de inteligencia artificial arrojaron marcas desde un conjunto de consideraciones relativamente consistente. Bose, Sony, Sennheiser y Apple aparecieron en el 55-77% de las 994 respuestas a esas variadas indicaciones con auriculares.

Qué significa esto para el seguimiento de la visibilidad de la IA

Los hallazgos cuestionan el valor de la “posición de clasificación de la IA” como métrica. Fishkin escribió: «cualquier herramienta que proporcione una ‘posición de clasificación en IA’ está llena de tonterías».

Sin embargo, los datos sugieren que la frecuencia con la que aparece una marca en muchas series de mensajes similares es más consistente. En categorías reducidas, como proveedores de computación en la nube, las mejores marcas aparecieron en la mayoría de las respuestas. En categorías más amplias, como las novelas de ciencia ficción, los resultados fueron más dispersos.

Esto se alinea con otros informes que hemos cubierto. En diciembre, Ahrefs publicó datos que muestran que AI Mode y AI Overviews de Google citan diferentes fuentes el 87% de las veces para la misma consulta. Ese informe se centró en una cuestión diferente: la misma plataforma pero con características diferentes. Estos datos de SparkToro examinan la misma plataforma y mensaje, pero con ejecuciones diferentes.

El patrón en estos estudios apunta en la misma dirección. Las recomendaciones de IA parecen variar en todos los niveles, ya sea que se comparen entre plataformas, entre funciones dentro de una plataforma o entre consultas repetidas a la misma función.

Notas metodológicas

La investigación se realizó en asociación con Gumshoe.ai, que vende herramientas de seguimiento de IA. Fishkin reveló esto y señaló que su hipótesis inicial era que el seguimiento de la IA resultaría «inútil».

El equipo publicó la metodología completa y los datos sin procesar en un minisitio público. Los encuestados utilizaron la configuración normal de sus herramientas de IA sin estandarización, lo que, según los autores, fue intencional para capturar la variación del mundo real.

El informe no es una investigación académica revisada por pares. Fishkin reconoció las limitaciones metodológicas y pidió un trabajo de seguimiento a mayor escala.

Mirando hacia el futuro

Los autores dejaron preguntas abiertas sobre cuántas ejecuciones de avisos se necesitan para obtener datos de visibilidad confiables y si las llamadas API producen la misma variación que los avisos manuales.

Al evaluar las herramientas de seguimiento de IA, los hallazgos sugieren que se debe pedir a los proveedores que demuestren su metodología. Fishkin escribió:

«Antes de gastar un centavo en el seguimiento de la visibilidad de la IA, asegúrese de que su proveedor responda las preguntas que hemos planteado aquí y muestre sus cálculos».


Imagen de portada: NOMONARTS/Shutterstock

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *