Los asistentes de IA muestran problemas importantes en el 45% de las respuestas de noticias

Según un estudio de la Unión Europea de Radiodifusión (UER) y la BBC, los principales asistentes de inteligencia artificial tergiversaron o manejaron mal el contenido de las noticias en casi la mitad de las respuestas evaluadas.

La investigación evaluó las versiones gratuitas y de consumo de ChatGPT, Copilot, Gemini y Perplexity, respondiendo preguntas sobre noticias en 14 idiomas en 22 organizaciones de medios de servicio público en 18 países.

La UER dijo al anunciar los hallazgos:

«La distorsión sistémica de las noticias por parte de la IA es consistente en todos los idiomas y territorios».

Lo que encontró el estudio

En total, se evaluaron 2709 respuestas principales, y también se extrajeron ejemplos cualitativos de preguntas personalizadas.

En general, 45% de las respuestas contenían al menos un problema importante, y 81% Tuve algún problema. El abastecimiento fue el área problemática más común y afectó 31% de respuestas a un nivel significativo.

Cómo se desempeñó cada asistente

El rendimiento varió según la plataforma. Google Gemini mostró la mayor cantidad de problemas: 76% de sus respuestas contenían problemas importantes, impulsados por 72% con problemas de abastecimiento.

Los otros asistentes estaban en o por debajo 37% para problemas importantes en general y a continuación 25% para cuestiones de abastecimiento.

Ejemplos de errores

Los problemas de precisión incluyeron información desactualizada o incorrecta.

Por ejemplo, varios asistentes identificaron al Papa Francisco como el Papa actual a finales de mayo, a pesar de su muerte en abril, y Gemini caracterizó incorrectamente los cambios en las leyes sobre vaporizadores desechables.

Notas metodológicas

Los participantes generaron respuestas entre el 24 de mayo y el 10 de junio, utilizando un conjunto compartido de 30 preguntas centrales más preguntas locales opcionales.

El estudio se centró en las versiones gratuitas/de consumo de cada asistente para reflejar el uso típico.

Muchas organizaciones tenían bloqueos técnicos que normalmente restringen el acceso de los asistentes a su contenido. Esos bloqueos se eliminaron durante el período de generación de respuesta y se restablecieron posteriormente.

Por qué esto importa

Cuando se utilizan asistentes de IA para investigación o planificación de contenidos, estos hallazgos refuerzan la necesidad de verificar las afirmaciones con respecto a las fuentes originales.

Como publicación, esto podría afectar la forma en que se representa su contenido en las respuestas de IA. La alta tasa de errores aumenta el riesgo de que aparezcan declaraciones mal atribuidas o no respaldadas en resúmenes que citan su contenido.

Mirando hacia el futuro

La UER y la BBC publicaron un kit de herramientas sobre integridad de las noticias en asistentes de IA junto con el informe, que ofrece orientación para empresas de tecnología, organizaciones de medios e investigadores.

Reuters informa sobre la opinión de la UER de que la creciente dependencia de los asistentes para las noticias podría socavar la confianza del público.

Como lo expresó el director de medios de la UER, Jean Philip De Tender: