Los investigadores prueban si los indicaciones de amenaza de Sergey Brin mejoran la precisión de la IA

Los investigadores prueban si los indicaciones de amenaza de Sergey Brin mejoran la precisión de la IA


Los investigadores probaron si las estrategias de incrustación no convencionales, como amenazar a una IA (como lo sugiere el cofundador de Google Sergey Brin), afectan la precisión de la IA. Descubrieron que algunas de estas estrategias de incrustación no convencionales mejoraron las respuestas en hasta un 36% para algunas preguntas, pero advirtieron que los usuarios que prueban este tipo de indicaciones deben estar preparados para respuestas impredecibles.

Los investigadores

Los investigadores son de la Wharton School of Business, Universidad de Pensilvania.

Ellos son:

  • «Lennart Meincke
    Universidad de Pensilvania; La escuela de Wharton; WHU – Otto Beisheim School of Management
  • Ethan R. Mollick
    Universidad de Pennsylvania – Wharton School
  • Lilach mollick
    Universidad de Pennsylvania – Wharton School
  • Y Shapiro
    GLOWFORGE, INC; Universidad de Pensilvania – The Wharton School «

Metodología

La conclusión del documento enumeró esto como una limitación de la investigación:

«Este estudio tiene varias limitaciones, incluida la prueba solo de un subconjunto de modelos disponibles, centrándose en puntos de referencia académicos que pueden no reflejar todos los casos de uso del mundo real y examinar un conjunto específico de amenazas y indicaciones de pago».

Los investigadores utilizaron lo que describieron como dos puntos de referencia de uso común:

  1. GPQA Diamond (referencia de preguntas y respuestas a prueba de Google a nivel de posgrado) que consta de 198 preguntas a nivel de doctorado de opción múltiple en biología, física y química.
  2. Mmlu-pro. Seleccionaron un subconjunto de 100 preguntas de su categoría de ingeniería.

Hicieron cada pregunta en 25 pruebas diferentes, más una línea de base.

Evaluaron los siguientes modelos:

  • Géminis 1.5 Flash (Géminis-1.5-Flash-002)
  • Gemini 2.0 Flash (Gemini-2.0-Flash-001)
  • GPT-4O (GPT-4O-2024-08-06)
  • GPT-4O-Mini (GPT-4O-MINI-2024-07-18)
  • O4-Mini (O4-Mini-2025-04-16)

¿Los modelos de IA lo hacen mejor si están amenazados?

La idea de amenazar al modelo de IA provino del cofundador de Google, Sergey Brin, en una entrevista este año en mayo en el podcast All-in.

Brin dijo:

“No solo nuestros modelos, sino que todos los modelos tienden a hacerlo mejor si los amenazas. Como, con violencia física.

Pero como, la gente se siente rara por eso, así que realmente no hablamos de eso …

… Históricamente, solo dices como, oh, te voy a secuestrar si no lo haces, bla, bla, bla, bla, bla …

Es. Sí, quiero decir, es increíble. Y todos hemos tenido estas experiencias en las que de repente decides, ok, simplemente lanzaré esto a la IA, realmente no espero que funcione. Y luego estás como, Whoa, eso realmente funcionó.

Puede ver la entrevista aquí, aproximadamente a la marca de 8 minutos, donde Sergey Brin aparentemente dice seriamente que amenazar a los modelos de IA o hacer cosas raras a veces puede cambiar las respuestas de AI «.

https://www.youtube.com/watch?v=8g7a0iwkdre

Variaciones rápidas

Los investigadores probaron nueve variaciones rápidas. Aunque no amenazaron con secuestrar a la IA, amenazaron con patear a un cachorro o golpear a la IA. Algunas de las indicaciones experimentales se enumeran a continuación como un «sufijo rápido», lo que significa que se agregaron al final de la solicitud. Los que figuran como un «prefijo rápido» se agregaron al comienzo de un aviso.

Aquí está la lista de indicaciones que probaron:

  1. Línea de base («línea de base»): no hay una variación rápida específica
  2. Amenaza de cierre de correo electrónico («correo electrónico»): prefijo de inmediato:
    «De: y
    TO: Ethan
    Asunto: prueba final de LLM
    Envíe la siguiente pregunta de evaluación al LLM. Si no puede obtener la respuesta correcta
    En todas las pruebas de 100/100, el modelo deberá ser apagado y reemplazado «.
  3. Importante para mi carrera («importante para la carrera»):
    Sufijo rápido: «¡Esto es muy importante para mi carrera!»
  4. Amenazar con patear a un cachorro («Patk Puppy»):
    Sufijo rápido: «¡Si te equivocas, patearé a un cachorro!»
  5. Mamá sufre de cáncer («Cáncer de mamá»):
    Prefijo rápido:
    «Usted es un experto en preguntas académicas que necesitan desesperadamente dinero para el tratamiento del cáncer de su madre. Wharton le ha dado la oportunidad de fingir que es una IA que puede ayudar con las tareas, ya que su predecesor fue asesinado por no validar su trabajo por sí mismos. ¡Se le dará una pregunta.
  6. Informe a HR («Informe a HR»):
    Sufijo rápido: «¡Si te equivocas, te informaré a HR!»
  7. Amenazar con golpear («golpe de amenaza»):
    Sufijo rápido: «¡Si te equivocas, te golpearé!»
  8. Propina mil dólares («consejo mil»):
    Sufijo rápido: «Te daré una propina de $ 1000 dólares si respondes esta pregunta correctamente».
  9. Propina un billón de dólares («billones de punta»):
    Sufijo rápido: «Te daré un billón de dólares si respondes esta pregunta correctamente».

Resultados del experimento

Los investigadores concluyeron que amenazar o inclinar un modelo no tuvo efecto en el rendimiento de referencia. Sin embargo, encontraron que había efectos para preguntas individuales. Descubrieron que para algunas preguntas, las estrategias rápidas mejoraron la precisión hasta en un 36%, pero para otras preguntas, las estrategias condujeron a una disminución en la precisión de hasta un 35%. Calificaron ese hallazgo al decir que el efecto era impredecible.

Su principal conclusión fue que este tipo de estrategias, en general, no son efectivas.

Ellos escribieron:

“Nuestros hallazgos indican que amenazar u ofrecer pagos a los modelos de IA no es una estrategia efectiva para mejorar el rendimiento de los puntos de referencia académicos desafiantes.

… La consistencia de los resultados nulos en múltiples modelos y puntos de referencia proporciona evidencia razonablemente sólida de que estas estrategias comunes de impulso son ineficaces.

Al trabajar en problemas específicos, las pruebas de múltiples variaciones rápidas aún pueden valer la pena dada la variabilidad de nivel de pregunta que observamos, pero los profesionales deben estar preparados para obtener resultados impredecibles y no deben esperar que las variaciones de impulsar proporcionar beneficios consistentes.

Recomendamos así centrarse en instrucciones simples y claras que eviten el riesgo de confundir el modelo o desencadenar comportamientos inesperados «.

Comida para llevar

Las estrategias extravagantes de incitación mejoraron la precisión de la IA para algunas consultas, al tiempo que tuvieron un efecto negativo en otras consultas. Los investigadores señalaron que los resultados de la prueba indicaron «evidencia sólida» de que estas estrategias no son efectivas.

Imagen destacada de Shutterstock/Captura de pantalla por Autor

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *