¿OpenAI GPT-4o Hype fue un troll en Google?

OpenAI logró robarle la atención a Google en las semanas previas al evento más grande del año de Google (Google I/O). Cuando llegó el gran anuncio, todo lo que tenían que mostrar era un modelo de lenguaje que era ligeramente mejor que el anterior, con la parte «mágica» ni siquiera en la etapa de prueba Alpha.

Es posible que OpenAI haya dejado a los usuarios sintiéndose como una madre recibiendo una aspiradora para el Día de la Madre, pero seguramente logró minimizar la atención de la prensa para el importante evento de Google.

La letra O

El primer indicio de que hay al menos un poco de trolling es el nombre del nuevo modelo GPT, 4 “o” con la letra “o” como en el nombre del evento de Google, I/O.

OpenAI dice que la letra O significa Omni, lo que significa todo, pero parece que hay un subtexto en esa elección.

GPT-4o sobrevendido como magia

Sam Altman en un tweet el viernes antes del anuncio prometió “cosas nuevas” que le parecieron “mágicas”:

“No es gpt-5 ni un motor de búsqueda, ¡pero hemos trabajado duro en algunas cosas nuevas que creemos que a la gente le encantarán! Me parece mágico”.

El cofundador de OpenAI, Greg Brockman, tuiteó:

“Presentamos GPT-4o, nuestro nuevo modelo que puede razonar a través de texto, audio y video en tiempo real.

Es extremadamente versátil, divertido de jugar y es un paso hacia una forma mucho más natural de interacción persona-computadora (e incluso interacción persona-computadora-computadora):”

El propio anuncio explicaba que las versiones anteriores de ChatGPT utilizaban tres modelos para procesar la entrada de audio. Un modelo para convertir la entrada de audio en texto. Otro modelo para completar la tarea y generar la versión de texto y un tercer modelo para convertir la salida de texto en audio. El gran avance de GPT-4o es que ahora puede procesar la entrada y salida de audio dentro de un solo modelo y generarlo todo en la misma cantidad de tiempo que le toma a un humano escuchar y responder una pregunta.

Pero el problema es que la parte de audio aún no está online. Todavía están trabajando para que las barreras de seguridad funcionen y pasarán semanas antes de que se lance una versión Alpha a algunos usuarios para que la prueben. Se espera que las versiones Alpha posiblemente tengan errores, mientras que las versiones Beta generalmente están más cerca de los productos finales.

Así explicó OpenAI el decepcionante retraso:

“Reconocemos que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Hoy publicamos públicamente entradas y salidas de texto de imágenes y texto. Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través del entrenamiento posterior y la seguridad necesaria para lanzar las otras modalidades.

La parte más importante de GPT-4o, la entrada y salida de audio, está terminada, pero el nivel de seguridad aún no está listo para su lanzamiento público.

Algunos usuarios decepcionados

Es inevitable que un producto incompleto y sobrevendido genere algún sentimiento negativo en las redes sociales.

El ingeniero de inteligencia artificial Maziyar Panahi (perfil de LinkedIn) tuiteó su decepción:

“He estado probando el nuevo GPT-4o (Omni) en ChatGPT. ¡No estoy impresionado! ¡Ni siquiera un poco! Más rápidos, más baratos, multimodales, estos no son para mí.
¡Intérprete de códigos, eso es lo único que me importa y es tan vago como antes!

Siguió con:

“Entiendo que para las startups y los negocios el audio más barato, más rápido, etc., son muy atractivos. Pero sólo uso el Chat y allí se siente más o menos lo mismo. Al menos para el asistente de análisis de datos.

Además, no creo que obtenga nada más por mis 20 dólares. ¡Hoy no!»

Hay otros en Facebook y X que expresaron sentimientos similares, aunque muchos otros estaban contentos con lo que consideraban una mejora en la velocidad y el costo del uso de API.

¿OpenAI sobrevendió GPT-4o?

Dado que el GPT-4o se encuentra en un estado inacabado, es difícil no perder la impresión de que el lanzamiento fue programado para coincidir y restar valor a Google I/O. Lanzarlo en vísperas del gran día de Google con un producto a medio terminar puede haber creado inadvertidamente la impresión de que GPT-4o en el estado actual es una mejora iterativa menor.

En el estado actual, no es un paso revolucionario hacia adelante, pero una vez que la parte de audio del modelo sale de la etapa de prueba Alpha y supera la etapa de prueba Beta, podemos comenzar a hablar de revoluciones en el modelo de lenguaje grande. Pero para cuando eso suceda, es posible que Google y Anthropic ya hayan colocado una bandera en esa montaña.

El anuncio de OpenAI pinta una imagen mediocre del nuevo modelo, promoviendo el rendimiento al mismo nivel que el GPT-4 Turbo. Los únicos puntos positivos son las mejoras significativas en otros idiomas además del inglés y para los usuarios de API.

OpenAI explica:

«Iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, al mismo tiempo que es mucho más rápido y un 50% más barato en la API».

Aquí están las calificaciones en seis puntos de referencia que muestran que GPT-4o apenas superó a GPT-4T en la mayoría de las pruebas, pero se quedó atrás de GPT-4T en un punto de referencia importante para la comprensión de lectura.

Aquí están las puntuaciones:

MMLU (Comprensión masiva del lenguaje multitarea)
Este es un punto de referencia para la precisión de tareas múltiples y la resolución de problemas en más de cincuenta temas como matemáticas, ciencias, historia y derecho. GPT-4o (con una puntuación de 88,7) está ligeramente por delante de GPT4 Turbo (86,9).
GPQA (punto de referencia de preguntas y respuestas a prueba de Google a nivel de posgrado)
Se trata de 448 preguntas de opción múltiple escritas por expertos humanos en diversos campos como biología, química y física. GPT-4o obtuvo una puntuación de 53,6, superando ligeramente a GPT-4T (48,0).
Matemáticas
GPT 4o (76,6) supera a GPT-4T por cuatro puntos (72,6).
evaluación humana
Este es el punto de referencia de codificación. GPT-4o (90,2) supera ligeramente a GPT-4T (87,1) en unos tres puntos.
MGSM (Parámetro de referencia de matemáticas de escuela primaria multilingüe)
Esto evalúa las habilidades matemáticas de nivel de escuela primaria LLM en diez idiomas diferentes. GPT-4o obtiene una puntuación de 90,5 frente a 88,5 de GPT-4T.
DROP (razonamiento discreto sobre párrafos)
Este es un punto de referencia compuesto por 96.000 preguntas que evalúa la comprensión del modelo de lenguaje sobre el contenido de los párrafos. GPT-4o (83,4) obtiene una puntuación de casi tres puntos menos que GPT-4T (86,0).

¿OpenAI troleó a Google con GPT-4o?

Dado el provocativo modelo con el nombre de la letra o, es difícil no considerar que OpenAI está tratando de robar la atención de los medios en el período previo a la importante conferencia I/O de Google. Ya sea que esa fuera la intención o no, OpenAI logró minimizar la atención prestada a la próxima conferencia de búsqueda de Google.

¿Un modelo de lenguaje que apenas supera a su predecesor merece todo el revuelo y la atención de los medios que recibió? El anuncio pendiente dominó la cobertura de noticias sobre el gran evento de Google, por lo que para OpenAI la respuesta es claramente sí, valió la pena.

Imagen destacada de Shutterstock/BeataGFX