ChatGPT anunció una nueva versión de ChatGPT que puede aceptar entradas de audio, imágenes y texto y también generar salidas en audio, imágenes y texto. OpenAI llama a la nueva versión de ChatGPT 4o, donde la «o» significa «omni», que es una palabra combinada que significa «todos».
ChatGPT 4o (Omni)
OpenAI describió esta nueva versión de ChatGPT como una progresión hacia interacciones más naturales entre humanos y máquinas que responde a las entradas del usuario a la misma velocidad que las conversaciones de persona a persona. La nueva versión coincide con ChatGPT 4 Turbo en inglés y supera significativamente a Turbo en otros idiomas. Hay una mejora significativa en el rendimiento de la API, aumentando la velocidad y operando un 50% menos costoso.
El anuncio explica:
«Según las mediciones de los puntos de referencia tradicionales, GPT-4o logra un rendimiento de nivel GPT-4 Turbo en texto, razonamiento e inteligencia de codificación, al tiempo que establece nuevos estándares en capacidades multilingües, de audio y de visión».
Procesamiento de voz avanzado
El método anterior para comunicarse con voz implicaba unir tres modelos diferentes para manejar la transcripción de entradas de voz a texto donde el segundo modelo (GPT 3.5 o GPT-4) las procesa y genera texto y un tercer modelo que transcribe el texto nuevamente en audio. Se dice que este método pierde matices en las distintas traducciones.
OpenAI describió las desventajas del enfoque anterior que (presumiblemente) se superan con el nuevo enfoque:
“Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones. «
La nueva versión no necesita tres modelos diferentes porque todas las entradas y salidas se manejan juntas en un modelo para entrada y salida de audio de extremo a extremo. Curiosamente, OpenAI afirma que aún no han explorado todas las capacidades del nuevo modelo ni han comprendido completamente sus limitaciones.
Nuevas barreras de seguridad y una versión iterativa
OpenAI GPT 4o presenta nuevas barandillas y filtros para mantenerlo seguro y evitar salidas de voz no deseadas por seguridad. Sin embargo, el anuncio de hoy dice que solo están implementando capacidades para entradas y salidas de texto e imágenes y un audio limitado en el lanzamiento. GPT 4o está disponible tanto para el nivel gratuito como para el de pago, y los usuarios Plus reciben límites de mensajes 5 veces mayores.
Las capacidades de audio se lanzarán en fase alfa limitada para los usuarios de ChatGPT Plus y API en unas semanas.
El anuncio explicaba:
“Reconocemos que las modalidades de audio de GPT-4o presentan una variedad de riesgos novedosos. Hoy publicamos públicamente entradas y salidas de texto de imágenes y texto. Durante las próximas semanas y meses, trabajaremos en la infraestructura técnica, la usabilidad a través del entrenamiento posterior y la seguridad necesaria para lanzar las otras modalidades. Por ejemplo, en el lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes”.
Lea el anuncio:
Hola GPT-4o
Imagen destacada de Shutterstock/Photo For Everything