Google DeepMind publicó un artículo de investigación que propone un modelo de lenguaje llamado RecurrentGemma que puede igualar o superar el rendimiento de los modelos basados en transformadores y al mismo tiempo ser más eficiente en memoria, ofreciendo la promesa de un gran rendimiento de modelos de lenguaje en entornos de recursos limitados.
El trabajo de investigación ofrece una breve descripción:
“Presentamos RecurrentGemma, un modelo de lenguaje abierto que utiliza la novedosa arquitectura Griffin de Google. Griffin combina recurrencias lineales con atención local para lograr un excelente desempeño en el lenguaje. Tiene un estado de tamaño fijo, lo que reduce el uso de memoria y permite una inferencia eficiente en secuencias largas. Proporcionamos un modelo previamente entrenado con parámetros 2B no integrados y una variante sintonizada con instrucciones. Ambos modelos logran un rendimiento comparable al de Gemma-2B a pesar de estar entrenados con menos tokens”.
Conexión con Gemma
Gemma es un modelo abierto que utiliza la tecnología Gemini de primer nivel de Google, pero es liviano y puede ejecutarse en computadoras portátiles y dispositivos móviles. Al igual que Gemma, RecurrentGemma también puede funcionar en entornos con recursos limitados. Otras similitudes entre Gemma y RecurrentGemma se encuentran en los datos previos al entrenamiento, el ajuste de instrucciones y RLHF (aprendizaje reforzado a partir de retroalimentación humana). RLHF es una forma de utilizar la retroalimentación humana para entrenar un modelo para que aprenda por sí solo, para la IA generativa.
Arquitectura del grifo
El nuevo modelo se basa en un modelo híbrido llamado Griffin que se anunció hace unos meses. A Griffin se le llama modelo “híbrido” porque utiliza dos tipos de tecnologías, una que le permite manejar eficientemente largas secuencias de información mientras que la otra le permite centrarse en las partes más recientes de la entrada, lo que le da la capacidad de procesar «significativamente» más datos (mayor rendimiento) en el mismo lapso de tiempo que los modelos basados en transformadores y también reducen el tiempo de espera (latencia).
El trabajo de investigación de Griffin propuso dos modelos, uno llamado Hawk y el otro llamado Griffin. El artículo de investigación de Griffin explica por qué es un gran avance:
“…validamos empíricamente las ventajas del tiempo de inferencia de Hawk y Griffin y observamos una latencia reducida y un rendimiento significativamente mayor en comparación con nuestras líneas base de Transformer. Por último, Hawk y Griffin exhiben la capacidad de extrapolar secuencias más largas de las que han sido entrenados y son capaces de aprender de manera eficiente a copiar y recuperar datos en horizontes largos. Estos hallazgos sugieren fuertemente que nuestros modelos propuestos ofrecen una alternativa poderosa y eficiente a los Transformers con atención global”.
La diferencia entre Griffin y RecurrentGemma está en una modificación relacionada con cómo el modelo procesa los datos de entrada (incrustaciones de entrada).
Avances
El artículo de investigación afirma que RecurrentGemma proporciona un rendimiento similar o mejor que el modelo de transformador Gemma-2b más convencional (que fue entrenado con 3 billones de tokens frente a 2 billones de RecurrentGemma). Esta es parte de la razón por la que el artículo de investigación se titula “Pasando los modelos de transformadores”, porque muestra una manera de lograr un mayor rendimiento sin la gran sobrecarga de recursos de la arquitectura del transformador.
Otra ventaja sobre los modelos de transformadores es la reducción del uso de memoria y tiempos de procesamiento más rápidos. El artículo de investigación explica:
“Una ventaja clave de RecurrentGemma es que tiene un tamaño de estado significativamente más pequeño que los transformadores en secuencias largas. Mientras que la caché KV de Gemma crece proporcionalmente a la longitud de la secuencia, el estado de RecurrentGemma está limitado y no aumenta en secuencias más largas que el tamaño de la ventana de atención local de 2k tokens. En consecuencia, mientras que la muestra más larga que Gemma puede generar de forma autorregresiva está limitada por la memoria disponible en el host, RecurrentGemma puede generar secuencias de longitud arbitraria”.
RecurrentGemma también supera al modelo de transformador Gemma en rendimiento (cantidad de datos que se pueden procesar, cuanto mayor sea, mejor). El rendimiento del modelo de transformador se ve afectado con longitudes de secuencia más altas (aumento en el número de tokens o palabras), pero ese no es el caso de RecurrentGemma, que es capaz de mantener un alto rendimiento.
El trabajo de investigación muestra:
“En la Figura 1a, trazamos el rendimiento logrado al muestrear a partir de un mensaje de 2k tokens para un rango de longitudes de generación. El rendimiento calcula la cantidad máxima de tokens que podemos muestrear por segundo en un solo dispositivo TPUv5e.
…RecurrentGemma logra un mayor rendimiento en todas las longitudes de secuencia consideradas. El rendimiento logrado por RecurrentGemma no se reduce a medida que aumenta la longitud de la secuencia, mientras que el rendimiento logrado por Gemma disminuye a medida que crece el caché”.
Limitaciones de Gemma recurrente
El artículo de investigación muestra que este enfoque tiene su propia limitación, ya que el rendimiento es inferior en comparación con los modelos de transformadores tradicionales.
Los investigadores destacan una limitación en el manejo de secuencias muy largas, algo que los modelos de transformadores pueden manejar.
Según el periódico:
«Aunque los modelos RecurrentGemma son muy eficientes para secuencias más cortas, su rendimiento puede quedar por detrás de los modelos de transformadores tradicionales como Gemma-2B cuando manejan secuencias extremadamente largas que exceden la ventana de atención local».
Lo que esto significa para el mundo real
La importancia de este enfoque de los modelos de lenguaje es que sugiere que existen otras formas de mejorar el rendimiento de los modelos de lenguaje mientras se utilizan menos recursos computacionales en una arquitectura que no es un modelo transformador. Esto también muestra que un modelo sin transformador puede superar una de las limitaciones de los tamaños de caché del modelo con transformador que tienden a aumentar el uso de memoria.
Esto podría conducir a aplicaciones de modelos de lenguaje en un futuro próximo que puedan funcionar en entornos con recursos limitados.
Lea el artículo de investigación de Google DeepMind:
RecurrentGemma: Superando los transformadores para lograr modelos de lenguaje abierto eficientes (PDF)
Imagen destacada de Shutterstock/Photo For Everything