Google Research ha presentado dos nuevos artículos de investigación, Titans y MIRAS, destinados a abordar una limitación cada vez mayor en los sistemas de IA modernos: manejar extensiones muy largas de información sin ralentizarse ni perder un contexto importante. Juntos, Titans y MIRAS se centran en brindar a los modelos una forma estructurada de retener lo importante a lo largo del tiempo, permitiéndoles seguir documentos, conversaciones o flujos de datos extendidos con mayor continuidad.
La arquitectura de los titanes
Titans es una familia de modelos que utiliza un módulo de memoria a largo plazo que aprende activamente a medida que procesa datos mediante un «métrica sorpresa.”
La métrica de sorpresa es una señal de error interno, una forma matemática de señalar: «¡Esto es inesperado!». Esta señal mide la diferencia entre lo que el modelo recuerda actualmente y lo que le dicen los nuevos datos entrantes. Señala cuando la información es inesperada o lo suficientemente importante como para priorizarla para su almacenamiento a largo plazo.
Para que esto sea efectivo, la arquitectura utiliza lo que se conoce como impulso, un enfoque sostenido, para determinar qué parte de las largas secuencias de datos circundantes realmente registra. Esto garantiza que el modelo continúe priorizando los detalles relevantes que siguen a esa señal inicial, incluso si esos detalles posteriores no son sorprendentes individualmente.
Por último, la arquitectura Titans utiliza un mecanismo de olvido adaptativo, una forma matemática de borrar gradualmente información antigua o menos útil. Esto garantiza que, a medida que el modelo procesa largas secuencias de datos, pueda eliminar detalles obsoletos para dejar espacio a información nueva y más relevante.
Al combinar estos tres elementos, la métrica de sorpresa (qué notar), el impulso (cuánto registrar) y la caída de peso (qué olvidar), la arquitectura de Titans crea un sistema de memoria que se mantiene nítido y relevante independientemente de la cantidad de datos que procese.
El marco MIRAS
Si bien Titans es una familia de modelos específica, MIRAS es un marco para diseñar modelos de secuencia. Reconceptualiza estas arquitecturas como memoria asociativa, módulos que aprenden a asociar puntos de datos específicos entre sí utilizando un objetivo interno que le dice al módulo de memoria «cómo» aprender la relación entre diferentes datos.
Para construir un modelo dentro de este marco, los diseñadores toman cuatro decisiones principales:
- Estructura de la memoria: la arquitectura física de la memoria misma, que puede variar desde vectores simples hasta las capas profundas de MLP utilizadas en Titans.
- Sesgo de atención: el objetivo interno específico que determina cómo la memoria prioriza y vincula la información entrante.
- Estabilidad y retención de la memoria: el mecanismo que equilibra el aprendizaje de nueva información con la retención del estado pasado.
- Algoritmo de memoria: el método de aprendizaje utilizado para actualizar la memoria, como los métodos de descenso de gradiente que permiten que el modelo aprenda en el momento de la prueba.
El problema: la IA puede procesar, pero le cuesta recordar
Los modelos de IA modernos son eficaces para analizar la información que tienen directamente delante. El desafío comienza cuando el contexto se hace muy grande. A medida que los documentos, conjuntos de datos o conversaciones se alargan, los modelos se enfrentan a un equilibrio entre preservar los detalles y mantener el coste computacional manejable.
Los modelos de lenguaje modernos suelen manejar contextos largos de dos maneras:
- Ventana de atención
Revisan el texto anterior directamente cuando es necesario y revisan repetidamente los tokens anteriores para decidir qué es importante para el paso actual. - Compresión de estado
Comprimen lo que vino antes en un resumen interno más pequeño para poder seguir avanzando, intercambiando detalles por eficiencia.
Ambos enfoques funcionan, pero cada uno comienza a fallar a medida que los insumos crecen. Con la ventana de atención, revisar repetidamente material anterior se vuelve cada vez más exigente en recursos computacionales, mientras que con la compresión de estado, comprimir lo que vino antes corre el riesgo de perder detalles que luego resultan importantes.
La limitación no es la escala ni la velocidad, es la memoria. Los sistemas actuales no tratan la memoria como algo que pueda gestionarse deliberadamente durante su uso. En cambio, se basan en patrones arquitectónicos fijos, ya sea escaneando hacia atrás o comprimiendo hacia adelante, sin una forma estructurada de decidir qué se debe retener durante largos períodos.
Titans y MIRAS abordan ese problema tratando la memoria como algo que los modelos pueden gestionar activamente en lugar de heredar pasivamente de su arquitectura.
Por qué la investigación se presenta en dos partes
Abordar esta limitación requiere más de un único cambio técnico. Un paso es demostrar que los modelos pueden gestionar la memoria de forma diferente en la práctica. Otra es desarrollar una forma de diseñar dichos sistemas deliberadamente en lugar de tratar cada nueva arquitectura como una solución única.
Los dos artículos reflejan esas necesidades:
- Se introduce un método concreto para dar a los modelos una forma de memoria a largo plazo.
- El otro proporciona un marco para comprender y construir modelos en torno a esa idea.
Titanes: agregando una forma de memoria a largo plazo
Titans se centra en el lado práctico del problema. Introduce una arquitectura que permite que un modelo acumule información mientras opera. En lugar de reprocesar repetidamente entradas anteriores o comprimir todo en una pequeña representación, el modelo puede transmitir información seleccionada a lo largo del tiempo.
A diferencia de los sistemas tradicionales que utilizan un resumen simple y de tamaño fijo, este módulo es una red neuronal profunda que puede capturar información mucho más compleja y detallada.
El objetivo es hacer posible trabajar con entradas muy largas sin escanear repetidamente el pasado ni perder detalles clave. Titans no se presenta como un reemplazo de los diseños de modelos existentes. Es una capa adicional que se puede combinar con ellos, ampliando la forma en que manejan el contexto en lugar de descartar lo que ya funciona.
MIRAS: un marco para diseñar modelos basados en memoria
Mientras Titans introduce un mecanismo específico, MIRAS da un paso atrás y analiza la cuestión de diseño más amplia. Trata los modelos de secuencia como sistemas que almacenan y actualizan asociaciones a lo largo del tiempo y propone una forma estructurada de pensar sobre cómo debería funcionar esa memoria.
En lugar de ver las arquitecturas como categorías fundamentalmente diferentes, MIRAS las organiza en torno a un pequeño conjunto de opciones de diseño relacionadas con cómo se almacena, combina, actualiza y retiene la información.
MIRAS proporciona una forma de interpretar sistemas como Titans y desarrollar otros nuevos sin empezar desde cero.
Probar si este enfoque mejora el manejo en contextos prolongados
Para determinar si este enfoque basado en la memoria se traduce en una ventaja práctica, los investigadores lo compararon con diseños existentes en tareas donde los contextos son extremadamente largos.
En evaluaciones de contexto prolongado, Titans superó los 2 millones de tokens y al mismo tiempo mantuvo una mayor precisión de recuperación que los modelos de referencia probados. En el punto de referencia BABILong, que requiere razonamiento sobre hechos enterrados en documentos masivos, los Titans superaron a modelos mucho más grandes, incluido el GPT-4, a pesar de tener muchos menos parámetros.
El artículo de MIRAS demuestra además que este éxito no se limita a un solo modelo. Al probar varios sistemas diferentes creados utilizando su marco, los investigadores demostraron que estos principios de diseño producen consistentemente resultados de alto rendimiento en diferentes tareas.
En conjunto, estas evaluaciones muestran que la memoria activa estructurada permite que los modelos mantengan una alta precisión en conjuntos de datos masivos sin la compensación habitual en el costo computacional.
Los investigadores de Titans explicaron sus resultados:
“Nuestra evaluación experimental en diversas tareas valida que los Titanes son más efectivos que los Transformers y los modelos recurrentes lineales modernos recientes, específicamente para
contexto largo. Es decir, los titanes pueden escalar a un tamaño de ventana de contexto superior a 2 millones con mayor precisión que las líneas de base”.
Los investigadores de MIRAS explican por qué MIRAS representa un avance:
«En este artículo, presentamos Miras, un marco general que explica la conexión entre la optimización en línea y la memorización del tiempo de prueba. El marco Miras puede explicar el papel de varias opciones arquitectónicas estándar en la literatura (por ejemplo, puerta de olvido) y ayuda a diseñar la próxima generación de arquitecturas que sean capaces de gestionar mejor la memoria.
Sobre la base de nuestro marco, presentamos tres modelos de secuencia novedosos, cada uno de los cuales con sus propias (des)ventajas. Nuestras evaluaciones experimentales muestran que todas estas variantes son más poderosas que los Transformers y los RNN lineales, en diversas tareas posteriores. En este trabajo presentamos un conjunto diverso de variantes utilizando Miras.
En el futuro, explorar estas arquitecturas alternativas para diferentes tareas posteriores es una dirección futura interesante”.
Conclusiones de los investigadores
El artículo de Titans (PDF) concluye que combinar el procesamiento de corto alcance con una memoria dedicada a largo plazo puede mejorar la forma en que los modelos manejan entradas extendidas sin depender únicamente de ventanas de atención más grandes o una compresión más agresiva. Presenta esto como una capacidad adicional que puede integrarse con las arquitecturas existentes en lugar de reemplazarlas.
El artículo de MIRAS describe los modelos de secuencia como sistemas basados en memoria que pueden diseñarse y compararse de forma más sistemática. Su marco pretende guiar cómo se construyen dichos modelos haciendo del comportamiento de la memoria una dimensión de diseño explícita.
Ambos artículos tratan la memoria como algo que los modelos pueden gestionar deliberadamente: Titans, al agregar un mecanismo que puede almacenar información durante el uso, y MIRAS, al establecer un marco para diseñar y comparar modelos basados en memoria.
La publicación del blog de Google explica qué hace que Titans y MIRAS sean importantes:
«La introducción de Titans y el marco MIRAS marca un avance significativo en el modelado de secuencias. Al emplear redes neuronales profundas como módulos de memoria que aprenden a memorizar a medida que ingresan datos, estos enfoques superan las limitaciones de los estados recurrentes de tamaño fijo.
Además, MIRAS proporciona una poderosa unificación teórica, que revela la conexión entre la optimización en línea, la memoria asociativa y el diseño arquitectónico. Al ir más allá del paradigma euclidiano estándar, esta investigación abre la puerta a una nueva generación de modelos de secuencia que combinan la eficiencia de los RNN con el poder expresivo necesario para la era de la IA de contexto largo”.
Juntos, demuestran que el camino hacia un mejor rendimiento en contextos prolongados no se trata solo de ventanas o modelos más grandes, sino de darle a la IA una forma estructurada de administrar lo que recuerda.
Imagen destacada de Shutterstock/AntonKhrupinArt



