Google publicó un artículo de investigación sobre cómo extraer la intención del usuario de las interacciones del usuario que luego puede usarse para agentes autónomos. El método que descubrieron utiliza pequeños modelos en el dispositivo que no necesitan enviar datos a Google, lo que significa que la privacidad del usuario está protegida.
Los investigadores descubrieron que podían resolver el problema dividiéndolo en dos tareas. Su solución funcionó tan bien que pudo superar el rendimiento básico de los modelos de lenguajes grandes multimodales (MLLM) en centros de datos masivos.
Modelos más pequeños en navegadores y dispositivos
El objetivo de la investigación es identificar la intención del usuario a través de la serie de acciones que realiza en su dispositivo móvil o navegador y al mismo tiempo mantener esa información en el dispositivo para que no se envíe información a Google. Eso significa que el procesamiento debe realizarse en el dispositivo.
Lo lograron en dos etapas.
- La primera etapa, el modelo en el dispositivo resume lo que estaba haciendo el usuario.
- Luego, la secuencia de resúmenes se envía a un segundo modelo que identifica la intención del usuario.
Los investigadores explicaron:
“…nuestro enfoque de dos etapas demuestra un rendimiento superior en comparación con modelos más pequeños y un MLLM grande de última generación, independientemente del conjunto de datos y el tipo de modelo.
Nuestro enfoque también maneja naturalmente escenarios con datos ruidosos con los que tienen problemas los métodos tradicionales de ajuste supervisado”.
Extracción de intención de interacciones de UI
La extracción de intenciones a partir de capturas de pantalla y descripciones de texto de las interacciones del usuario fue una técnica que se propuso en 2025 utilizando modelos de lenguaje grande multimodal (MLLM). Los investigadores dicen que siguieron este enfoque para su problema pero utilizando un mensaje mejorado.
Los investigadores explicaron que extraer la intención no es un problema trivial de resolver y que pueden ocurrir múltiples errores a lo largo de los pasos. Los investigadores utilizan la palabra trayectoria para describir el recorrido de un usuario dentro de una aplicación móvil o web, representado como una secuencia de interacciones.
El viaje del usuario (trayectoria) se convierte en una fórmula donde cada paso de interacción consta de dos partes:
- Una observación
Este es el estado visual de la pantalla (captura de pantalla) de dónde se encuentra el usuario en ese paso. - Una acción
La acción específica que el usuario realizó en esa pantalla (como hacer clic en un botón, escribir texto o hacer clic en un enlace).
Describieron tres cualidades de una buena intención extraída:
- “fiel: sólo describe cosas que realmente ocurren en la trayectoria;
- integral: proporciona toda la información sobre la intención del usuario necesaria para recrear la trayectoria;
- y relevante: no contiene información superflua más allá de lo necesario para su exhaustividad”.
Difícil evaluar las intenciones extraídas
Los investigadores explican que calificar la intención extraída es difícil porque las intenciones del usuario contienen detalles complejos (como fechas o datos de transacciones) y las intenciones del usuario son inherentemente subjetivas y contienen ambigüedades, lo cual es un problema difícil de resolver. La razón por la que las trayectorias son subjetivas es porque las motivaciones subyacentes son ambiguas.
Por ejemplo, ¿un usuario eligió un producto por el precio o las características? Las acciones son visibles pero las motivaciones no. Investigaciones anteriores muestran que las intenciones entre humanos coincidieron en un 80% en trayectorias web y un 76% en trayectorias móviles, por lo que no es que una trayectoria determinada siempre pueda indicar una intención específica.
Enfoque de dos etapas
Después de descartar otros métodos como el razonamiento en Cadena de Pensamiento (CoT) (porque los modelos de lenguaje pequeños tenían problemas con el razonamiento), eligieron un enfoque de dos etapas que emulaba el razonamiento en Cadena de Pensamiento.
Los investigadores explicaron su enfoque en dos etapas:
«En primer lugar, utilizamos indicaciones para generar un resumen de cada interacción (que consta de una captura de pantalla visual y una representación textual de la acción) en una trayectoria. Esta etapa es
basado en indicaciones, ya que actualmente no hay datos de entrenamiento disponibles con etiquetas de resumen para interacciones individuales.En segundo lugar, incorporamos todos los resúmenes a nivel de interacción en un modelo de segunda etapa para generar una descripción general de la intención. Aplicamos ajustes en la segunda etapa…”
La primera etapa: resumen de captura de pantalla
El primer resumen, para la captura de pantalla de la interacción, dividen el resumen en dos partes, pero también hay una tercera parte.
- Una descripción de lo que hay en la pantalla.
- Una descripción de la acción del usuario.
El tercer componente (intención especulativa) es una forma de deshacerse de la especulación sobre la intención del usuario, donde el modelo básicamente adivina lo que está sucediendo. Esta tercera parte está etiquetada como “intención especulativa” y en realidad simplemente se deshacen de ella. Sorprendentemente, permitir que el modelo especule y luego deshacerse de esa especulación conduce a un resultado de mayor calidad.
Los investigadores pasaron por múltiples estrategias de estímulo y ésta fue la que funcionó mejor.
La segunda etapa: generar una descripción general de la intención
Para la segunda etapa, los investigadores ajustaron un modelo para generar una descripción general de la intención. Ajustaron el modelo con datos de entrenamiento que se componen de dos partes:
- Resúmenes que representan todas las interacciones en la trayectoria.
- La verdad fundamental coincidente que describe la intención general de cada una de las trayectorias.
Inicialmente, el modelo tendía a alucinar porque la primera parte (resúmenes de entrada) está potencialmente incompleta, mientras que las “intenciones objetivo” están completas. Eso hizo que el modelo aprendiera a completar las partes faltantes para que los resúmenes de entrada coincidieran con las intenciones objetivo.
Resolvieron este problema «refinando» las intenciones de destino eliminando detalles que no se reflejan en los resúmenes de entrada. Esto entrenó al modelo para inferir las intenciones basándose únicamente en las entradas.
Los investigadores compararon cuatro enfoques diferentes y se decidieron por este porque funcionó muy bien.
Consideraciones éticas y limitaciones
El artículo de investigación finaliza resumiendo posibles problemas éticos en los que un agente autónomo podría tomar acciones que no son de interés para el usuario y destaca la necesidad de construir las barreras de seguridad adecuadas.
Los autores también reconocieron limitaciones en la investigación que podrían limitar la generalización de los resultados. Por ejemplo, las pruebas se realizaron sólo en entornos Android y web, lo que significa que es posible que los resultados no se generalicen a los dispositivos Apple. Otra limitación es que la investigación se limitó a usuarios de Estados Unidos en idioma inglés.
No hay nada en el artículo de investigación ni en la publicación del blog que lo acompaña que sugiera que estos procesos para extraer la intención del usuario estén actualmente en uso. La publicación del blog finaliza comunicando que el enfoque descrito es útil:
«En última instancia, a medida que los modelos mejoren en rendimiento y los dispositivos móviles adquieran más potencia de procesamiento, esperamos que la comprensión de la intención en el dispositivo pueda convertirse en un elemento básico para muchas funciones de asistencia en los dispositivos móviles en el futuro».
Comidas para llevar
Ni la publicación del blog sobre esta investigación ni el artículo de investigación en sí describen los resultados de estos procesos como algo que pueda usarse en la búsqueda por IA o en la búsqueda clásica. Sí menciona el contexto de los agentes autónomos.
El artículo de investigación menciona explícitamente el contexto de un agente autónomo en el dispositivo que observa cómo el usuario interactúa con una interfaz de usuario y luego puede inferir cuál es el objetivo (la intención) de esas acciones.
El documento enumera dos aplicaciones específicas para esta tecnología:
- Asistencia proactiva:
Un agente que observa lo que hace un usuario para una «personalización mejorada» y una «eficiencia laboral mejorada». - Memoria personalizada
El proceso permite que un dispositivo «recuerde» actividades pasadas como intención para más adelante.
Muestra la dirección en la que se dirige Google
Si bien es posible que esto no se use de inmediato, muestra la dirección en la que se dirige Google, donde pequeños modelos en un dispositivo observarán las interacciones del usuario y, a veces, intervendrán para ayudarlos según su intención. La intención aquí se utiliza en el sentido de comprender lo que un usuario está tratando de hacer.
Lea la publicación del blog de Google aquí:
Modelos pequeños, grandes resultados: lograr una extracción de intención superior mediante la descomposición
Lea el artículo de investigación en PDF:
Modelos pequeños, grandes resultados: lograr una extracción de intención superior mediante la descomposición (PDF)
Imagen destacada de Shutterstock/ViDI Studio



