Google anunció una actualización de su búsqueda por voz, que cambia la forma en que se procesan y luego clasifican las consultas de búsqueda por voz. El nuevo modelo de IA utiliza la voz como entrada para el proceso de búsqueda y clasificación, evitando por completo la etapa en la que la voz se convierte en texto.
El antiguo sistema se llamaba Cascade ASR, donde una consulta de voz se convierte en texto y luego se somete al proceso de clasificación normal. El problema con ese método es que es propenso a errores. El proceso de conversión de audio a texto puede perder algunas de las señales contextuales, lo que puede provocar un error.
El nuevo sistema se llama Speech-to-Retrieval (S2R). Es un modelo de aprendizaje automático basado en redes neuronales entrenado en grandes conjuntos de datos de documentos y consultas de audio emparejados. Esta formación le permite procesar consultas de búsqueda habladas (sin convertirlas en texto) y relacionarlas directamente con documentos relevantes.
Modelo de codificador dual: dos redes neuronales
El sistema utiliza dos redes neuronales:
- Una de las redes neuronales, llamada codificador de audio, convierte las consultas habladas en una representación espacial vectorial de su significado.
- La segunda red, el codificador de documentos, representa información escrita en el mismo tipo de formato vectorial.
Los dos codificadores aprenden a mapear consultas habladas y documentos de texto en un espacio semántico compartido de modo que los documentos de audio y texto relacionados terminen muy juntos según su similitud semántica.
Codificador de audio
Speech-to-Retrieval (S2R) toma el audio de la consulta de voz de alguien y lo transforma en un vector (números) que representa el significado semántico de lo que la persona está pidiendo.
El anuncio utiliza el ejemplo del famoso cuadro El grito de Edvard Munch. En este ejemplo, la frase hablada “la pintura del grito” se convierte en un punto en el espacio vectorial cerca de información sobre El grito de Edvard Munch (como el museo en el que se encuentra, etc.).
Codificador de documentos
El codificador de documentos hace algo similar con documentos de texto como páginas web, convirtiéndolos en sus propios vectores que representan de qué se tratan esos documentos.
Durante el entrenamiento del modelo, ambos codificadores aprenden juntos, de modo que los vectores que coinciden con las consultas de audio y los documentos terminan cerca uno del otro, mientras que los no relacionados están muy separados en el espacio vectorial.
Representación vectorial rica
El anuncio de Google dice que los codificadores transforman el audio y el texto en «representaciones vectoriales ricas». Una representación vectorial rica es una incrustación que codifica el significado y el contexto del audio y el texto. Se llama «rico» porque contiene la intención y el contexto.
Para S2R, esto significa que el sistema no depende de la concordancia de palabras clave; “entiende” conceptualmente lo que el usuario pide. Entonces, incluso si alguien dice «muéstrame la pintura de la cara gritando de Munch», la representación vectorial de esa consulta terminará cerca de documentos sobre El Grito.
Según el anuncio de Google:
«La clave de este modelo es cómo se entrena. Utilizando un gran conjunto de datos de consultas de audio emparejadas y documentos relevantes, el sistema aprende a ajustar los parámetros de ambos codificadores simultáneamente.
El objetivo de la formación garantiza que el vector de una consulta de audio esté geométricamente cerca de los vectores de sus documentos correspondientes en el espacio de representación. Esta arquitectura permite que el modelo aprenda algo más cercano a la intención esencial requerida para la recuperación directamente del audio, evitando el frágil paso intermedio de transcribir cada palabra, que es la principal debilidad del diseño en cascada”.
Capa de clasificación
S2R tiene un proceso de clasificación, al igual que la búsqueda normal basada en texto. Cuando alguien dice una pregunta, el audio es procesado primero por el codificador de audio previamente entrenado, que lo convierte en una forma numérica (vector) que captura lo que quiere decir la persona. Luego, ese vector se compara con el índice de Google para encontrar páginas cuyos significados sean más similares a la solicitud hablada.
Por ejemplo, si alguien dice “el cuadro del grito”, el modelo convierte esa frase en un vector que representa su significado. Luego, el sistema busca en el índice de su documento y encuentra páginas que tienen vectores con una coincidencia cercana, como información sobre El grito de Edvard Munch.
Una vez que se identifican esas coincidencias probables, comienza una etapa de clasificación separada. Esta parte del sistema combina las puntuaciones de similitud de la primera etapa con cientos de otras señales de clasificación de relevancia y calidad para decidir qué páginas deben clasificarse en primer lugar.
Evaluación comparativa
Google probó el nuevo sistema con Cascade ASR y con una versión de Cascade ASR con puntuación perfecta llamada Cascade Groundtruth. S2R venció a Cascade ASR y casi igualó a Cascade Groundtruth. Google concluyó que el rendimiento es prometedor pero que hay margen de mejora adicional.
La búsqueda por voz está activa
Aunque la evaluación comparativa reveló que hay margen de mejora, Google anunció que el nuevo sistema está activo y en uso en varios idiomas, calificándolo de una nueva era en la búsqueda. Es de suponer que el sistema se utiliza en inglés.
Google explica:
«La búsqueda por voz ahora funciona con nuestro nuevo motor de recuperación de voz, que obtiene respuestas directamente de su consulta hablada sin tener que convertirla primero a texto, lo que resulta en una búsqueda más rápida y confiable para todos».
Leer más:
Speech-to-Retrieval (S2R): un nuevo enfoque para la búsqueda por voz
Imagen destacada de Shutterstock/ViDI Studio