Google actualiza la búsqueda en vivo con la actualización del modelo Gemini

Google actualiza la búsqueda en vivo con la actualización del modelo Gemini


Google ha actualizado Search Live con Gemini 2.5 Flash Native Audio, mejorando el funcionamiento de la voz dentro de la Búsqueda y al mismo tiempo ampliando el uso del modelo entre agentes de traducción y voz en vivo. La actualización introduce respuestas habladas más naturales en Search Live y refleja el esfuerzo de Google por mejorar las consultas de voz naturales, tratando la voz como una interfaz central como una forma para que los usuarios obtengan todo lo que pueden obtener de la búsqueda normal, además de permitirles hacer preguntas sobre el mundo físico que los rodea y recibir traducciones de voz inmediatas entre dos personas que hablan diferentes idiomas.

Las nuevas capacidades de voz actualizadas, que se implementarán esta semana en los Estados Unidos, permitirán que las respuestas de voz de Google suenen más naturales e incluso podrán ralentizarse para contenido instructivo.

Según Google:

«Cuando accedes a Live con Search, puedes mantener una conversación de voz en modo AI para obtener ayuda en tiempo real y encontrar rápidamente sitios relevantes en la Web. Y ahora, gracias a nuestro último modelo Gemini para audio nativo, las respuestas en Search Live serán más fluidas y expresivas que nunca».

Implementación más amplia de audio nativo Gemini

Esta actualización de Búsqueda es parte de una actualización más amplia de Gemini 2.5 Flash Native Audio que se implementará en todo el ecosistema de Google, incluido Gemini Live (en la aplicación Gemini), Google AI Studio y Vertex AI. El modelo procesa el audio hablado en tiempo real y produce respuestas habladas fluidas, lo que reduce las barreras a la conversación natural y reduce la fricción en las interacciones en vivo. Aunque el anuncio de Google no decía que el modelo era un modelo de voz a voz (a diferencia de voz a texto y luego texto a voz), esta actualización sigue al anuncio de Google en octubre de «Speech-to-Retrieval (S2R). Es un modelo de aprendizaje automático basado en redes neuronales entrenado en grandes conjuntos de datos de consultas de audio emparejadas».

Estos cambios muestran que Google trata el audio nativo como una capacidad central en todos los productos orientados al consumidor, lo que facilita que los usuarios soliciten y reciban información sobre el mundo físico que los rodea de una manera natural que antes no era posible.

Mejoras para sistemas basados ​​en voz

Para los desarrolladores y empresas que construyen sistemas basados ​​en voz, Google dice que el modelo actualizado mejora la confiabilidad en varias áreas. Gemini 2.5 Flash Native Audio activa de manera más consistente funciones externas durante las conversaciones, sigue instrucciones complejas y mantiene el contexto en múltiples turnos. Estas mejoras hacen que los agentes de voz en vivo sean más confiables en los flujos de trabajo del mundo real, donde las instrucciones mal interpretadas o el flujo conversacional interrumpido reducen la usabilidad.

Traducción conversacional fluida

Más allá de la búsqueda y los agentes de voz, la actualización presenta soporte nativo para la «traducción de voz a voz en vivo». Gemini traduce el lenguaje hablado en tiempo real, ya sea traduciendo continuamente el habla ambiental a un idioma de destino o manejando conversaciones entre hablantes de diferentes idiomas en ambas direcciones. El sistema preserva las características vocales, como el ritmo y el énfasis del habla, lo que permite una traducción que suene más fluida y conversacional.

Google destaca varias capacidades que respaldan esta función de traducción, incluida una amplia cobertura de idiomas, detección automática de idiomas, manejo de entradas multilingües y filtrado de ruido para entornos cotidianos. Estas características reducen la fricción de configuración y permiten que la traducción se realice de forma pasiva durante la conversación en lugar de mediante controles manuales. El resultado es una experiencia de traducción que se comporta de manera muy parecida a una persona real en el medio traduciendo entre dos personas.

La búsqueda por voz hace realidad las aspiraciones de Google

La actualización refleja la iteración continua de Google en la búsqueda por voz hacia un ideal que originalmente se inspiró en las interacciones de voz de ciencia ficción entre humanos y computadoras en la popular serie de películas y televisión Star Trek.

Leer más:

Google anuncia una nueva era para la búsqueda por voz

Ahora puedes tener conversaciones más fluidas y expresivas cuando estás en vivo con la Búsqueda.

Modelos de audio Gemini mejorados para potentes interacciones de voz

Géminis en vivo

Cinco formas de obtener ayuda en tiempo real con la función de búsqueda en vivo

Imagen destacada de Shutterstock/Jackbin

Related Posts
Leave a Reply

Your email address will not be published.Required fields are marked *