✨︎ Resumen (TL;DR):
- Google habilitó un nuevo modelo de voz diseñado para mantener conversaciones fluidas en productos de consumo y corporativos.
- El sistema registró un 90.8% de precisión en llamadas a funciones múltiples y expandió su servicio a más de 200 países.
- Empresas como Verizon y The Home Depot ya utilizan la tecnología para eliminar el lag y capturar datos en entornos ruidosos.
Google presentó este jueves Gemini 3.1 Flash Live, una tecnología que la compañía califica como su “modelo de voz y audio de mayor calidad hasta la fecha”. La herramienta está diseñada para procesar conversaciones naturales de baja latencia en entornos de desarrollo, plataformas empresariales y productos de consumo.
El sistema ya está disponible en versión preliminar a través de la API en Google AI Studio para desarrolladores y en las plataformas Search Live y Gemini Live para usuarios finales. Demis Hassabis, CEO de Google DeepMind, describió el avance como “un gran salto hacia la construcción de agentes de voz de próxima generación”.
La arquitectura del modelo registró un 90.8% de puntuación en el benchmark ComplexFuncBench Audio, el cual mide las llamadas a funciones de múltiples pasos. También alcanzó un 36.1% en la prueba Audio MultiChallenge de Scale AI, orientada al seguimiento de instrucciones en medio de interrupciones de audio reales.

Análisis de tono y uso empresarial
El sistema integra comprensión tonal para identificar matices acústicos como el ritmo y el volumen. Esto le permite ajustar sus respuestas de forma dinámica cuando detecta que el usuario expresa frustración o confusión.
- Retención de datos: Gemini Live mantiene el contexto de la conversación por el doble de tiempo que la versión anterior.
- Disponibilidad masiva: Search Live habilitó el soporte multilingüe en más de 200 países y territorios.
- Marcas de agua: Todo el audio de salida incluye SynthID, un marcador imperceptible para detectar contenido generado por inteligencia artificial.
Compañías como Verizon, The Home Depot y LiveKit ya integraron este modelo en sus operaciones diarias. Un representante de Verizon indicó que esta capacidad de audio a audio hace que los agentes virtuales suenen naturales y elimina los problemas de latencia al hablar con los clientes.
The Home Depot destacó que la herramienta captura detalles complejos, como códigos alfanuméricos de productos en tiendas físicas con alto nivel de ruido ambiental. La API se puede usar desde el 26 de marzo bajo el identificador oficial gemini-3.1-flash-live-preview.
