Google lanza Gemini 3.1 Flash Live con cero latencia

Google lanza Gemini 3.1 Flash Live con cero latencia

Google presentó Gemini 3.1 Flash Live, su modelo de voz más avanzado con cero latencia y expansión a más de 200 países.

Por Humberto Toledo el 26 marzo, 2026 a las 19:47

✨︎ Resumen (TL;DR):

  • Google habilitó un nuevo modelo de voz diseñado para mantener conversaciones fluidas en productos de consumo y corporativos.
  • El sistema registró un 90.8% de precisión en llamadas a funciones múltiples y expandió su servicio a más de 200 países.
  • Empresas como Verizon y The Home Depot ya utilizan la tecnología para eliminar el lag y capturar datos en entornos ruidosos.

Google presentó este jueves Gemini 3.1 Flash Live, una tecnología que la compañía califica como su “modelo de voz y audio de mayor calidad hasta la fecha”. La herramienta está diseñada para procesar conversaciones naturales de baja latencia en entornos de desarrollo, plataformas empresariales y productos de consumo.

El sistema ya está disponible en versión preliminar a través de la API en Google AI Studio para desarrolladores y en las plataformas Search Live y Gemini Live para usuarios finales. Demis Hassabis, CEO de Google DeepMind, describió el avance como “un gran salto hacia la construcción de agentes de voz de próxima generación”.

La arquitectura del modelo registró un 90.8% de puntuación en el benchmark ComplexFuncBench Audio, el cual mide las llamadas a funciones de múltiples pasos. También alcanzó un 36.1% en la prueba Audio MultiChallenge de Scale AI, orientada al seguimiento de instrucciones en medio de interrupciones de audio reales.

Crean parche wearable que evita análisis de sangre en FIV
Te podría interesar:
Crean parche wearable que evita análisis de sangre en FIV
Ilustración editorial elegante que representa una voz orgánica (izquierda) transmitiendo ondas de sonido a un dispositivo digital (derecha).
Ilustración editorial elegante que representa una voz orgánica (izquierda) transmitiendo ondas de sonido a un dispositivo digital (derecha).

Análisis de tono y uso empresarial

El sistema integra comprensión tonal para identificar matices acústicos como el ritmo y el volumen. Esto le permite ajustar sus respuestas de forma dinámica cuando detecta que el usuario expresa frustración o confusión.

  • Retención de datos: Gemini Live mantiene el contexto de la conversación por el doble de tiempo que la versión anterior.
  • Disponibilidad masiva: Search Live habilitó el soporte multilingüe en más de 200 países y territorios.
  • Marcas de agua: Todo el audio de salida incluye SynthID, un marcador imperceptible para detectar contenido generado por inteligencia artificial.

Compañías como Verizon, The Home Depot y LiveKit ya integraron este modelo en sus operaciones diarias. Un representante de Verizon indicó que esta capacidad de audio a audio hace que los agentes virtuales suenen naturales y elimina los problemas de latencia al hablar con los clientes.

The Home Depot destacó que la herramienta captura detalles complejos, como códigos alfanuméricos de productos en tiendas físicas con alto nivel de ruido ambiental. La API se puede usar desde el 26 de marzo bajo el identificador oficial gemini-3.1-flash-live-preview.

Fuentes: 1, 2

+ Temas Relacionados

Más de AI