✨︎ Resumen (TL;DR):
- Google presentó Gemini 3.1 Flash Live para diálogo en tiempo real, mientras que Cohere lanzó su sistema de código abierto Transcribe.
- El modelo de Google alcanzó un 90.8% de eficacia en pruebas de rendimiento, y Cohere procesa 525 minutos de audio en 60 segundos.
- Ambos lanzamientos confirman el enfoque de la industria tecnológica en consolidar la voz como la interfaz principal de la IA.
Google y Cohere anunciaron este jueves el lanzamiento de sus nuevos modelos de inteligencia artificial enfocados en el procesamiento de audio. Este movimiento simultáneo demuestra la urgencia del sector tecnológico por convertir a la voz en la interfaz principal para interactuar con aplicaciones de automatización.
Google introdujo Gemini 3.1 Flash Live, al cual la empresa califica como “el modelo de audio y voz de mayor calidad hasta ahora”. La compañía diseñó esta tecnología para aplicaciones de IA centradas en voz y diálogo en tiempo real para consumidores y corporativos.
El sistema está disponible a través de la API de Gemini Live en Google AI Studio y Gemini Enterprise for Customer Experience. Según un reporte de The Deep View, Gemini 3.1 Flash Live obtuvo un 90.8% en el benchmark ComplexFuncBench Audio, lo que representa una mejora de casi 19 puntos frente a la versión anterior.
Además, el modelo lideró la prueba Audio MultiChallenge de Scale AI con un 36.1% al activar su modo de razonamiento. Google afirma que esta iteración reconoce mejor los matices acústicos, como el tono y el ritmo, y filtra el ruido de fondo con mayor eficacia que 2.5 Flash Native Audio. El sistema ya opera en los productos para el usuario final de la marca y se está expandiendo a más de 200 países.
Transcribe: la respuesta open-source de Cohere
Por su parte, Cohere presentó Transcribe, su primer modelo de audio. Se trata de un sistema de reconocimiento automático de voz de código abierto impulsado por 2 mil millones de parámetros y construido bajo una arquitectura de codificador-decodificador.
Actualmente, ocupa el primer lugar en el Open ASR Leaderboard de HuggingFace con una tasa de error de palabras de apenas 5.42%, superando a plataformas como ElevenLabs Scribe v2 y Qwen3-ASR-1.7B.
El despliegue técnico del modelo incluye las siguientes capacidades:
- Soporta 14 idiomas de regiones de Europa, Asia-Pacífico y Medio Oriente.
- Puede procesar 525 minutos de audio en un solo minuto, según pruebas de TechCrunch.
- Estará disponible de forma gratuita a través de su API y se integrará en North, la plataforma empresarial de la compañía.
A pesar de su velocidad de procesamiento, el modelo de Cohere presenta áreas de oportunidad en ciertos mercados. El análisis de TechCrunch señaló que el sistema se quedó atrás frente a sus competidores directos en las transcripciones en español, portugués y alemán.
La estrategia de ambas empresas define una ruta clara para la industria de la inteligencia artificial. Google busca dominar el ecosistema con IA conversacional de respuesta inmediata, mientras Cohere apunta al desarrollo de transcripción autohospedada de alta precisión.
