✨︎ Resumen (TL;DR):
- Mistral presentó Voxtral TTS para generación de voz y Cohere lanzó Transcribe para reconocimiento de audio.
- Voxtral TTS opera en 90 milisegundos; Transcribe procesa 525 minutos de audio por minuto.
- Ambas empresas apuestan por la IA on-premise para corporativos que exigen procesar datos localmente por seguridad.
Las firmas de inteligencia artificial Mistral (Francia) y Cohere (Canadá) presentaron este jueves sus nuevos modelos de voz open-source. Cada compañía apuntó a un extremo distinto del procesamiento de audio: generación y reconocimiento, respectivamente. Estos lanzamientos confirman una demanda creciente del sector corporativo por alojar su propia infraestructura de IA y mantener la privacidad de sus datos.
Mistral presentó Voxtral TTS, un sistema de texto a voz (text-to-speech) basado en la arquitectura Ministral 3B. La herramienta domina nueve idiomas, incluyendo español, inglés, francés y árabe.
Su diseño compacto permite ejecutarlo directamente en smartphones, computadoras portátiles y relojes inteligentes. El modelo destaca por una latencia de 90 milisegundos y un factor de tiempo real de 6x, logrando renderizar un clip de 10 segundos en apenas 1.6 segundos.
“Nuestros clientes han estado pidiendo un modelo de voz. Así que construimos un modelo de tamaño reducido que cabe en un smartwatch, un smartphone, una computadora portátil u otros dispositivos edge”, declaró a TechCrunch Pierre Stock, vicepresidente de operaciones científicas en Mistral. “Su costo es una fracción de cualquier otra cosa en el mercado, pero ofrece un rendimiento de vanguardia”.
El modelo de Mistral requiere menos de cinco segundos de audio para clonar una voz personalizada. Además, puede cambiar de idioma sin perder las características vocales del usuario original, posicionándose como un rival directo para ElevenLabs, Deepgram y OpenAI en el mercado de doblaje y traducción en tiempo real.

Transcribe de Cohere: Reconocimiento de voz local
Por su parte, Cohere lanzó Transcribe, un modelo automático de reconocimiento de voz de 2,000 millones de parámetros. Esta herramienta soporta 14 idiomas, sumando chino, japonés y coreano, y fue optimizada para operar en GPUs de nivel de consumidor.
- Velocidad masiva: Puede procesar hasta 525 minutos de audio por minuto.
- Precisión: Lidera el ranking Open ASR de Hugging Face con una tasa de error de palabra (WER) de 5.42, superando a modelos de Zoom, IBM y Alibaba.
- Despliegue privado: Está enfocado en organizaciones que prefieren el self-hosting para no enviar audios sensibles a nubes de terceros.
Cohere integrará esta tecnología en North, su plataforma de agentes empresariales, y la ofrecerá de forma gratuita mediante su API.
Este doble lanzamiento marca un cambio estratégico hacia la IA de voz on-premise. Mientras Mistral planea construir una plataforma multimodal completa, Cohere (que reportó 240 millones de dólares en ingresos recurrentes anuales para 2025) busca dominar las industrias reguladas. Para estas corporaciones, la seguridad de los datos locales es el diferenciador definitivo frente al volumen de los gigantes de la nube pública.
