✨︎ Resumen (TL;DR):
- Mistral liberó Voxtral TTS, un modelo open-source de texto a voz diseñado para correr de forma local en dispositivos como smartphones y smartwatches.
- La herramienta clona voces con menos de 5 segundos de audio y genera respuestas con una latencia de apenas 90 milisegundos.
- Este lanzamiento completa el ecosistema de audio de Mistral y ataca directamente el mercado de competidores de código cerrado como ElevenLabs y OpenAI.
La empresa francesa Mistral presentó este jueves su nueva herramienta de inteligencia artificial. Voxtral TTS es un modelo open-source de texto a voz que procesa audio directamente en dispositivos compactos y asistentes corporativos. Este movimiento pone a la compañía a competir de frente contra ElevenLabs, Deepgram y OpenAI en el mercado de la IA generativa de voz.
Desarrollado sobre la arquitectura de Ministral 3B, el sistema soporta nueve idiomas, incluyendo español, inglés, francés, hindi y árabe. La compañía destaca su capacidad para clonar una voz personalizada utilizando menos de cinco segundos de audio, logrando capturar acentos sutiles, inflexiones y patrones de habla irregulares.
“Nuestros clientes habían estado pidiendo un modelo de voz. Así que construimos un modelo de voz de tamaño reducido que cabe en un smartwatch, un smartphone, una laptop u otros dispositivos edge”, declaró Pierre Stock, vicepresidente de operaciones científicas en Mistral, en entrevista con TechCrunch. “Su costo es una fracción de cualquier otra cosa en el mercado, pero ofrece un rendimiento de vanguardia”.

El plan maestro: un ecosistema multimodal
En términos de velocidad, el sistema alcanza un tiempo de respuesta inicial de 90 milisegundos al procesar una muestra de 10 segundos y 500 caracteres. Además, cuenta con un factor de tiempo real de 6x, lo que significa que procesa un clip de 10 segundos en aproximadamente 1.6 segundos.
- Funciona offline o con bajos recursos de hardware.
- Las voces priorizan un tono humano, evitando el sonido robótico.
- Permite cambiar de idioma sin perder las características originales del usuario, ideal para doblaje y traducción en tiempo real.
Este lanzamiento complementa a Voxtral Transcribe 2, los modelos de reconocimiento de voz que Mistral presentó a principios de año, otorgando a la empresa las dos piezas fundamentales de un flujo de audio: transcripción y generación.
“Planeamos tener una plataforma de extremo a extremo que pueda manejar flujos de entrada multimodales, incluyendo audio, texto e imagen, así como salida”, detalló Stock. “El beneficio principal de eso es que obtienes mucha más información con un sistema de agentes de extremo a extremo que soporta audio como entrada o salida”.
Con esta estrategia basada en licencias Apache 2.0, Mistral ataca directamente a las plataformas dependientes de la nube. Estimaciones de la industria proyectan que el mercado de texto a voz alcanzará los 26,000 millones de dólares para 2028, un terreno donde rivales como ElevenLabs ya reportan valoraciones cercanas a los 3,000 millones de dólares apostando por sistemas cerrados.
