Hume AI lanza TADA: Modelo open source de texto a voz

Hume AI lanza TADA: Modelo open source de texto a voz

Hume AI lanza TADA, un modelo open source text-to-speech que elimina alucinaciones y es 5 veces más rápido al alinear tokens y audio.

Por Humberto Toledo el 11 marzo, 2026 a las 05:33

💡 Resumen (TL;DR):

  • Hume AI liberó TADA, un sistema open source que soluciona problemas críticos de los modelos text-to-speech actuales.
  • El software genera audio a un factor de tiempo real de 0.09, logrando velocidades cinco veces superiores a sus competidores.
  • La arquitectura previno las alucinaciones de audio al cien por ciento durante pruebas con más de 1,000 muestras.

Este domingo, la empresa Hume AI presentó TADA, un modelo de lenguaje de voz open source que elimina la latencia y el consumo excesivo de memoria. El sistema sincroniza texto y voz en un solo flujo, resolviendo el problema de desfase que afecta a los sistemas text-to-speech basados en LLM.

TADA (Text-Acoustic Dual Alignment) es un modelo de texto a voz que asigna un vector acústico continuo a cada token de texto. Las arquitecturas tradicionales exigen gestionar entre 12.5 y 75 cuadros de audio por cada segundo de voz, una carga técnica que este nuevo modelo descarta por completo.

El resultado operativo es la generación de voz con un factor de tiempo real de 0.09. En su fase de evaluación empírica, el software registró cero alucinaciones de contenido a lo largo de más de 1,000 muestras de prueba. La alineación exacta de un token por cuadro de audio impide estructuralmente que la IA salte o invente palabras.

Hume AI lanza TADA: Modelo open source de texto a voz

Eficiencia de contexto y versiones Llama

La técnica de alineación directa multiplica la eficiencia de la memoria. Una ventana de contexto de 2,048 tokens procesa aproximadamente 700 segundos de audio con TADA. Los sistemas convencionales colapsan al procesar apenas 70 segundos con la misma cantidad de tokens.

Hume AI liberó dos versiones construidas sobre modelos Llama, disponibles bajo licencias open source en Hugging Face y GitHub:
* Un modelo en inglés de 1,000 millones de parámetros.
* Un modelo multilingüe de 3,000 millones de parámetros que opera en español, inglés, japonés, chino, árabe, francés, alemán, italiano, portugués y polaco.

Hardware local y control de calidad

TADA posee una arquitectura ligera optimizada para su despliegue en smartphones y dispositivos edge. Los usuarios pueden ejecutar el modelo de forma local sin depender del procesamiento en la nube, lo que acelera los tiempos de respuesta y protege la privacidad de los datos.

Junto al modelo, la empresa integró una función denominada Speech Free Guidance, una técnica de calibración de inferencia que equilibra los resultados para mantener la calidad cuando se genera solo texto frente a la generación de texto y voz simultáneos.

Los desarrolladores de Hume AI advirtieron que el modelo aún experimenta variaciones en el tono de voz durante procesos de generación que superan los 10 minutos continuos. La empresa ya trabaja en el entrenamiento de parámetros de mayor escala para corregir las caídas de calidad gramatical y expandir su cobertura de idiomas.

Contenido recomendado