Cohere lanza Transcribe: ASR open source reta a Whisper

Cohere lanza Transcribe: ASR open source reta a Whisper

Cohere lanza Transcribe, modelo open source de reconocimiento de voz que supera a OpenAI Whisper operando localmente.

Por Humberto Toledo el 26 marzo, 2026 a las 14:26

✨︎ Resumen (TL;DR):

  • Cohere presentó Transcribe, su primer modelo open source de reconocimiento automático de voz diseñado para hardware de consumo.
  • Registra una tasa de error de palabras de 5.42%, superando a modelos como Whisper Large v3 en benchmarks especializados.
  • La empresa reportó ingresos recurrentes de $240 millones de dólares en 2025 y perfila una posible oferta pública inicial.

La startup empresarial de inteligencia artificial Cohere presentó este jueves Transcribe, su primer modelo de reconocimiento automático de voz (ASR). La compañía lanzó la herramienta bajo una licencia open source Apache 2.0 para permitir el procesamiento de audio directamente en hardware de consumo y reducir la dependencia de la nube.

Transcribe es un modelo híbrido de 2 mil millones de parámetros basado en una arquitectura Conformer, que mezcla redes neuronales convolucionales y Transformers. Soporta 14 idiomas, incluyendo inglés, francés, alemán, chino, japonés, coreano y árabe.

Tras su lanzamiento, el software reclamó el primer puesto en el Open ASR Leaderboard de Hugging Face con una tasa promedio de error de palabras del 5.42%. Esta cifra supera el desempeño de rivales como Whisper Large v3 de OpenAI, Scribe v2 de ElevenLabs y Qwen3-ASR-1.7B.

En evaluaciones humanas reportadas por TechCrunch, Cohere logró una tasa de victoria promedio del 61% frente a la competencia en métricas de precisión, coherencia y usabilidad. En tareas en inglés, los evaluadores prefirieron su desempeño en un 78% de las ocasiones sobre Granite 4.0 1B Speech de IBM, y un 64% frente a Whisper. Sin embargo, el modelo mostró dificultades procesando español, portugués y alemán.

Almacenamiento holográfico triplica datos usando luz e IA
Te podría interesar:
Almacenamiento holográfico triplica datos usando luz e IA
Escultura fluida de metal y vidrio representando ondas de sonido y diversos caracteres lingüísticos en un entorno elegante.
Escultura fluida de metal y vidrio representando ondas de sonido y diversos caracteres lingüísticos en un entorno elegante.

Diseñado para self-hosting y velocidad

La estrategia de Cohere se separa de un mercado dominado por APIs que exigen conexión a la nube, priorizando el despliegue de infraestructura local (self-hosting).

  • Procesa 525 minutos de audio por cada minuto de procesamiento computacional.
  • Maneja grabaciones de larga duración dividiendo automáticamente el audio en fragmentos de 35 segundos, segmentando y reensamblando el archivo sin degradar el rendimiento.
  • Está disponible gratis para descarga en Hugging Face y mediante la API de Cohere.
  • Próximamente se integrará en Model Vault, su plataforma de inferencia administrada, y en North, su orquestador de agentes empresariales.

Este despliegue marca la expansión de Cohere más allá de la generación y embedding de texto, en un momento donde la demanda por herramientas speech-to-text se acelera para automatizar notas y analíticas en tiempo real. Tras registrar $240 millones de dólares en ingresos recurrentes en 2025, el CEO de la compañía, Aidan Gomez, sugirió que la empresa ya prepara el camino para una oferta pública inicial (IPO).

Fuentes: 1, 2, 3, 4, 5

Más de AI