OpenAI lanza 3 modelos de voz con razonamiento nivel GPT-5

OpenAI lanza tres modelos de voz en tiempo real con razonamiento nivel GPT-5. Conoce las tarifas y especificaciones de la nueva API.

Por Humberto Toledo el 7 de mayo del 2026 a las 2:29 pm PDT

Resume con:

Seguir en

✨︎ Resumen (TL;DR):

OpenAI habilitó tres nuevos modelos de audio a través de su Realtime API.

La versión principal soporta 128,000 tokens de contexto, cuadruplicando la capacidad anterior.

Zillow elevó el éxito de sus llamadas telefónicas hasta un 95% durante la fase de pruebas tempranas.

OpenAI habilitó este jueves tres nuevos modelos de audio mediante su Realtime API para procesar razonamiento, traducción y transcripción en vivo. El lanzamiento incluye a GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, herramientas diseñadas para facilitar la construcción de aplicaciones impulsadas por comandos de voz.

La gran estrella tecnológica del anuncio es el GPT-Realtime-2. OpenAI clasifica esta entrega como “nuestro modelo de voz más inteligente hasta la fecha”.

Esta actualización define un nuevo estándar técnico en la plataforma: GPT-Realtime-2 es un modelo de audio que integra capacidades de razonamiento nivel GPT-5 para resolver problemas en directo.

El sistema cuadruplica la memoria de la versión lanzada en febrero de este año. Pasa de 32,000 a un límite de 128,000 tokens en su ventana de contexto. Según la empresa, el modelo superó en un 15 por ciento a GPT-Realtime-1.5 dentro de las métricas de la prueba Big Bench.

El objetivo de OpenAI es cambiar la estructura rígida de los bots automatizados. Los ingenieros de la compañía describen a estos sistemas como “colaboradores en tiempo real que pueden escuchar, razonar y resolver problemas complejos a medida que se desarrollan las conversaciones”.

Te podría interesar:
Sam Altman revela que GPT-5.5 planeó su propia fiesta

Fotos de stock gratuitas de #interior, android, androide — Foto: Pavel Danilyuk / Pexels

Traducción y transcripción simultánea

La alineación técnica se complementa con herramientas para derribar barreras de idioma y agilizar el registro en texto. Las capacidades y tarifas anunciadas son las siguientes:

GPT-Realtime-Translate: Procesa lenguaje hablado desde más de 70 idiomas hacia 13 idiomas de salida al ritmo exacto del hablante. Su costo es de $0.034 dólares por minuto.
GPT-Realtime-Whisper: Genera transcripción speech-to-text con latencia ajustable. Tarifas desde $0.017 dólares por minuto.
Costo de razonamiento: El uso de GPT-Realtime-2 arranca en $32 dólares por millón de tokens de audio de entrada.

Durante la fase de validación con empresas, la plataforma inmobiliaria Zillow registró una mejora de 26 puntos en la tasa de éxito de sus llamadas. Alcanzaron un 95 por ciento de efectividad frente al 69 por ciento de modelos anteriores.

Por su parte, la startup BolnaAI detectó una reducción del 12.5 por ciento en la tasa de error por palabra al procesar traducciones en hindi, tamil y telugu.

Los tres sistemas ya operan de forma pública para desarrolladores a través de la API de OpenAI. Las herramientas incluyen clasificadores de seguridad para finalizar interacciones que violen los estándares de contenido y cumplen con las normativas de residencia de datos de la Unión Europea.

Fuentes: 1, 2, 3, 4