OpenAI crea BiDi: la IA que sabrá lidiar con interrupciones

OpenAI crea BiDi: la IA que sabrá lidiar con interrupciones

OpenAI desarrolla BiDi, un modelo de audio que permite interrumpir a la inteligencia artificial de forma natural.

Por Humberto Toledo el 6 marzo, 2026 a las 01:00

💡 Resumen (TL;DR):

  • OpenAI desarrolla un modelo de audio llamado BiDi para procesar comandos de voz de manera continua y natural.
  • El equipo espera lanzar la tecnología entre el primer y segundo trimestre de 2026.
  • Este software será la base para un futuro ‘smart speaker’ de la compañía que debutaría en 2027.

OpenAI trabaja en el desarrollo de un nuevo modelo de audio denominado BiDi (bidireccional), diseñado para eliminar la frustración de las interrupciones en los asistentes de voz. De acuerdo con un reporte de The Information, este sistema ajusta sus respuestas en tiempo real para replicar la fluidez de una conversación humana.

Actualmente, el Modo de Voz Avanzado de ChatGPT opera por turnos. Si el usuario habla mientras la IA genera su respuesta o lanza un simple “ok”, el sistema se detiene por completo. BiDi es un modelo de audio que procesa continuamente la voz del hablante, lo que permite a la IA cambiar el rumbo de su frase a la mitad de la interacción sin bloquearse.

Para acelerar el proyecto, la compañía unificó a sus equipos de audio a finales del año pasado bajo la dirección del investigador Kundan Kumar, proveniente de Character.AI. Sin embargo, la tecnología sigue en fase de prototipo. Fuentes internas señalan que después de unos minutos de uso, el modelo presenta fallos y emite voces anormales.

OpenAI crea BiDi: la IA que sabrá lidiar con interrupciones

El salto hacia el hardware y el servicio al cliente

La empresa proyectaba lanzar BiDi durante el primer trimestre de 2026, pero los retos técnicos empujarían el debut hasta el segundo trimestre o más adelante. Una vez listo, este sistema transformará la atención al cliente. Un agente de IA podrá reaccionar al instante si un usuario cambia de opinión a mitad de la llamada, como pasar de una devolución a un cambio de producto.

Este avance en software es clave para las ambiciones físicas de OpenAI. Un reporte paralelo de Reuters detalla que más de 200 empleados trabajan en una nueva familia de dispositivos:

  • BiDi será el motor de un smart speaker que costará entre $200 y $300 dólares.
  • El lanzamiento de este hardware está programado para febrero de 2027 como mínimo.
  • La interacción dependerá completamente del flujo conversacional continuo, eliminando la necesidad de pantallas o botones táctiles.

Superar el lag y la precisión limitada en sus modelos de audio es el paso definitivo para que OpenAI convierta a sus asistentes en herramientas inmediatas, llevando la interacción por voz al mismo nivel de uso global que los mensajes de texto convencionales.

Contenido recomendado