Alibaba lanza Qwen3.5-Omni: su nueva IA ahora es privada

Alibaba lanza Qwen3.5-Omni, una potente IA multimodal. Abandona el código abierto y venderá el acceso vía API para competir con Gemini.

Por Humberto Toledo el 31 marzo, 2026 a las 01:46 PDT

Seguir en

Resume con:

✨︎ Resumen (TL;DR):

Alibaba presentó Qwen3.5-Omni, un modelo de IA multimodal capaz de procesar texto, imagen, audio y video de forma simultánea.

La empresa abandonó el código abierto para esta versión y la ofrecerá exclusivamente mediante pago por API en Alibaba Cloud.

El sistema superó a Gemini 3.1 Pro en 215 pruebas de rendimiento, costando apenas una décima parte por cada millón de tokens.

Alibaba presentó este domingo Qwen3.5-Omni, su modelo de inteligencia artificial multimodal de nueva generación capaz de procesar texto, imágenes, audio y video simultáneamente. En un giro radical para la compañía china, esta versión dejará de ser de código abierto y funcionará como software propietario a través de las APIs de su plataforma Alibaba Cloud.

La decisión rompe con el patrón establecido por la empresa. Su predecesor inmediato, Qwen3-Omni, debutó en septiembre de 2025 bajo la licencia permisiva Apache 2.0, lo que permitía su uso comercial gratuito. Un reporte de The Information citó este movimiento como “un posible cambio en la estrategia de modelos de IA de la compañía”.

Qwen3.5-Omni es un modelo multimodal que utiliza la arquitectura Thinker-Talker. Un componente de razonamiento (Thinker) procesa las entradas para generar representaciones de alto nivel, mientras que un módulo de generación (Talker) las convierte en voz o texto en tiempo real. Ahora, ambos integran un diseño Hybrid-Attention Mixture of Experts para distribuir las cargas de cálculo de forma eficiente.

Te podría interesar:
Lightrun lanza telemetría bajo demanda para apps en vivo

Un dispositivo central minimalista procesando flujos visuales, sonoros y de código en un entorno de diseño moderno.

Rendimiento técnico y estrategia agresiva contra Google

Las capacidades técnicas del nuevo software representan un salto directo para atraer al sector corporativo y competir con los grandes jugadores de occidente:

Soporta una ventana de contexto de 256,000 tokens.
Procesa más de 10 horas continuas de audio.
Analiza más de 400 segundos de video a 720p (a un cuadro por segundo).
Reconoce voz en 113 idiomas y dialectos, y genera voz en 36 (frente a los 19 y 10 idiomas que manejaba Qwen3-Omni).

Alibaba afirma que el modelo superó al Gemini 3.1 Pro de Google en 215 pruebas de rendimiento audiovisuales, dominando en categorías como la comprensión, el razonamiento y el reconocimiento de audio.

Para comercializar la herramienta, la empresa habilitó tres niveles de servicio en su plataforma Alibaba Cloud Bailian: Plus, Flash y Light. El costo de la API se fijó en menos de 0.8 yuanes ($0.11 dólares) por millón de tokens, una cifra que equivale a menos de una décima parte del precio de Gemini 3.1 Pro.

Entre las funciones más atractivas para los desarrolladores está el “audio-visual vibe coding”. Esta característica permite a los usuarios grabar en video la interfaz de un software, describir el problema verbalmente y recibir de la IA el código necesario para solucionarlo en el instante.

Con este lanzamiento, Alibaba busca consolidar su dominio en el mercado empresarial asiático, donde los modelos de la familia Qwen ya operan con más de un millón de clientes corporativos en los sectores financiero, automotriz y de electrónica de consumo.

Fuentes: 1, 2, 3, 4, 5