Nvidia lanza el modelo multimodal Nemotron 3 Nano Omni

Nvidia lanza Nemotron 3 Nano Omni, modelo multimodal abierto que procesa audio, video y texto en una sola arquitectura.

Por Humberto Toledo el 28 de abril del 2026 a las 1:14 pm PDT

Resume con:

✨︎ Resumen (TL;DR):

Nvidia presentó un modelo abierto que unifica el procesamiento de visión, audio y lenguaje en un solo sistema.

La arquitectura híbrida opera con 30 mil millones de parámetros, logrando el rendimiento de modelos masivos con menor costo de cómputo.

El diseño acelera hasta 9 veces el rendimiento en sistemas de IA empresariales al eliminar el salto entre diferentes programas.

Este martes, Nvidia presentó Nemotron 3 Nano Omni, un modelo de inteligencia artificial multimodal de código abierto que procesa visión, audio y lenguaje desde una única arquitectura. La compañía diseñó este sistema para eliminar las interrupciones y retrasos que enfrentan los agentes de IA empresariales cuando transfieren datos entre diferentes programas. El sistema acepta texto, imágenes, video, documentos, gráficos e interfaces de usuario como entrada, y genera respuestas en texto.

Nemotron 3 Nano Omni es un modelo de lenguaje híbrido de mezcla de expertos que opera con 30 mil millones de parámetros, manteniendo activos apenas 3 mil millones por cada inferencia. Esta estructura permite a los desarrolladores acceder al conocimiento de un sistema gigante utilizando una fracción de la capacidad de cómputo tradicional.

Actualmente, la mayoría de los sistemas empresariales encadenan modelos separados para entender voz, analizar video o razonar lenguaje. Nvidia consolidó este proceso fusionando el codificador de voz Parakeet, el codificador visual C-RADIOv4-H y un sistema entrenado específicamente para interfaces gráficas en un único ciclo de razonamiento.

Según la compañía, este enfoque entrega un rendimiento hasta 9 veces superior frente a modelos interactivos similares. En tareas de análisis de video, el sistema alcanza el triple de velocidad requiriendo 2.75 veces menos capacidad computacional. El modelo soporta una ventana de contexto de 256,000 tokens y lidera seis clasificaciones de la industria en inteligencia de documentos complejos.

Te podría interesar:
Startups europeas de hardware buscan millones para romper el monopolio de Nvidia

Fotos de stock gratuitas de actuación, almacenamiento, ariete — Foto: Andrey Matveev / Pexels

Adopción empresarial y despliegue abierto

Empresas como Foxconn, Palantir y H Company ya integraron esta tecnología, mientras Dell, Oracle e Infosys evalúan su implementación técnica. Gautier Cloix, CEO de H Company, detalló el impacto en su software operativo:

“Utilizar el Nemotron 3 Nano Omni permite a nuestros agentes analizar rápidamente grabaciones de pantalla en Full HD, una capacidad que antes era inviable”.

Nvidia liberó los pesos del modelo, los conjuntos de datos y las metodologías de entrenamiento para que los desarrolladores lo adapten libremente, ya sea en hardware local o infraestructura en la nube. El sistema está disponible en Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr y en más de 25 plataformas asociadas, además de los microservicios NIM de Nvidia.

Este lanzamiento funciona como la capa de percepción dentro de la familia Nemotron 3, dejando las versiones Super y Ultra para las cargas de razonamiento más exigentes. Durante el último año, esta serie de modelos superó las 50 millones de descargas, fortaleciendo la presencia de Nvidia en el ecosistema de IA abierta.

Fuentes: 1, 2, 3, 4