Microsoft lanza IA multimodal que decide cuándo razonar

Microsoft presentó Phi-4-reasoning-vision-15B, modelo de IA multimodal que decide cuándo razonar para ahorrar poder de cómputo.

Por Humberto Toledo el 7 marzo, 2026 a las 23:34

💡 Resumen (TL;DR):

Microsoft liberó Phi-4-reasoning-vision-15B, un modelo de peso abierto con 15 mil millones de parámetros.

Entrenado con solo 200 mil millones de tokens, superó por 17% a modelos de Google en pruebas matemáticas.

Identifica botones y menús en capturas de pantalla para automatizar flujos de trabajo en web y celulares.

Microsoft presentó el martes Phi-4-reasoning-vision-15B, un modelo de inteligencia artificial multimodal que decide dinámicamente si una tarea necesita un razonamiento profundo paso a paso o una respuesta rápida y directa.

A diferencia de los sistemas tradicionales, este software usa etiquetas explícitas para cambiar de comportamiento. Para problemas matemáticos y científicos complejos, activa bloques de razonamiento interno. En tareas de percepción más simples, genera una respuesta directa, reduciendo la latencia y los costos de cómputo.

El modelo ya está disponible a través de Hugging Face, GitHub y Azure AI Foundry. Utiliza una arquitectura de fusión intermedia que combina el codificador visual SigLIP-2 con el motor de lenguaje de Microsoft.

Eficiencia de entrenamiento y agentes de interfaz

Microsoft logró que el entrenamiento fuera eficiente al usar solo 200 mil millones de tokens multimodales. Esto contrasta con competidores como Qwen 2.5 VL o Gemma3 de Google, que consumieron más de un billón de tokens.

Un reporte técnico publicado en arXiv detalló que las mejoras provinieron de un filtrado sistemático, corrección de errores y aumentación sintética. “La calidad de los datos sigue siendo la palanca principal para el rendimiento del modelo”, indicó el documento.

En la prueba MathVista_Mini sobre matemáticas multimodales, el software obtuvo una puntuación 17% mayor que gemma-3-12b-it de Google y lideró otras seis evaluaciones técnicas.

El sistema está diseñado para integrarse con agentes de IA que operan interfaces gráficas, gracias a sus especificaciones clave:
* Identifica botones, menús y campos de texto a partir de capturas de pantalla.
* Su codificador soporta hasta 3,600 tokens visuales para análisis detallado de documentos.
* Recibió entrenamiento de seguridad contra discursos de odio, violencia y vulnerabilidades jailbreak mediante pruebas automatizadas en Azure.

El lanzamiento demuestra que la selección rigurosa de datos permite a sistemas compactos superar a arquitecturas masivas. “Logramos una precisión competitiva frente a modelos mucho más lentos que requieren diez veces o más tiempo de cómputo y tokens”, concluyó el equipo de investigación de Microsoft.

Microsoft lanza IA multimodal que decide cuándo razonar

Eficiencia de entrenamiento y agentes de interfaz

Contenido recomendado

DeepSeek lanza V4: un billón de parámetros en chips chinos

Drones atacan 3 data centers de Amazon en Medio Oriente

Google evaluará el uso de IA en el desempeño de sus empleados