✨︎ Resumen (TL;DR):
- Modelos pequeños de IA ejecutados localmente en computadoras pueden responder con precisión al 88.7% de las consultas cotidianas.
- Un sistema híbrido inteligente podría reducir el consumo de energía en un 80.4% y los costos de procesamiento en un 73.8%.
- El rápido avance de estos sistemas locales amenaza el modelo de negocio ultra costoso de las grandes granjas de servidores en la nube.
Un estudio de la Universidad de Stanford demostró que los modelos de lenguaje pequeños ejecutados en computadoras de escritorio igualan el rendimiento de los grandes sistemas de IA basados en la nube en la mayoría de las tareas cotidianas, utilizando una fracción mínima de energía.
La investigación introdujo el concepto de inteligencia por vatio, que mide cuánta capacidad de procesamiento de lenguaje genera un modelo de inteligencia artificial por cada unidad de energía eléctrica consumida.

Menos consumo de energía y eficiencia extrema
El equipo de investigación, integrado por Jon Saad-Falcon, Avanika Narayan y otros colaboradores de Stanford y la firma Together AI, evaluó más de 20 modelos locales de hasta 20,000 millones de parámetros activos. Las pruebas se realizaron con un millón de consultas reales de chat y razonamiento lógico.
Los resultados arrojaron que los modelos locales responden con precisión al 88.7% de las peticiones, superando el 90% de efectividad en tareas creativas, ventas, administración y entretenimiento. En las tareas de razonamiento lógico más difíciles, los modelos pequeños igualaron a los sistemas en la nube en el 50% de los casos, un salto drástico frente al 8% registrado hace apenas dos años.
El análisis muestra que la cobertura de consultas locales, que representa la cantidad de solicitudes reales que un modelo local puede resolver con éxito, pasó del 23.2% en 2023 al 71.3% en 2025, cuando se publicó el borrador inicial de la investigación en noviembre de ese año.
Además, el estudio reveló que la inteligencia por vatio se multiplicó por 5.3 veces entre 2023 y 2025. Esta mejora se debe a la optimización de los algoritmos, responsable de un incremento de 3.1 veces, y al avance del hardware local, que aportó una mejora de 1.7 veces.
Si las empresas adoptaran un enrutamiento híbrido, dirigiendo las tareas sencillas a la computadora local y las difíciles a la nube, el gasto de energía caería un 80.4% y los costos de cómputo disminuirían un 73.8%. Incluso con un sistema de distribución imperfecto que opere al 80% de precisión, el ahorro energético superaría el 60%.
El dilema económico para las grandes tecnológicas
Esta transición a lo local ocurre mientras gigantes como Nvidia enfrentan dudas sobre si la demana de supercomputadoras centralizadas crecerá al ritmo proyectado. En una columna de análisis financiero para Reuters, el estratega de inversión Joachim Klement advirtió que compañías como OpenAI, Anthropic y xAI tienen motivos reales para preocuparse.
Klement señaló que, si los modelos pequeños mantienen este ritmo de desarrollo, “el futuro de la IA podría ser más pequeño, más barato y mucho menos rentable de lo que los inversores esperan”.
Esta tendencia ya es visible en otros sectores de la industria tecnológica. Investigadores de IBM han probado con éxito modelos como gpt-oss, Qwen3 y Granite 4.0 en hardware de consumo masivo, logrando una mayor eficiencia que los modelos de generación anterior.
Incluso la propia Nvidia publicó un documento donde argumenta que los modelos pequeños de lenguaje son “suficientemente potentes, intrínsecamente más adecuados y necesariamente más económicos” para operar sistemas de agentes inteligentes de manera eficiente.
