💡 Resumen (TL;DR):
- FriendliAI presentó InferenceSense, un sistema para rentabilizar el procesamiento inactivo de las GPU en la nube.
- La plataforma aprovecha las caídas de uso del hardware, que llegan a bajar hasta un 15% según datos de la industria.
- Los operadores recuperan el control de sus equipos en segundos si necesitan los recursos para sus cargas principales.
El 12 de marzo, la startup de San Francisco FriendliAI presentó InferenceSense, un sistema de monetización diseñado para operadores de la nube que convierte los ciclos inactivos del hardware en ingresos directos al asignarles cargas de trabajo de inteligencia artificial pagadas.
La compañía explica el producto con una analogía directa: así como AdSense de Google permite a los sitios web ganar dinero con los espacios publicitarios no utilizados, InferenceSense permite a los operadores de GPU obtener ingresos por procesamiento ocioso. El anuncio llega días antes de la conferencia GTC de Nvidia en San José, donde la startup realizará reuniones ejecutivas con socios potenciales.
InferenceSense es una plataforma que monitorea la infraestructura de un operador y la llena con tareas de inferencia para modelos de IA abiertos populares, incluyendo DeepSeek, Qwen, Kimi, GLM y MiniMax. FriendliAI aporta la demanda y la optimización del modelo, mientras que los socios ponen el hardware sobrante. Los ingresos por tokens generados se dividen entre ambas partes sin tarifas iniciales ni compromisos mínimos.
Los operadores mantienen el control total de sus equipos. El sistema permite elegir qué nodos participan, establecer horarios y limitar la capacidad cedida. Si el operador necesita recuperar el hardware para sus tareas principales, un controlador detiene los trabajos monetizados y devuelve los recursos “en cuestión de segundos”, según la empresa.

El problema de los equipos inactivos
La plataforma ataca una ineficiencia documentada en las operaciones de la nube. Según la FinOps Foundation, la utilización de GPU durante la inferencia puede caer a niveles de entre 15% y 30%. La mayor parte del hardware permanece inactivo mientras sigue generando gastos de energía, enfriamiento y depreciación.
Un análisis de la firma Mayfield señala que aumentar la utilización entre un 5% y 10% puede traducirse en cientos de millones de dólares en valor para los operadores.
“La industria está construyendo estas fábricas masivas, pero a la mayoría de las nubes de GPU todavía les falta la línea de ensamblaje de inferencia que realmente transforma el procesamiento en bruto en tokens: los verdaderos productos terminados de esta era”, señaló el CEO de FriendliAI, Byung-Gon Chun. “La construcción de fábricas de IA solo tiene sentido cuando realmente genera centavos”.
Fundada en 2021 por Chun, exinvestigador de inteligencia artificial en Microsoft y Facebook, FriendliAI surgió de una investigación en la Universidad Nacional de Seúl. La compañía recaudó una ronda semilla de $20 millones de dólares en agosto de 2025 y afirma que su motor alcanza velocidades hasta tres veces mayores que vLLM. InferenceSense ya acepta solicitudes de nubes de GPU, plataformas de machine learning e instituciones de investigación.