Resumen (TL;DR):
* Cloudflare sumó Kimi K2.5 a su plataforma Workers AI para que los desarrolladores operen agentes de IA nativos.
* El modelo de Moonshot AI cuenta con un billón de parámetros y activa 32 mil millones por cada solicitud.
* En pruebas internas de Cloudflare, la herramienta redujo en un 77% los costos de procesamiento frente a modelos propietarios.
El 19 de marzo, Cloudflare anunció la integración de Kimi K2.5 a su plataforma Workers AI. Este movimiento marca la primera vez que la compañía ofrece un modelo de lenguaje de código abierto a gran escala en su sistema serverless, diseñado para que los desarrolladores construyan y ejecuten agentes de inteligencia artificial completamente dentro de su ecosistema.
Kimi K2.5 es un modelo multimodal creado por el laboratorio chino Moonshot AI que funciona bajo una arquitectura Mixture-of-Experts. El sistema cuenta con un billón de parámetros totales, activando 32 mil millones por solicitud.
Destaca por su ventana de contexto de 256,000 tokens, capacidad para llamadas a herramientas multi-turno, entradas de visión y salidas estructuradas. Estas características apuntan directamente a las cargas de trabajo de IA agéntica que dominan actualmente el mercado cloud.
La empresa probó la tecnología internamente antes de su lanzamiento público. Lo utilizaron como motor para revisiones de código automatizadas y tareas de programación.
En un caso específico, un agente de revisión de seguridad procesó más de 7 mil millones de tokens diarios en las bases de código de la empresa. Operar este volumen con un modelo propietario de nivel medio habría costado cerca de $2.4 millones de dólares anuales. Al cambiar a Kimi K2.5, Cloudflare recortó esos costos en un 77%.
“A medida que aumenta la adopción de la IA, estamos viendo un cambio fundamental no solo en cómo operan los equipos de ingeniería, sino en cómo operan los individuos”, señalaron Michelle Chen, Kevin Flansburg, Ashish Datta y Kevin Jain en el blog oficial de la compañía. “El volumen de inferencia se está disparando”.
Te podría interesar: Anthropic lanza índice para medir el riesgo laboral frente a la IA
Optimizando latencia y la carrera por el rendimiento
Para complementar este lanzamiento, Cloudflare aplicó mejoras en su plataforma para gestionar conversaciones de múltiples turnos. Ahora muestran los recuentos de tokens en caché como métrica de uso y ofrecen precios con descuento mediante su sistema de almacenamiento previo.
Los desarrolladores también cuentan con el nuevo encabezado x-session-affinity. Esta función permite:
* Enrutar solicitudes consecutivas a la misma instancia del modelo.
* Mejorar las tasas de acierto en caché.
* Reducir el tiempo necesario para generar el primer token.
La compañía rediseñó su API de inferencia asíncrona, pasando a un sistema pull-based que procesa las peticiones en cola según la capacidad disponible. En pruebas internas, estas solicitudes asíncronas se ejecutaron en un lapso menor a cinco minutos.
Este paso coloca a Cloudflare en competencia frontal con proveedores dedicados de inferencia. Usuarios en foros como Reddit señalaron que los precios de Workers AI, fijados en $0.60 dólares por millón de tokens de entrada y $3.00 dólares por millón de salida, resultan más altos frente a plataformas como OpenRouter.
Sin embargo, tras la reciente incorporación de Nvidia Nemotron 3 Super y su alianza con OpenAI el año pasado, Cloudflare deja clara su apuesta por dominar el procesamiento de grandes cargas de trabajo de IA desde el borde.
Fuentes: cloudflare, cloudflare, cloudflare, cloudflare, cloudflare