✨︎ Resumen (TL;DR):
- Moonshot AI liberó los pesos de Kimi K2.6 en HuggingFace.
- El modelo alcanza 80.2% en SWE-Bench Verified y supera a GPT-5.4 en pruebas de navegación web.
- Su sistema Agent Swarm coordina hasta 300 agentes y presiona el dominio de las empresas estadounidenses.
La startup china Moonshot AI liberó este domingo Kimi K2.6, un modelo de inteligencia artificial open-weight disponible gratuitamente en HuggingFace que rivaliza directamente con GPT-5.4 y Claude Opus 4.6 en programación y tareas de autonomía.
Los datos recopilados por Lush Binary muestran una competencia cerrada. En la prueba SWE-Bench Verified, K2.6 obtiene un 80.2%, quedando apenas debajo del 80.8% de Claude Opus 4.6 y empatando con Gemini 3.1 Pro. Sin embargo, el modelo chino toma la delantera en tareas complejas a largo plazo: registra 58.6% en SWE-Bench Pro, superando el 57.7% de GPT-5.4 y el 53.4% de Claude.
El rendimiento de K2.6 destaca en extracción web con un 83.2% en BrowseComp, frente al 82.7% de GPT-5.4. También domina en Toolathlon con 50.0% contra el 47.2% de Claude. A pesar de esto, los modelos estadounidenses mantienen el liderazgo en matemáticas y razonamiento puro. GPT-5.4 alcanza un 99.2% en AIME 2026, mientras que K2.6 logra un 96.4%. Por su parte, BenchLM.ai posiciona a K2.6 en el sexto lugar de programación y en el lugar 13 general de 110 modelos evaluados.

Agent Swarm y arquitectura de un billón de parámetros
La principal característica de esta versión es el Agent Swarm, un sistema capaz de coordinar hasta 300 subagentes ejecutando 4,000 pasos coordinados en paralelo. El modelo descompone instrucciones complejas y las distribuye dinámicamente, triplicando el límite de 100 agentes de su versión anterior, K2.5.
Moonshot también presentó “Claw Groups”, una herramienta en fase previa que permite a humanos y múltiples agentes colaborar en un mismo espacio operativo, distribuyendo tareas según la capacidad de cada participante. K2.6 se integra nativamente con frameworks como OpenClaw y Cursor, ganando atractivo en el ecosistema de desarrolladores justo después de que Anthropic restringiera el acceso de terceros a Claude.
A nivel técnico, Kimi K2.6 mantiene la arquitectura Mixture-of-Experts de un billón de parámetros de su predecesor, activando 32,000 millones de parámetros por token con una ventana de contexto de 256K.
La empresa, valorada en $18,000 millones de dólares según Bloomberg, mantiene un ritmo de desarrollo agresivo con lanzamientos en julio de 2025, enero de 2026 y el actual. Esta liberación escala la tensión corporativa con Occidente, recordando que apenas en febrero de 2026, Anthropic acusó a Moonshot de usar cuentas falsas para extraer datos de entrenamiento de Claude. Los resultados oficiales de los benchmarks se publicarán a principios de mayo.
