Moonshot AI lanzó Kimi K2.6 con una audaz afirmación: es el nuevo estado del arte en codificación de código abierto, ejecución a largo plazo y enjambres de agentes. Los números lo confirman. 80.2% en SWE-Bench Verified, 96.4% en AIME 2026, 90.5% en GPQA-Diamond y 73.1% en OSWorld-Verified. Esos no son fragmentos de marketing; provienen directamente del anuncio oficial en kimi.
Esta publicación desglosa qué es Kimi K2.6, cómo la arquitectura de Agente Enjambre cambia lo que un solo modelo puede hacer, el panorama de los puntos de referencia frente a GPT-5.4 y Claude 4.6, y dónde puedes empezar a usarlo hoy.
Resumen rápido
- Lanzamiento: Moonshot AI, abril de 2026, código abierto (pesos en Hugging Face, API en platform.kimi.ai).
- Arquitectura: mezcla de expertos de 1 billón de parámetros, 32 mil millones de parámetros activos por token, contexto de 262,144 tokens (256K).
- Salida máxima: hasta 98,304 tokens para tareas de razonamiento.
- Agente Enjambre: hasta 300 subagentes, más de 4,000 pasos coordinados por tarea (3 veces el límite de K2.5).
- Principales benchmarks: SWE-Bench Verified 80.2%, Terminal-Bench 2.0 66.7%, AIME 2026 96.4%, HLE-Full (herramientas) 54.0%, OSWorld-Verified 73.1%.
- Superficies: chat de kimi.com, Kimi App, Kimi Code, API, pesos abiertos.
Kimi K2.6 en un párrafo
Kimi K2.6 es el modelo de código abierto de próxima generación de Moonshot AI, centrado en codificación de vanguardia, ejecución a largo plazo y enjambres de agentes. Se ejecuta en kimi.com, la Kimi App, Kimi Code y la API en platform.kimi.ai. Es la primera versión de la línea K en elevar el límite del Agente Enjambre a 300 subagentes y más de 4,000 pasos simultáneos, lo que lo hace capaz de sesiones de trabajo autónomas que duran días, no segundos. Si estás familiarizado con cómo otros modelos de vanguardia como Qwen 3.6 (consulta nuestra guía de OpenRouter) o Qwen3.5-Omni encajan en un flujo de trabajo API-first, Kimi K2.6 se adapta a la misma forma con un enfoque más nítido en los agentes.

Moonshot publicó una tabla completa de benchmarks en el anuncio de Kimi K2.6. Los puntos destacados:
Codificación
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
SWE-Bench Verified con un 80.2% iguala o supera a Claude 4.6 en la misma suite de pruebas, y lo hace con pesos abiertos que puedes descargar. Terminal-Bench 2.0 con un 66.7% representa un salto de 15.9 puntos sobre K2.5, lo que demuestra que Moonshot se centró en la fiabilidad de la shell y la manipulación de archivos.
Uso de agentes y herramientas
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (con herramientas) | 54.0% |
| BrowseComp | 83.2% (86.3% con Agente Enjambre) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
HLE-Full con un 54.0% sitúa a K2.6 por delante de GPT-5.4 (52.1%) y Claude 4.6 (53.0%) en ese benchmark específico de razonamiento más herramientas. OSWorld-Verified con un 73.1% significa que K2.6 puede manejar un entorno de escritorio real para tareas a nivel de sistema operativo, que es el mismo espacio al que apunta el uso de computadora de Claude Code.
Razonamiento y conocimiento
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (Febrero) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
AIME 2026 con un 96.4% es casi perfecto en un benchmark de matemáticas de competición que era brutal para los modelos hace solo un año.
Visión
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (con Python) | 93.2% |
| V* (con Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, con Python) | 86.7% |
Los resultados “con Python” destacan cómo la visión ahora se encadena con el uso de herramientas: K2.6 lee una figura, escribe Python y calcula la respuesta en la misma trayectoria.
Agente Enjambre: el salto estructural
Agente Enjambre es el principal cambio arquitectónico en K2.6. El blog de Moonshot lo expresa claramente: K2.6 orquesta hasta 300 subagentes con más de 4,000 pasos coordinados, una expansión 3 veces mayor que los 100 agentes y 1,500 pasos de K2.5.
Tres patrones son importantes:
- Descomposición heterogénea de tareas. El modelo no se clona 300 veces. Divide una tarea en subtareas con diferentes perfiles de habilidades (código, investigación, visión, planificación) y dirige cada una al especialista adecuado.
- Inteligencia composicional. Los subagentes se comunican a través de un estado compartido, produciendo documentos, sitios web, diapositivas y hojas de cálculo en una sola sesión. Esto es similar en espíritu a cómo las arquitecturas de agentes Hermes estructuran la orquestación multiagente.
- Conversión de documento a habilidad. Una especificación se convierte en una habilidad que conserva el "ADN estructural", lo que significa que el modelo puede absorber un documento de diseño y actuar como si tuviera conocimiento tribal.
Ejecuciones reales del anuncio de Kimi
Tres ejemplos de prueba de trabajo:
- Optimización de inferencia de Qwen3.5-0.8B en Mac — más de 12 horas de trabajo continuo, más de 4,000 llamadas a herramientas, 14 iteraciones, elevando el rendimiento de 15 a 193 tokens/segundo (aproximadamente un 20% más rápido que la línea base de LM Studio).
- Ajuste del motor financiero Exchange-core — 13 horas, más de 1,000 llamadas a herramientas, más de 4,000 líneas de código modificadas, ganancia de rendimiento medio del 185% (0.43 → 1.24 MT/s), rendimiento de 133% (1.23 → 2.86 MT/s).
- Ejecución autónoma de infraestructura de 5 días — manejo de tareas multi-hilo y respuesta a incidentes sin supervisión humana.
Si alguna vez has visto a un agente de codificación perder el rumbo después de 20 llamadas a herramientas, estos números se leen de manera diferente. La ley de escalado interesante aquí no son los parámetros; son las horas-agente.
Cómo se mantiene la arquitectura
Mezcla de expertos
K2.6 es un modelo MoE de 1 billón de parámetros con 32 mil millones de parámetros activos por token. Obtienes capacidad de clase fronteriza con un costo de inferencia más cercano a un modelo denso de 32B. La misma compensación se aplica que con otras versiones de la familia MoE como la API GLM-5V Turbo; el enrutamiento es donde se invierten los dólares de ingeniería.
Contexto largo: 262,144 tokens
La ventana de contexto es exactamente de 262,144 tokens (el número redondo que cita Moonshot). Las longitudes máximas de generación llegan hasta 98,304 tokens para tareas de razonamiento. Eso es suficiente para incluir:
- Una base de código de tamaño mediano completa y aún tener espacio para la trayectoria del agente
- Un documento legal o de investigación completo con espacio para preguntas y respuestas de varias rondas
- Un historial de llamadas a herramientas de varios días para sesiones continuas de agentes
Moonshot reescribió partes de la pila de atención para K2.6 para mantener estable la inferencia de contexto largo donde K2.5 se degradaba.
Muestreo por defecto
El blog recomienda parámetros por defecto de temperatura 1.0 y top-p 1.0 para K2.6, lo cual es agresivo en comparación con la mayoría de los modelos de codificación. No adoptes ciegamente los valores por defecto de baja temperatura que ves en la documentación de OpenAI o Anthropic; el equipo de Kimi ajustó K2.6 para producir una salida confiable a temperaturas más altas.
Claw Groups: la capa multiagente por encima del modelo
Claw Groups es una vista previa de investigación en el anuncio de K2.6: un ecosistema abierto donde múltiples agentes y humanos trabajan en la misma tarea a través de laptops, dispositivos móviles y la nube. Cuatro capacidades:
- Coincidencia dinámica de tareas basada en kits de herramientas especializados
- Detección de fallos con reasignación automática de tareas
- Implementación multidispositivo
- Puntos de control con intervención humana (Human-in-the-loop)
La puntuación de Claw Eval del 80.9% (pass@3) mide la fiabilidad con la que K2.6 puede operar dentro de esta capa. Si estás pensando en equipos de agentes autónomos de la misma manera que describe la empresa de agentes de IA de Paperclip, Claw Groups es un sustrato listo para usar.
Desarrollo dirigido por el diseño y agentes proactivos
K2.6 incluye capacidades de generación de frontend más allá de la finalización de código de chat. De la publicación oficial:
- Generación full-stack que incluye autenticación, bases de datos y transacciones
- Integración de herramientas de generación de imágenes y video dentro de las trayectorias de los agentes
- Animaciones activadas por desplazamiento, elementos interactivos y salida lista para producción
Los agentes proactivos funcionan 24/7 dentro de OpenClaw y Hermes, orquestando múltiples aplicaciones en segundo plano. Ese es el mismo patrón de "el agente nunca duerme" que los equipos están construyendo alrededor de Google Agent Smith y pilas personalizadas como crea tu propio Claude Code.
Kimi K2.6 vs la frontera cerrada
De la tabla comparativa oficial:
| Tarea | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (herramientas) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
Tres conclusiones:
- K2.6 gana o empata tres de los cuatro en esta tabla, incluyendo superar a GPT-5.4 en HLE-Full y SWE-Bench Pro.
- Gemini 3.1 lidera en Terminal-Bench y BrowseComp, por lo que para la navegación pura o la fiabilidad del terminal, sigue estando en la lista de favoritos.
- K2.6 se envía con pesos abiertos, lo que ninguno de sus competidores cerrados hace.
Dónde reside Kimi K2.6
kimi.com (chat)
La interfaz de Kimi para consumidores es la forma más rápida de probar K2.6. Inicia sesión, selecciona K2.6 en el selector de modelos y tendrás chat, modo agente, Agente Enjambre, visión e integración de herramientas de Kimi Code. Consulta nuestra guía complementaria sobre cómo usar Kimi K2.6 gratis para los detalles.
Kimi App
La aplicación móvil (iOS, Android) refleja la experiencia web con entrada de voz y notificaciones push para tareas de agente de larga duración.
Kimi Code
Kimi Code es la interfaz de codificación nativa del terminal. Se siente más cercana a los flujos de trabajo de Claude Code que a una ventana de chat: K2.6 maneja tu sistema de archivos local, commits y pruebas, con Agente Enjambre bajo el capó. Si estás buscando agentes de codificación, compáralo con Cursor Composer 2.
API
La API es compatible con OpenAI. La URL base es https://api.moonshot.ai/v1, los IDs de modelo son kimi-k2.6 y kimi-k2.6-thinking. Escribimos una guía completa en Cómo Usar la API de Kimi K2.6, incluyendo autenticación, streaming, llamadas a herramientas, visión, video e invocación de Agente Enjambre.
Pesos abiertos en Hugging Face
Los pesos completos de K2.6 están en Hugging Face en moonshotai/Kimi-K2.6 bajo una licencia MIT modificada. Las cuantizaciones de la comunidad (ubergarm GGUF, unsloth) hacen posible ejecutarlo en tu propio hardware para equipos con GPUs de clase H100.
Cómo se entrenó K2.6 (lo que Moonshot ha revelado)
El anuncio de Kimi K2.6 no publica la receta de entrenamiento completa, pero las pistas del producto te indican dónde se dirigió el esfuerzo de ingeniería:
- Estabilidad a largo plazo — Moonshot señala ejecuciones de agentes de 12 y 13 horas como prueba de entrenamiento contra modos de fallo por duración de sesión. K2.5 se degradaba después de unas pocas cientos de llamadas a herramientas; K2.6 soporta más de 4,000.
- Fiabilidad de las llamadas a herramientas — La tasa de éxito de invocación de herramientas del 96.60% de CodeBuddy es el número público. Los datos sintéticos de uso de herramientas en el entrenamiento son la forma común en que los laboratorios logran esto.
- Entrenamiento de enjambre composicional — el comportamiento heterogéneo de los subagentes implica una señal de entrenamiento en múltiples roles de agente (planificador, codificador, investigador, revisor), no un único generalista.
- Encadenamiento de visión + código — el patrón "MathVision con Python" (93.2%) indica un entrenamiento conjunto multimodal + uso de herramientas, no un adaptador de visión adicional.
Si estás escribiendo una retrospectiva sobre lo que separa un buen modelo abierto de la era 2026 de uno excelente, esas cuatro viñetas son la mayor parte de la historia.
A quién debería importarle
Elige Kimi K2.6 si estás construyendo
- Agentes de codificación de larga duración. Las demostraciones de 4,000 pasos y 12 horas no son marketing; son parte de la arquitectura.
- Sistemas multiagente. Agente Enjambre y Claw Groups te dan orquestación de 300 agentes sin que tengas que escribirla tú mismo.
- Producción de pesos abiertos. Necesitas soberanía del modelo, ajuste fino personalizado o control regulatorio.
- Trabajo de API de alto rendimiento. El costo de inferencia MoE está muy por debajo de los precios de los modelos cerrados, y la API compatible con OpenAI se integra fácilmente en el código existente.
Mantente con modelos cerrados si necesitas
- Alineación de seguridad estricta. Claude 4.6 sigue liderando en rechazos matizados y cumplimiento de políticas.
- Latencia de chat al consumidor por debajo del segundo. Las ejecuciones de Agente Enjambre son de minutos, no milisegundos.
- SLAs de proveedor bloqueados. Para industrias reguladas, el contrato de soporte de un laboratorio de vanguardia puede importar más que la calidad del modelo.
Cómo probar Kimi K2.6 en cinco minutos con Apidog
Una vez que tengas una clave API de Moonshot/Kimi, Apidog te lleva de cero a una prueba funcional en minutos:
- Crea un entorno:
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Nueva solicitud:
POST {{BASE_URL}}/chat/completions. - Cabeceras:
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Cuerpo:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Resume el anuncio de Kimi K2.6."}],
"stream": true
}
- Haz clic en Enviar. Observa cómo fluyen los tokens.
Apidog también maneja el historial de solicitudes (reproducir secuencias de llamadas a herramientas fallidas), validación de esquemas contra la especificación de finalización de chat de OpenAI, uso compartido en equipo con claves por miembro e integración con VS Code para pruebas en el editor. Si actualmente usas Postman, nuestra guía para pruebas de API sin Postman en 2026 te explica cómo hacer el cambio.
Preguntas Frecuentes (FAQ)
¿Es Kimi K2.6 de código abierto?Los pesos son de código abierto bajo una licencia MIT modificada (moonshotai/Kimi-K2.6). Los datos de entrenamiento y el código de entrenamiento no son públicos. Eso lo convierte en "de pesos abiertos" en el uso común.
¿Cómo se compara Kimi K2.6 con K2.5?Grandes saltos en todos los ámbitos, según la tabla de benchmarks oficial: +3.8 puntos en HLE-Full, +8.3 en BrowseComp, +15.9 en Terminal-Bench 2.0, +7.9 en SWE-Bench Pro, +20.5 en Claw Eval, aumento de 3x en la capacidad del Agente Enjambre.
¿Cuál es la ventana de contexto de Kimi K2.6?262,144 tokens. La generación máxima para tareas de razonamiento llega hasta 98,304 tokens.
¿Puedo ejecutar Kimi K2.6 localmente?Sí, con hardware potente. El MoE completo de 1T necesita nodos multi-GPU de clase H100. Las compilaciones cuantizadas (4-bit, 3-bit) de los colaboradores de la comunidad se ajustan a configuraciones más pequeñas con cierta pérdida de calidad. Consulta nuestra guía de acceso gratuito para opciones de cuantización.
¿Kimi K2.6 admite llamadas a herramientas?Sí. La API sigue el formato de llamada a herramientas de OpenAI. Agente Enjambre maneja llamadas a herramientas paralelas de forma nativa.
¿Cuál es la diferencia entre Kimi K2.6 y Kimi K2.6 Thinking?K2.6 es la variante de agente rápida. K2.6 Thinking expone una cadena de pensamiento visible antes de responder. Usa Thinking para demostraciones matemáticas, depuración difícil o planificación compleja.
¿Cómo accedo a Kimi K2.6 gratis?El chat web de kimi.com es gratuito con una cuota diaria. Cloudflare Workers AI tiene un nivel gratuito. El autoalojamiento de pesos de Hugging Face tiene un costo por token cero una vez que tienes el hardware. Desglose completo en Cómo Usar Kimi K2.6 Gratis.
¿Cómo se compara Kimi K2.6 con otros modelos de pesos abiertos?Frente a Qwen 3.6 y Qwen3.5-Omni, Kimi K2.6 lidera en benchmarks de codificación y agentes; Qwen todavía tiene variantes multilingües y de modelos pequeños más fuertes. Frente a DeepSeek V3.x, K2.6 tiene la ventaja en la orquestación de agentes.
Resumen
Kimi K2.6 es el modelo de pesos abiertos más preparado para producción lanzado hasta la fecha para codificación basada en agentes y trabajo a largo plazo. El enjambre de 300 agentes, la ejecución de 4,000 pasos, la ventana de contexto de 262K y los pesos abiertos se combinan para convertirlo en una herramienta única en la línea de modelos actual. La publicación del anuncio de Moonshot lo enmarca como el nuevo estado del arte en el trabajo de agentes de código abierto, y los benchmarks públicos respaldan esta afirmación.
Si estás evaluando modelos para un agente de codificación, un asistente de investigación de larga duración o un sistema multiagente, Kimi K2.6 debe estar en tu lista. Obtén una clave de platform.kimi.ai, abre Apidog y envía tu primera solicitud. Luego, explora nuestras guías más detalladas sobre la API y los métodos de acceso gratuito.
