¿Qué es el Código Kimi K2.7?

Moonshot AI acaba de lanzar Kimi K2.7 Code, un modelo de código abierto construido específicamente para escribir software y ejecutar agentes de codificación. Mantiene la escala de un billón de parámetros de la línea Kimi K2, añade visión y reduce la factura de tokens de pensamiento que encarecía las ejecuciones anteriores de agentes. Si ha utilizado Kimi K2.6 o su API, este es el sucesor optimizado para codificación; también se entrega con un agente de terminal llamado Kimi Code que compite directamente con Claude Code y Codex.

Aquí está lo que el modelo es en realidad, lo que cambió, cómo puntúa y dónde puede ejecutarlo hoy.

En resumen

Kimi K2.7 Code es un modelo de Mezcla de Expertos: 1 billón de parámetros totales, 32 mil millones activos por token.
Añade una ventana de contexto de 256K tokens, visión (entrada de imagen y vídeo a través de un codificador MoonViT) y aproximadamente un 30% menos de tokens de pensamiento que K2.6 para el mismo trabajo.
Los pesos son públicos bajo una licencia MIT modificada; puede autoalojarlo con vLLM, SGLang o KTransformers.
Según los benchmarks reportados por Moonshot, se sitúa justo detrás de GPT-5.5 y Claude Opus en tareas de codificación y agenticas; la propuesta es pesos abiertos más costo, no encabezar la tabla.
Se entrega con Kimi Code, un agente de codificación para terminal e IDE, y una API compatible con OpenAI que puede probar en minutos con Apidog.

Kimi K2.7 Code en un párrafo

Kimi K2.7 Code es la versión especializada en codificación de la familia K2 de Moonshot AI. Utiliza el mismo diseño de Mezcla de Expertos dispersa que los modelos Kimi recientes, por lo que solo una fracción de sus pesos se activa en cualquier token dado. El sufijo "Code" es el punto clave: Moonshot optimizó este punto de control para el desarrollo de software, llamadas a herramientas en varios pasos y sesiones largas de agentes en lugar de chats generales. Las mejoras principales sobre K2.6 son la entrada multimodal nativa, un presupuesto de razonamiento más ajustado y una integración más estrecha con el propio framework de agentes de Moonshot. Puede usarlo a través de la aplicación web de Kimi, la CLI de Kimi Code, una API alojada o descargando los pesos de Hugging Face.

Qué cambió respecto a Kimi K2.6

Si ya leyó nuestra explicación de Kimi K2.6, tres diferencias son las más importantes.

Está ajustado primero para código y agentes. K2.6 era un generalista fuerte. K2.7 Code reduce el enfoque a los flujos de trabajo de codificación: refactorización, depuración, exploración de bases de código y encadenamiento de llamadas a herramientas sin perder el hilo a mitad de una tarea.

Pensar es más barato. Moonshot informa de una reducción de aproximadamente el 30% en el uso de tokens de pensamiento en comparación con K2.6 para resultados comparables. Los tokens de razonamiento son tokens facturados, por lo que un recorte del 30% repercute directamente en el costo y la latencia de la ejecución de su agente. En una sesión de codificación larga con cientos de llamadas a herramientas, esto se suma rápidamente.

Ve. K2.7 Code se entrega con un codificador de visión MoonViT de 400M de parámetros, por lo que lee capturas de pantalla, diagramas y fotogramas de vídeo. Esto es importante para los agentes que necesitan ver una interfaz de usuario fallida, una captura de pantalla de un seguimiento de pila o un diseño antes de actuar.

Dentro de la arquitectura

La forma del modelo explica tanto su capacidad como su bajo costo de servicio.

Especificación	Kimi K2.7 Code
Parámetros totales	1 billón
Parámetros activos por token	32 mil millones
Expertos	384 en total, 8 seleccionados por token
Capas	61 (1 densa)
Atención	Atención Latente Multi-cabeza (MLA)
Ventana de contexto	256K tokens
Codificador de visión	MoonViT, 400M parámetros
Licencia	MIT modificada

La configuración de Mezcla de Expertos explica por qué un modelo de "1 billón de parámetros" es práctico de ejecutar. Un enrutador selecciona 8 de 384 expertos para cada token, por lo que usted paga por el cálculo de 32 mil millones de parámetros activos, no por el billón completo. Obtiene la capacidad de conocimiento de un modelo enorme con un costo por token más cercano al de uno de tamaño mediano.

La Atención Latente Multi-cabeza mantiene pequeña la caché de clave-valor, lo que hace que una ventana de contexto de 256K sea asequible de servir. El contexto largo es la parte que los desarrolladores sienten: puede incluir un servicio completo, sus pruebas y su configuración en una sola indicación y pedir un cambio que respete todo.

Los benchmarks, leídos honestamente

Moonshot publicó puntuaciones frente a GPT-5.5 y Claude Opus en suites de codificación y agentes. El patrón es consistente: K2.7 Code es competitivo y cercano, pero no supera la frontera cerrada en la mayoría de las tareas.

Codificación

Benchmark	Kimi K2.7 Code	GPT-5.5	Claude Opus
Kimi Code Bench v2	62.0	69.0	67.4
Program Bench	53.6	69.1	63.8
MLS Bench Lite	35.1	35.5	42.8

Tareas de agente y uso de herramientas

Benchmark	Kimi K2.7 Code	GPT-5.5	Claude Opus
Kimi Claw 24/7	46.9	52.8	50.4
MCP Atlas	76.0	79.4	81.3
MCP Mark Verified	81.1	92.9	76.4

Dos advertencias mantienen esto justo. Primero, varias de estas suites son propiedad de Moonshot, así que trátelas como el encuadre del proveedor, no como una tabla de clasificación neutral. Segundo, la historia no es "Kimi gana". Es "un modelo de código abierto que puedes descargar y autoalojar se sitúa a unos pocos puntos de modelos que solo puedes alquilar". En MCP Mark Verified, incluso supera a Claude Opus. Para gran parte del trabajo real, un modelo que sea un 90% tan bueno pero abierto y más barato es el mejor trato. Si el techo de codificación puro es su única métrica, nuestra comparación entre DeepSeek V4 y Claude Opus cubre la brecha entre modelos cerrados y abiertos con más profundidad.

Por qué importa la ganancia de eficiencia

La codificación con agentes consume tokens en un bucle: leer archivos, razonar, llamar a una herramienta, leer el resultado, razonar de nuevo. La mayor parte de ese gasto es razonamiento, no salida. Reducir los tokens de pensamiento en un ~30% hace dos cosas a la vez. Reduce la factura por tarea y acorta el tiempo de reloj real para cada paso porque el modelo escribe menos antes de actuar. Si ha visto a un agente de codificación detenerse mientras "piensa", sabe por qué eso vale más que un punto de referencia. Para más formas de reducir esa factura, consulte nuestra guía sobre cómo reducir los costos de tokens del agente desde la CLI.

Kimi Code: el agente que se entrega con el modelo

K2.7 Code no es solo un punto de control. Moonshot ha construido Kimi Code, un agente de codificación nativo de terminal diseñado en torno a las fortalezas del modelo: pensamiento preservado, razonamiento intercalado y llamadas a herramientas en varios pasos. Escribe y edita archivos, ejecuta comandos de shell, busca en su base de código, recupera contenido web y genera subagentes para trabajo paralelo. Lo instala con un solo comando:

curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash

Luego, ejecute `kimi` en cualquier directorio de proyecto. También hay una extensión de VS Code, además de soporte para JetBrains y Zed a través del protocolo ACP. Cubrimos la configuración completa, los comandos de barra y el flujo de trabajo de primera ejecución en un tutorial dedicado; si ha utilizado la antigua CLI de Kimi, el nuevo agente es una reconstrucción desde cero, no un simple cambio de apariencia.

Dónde vive Kimi K2.7 Code

Tiene cuatro formas de acceder al modelo.

Aplicación web de Kimi y Kimi App. Acceso por chat para preguntas rápidas y prototipado, sin necesidad de configuración.

CLI de Kimi Code. El agente de terminal mencionado anteriormente, para codificación práctica dentro de su repositorio.

API. Un endpoint compatible con OpenAI en la plataforma Moonshot. Use el ID de modelo kimi-k2.7-code y apunte su cliente OpenAI existente a https://api.moonshot.ai/v1. Debido a que es compatible con OpenAI, se integra en herramientas como Claude Code, Cursor y Cline con un simple cambio de URL base. (La suscripción de tarifa plana de Kimi Code usa un ID separado, kimi-for-coding).

Pesos abiertos. Descargue de Hugging Face y autoalójelos. Moonshot recomienda vLLM, SGLang o KTransformers para el servicio. Esta es la ruta si necesita que los datos permanezcan en su propio hardware.

Cómo probar la API de Kimi K2.7 Code en Apidog

Antes de conectar el modelo a un agente, ayuda ver las solicitudes y respuestas en bruto. Apidog le ofrece un espacio de trabajo visual para hacer esto sin escribir un cliente.

Abra Apidog y cree una nueva solicitud HTTP.
Establezca el método en POST y la URL en https://api.moonshot.ai/v1/chat/completions.
Agregue un encabezado Authorization: Bearer <su-clave>. Obtenga una clave de la consola de la plataforma Kimi.
En el cuerpo, envíe una carga útil de estilo OpenAI con "model": "kimi-k2.7-code" y un array messages.
Envíe la solicitud y lea la respuesta. Apidog formatea el JSON, muestra el uso de tokens y le permite guardar la llamada como una prueba reutilizable.

A partir de ahí, puede construir un pequeño escenario de prueba: afirmar el estado de la respuesta, verificar que usage.completion_tokens se mantenga por debajo de un presupuesto y ejecutarlo en cada actualización del modelo para detectar regresiones. Dado que el endpoint es compatible con OpenAI, la misma configuración funciona para cualquier modelo en la plataforma Kimi. Si está probando la llamada a herramientas del modelo a través de MCP, nuestro manual de pruebas de servidor MCP explica las afirmaciones importantes. Descargue Apidog para seguir el ejemplo.

Quién debería elegir Kimi K2.7 Code

Elíjalo si está construyendo:

Agentes de codificación donde el costo y la latencia de los tokens deciden si el producto es viable.
Herramientas que necesitan un contexto largo: ediciones de repositorios completos, refactorizaciones grandes, razonamiento multiarchivo.
Cualquier cosa que deba ejecutarse en su propia infraestructura por privacidad o cumplimiento, ya que los pesos son abiertos.
Flujos de trabajo de codificación multimodales que leen capturas de pantalla, diagramas o vídeos.

Manténgase con un modelo de frontera cerrada si necesita:

La puntuación de codificación de un solo intento más alta, donde unos pocos puntos de referencia justifican el precio.
Un SLA gestionado y un contrato de soporte en lugar de autoalojamiento.

Para una visión más amplia del campo de código abierto, nuestra comparación de MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 pone a los rivales de Kimi uno al lado del otro.

Preguntas frecuentes

¿Es Kimi K2.7 Code de código abierto? Los pesos son públicos bajo una licencia MIT modificada, por lo que puede descargarlos, ejecutarlos y ajustarlos. Lea los términos de la licencia en la tarjeta del modelo antes de usarlos comercialmente.

¿Cuál es el tamaño de la ventana de contexto? 256K tokens. Eso es suficiente para un servicio completo más sus pruebas en una sola indicación.

¿Puedo ejecutarlo localmente? Sí. Moonshot recomienda vLLM, SGLang o KTransformers. Los pesos completos son grandes (escala de billones de parámetros), así que planifique una memoria GPU considerable o una construcción cuantificada.

¿Cuál es el ID de modelo para la API? Use kimi-k2.7-code en la API de Moonshot (https://api.moonshot.ai/v1); la suscripción de tarifa plana de Kimi Code usa kimi-for-coding. El endpoint es compatible con OpenAI, por lo que la mayoría de los clientes existentes funcionan con un cambio de URL base.

¿En qué se diferencia de Kimi K2.6 normal? Está ajustado específicamente para codificación y agentes, añade visión y utiliza aproximadamente un 30% menos de tokens de pensamiento para resultados comparables.

¿Soporta llamadas a herramientas y MCP? Sí. Está construido para el razonamiento intercalado y las llamadas a herramientas en varios pasos, y Kimi Code es compatible con el Protocolo de Contexto del Modelo (MCP).

¿Es gratis? Puede chatear en la aplicación Kimi sin costo, y los pesos se pueden descargar de forma gratuita. El uso de la API y del agente Kimi Code se ejecuta en planes de suscripción con límites de cuota.

Resumen

Kimi K2.7 Code es la apuesta de Moonshot de que los pesos abiertos más un bajo costo superan la persecución de la cima de la tabla de benchmarks. Es un modelo MoE de 1T de parámetros con 32B activos, una ventana de contexto de 256K, visión y un presupuesto de razonamiento ~30% más ligero que K2.6. No superará a GPT-5.5 ni a Claude Opus en la mayoría de las suites de codificación, pero se acerca mientras sigue siendo descargable y más barato de ejecutar, y se entrega con un agente de terminal capaz. Si está construyendo herramientas de codificación donde el costo y el control importan tanto como la calidad bruta, vale la pena una prueba real. Comience enviando una solicitud a través de Apidog para ver cómo se comporta la API, luego decida si desea autoalojarlo.

botón