O que é o Código Kimi K2.7

A Moonshot AI acabou de lançar o Kimi K2.7 Code, um modelo de código aberto construído especificamente para escrever software e executar agentes de codificação. Ele mantém a escala de um trilhão de parâmetros da linha Kimi K2, adiciona visão e reduz a conta de "thinking-tokens" (tokens de raciocínio) que tornava as execuções de agentes anteriores caras. Se você usou o Kimi K2.6 ou sua API, este é o sucessor otimizado para codificação; ele também vem com um agente de terminal chamado Kimi Code que compete diretamente com o Claude Code e o Codex.

Aqui está o que o modelo realmente é, o que mudou, como ele pontua e onde você pode executá-lo hoje.

TL;DR

O Kimi K2.7 Code é um modelo Mixture-of-Experts: 1 trilhão de parâmetros totais, 32 bilhões ativos por token.
Ele adiciona uma janela de contexto de 256K tokens, visão (entrada de imagem e vídeo via um codificador MoonViT) e aproximadamente 30% menos "thinking-tokens" do que o K2.6 para o mesmo trabalho.
Os pesos são públicos sob uma licença MIT modificada; você pode hospedá-lo com vLLM, SGLang ou KTransformers.
Nos benchmarks relatados pela Moonshot, ele fica um pouco atrás do GPT-5.5 e do Claude Opus em tarefas de codificação e de agente; o argumento é pesos abertos mais custo, não o topo da tabela.
Ele vem com o Kimi Code, um agente de codificação para terminal e IDE, e uma API compatível com OpenAI que você pode testar em minutos com o Apidog.

Kimi K2.7 Code em um parágrafo

O Kimi K2.7 Code é o lançamento especializado em codificação da família K2 da Moonshot AI. Ele usa o mesmo design esparso de Mixture-of-Experts dos modelos Kimi recentes, então apenas uma fração de seus pesos é ativada por token. O sufixo "Code" é o ponto principal: a Moonshot ajustou este checkpoint para desenvolvimento de software, chamadas de ferramentas multi-etapa e longas sessões de agente, em vez de chat geral. As principais atualizações em relação ao K2.6 são a entrada multimodal nativa, um orçamento de raciocínio mais enxuto e uma integração mais estreita com a própria estrutura de agentes da Moonshot. Você pode usá-lo através do aplicativo web Kimi, do CLI Kimi Code, de uma API hospedada ou baixando os pesos do Hugging Face.

O que mudou do Kimi K2.6

Se você já leu nossa explicação do Kimi K2.6, três diferenças são as mais importantes.

É ajustado primeiramente para código e agentes. O K2.6 era um forte generalista. O K2.7 Code restringe o foco aos fluxos de trabalho de codificação: refatoração, depuração, exploração de base de código e encadeamento de chamadas de ferramentas sem perder o rumo no meio de uma tarefa.

Pensar é mais barato. A Moonshot relata uma redução de cerca de 30% no uso de "thinking-tokens" em comparação com o K2.6 para resultados comparáveis. Tokens de raciocínio são tokens faturados, então um corte de 30% impacta diretamente o custo e a latência da execução do seu agente. Em uma longa sessão de codificação com centenas de chamadas de ferramentas, isso se soma rapidamente.

Ele vê. O K2.7 Code vem com um codificador de visão MoonViT de 400M parâmetros, então ele lê capturas de tela, diagramas e frames de vídeo. Isso é importante para agentes que precisam olhar para uma UI com falha, uma captura de tela de rastreamento de pilha ou um mock de design antes de agir.

Por dentro da arquitetura

A forma do modelo explica tanto sua capacidade quanto seu baixo custo de serviço.

Especificação	Kimi K2.7 Code
Parâmetros totais	1 trilhão
Parâmetros ativos por token	32 bilhões
Especialistas	384 totais, 8 selecionados por token
Camadas	61 (1 densa)
Atenção	Multi-head Latent Attention (MLA)
Janela de contexto	256K tokens
Codificador de visão	MoonViT, 400M parâmetros
Licença	MIT modificada

A configuração de Mixture-of-Experts é o motivo pelo qual um modelo de "1 trilhão de parâmetros" é prático de ser executado. Um roteador escolhe 8 de 384 especialistas para cada token, então você paga pelo cálculo de 32 bilhões de parâmetros ativos, não pelo trilhão completo. Você obtém a capacidade de conhecimento de um modelo enorme com um custo por token mais próximo de um modelo de tamanho médio.

A Multi-head Latent Attention mantém o cache de chave-valor pequeno, o que torna uma janela de contexto de 256K acessível para servir. O contexto longo é a parte que os desenvolvedores sentem: você pode colocar um serviço inteiro, seus testes e sua configuração em um único prompt e pedir uma mudança que respeite tudo isso.

Os benchmarks, lidos honestamente

A Moonshot publicou pontuações contra GPT-5.5 e Claude Opus em suítes de codificação e de agente. O padrão é consistente: o K2.7 Code é competitivo e próximo, mas não supera a fronteira fechada na maioria das tarefas.

Codificação

Benchmark	Kimi K2.7 Code	GPT-5.5	Claude Opus
Kimi Code Bench v2	62.0	69.0	67.4
Program Bench	53.6	69.1	63.8
MLS Bench Lite	35.1	35.5	42.8

Agente e uso de ferramenta

Benchmark	Kimi K2.7 Code	GPT-5.5	Claude Opus
Kimi Claw 24/7	46.9	52.8	50.4
MCP Atlas	76.0	79.4	81.3
MCP Mark Verified	81.1	92.9	76.4

Duas ressalvas para manter a imparcialidade. Primeiro, várias dessas suítes são da própria Moonshot, então trate-as como o enquadramento do fornecedor, não como um placar neutro. Segundo, a história não é "Kimi vence". É "um modelo de código aberto que você pode baixar e hospedar fica a poucos pontos de modelos que você só pode alugar". No MCP Mark Verified, ele até supera o Claude Opus. Para muito trabalho real, um modelo que é 90% tão bom, mas aberto e mais barato, é a melhor troca. Se a capacidade de codificação bruta é sua única métrica, nossa comparação DeepSeek V4 vs Claude Opus cobre a lacuna entre modelos fechados e abertos com mais profundidade.

Por que o ganho de eficiência importa

A codificação por agente queima tokens em um loop: lê arquivos, raciocina, chama uma ferramenta, lê o resultado, raciocina novamente. A maior parte desse gasto é em raciocínio, não em saída. Reduzir os "thinking-tokens" em ~30% faz duas coisas ao mesmo tempo. Diminui a conta por tarefa e encurta o tempo real para cada etapa, porque o modelo escreve menos antes de agir. Se você já viu um agente de codificação emperrar enquanto "pensa", sabe por que isso vale mais do que um ponto de benchmark. Para mais maneiras de reduzir essa conta, consulte nosso guia sobre como reduzir os custos de tokens de agente a partir do CLI.

Kimi Code: o agente que vem com o modelo

O K2.7 Code não é apenas um checkpoint. A Moonshot construiu o Kimi Code, um agente de codificação nativo de terminal projetado com base nos pontos fortes do modelo: raciocínio preservado, raciocínio intercalado e chamadas de ferramentas em várias etapas. Ele escreve e edita arquivos, executa comandos de shell, pesquisa seu codebase, busca conteúdo web e gera subagentes para trabalho paralelo. Você o instala com um comando:

curl -fsSL https://code.kimi.com/kimi-code/install.sh | bash

Em seguida, execute kimi em qualquer diretório de projeto. Há também uma extensão para VS Code, além de suporte para JetBrains e Zed através do protocolo ACP. Cobrimos a configuração completa, os comandos slash e o fluxo de trabalho de primeira execução em um guia detalhado; se você usou o Kimi CLI antigo, o novo agente é uma reconstrução completa, não uma simples atualização.

Onde o Kimi K2.7 Code vive

Você tem quatro maneiras de acessar o modelo.

Aplicativo web Kimi e Kimi App. Acesso via chat para perguntas rápidas e prototipagem, sem necessidade de configuração.

Kimi Code CLI. O agente de terminal acima, para codificação prática dentro do seu repositório.

API. Um endpoint compatível com OpenAI na plataforma Moonshot. Use o id do modelo kimi-k2.7-code e aponte seu cliente OpenAI existente para https://api.moonshot.ai/v1. Por ser compatível com OpenAI, ele se integra a ferramentas como Claude Code, Cursor e Cline com uma simples troca de URL base. (A assinatura de taxa fixa do Kimi Code usa um id separado, kimi-for-coding.)

Pesos abertos. Baixe do Hugging Face e hospede você mesmo. A Moonshot recomenda vLLM, SGLang ou KTransformers para servir. Esta é a rota se você precisa que os dados permaneçam em seu próprio hardware.

Como testar a API Kimi K2.7 Code no Apidog

Antes de conectar o modelo a um agente, é útil ver as requisições e respostas brutas. O Apidog oferece um espaço de trabalho visual para fazer isso sem escrever um cliente.

Abra o Apidog e crie uma nova requisição HTTP.
Defina o método como POST e a URL como https://api.moonshot.ai/v1/chat/completions.
Adicione um cabeçalho Authorization: Bearer <sua-chave>. Obtenha uma chave no console da plataforma Kimi.
No corpo, envie um payload estilo OpenAI com "model": "kimi-k2.7-code" e um array messages.
Envie a requisição e leia a resposta. O Apidog formata o JSON, mostra o uso de tokens e permite salvar a chamada como um teste reutilizável.

A partir daí, você pode construir um pequeno cenário de teste: verificar o status da resposta, garantir que usage.completion_tokens permaneça dentro do orçamento e executá-lo em cada atualização do modelo para detectar regressões. Como o endpoint é compatível com OpenAI, a mesma configuração funciona para qualquer modelo na plataforma Kimi. Se você estiver testando as chamadas de ferramentas do modelo através do MCP, nosso manual de teste de servidor MCP detalha as afirmações que importam. Baixe o Apidog para acompanhar.

Quem deve escolher o Kimi K2.7 Code

Escolha-o se você está construindo:

Agentes de codificação onde o custo por token e a latência decidem se o produto é viável.
Ferramentas que precisam de contexto longo: edições de repositório inteiro, grandes refatorações, raciocínio em múltiplos arquivos.
Qualquer coisa que deve ser executada em sua própria infraestrutura por privacidade ou conformidade, já que os pesos são abertos.
Fluxos de trabalho de codificação multimodais que leem capturas de tela, diagramas ou vídeo.

Mantenha um modelo de fronteira fechada se você precisa:

A pontuação de codificação de uma única tentativa mais alta, onde alguns pontos de benchmark justificam o preço.
Um SLA e contrato de suporte gerenciados em vez de auto-hospedagem.

Para uma visão mais ampla do campo de pesos abertos, nossa comparação MiniMax M3 vs DeepSeek V4 vs Qwen 3.7 coloca os rivais do Kimi lado a lado.

FAQ

O Kimi K2.7 Code é open source? Os pesos são públicos sob uma licença MIT modificada, então você pode baixá-los, executá-los e ajustá-los. Leia os termos da licença no card do modelo antes do uso comercial.

Qual o tamanho da janela de contexto? 256K tokens. Isso é o suficiente para um serviço completo mais seus testes em um único prompt.

Posso executá-lo localmente? Sim. A Moonshot recomenda vLLM, SGLang ou KTransformers. Os pesos completos são grandes (escala de trilhões de parâmetros), então planeje para uma memória de GPU séria ou uma construção quantizada.

Qual o id do modelo para a API? Use kimi-k2.7-code na API da Moonshot (https://api.moonshot.ai/v1); a assinatura de taxa fixa do Kimi Code usa kimi-for-coding. O endpoint é compatível com OpenAI, então a maioria dos clientes existentes funciona com uma mudança de URL base.

Como ele é diferente do Kimi K2.6 regular? Ele é ajustado especificamente para codificação e agentes, adiciona visão e usa cerca de 30% menos "thinking-tokens" para resultados comparáveis.

Ele suporta chamadas de ferramentas e MCP? Sim. Ele é construído para raciocínio intercalado e chamadas de ferramentas multi-etapa, e o Kimi Code suporta o Model Context Protocol.

É gratuito? Você pode conversar no aplicativo Kimi sem custo, e os pesos são gratuitos para download. O uso da API e do agente Kimi Code funciona com planos de assinatura com limites de cota.

Resumo

O Kimi K2.7 Code é a aposta da Moonshot de que pesos abertos mais baixo custo superam a busca pelo topo da tabela de benchmarks. É um modelo MoE de 1T parâmetros com 32B ativos, uma janela de contexto de 256K, visão e um orçamento de raciocínio ~30% mais leve que o K2.6. Ele não vai superar o GPT-5.5 ou o Claude Opus na maioria das suítes de codificação, mas chega perto, permanecendo disponível para download e mais barato de executar, e vem com um agente de terminal capaz. Se você está construindo ferramentas de codificação onde o custo e o controle importam tanto quanto a qualidade bruta, vale a pena um teste real. Comece enviando uma requisição através do Apidog para ver como a API se comporta e, então, decida se irá hospedá-lo você mesmo.

button