A Moonshot AI lançou o Kimi K2.6 com uma afirmação ousada: é o novo estado da arte em codificação de código aberto, execução de longo prazo e enxames de agentes. Os números comprovam isso. 80,2% no SWE-Bench Verified, 96,4% no AIME 2026, 90,5% no GPQA-Diamond e 73,1% no OSWorld-Verified. Esses não são trechos de marketing; eles vêm diretamente do anúncio oficial no kimi.
Esta publicação detalha o que é o Kimi K2.6, como a arquitetura Agent Swarm muda o que um único modelo pode fazer, o panorama de benchmarks em comparação com GPT-5.4 e Claude 4.6, e onde você pode começar a usá-lo hoje.
TL;DR
- Lançamento: Moonshot AI, abril de 2026, código aberto (pesos no Hugging Face, API em platform.kimi.ai).
- Arquitetura: Mistura de especialistas (MoE) com 1 trilhão de parâmetros, 32 bilhões de parâmetros ativos por token, contexto de 262.144 tokens (256K).
- Saída máxima: até 98.304 tokens para tarefas de raciocínio.
- Enxame de Agentes: até 300 subagentes, mais de 4.000 passos coordenados por tarefa (3x o limite do K2.5).
- Principais benchmarks: SWE-Bench Verified 80,2%, Terminal-Bench 2.0 66,7%, AIME 2026 96,4%, HLE-Full (ferramentas) 54,0%, OSWorld-Verified 73,1%.
- Interfaces: Chat kimi.com, Kimi App, Kimi Code, API, pesos abertos.
Kimi K2.6 em um parágrafo
O Kimi K2.6 é o modelo de código aberto de próxima geração da Moonshot AI, focado em codificação de última geração, execução de longo prazo e enxames de agentes. Ele funciona em kimi.com, no Kimi App, no Kimi Code e na API em platform.kimi.ai. É o primeiro lançamento da linha K a elevar o limite do Agent Swarm para 300 subagentes e mais de 4.000 passos simultâneos, tornando-o capaz de sessões de trabalho autônomas que duram dias, não segundos. Se você está familiarizado com a forma como outros modelos de ponta como Qwen 3.6 (veja nosso guia OpenRouter) ou Qwen3.5-Omni se encaixam em um fluxo de trabalho API-first, o Kimi K2.6 se enquadra no mesmo formato com um foco mais nítido em agentes.

A Moonshot publicou uma tabela completa de benchmarks no anúncio do Kimi K2.6. Os destaques:
Codificação
| Benchmark | Kimi K2.6 |
|---|---|
| SWE-Bench Verified | 80.2% |
| SWE-Bench Multilingual | 76.7% |
| SWE-Bench Pro | 58.6% |
| Terminal-Bench 2.0 | 66.7% |
O SWE-Bench Verified com 80,2% iguala ou excede o Claude 4.6 no mesmo conjunto de testes, e o faz com pesos abertos que você pode baixar. O Terminal-Bench 2.0 com 66,7% representa um salto de 15,9 pontos em relação ao K2.5, o que mostra que a Moonshot investiu pesado na confiabilidade de manipulação de shell e arquivos.
Uso de Agentes e Ferramentas
| Benchmark | Kimi K2.6 |
|---|---|
| HLE-Full (com ferramentas) | 54.0% |
| BrowseComp | 83.2% (86.3% com Agent Swarm) |
| DeepSearchQA (F1) | 92.5% |
| Toolathlon | 50.0% |
| Claw Eval (pass@3) | 80.9% |
| OSWorld-Verified | 73.1% |
HLE-Full com 54,0% coloca o K2.6 à frente do GPT-5.4 (52,1%) e do Claude 4.6 (53,0%) nesse benchmark específico de raciocínio e ferramentas. O OSWorld-Verified com 73,1% significa que o K2.6 pode operar um ambiente de desktop real para tarefas em nível de sistema operacional, que é o mesmo espaço que o uso de computador do Claude Code visa.
Raciocínio e Conhecimento
| Benchmark | Kimi K2.6 |
|---|---|
| AIME 2026 | 96.4% |
| HMMT 2026 (Fev) | 92.7% |
| GPQA-Diamond | 90.5% |
| IMO-AnswerBench | 86.0% |
AIME 2026 com 96,4% é quase perfeito em um benchmark de matemática competitiva que era brutal para modelos há apenas um ano.
Visão
| Benchmark | Kimi K2.6 |
|---|---|
| MathVision (com Python) | 93.2% |
| V* (com Python) | 96.9% |
| MMMU-Pro | 79.4% |
| CharXiv (RQ, com Python) | 86.7% |
Os resultados "com Python" destacam como a visão agora se encadeia no uso de ferramentas: o K2.6 lê uma figura, escreve Python e calcula a resposta na mesma trajetória.
Agent Swarm: o salto estrutural
Agent Swarm é a principal mudança arquitetônica no K2.6. O blog da Moonshot o descreve claramente: o K2.6 orquestra até 300 subagentes com mais de 4.000 passos coordenados, uma expansão de 3x em relação aos 100 agentes e 1.500 passos do K2.5.
Três padrões são importantes:
- Decomposição heterogênea de tarefas. O modelo não se clona 300 vezes. Ele divide uma tarefa em subtarefas com diferentes perfis de habilidades (código, pesquisa, visão, planejamento) e as direciona para o especialista certo.
- Inteligência composicional. Os subagentes se comunicam através de um estado compartilhado, produzindo documentos, websites, slides e planilhas em uma única sessão. Isso está próximo do espírito de como as arquiteturas de agentes Hermes estruturam a orquestração multiagente.
- Conversão de documento para habilidade. Uma especificação se torna uma habilidade que preserva o "DNA estrutural", o que significa que o modelo pode absorver um documento de design e agir como se tivesse conhecimento tribal.
Execuções reais do anúncio do Kimi
Três exemplos de prova de trabalho:
- Otimização de inferência Qwen3.5-0.8B no Mac — Mais de 12 horas de trabalho contínuo, mais de 4.000 chamadas de ferramentas, 14 iterações, aumentando o throughput de 15 para 193 tokens/seg (aproximadamente 20% mais rápido que a linha de base do LM Studio).
- Ajuste do motor financeiro Exchange-core — 13 horas, mais de 1.000 chamadas de ferramentas, mais de 4.000 linhas de código modificadas, ganho de throughput médio de 185% (0,43 → 1,24 MT/s), throughput de desempenho de 133% (1,23 → 2,86 MT/s).
- Execução autônoma de infraestrutura de 5 dias — gerenciamento de tarefas multi-threaded e resposta a incidentes sem supervisão humana.
Se você já viu um agente de codificação perder o rumo após 20 chamadas de ferramentas, esses números são lidos de forma diferente. A lei de escala interessante aqui não são os parâmetros; são as horas-agente.
Como a arquitetura se sustenta
Mistura de especialistas
O K2.6 é um modelo MoE de 1 trilhão de parâmetros com 32 bilhões de parâmetros ativos por token. Você obtém capacidade de ponta com um custo de inferência mais próximo de um modelo denso de 32B. O mesmo trade-off se aplica a outros lançamentos da família MoE, como a API GLM-5V Turbo; o roteamento é onde os investimentos em engenharia são direcionados.
Contexto longo: 262.144 tokens
A janela de contexto é de exatamente 262.144 tokens (o número arredondado citado pela Moonshot). O comprimento máximo de geração chega a 98.304 tokens para tarefas de raciocínio. Isso é suficiente para incluir:
- Um codebase de médio porte inteiro e ainda ter espaço para a trajetória do agente
- Um documento legal ou de pesquisa completo com espaço para Q&A em múltiplas rodadas
- Um histórico de chamadas de ferramentas de vários dias para sessões de agentes em andamento
A Moonshot reescreveu partes da pilha de atenção para o K2.6 para manter a inferência de contexto longo estável, onde o K2.5 degradava.
Amostragem padrão
O blog recomenda parâmetros padrão de temperatura 1.0 e top-p 1.0 para o K2.6, o que é agressivo em comparação com a maioria dos modelos de codificação. Não siga cegamente os padrões de baixa temperatura que você vê na documentação da OpenAI ou Anthropic; a equipe Kimi ajustou o K2.6 para produzir resultados confiáveis em temperaturas mais altas.
Claw Groups: a camada multiagente acima do modelo
Claw Groups é uma prévia de pesquisa no anúncio do K2.6: um ecossistema aberto onde múltiplos agentes e humanos trabalham na mesma tarefa em laptops, dispositivos móveis e na nuvem. Quatro capacidades:
- Correspondência dinâmica de tarefas baseada em kits de ferramentas especializados
- Detecção de falhas com reatribuição automática de tarefas
- Implantação entre dispositivos
- Pontos de verificação com intervenção humana
A pontuação Claw Eval de 80,9% (pass@3) mede o quão confiavelmente o K2.6 pode operar dentro desta camada. Se você está pensando em equipes de agentes autônomos da mesma forma que a empresa de agentes de IA da Paperclip descreve, o Claw Groups é um substrato pronto.
Desenvolvimento guiado por design e agentes proativos
O K2.6 vem com capacidades de geração de frontend que vão além da conclusão de código de chat. Da publicação oficial:
- Geração full-stack incluindo autenticação, bancos de dados e transações
- Integração de ferramentas de geração de imagem e vídeo dentro das trajetórias do agente
- Animações acionadas por rolagem, elementos interativos e saída pronta para produção
Agentes proativos operam 24 horas por dia, 7 dias por semana, dentro do OpenClaw e Hermes, orquestrando múltiplas aplicações em segundo plano. Esse é o mesmo padrão de "agente que nunca dorme" que as equipes estão construindo em torno do Google Agent Smith e de stacks customizadas como "build your own Claude Code" (construa seu próprio Claude Code).
Kimi K2.6 vs a fronteira fechada
Da tabela comparativa oficial:
| Tarefa | K2.6 | GPT-5.4 | Claude 4.6 | Gemini 3.1 | K2.5 |
|---|---|---|---|---|---|
| HLE-Full (ferramentas) | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
Três conclusões:
- O K2.6 vence ou empata três dos quatro nesta tabela, incluindo superar o GPT-5.4 em HLE-Full e SWE-Bench Pro.
- O Gemini 3.1 lidera no Terminal-Bench e BrowseComp, então para pura navegação ou confiabilidade de terminal, ele ainda está na lista restrita.
- O K2.6 é fornecido com pesos abertos, o que nenhum dos concorrentes fechados faz.
Onde o Kimi K2.6 vive
kimi.com (chat)
A interface do Kimi para o consumidor é a maneira mais rápida de experimentar o K2.6. Faça login, selecione K2.6 no seletor de modelos e você terá chat, modo agente, Agent Swarm, visão e integração de ferramentas Kimi Code. Consulte nosso guia complementar sobre como usar o Kimi K2.6 gratuitamente para os detalhes.
Kimi App
O aplicativo móvel (iOS, Android) espelha a experiência web com entrada de voz e notificações push para tarefas de agente de longa duração.
Kimi Code
Kimi Code é a interface de codificação nativa do terminal. Ele se assemelha mais aos fluxos de trabalho do Claude Code do que a uma janela de chat: o K2.6 gerencia seu sistema de arquivos local, commits e testes, com o Agent Swarm funcionando por trás. Se você está procurando agentes de codificação, compare-o com o Cursor Composer 2.
API
A API é compatível com OpenAI. A URL base é https://api.moonshot.ai/v1, os IDs de modelo são kimi-k2.6 e kimi-k2.6-thinking. Escrevemos um guia completo em Como Usar a API Kimi K2.6, incluindo autenticação, streaming, chamada de ferramentas, visão, vídeo e invocação de Agent Swarm.
Pesos abertos no Hugging Face
Os pesos completos do K2.6 estão no Hugging Face em moonshotai/Kimi-K2.6 sob uma licença MIT modificada. Quantizações da comunidade (ubergarm GGUF, unsloth) tornam possível executá-lo em seu próprio hardware para equipes com GPUs de classe H100.
Como o K2.6 foi treinado (o que a Moonshot divulgou)
O anúncio do Kimi K2.6 não publica a receita completa de treinamento, mas as características do produto indicam para onde o esforço de engenharia foi direcionado:
- Estabilidade de longo prazo — A Moonshot aponta para execuções de agentes de 12 e 13 horas como prova de treinamento contra modos de falha relacionados à duração da sessão. O K2.5 degradava após algumas centenas de chamadas de ferramentas; o K2.6 suporta mais de 4.000.
- Confiabilidade na chamada de ferramentas — A taxa de sucesso de invocação de ferramentas de 96,60% do CodeBuddy é o número público. Dados sintéticos de uso de ferramentas no treinamento são a forma comum de os laboratórios alcançarem isso.
- Treinamento composicional de enxames — o comportamento heterogêneo dos subagentes implica sinal de treinamento em múltiplos papéis de agente (planejador, codificador, pesquisador, revisor), e não um único generalista.
- Cadeia de Visão + Código — o padrão "MathVision com Python" (93,2%) indica treinamento conjunto multimodal + uso de ferramentas, e não um adaptador de visão acoplado.
Se você está escrevendo uma retrospectiva sobre o que diferencia um bom modelo aberto de 2026 de um excelente, esses quatro pontos são a maior parte da história.
Quem deve se importar
Escolha Kimi K2.6 se você está construindo:
- Agentes de codificação de longa duração. As execuções de demonstração de 4.000 passos e 12 horas não são marketing; elas fazem parte da arquitetura.
- Sistemas multiagentes. Agent Swarm e Claw Groups oferecem orquestração de 300 agentes sem que você precise escrever o código.
- Produção com pesos abertos. Você precisa de soberania de modelo, ajuste fino personalizado ou controle regulatório.
- Trabalho com API de alto throughput. O custo de inferência de MoE está bem abaixo do preço de modelos fechados, e a API compatível com OpenAI se encaixa em códigos existentes.
Mantenha-se com modelos fechados se precisar de:
- Alinhamento de segurança rigoroso. O Claude 4.6 ainda lidera em recusas sutis e conformidade com políticas.
- Latência de chat do consumidor em menos de um segundo. As execuções do Agent Swarm levam minutos, não milissegundos.
- SLAs de fornecedor fixos. Para indústrias regulamentadas, o contrato de suporte de um laboratório de ponta pode importar mais do que a qualidade do modelo.
Como testar o Kimi K2.6 em cinco minutos com Apidog
Uma vez que você tenha uma chave de API Moonshot/Kimi, o Apidog te leva do zero a um teste funcional em minutos:
- Crie um ambiente:
BASE_URL = https://api.moonshot.ai/v1,KIMI_API_KEY = sk-.... - Nova solicitação:
POST {{BASE_URL}}/chat/completions. - Cabeçalhos:
Authorization: Bearer {{KIMI_API_KEY}},Content-Type: application/json. - Corpo:
{
"model": "kimi-k2.6",
"messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
"stream": true
}
- Clique em Enviar. Observe os tokens sendo transmitidos.
O Apidog também gerencia o histórico de solicitações (reprodução de sequências de chamadas de ferramentas com falha), validação de esquema contra a especificação de conclusões de chat da OpenAI, compartilhamento em equipe com chaves por membro e integração com o VS Code para testes no editor. Se você usa atualmente o Postman, nosso guia para testes de API sem Postman em 2026 explica a transição.
Perguntas Frequentes
O Kimi K2.6 é de código aberto? Os pesos são de código aberto sob uma licença MIT modificada (moonshotai/Kimi-K2.6). Os dados de treinamento e o código de treinamento não são públicos. Isso o torna "open-weight" no uso comum.
Como o Kimi K2.6 se compara ao K2.5? Grandes saltos em todos os aspectos, de acordo com a tabela oficial de benchmarks: +3,8 pontos no HLE-Full, +8,3 no BrowseComp, +15,9 no Terminal-Bench 2.0, +7,9 no SWE-Bench Pro, +20,5 no Claw Eval, aumento de 3x na capacidade do Agent Swarm.
Qual é a janela de contexto do Kimi K2.6? 262.144 tokens. A geração máxima para tarefas de raciocínio chega a 98.304 tokens.
Posso executar o Kimi K2.6 localmente? Sim, com hardware robusto. O MoE completo de 1T requer nós multi-GPU de classe H100. Builds quantizadas (4 bits, 3 bits) de colaboradores da comunidade se encaixam em configurações menores com alguma perda de qualidade. Consulte nosso guia de acesso gratuito para opções de quantização.
O Kimi K2.6 suporta chamadas de ferramentas? Sim. A API segue o formato de chamada de ferramentas da OpenAI. O Agent Swarm gerencia chamadas de ferramentas paralelas nativamente.
Qual a diferença entre Kimi K2.6 e Kimi K2.6 Thinking? O K2.6 é a variante de agente rápida. O K2.6 Thinking expõe uma cadeia de pensamento visível antes de responder. Use o Thinking para provas matemáticas, depuração difícil ou planejamento complexo.
Como acesso o Kimi K2.6 gratuitamente? O chat web em kimi.com é gratuito com uma cota diária. O Cloudflare Workers AI tem um nível gratuito. O auto-hospedagem a partir dos pesos do Hugging Face tem custo zero por token, uma vez que você tenha o hardware. Detalhamento completo em Como Usar o Kimi K2.6 Gratuitamente.
Como o Kimi K2.6 se compara a outros modelos de pesos abertos? Em comparação com Qwen 3.6 e Qwen3.5-Omni, o Kimi K2.6 lidera nos benchmarks de codificação e agentes; o Qwen ainda possui variantes mais fortes em multilinguismo e modelos menores. Em comparação com o DeepSeek V3.x, o K2.6 tem a vantagem na orquestração de agentes.
Resumo
O Kimi K2.6 é o modelo de pesos abertos mais pronto para produção lançado até hoje para codificação agêntica e trabalho de longo prazo. O enxame de 300 agentes, execução de 4.000 passos, janela de contexto de 262K e pesos abertos combinam-se para torná-lo uma ferramenta única na linha de modelos atual. A publicação de anúncio da Moonshot o enquadra como o novo estado da arte no trabalho de agentes de código aberto, e os benchmarks públicos apoiam a afirmação.
Se você está avaliando modelos para um agente de codificação, um assistente de pesquisa de longa duração ou um sistema multiagente, o Kimi K2.6 deve estar na sua lista. Obtenha uma chave em platform.kimi.ai, abra o Apidog e envie sua primeira solicitação. Depois, aprofunde-se em nossos guias mais detalhados sobre a API e os métodos de acesso gratuito.
