Kimi K2.6: Modelo Aberto 1T Parâmetros da Moonshot AI Explicado

Ashley Innocent

Ashley Innocent

21 abril 2026

Kimi K2.6: Modelo Aberto 1T Parâmetros da Moonshot AI Explicado

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

A Moonshot AI lançou o Kimi K2.6 com uma afirmação ousada: é o novo estado da arte em codificação de código aberto, execução de longo prazo e enxames de agentes. Os números comprovam isso. 80,2% no SWE-Bench Verified, 96,4% no AIME 2026, 90,5% no GPQA-Diamond e 73,1% no OSWorld-Verified. Esses não são trechos de marketing; eles vêm diretamente do anúncio oficial no kimi.

Esta publicação detalha o que é o Kimi K2.6, como a arquitetura Agent Swarm muda o que um único modelo pode fazer, o panorama de benchmarks em comparação com GPT-5.4 e Claude 4.6, e onde você pode começar a usá-lo hoje.

💡
Quer testar o Kimi K2.6 com suas próprias cargas de trabalho de API? O Apidog pré-configura o endpoint compatível com OpenAI da Moonshot/Kimi em um espaço de trabalho visual. Importe uma vez, salve seu token Bearer e execute chat por streaming, chamadas de ferramentas e solicitações de visão com histórico completo. Baixe o Apidog gratuitamente.
botão

TL;DR

Kimi K2.6 em um parágrafo

O Kimi K2.6 é o modelo de código aberto de próxima geração da Moonshot AI, focado em codificação de última geração, execução de longo prazo e enxames de agentes. Ele funciona em kimi.com, no Kimi App, no Kimi Code e na API em platform.kimi.ai. É o primeiro lançamento da linha K a elevar o limite do Agent Swarm para 300 subagentes e mais de 4.000 passos simultâneos, tornando-o capaz de sessões de trabalho autônomas que duram dias, não segundos. Se você está familiarizado com a forma como outros modelos de ponta como Qwen 3.6 (veja nosso guia OpenRouter) ou Qwen3.5-Omni se encaixam em um fluxo de trabalho API-first, o Kimi K2.6 se enquadra no mesmo formato com um foco mais nítido em agentes.

imagem

A Moonshot publicou uma tabela completa de benchmarks no anúncio do Kimi K2.6. Os destaques:

Codificação

Benchmark Kimi K2.6
SWE-Bench Verified 80.2%
SWE-Bench Multilingual 76.7%
SWE-Bench Pro 58.6%
Terminal-Bench 2.0 66.7%

O SWE-Bench Verified com 80,2% iguala ou excede o Claude 4.6 no mesmo conjunto de testes, e o faz com pesos abertos que você pode baixar. O Terminal-Bench 2.0 com 66,7% representa um salto de 15,9 pontos em relação ao K2.5, o que mostra que a Moonshot investiu pesado na confiabilidade de manipulação de shell e arquivos.

Uso de Agentes e Ferramentas

Benchmark Kimi K2.6
HLE-Full (com ferramentas) 54.0%
BrowseComp 83.2% (86.3% com Agent Swarm)
DeepSearchQA (F1) 92.5%
Toolathlon 50.0%
Claw Eval (pass@3) 80.9%
OSWorld-Verified 73.1%

HLE-Full com 54,0% coloca o K2.6 à frente do GPT-5.4 (52,1%) e do Claude 4.6 (53,0%) nesse benchmark específico de raciocínio e ferramentas. O OSWorld-Verified com 73,1% significa que o K2.6 pode operar um ambiente de desktop real para tarefas em nível de sistema operacional, que é o mesmo espaço que o uso de computador do Claude Code visa.

Raciocínio e Conhecimento

Benchmark Kimi K2.6
AIME 2026 96.4%
HMMT 2026 (Fev) 92.7%
GPQA-Diamond 90.5%
IMO-AnswerBench 86.0%

AIME 2026 com 96,4% é quase perfeito em um benchmark de matemática competitiva que era brutal para modelos há apenas um ano.

Visão

Benchmark Kimi K2.6
MathVision (com Python) 93.2%
V* (com Python) 96.9%
MMMU-Pro 79.4%
CharXiv (RQ, com Python) 86.7%

Os resultados "com Python" destacam como a visão agora se encadeia no uso de ferramentas: o K2.6 lê uma figura, escreve Python e calcula a resposta na mesma trajetória.

Agent Swarm: o salto estrutural

Agent Swarm é a principal mudança arquitetônica no K2.6. O blog da Moonshot o descreve claramente: o K2.6 orquestra até 300 subagentes com mais de 4.000 passos coordenados, uma expansão de 3x em relação aos 100 agentes e 1.500 passos do K2.5.

Três padrões são importantes:

  1. Decomposição heterogênea de tarefas. O modelo não se clona 300 vezes. Ele divide uma tarefa em subtarefas com diferentes perfis de habilidades (código, pesquisa, visão, planejamento) e as direciona para o especialista certo.
  2. Inteligência composicional. Os subagentes se comunicam através de um estado compartilhado, produzindo documentos, websites, slides e planilhas em uma única sessão. Isso está próximo do espírito de como as arquiteturas de agentes Hermes estruturam a orquestração multiagente.
  3. Conversão de documento para habilidade. Uma especificação se torna uma habilidade que preserva o "DNA estrutural", o que significa que o modelo pode absorver um documento de design e agir como se tivesse conhecimento tribal.

Execuções reais do anúncio do Kimi

Três exemplos de prova de trabalho:

Se você já viu um agente de codificação perder o rumo após 20 chamadas de ferramentas, esses números são lidos de forma diferente. A lei de escala interessante aqui não são os parâmetros; são as horas-agente.

Como a arquitetura se sustenta

Mistura de especialistas

O K2.6 é um modelo MoE de 1 trilhão de parâmetros com 32 bilhões de parâmetros ativos por token. Você obtém capacidade de ponta com um custo de inferência mais próximo de um modelo denso de 32B. O mesmo trade-off se aplica a outros lançamentos da família MoE, como a API GLM-5V Turbo; o roteamento é onde os investimentos em engenharia são direcionados.

Contexto longo: 262.144 tokens

A janela de contexto é de exatamente 262.144 tokens (o número arredondado citado pela Moonshot). O comprimento máximo de geração chega a 98.304 tokens para tarefas de raciocínio. Isso é suficiente para incluir:

A Moonshot reescreveu partes da pilha de atenção para o K2.6 para manter a inferência de contexto longo estável, onde o K2.5 degradava.

Amostragem padrão

O blog recomenda parâmetros padrão de temperatura 1.0 e top-p 1.0 para o K2.6, o que é agressivo em comparação com a maioria dos modelos de codificação. Não siga cegamente os padrões de baixa temperatura que você vê na documentação da OpenAI ou Anthropic; a equipe Kimi ajustou o K2.6 para produzir resultados confiáveis em temperaturas mais altas.

Claw Groups: a camada multiagente acima do modelo

Claw Groups é uma prévia de pesquisa no anúncio do K2.6: um ecossistema aberto onde múltiplos agentes e humanos trabalham na mesma tarefa em laptops, dispositivos móveis e na nuvem. Quatro capacidades:

A pontuação Claw Eval de 80,9% (pass@3) mede o quão confiavelmente o K2.6 pode operar dentro desta camada. Se você está pensando em equipes de agentes autônomos da mesma forma que a empresa de agentes de IA da Paperclip descreve, o Claw Groups é um substrato pronto.

Desenvolvimento guiado por design e agentes proativos

O K2.6 vem com capacidades de geração de frontend que vão além da conclusão de código de chat. Da publicação oficial:

Agentes proativos operam 24 horas por dia, 7 dias por semana, dentro do OpenClaw e Hermes, orquestrando múltiplas aplicações em segundo plano. Esse é o mesmo padrão de "agente que nunca dorme" que as equipes estão construindo em torno do Google Agent Smith e de stacks customizadas como "build your own Claude Code" (construa seu próprio Claude Code).

Kimi K2.6 vs a fronteira fechada

Da tabela comparativa oficial:

Tarefa K2.6 GPT-5.4 Claude 4.6 Gemini 3.1 K2.5
HLE-Full (ferramentas) 54.0 52.1 53.0 51.4 50.2
BrowseComp 83.2 82.7 83.7 85.9 74.9
Terminal-Bench 2.0 66.7 65.4 65.4 68.5 50.8
SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7

Três conclusões:

  1. O K2.6 vence ou empata três dos quatro nesta tabela, incluindo superar o GPT-5.4 em HLE-Full e SWE-Bench Pro.
  2. O Gemini 3.1 lidera no Terminal-Bench e BrowseComp, então para pura navegação ou confiabilidade de terminal, ele ainda está na lista restrita.
  3. O K2.6 é fornecido com pesos abertos, o que nenhum dos concorrentes fechados faz.

Onde o Kimi K2.6 vive

kimi.com (chat)

A interface do Kimi para o consumidor é a maneira mais rápida de experimentar o K2.6. Faça login, selecione K2.6 no seletor de modelos e você terá chat, modo agente, Agent Swarm, visão e integração de ferramentas Kimi Code. Consulte nosso guia complementar sobre como usar o Kimi K2.6 gratuitamente para os detalhes.

Kimi App

O aplicativo móvel (iOS, Android) espelha a experiência web com entrada de voz e notificações push para tarefas de agente de longa duração.

Kimi Code

Kimi Code é a interface de codificação nativa do terminal. Ele se assemelha mais aos fluxos de trabalho do Claude Code do que a uma janela de chat: o K2.6 gerencia seu sistema de arquivos local, commits e testes, com o Agent Swarm funcionando por trás. Se você está procurando agentes de codificação, compare-o com o Cursor Composer 2.

API

A API é compatível com OpenAI. A URL base é https://api.moonshot.ai/v1, os IDs de modelo são kimi-k2.6 e kimi-k2.6-thinking. Escrevemos um guia completo em Como Usar a API Kimi K2.6, incluindo autenticação, streaming, chamada de ferramentas, visão, vídeo e invocação de Agent Swarm.

Pesos abertos no Hugging Face

Os pesos completos do K2.6 estão no Hugging Face em moonshotai/Kimi-K2.6 sob uma licença MIT modificada. Quantizações da comunidade (ubergarm GGUF, unsloth) tornam possível executá-lo em seu próprio hardware para equipes com GPUs de classe H100.

Como o K2.6 foi treinado (o que a Moonshot divulgou)

O anúncio do Kimi K2.6 não publica a receita completa de treinamento, mas as características do produto indicam para onde o esforço de engenharia foi direcionado:

Se você está escrevendo uma retrospectiva sobre o que diferencia um bom modelo aberto de 2026 de um excelente, esses quatro pontos são a maior parte da história.

Quem deve se importar

Escolha Kimi K2.6 se você está construindo:

Mantenha-se com modelos fechados se precisar de:

Como testar o Kimi K2.6 em cinco minutos com Apidog

Uma vez que você tenha uma chave de API Moonshot/Kimi, o Apidog te leva do zero a um teste funcional em minutos:

  1. Crie um ambiente: BASE_URL = https://api.moonshot.ai/v1, KIMI_API_KEY = sk-....
  2. Nova solicitação: POST {{BASE_URL}}/chat/completions.
  3. Cabeçalhos: Authorization: Bearer {{KIMI_API_KEY}}, Content-Type: application/json.
  4. Corpo:
{
  "model": "kimi-k2.6",
  "messages": [{"role": "user", "content": "Summarize the Kimi K2.6 announcement."}],
  "stream": true
}
  1. Clique em Enviar. Observe os tokens sendo transmitidos.

O Apidog também gerencia o histórico de solicitações (reprodução de sequências de chamadas de ferramentas com falha), validação de esquema contra a especificação de conclusões de chat da OpenAI, compartilhamento em equipe com chaves por membro e integração com o VS Code para testes no editor. Se você usa atualmente o Postman, nosso guia para testes de API sem Postman em 2026 explica a transição.

Perguntas Frequentes

O Kimi K2.6 é de código aberto? Os pesos são de código aberto sob uma licença MIT modificada (moonshotai/Kimi-K2.6). Os dados de treinamento e o código de treinamento não são públicos. Isso o torna "open-weight" no uso comum.

Como o Kimi K2.6 se compara ao K2.5? Grandes saltos em todos os aspectos, de acordo com a tabela oficial de benchmarks: +3,8 pontos no HLE-Full, +8,3 no BrowseComp, +15,9 no Terminal-Bench 2.0, +7,9 no SWE-Bench Pro, +20,5 no Claw Eval, aumento de 3x na capacidade do Agent Swarm.

Qual é a janela de contexto do Kimi K2.6? 262.144 tokens. A geração máxima para tarefas de raciocínio chega a 98.304 tokens.

Posso executar o Kimi K2.6 localmente? Sim, com hardware robusto. O MoE completo de 1T requer nós multi-GPU de classe H100. Builds quantizadas (4 bits, 3 bits) de colaboradores da comunidade se encaixam em configurações menores com alguma perda de qualidade. Consulte nosso guia de acesso gratuito para opções de quantização.

O Kimi K2.6 suporta chamadas de ferramentas? Sim. A API segue o formato de chamada de ferramentas da OpenAI. O Agent Swarm gerencia chamadas de ferramentas paralelas nativamente.

Qual a diferença entre Kimi K2.6 e Kimi K2.6 Thinking? O K2.6 é a variante de agente rápida. O K2.6 Thinking expõe uma cadeia de pensamento visível antes de responder. Use o Thinking para provas matemáticas, depuração difícil ou planejamento complexo.

Como acesso o Kimi K2.6 gratuitamente? O chat web em kimi.com é gratuito com uma cota diária. O Cloudflare Workers AI tem um nível gratuito. O auto-hospedagem a partir dos pesos do Hugging Face tem custo zero por token, uma vez que você tenha o hardware. Detalhamento completo em Como Usar o Kimi K2.6 Gratuitamente.

Como o Kimi K2.6 se compara a outros modelos de pesos abertos? Em comparação com Qwen 3.6 e Qwen3.5-Omni, o Kimi K2.6 lidera nos benchmarks de codificação e agentes; o Qwen ainda possui variantes mais fortes em multilinguismo e modelos menores. Em comparação com o DeepSeek V3.x, o K2.6 tem a vantagem na orquestração de agentes.

Resumo

O Kimi K2.6 é o modelo de pesos abertos mais pronto para produção lançado até hoje para codificação agêntica e trabalho de longo prazo. O enxame de 300 agentes, execução de 4.000 passos, janela de contexto de 262K e pesos abertos combinam-se para torná-lo uma ferramenta única na linha de modelos atual. A publicação de anúncio da Moonshot o enquadra como o novo estado da arte no trabalho de agentes de código aberto, e os benchmarks públicos apoiam a afirmação.

Se você está avaliando modelos para um agente de codificação, um assistente de pesquisa de longa duração ou um sistema multiagente, o Kimi K2.6 deve estar na sua lista. Obtenha uma chave em platform.kimi.ai, abra o Apidog e envie sua primeira solicitação. Depois, aprofunde-se em nossos guias mais detalhados sobre a API e os métodos de acesso gratuito.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs

Kimi K2.6: Modelo Aberto 1T Parâmetros da Moonshot AI Explicado