O anúncio do Kimi K2.6 da Moonshot AI o chama de o novo estado da arte em codificação de código aberto, execução de longo prazo e enxames de agentes, com SWE-Bench Verificado em 80,2%, Terminal-Bench 2.0 em 66,7%, e capacidade de enxame de agentes expandida 3x para 300 subagentes e mais de 4.000 passos coordenados. A melhor parte para desenvolvedores: é totalmente de código aberto, e existem caminhos gratuitos reais para usá-lo em chat, via API e até mesmo localmente em seu próprio hardware.
Esta publicação cobre todos os métodos de acesso gratuito que funcionam em abril de 2026: chat web kimi.com, o Kimi App, Cloudflare Workers AI, OpenRouter (com ressalvas), quantizações auto-hospedadas e programas de crédito gratuito. Você verá o que cada opção oferece, o que ela limita e quando escolhê-la.
TL;DR: 6 caminhos gratuitos para o Kimi K2.6
| Método | Tipo | Melhor para | Limite diário |
|---|---|---|---|
| kimi.com chat web | Interface de Chat | Perguntas rápidas, Enxame de Agentes, visão | Cota diária de mensagens |
| Aplicativo móvel Kimi | Interface de Chat | Uso em trânsito | Corresponde à versão web |
| Cloudflare Workers AI | API (nível gratuito) | Desenvolvedores dentro de Workers | 10K neurônios/dia |
| Variantes gratuitas do OpenRouter | API | Teste rápido de integração | Apenas Kimi K2 antigo |
| Pesos abertos auto-hospedados | Inferência local | Equipes com hardware GPU | Nenhum |
| Programas de crédito gratuito | Testes de API | Usuários iniciantes | Baseado em conta |
Escolha com base no que você está desenvolvendo. As interfaces de chat são instantâneas. Os níveis de API são programáveis. A auto-hospedagem tem custo zero por token, mas custo real de hardware.

Opção 1: chat web do Kimi (o mais fácil)
O caminho gratuito mais rápido é o produto oficial do Kimi para consumidores em kimi. A Moonshot hospeda o modelo completo K2.6 lá, com o Enxame de Agentes ativo e sem necessidade de cartão de crédito.
Configuração
- Acesse kimi.com.
- Clique em Cadastre-se (e-mail, Google ou telefone).
- Escolha K2.6 no menu suspenso de modelos no topo do chat.
Essa é toda a configuração. Agora você pode usar o modelo para chat, modo de agente, codificação (integração via Kimi Code), entrada de visão (imagens), compreensão de vídeo e execuções completas do Enxame de Agentes.
O que você obtém
- Kimi K2.6 completo e Kimi K2.6 Thinking
- Enxame de Agentes no navegador (painel lateral mostra o progresso dos subagentes)
- Integração com terminal Kimi Code se você instalar a CLI complementar
- Upload de imagem e vídeo (MathVision 93,2%, MMMU-Pro 79,4%)
- Histórico de chat entre sessões
- Cota diária de mensagens que se reinicia a cada 24 horas
O nível gratuito cobre a maioria das necessidades pessoais e de pesquisa. Para uso contínuo por desenvolvedores, você vai querer um caminho de API; veja a Opção 3.
Limites
- Contagem diária de mensagens (a Moonshot ajusta isso pela carga; estime 30-50 mensagens para K2.6)
- O modo de agente conta como várias mensagens por tarefa
- Nenhum acesso programático a partir desta interface
- Recursos empresariais (SSO, logs de auditoria, contas de equipe) exigem assinatura paga
Opção 2: Aplicativo móvel Kimi
O mesmo modelo, em formato de telefone. Baixe o Kimi na App Store ou Google Play. Faça login com a mesma conta que você usa na web; o histórico de chat sincroniza entre os dispositivos.
O aplicativo adiciona entrada de voz, captura de fotos para compreensão de imagem e notificações push quando tarefas de agente longas são concluídas. Um par útil para o cliente web para quem se move entre a mesa e o telefone.
Mesma cota gratuita que a web. Mesma falta de acesso programático.
Opção 3: Cloudflare Workers AI (nível gratuito de API)
A Cloudflare Workers AI hospeda o Kimi K2.6 como @cf/moonshotai/kimi-k2.6. O plano gratuito da Workers AI concede 10.000 neurônios por dia, o que equivale a aproximadamente 2 a 5 milhões de tokens de inferência K2.6, dependendo do comprimento do prompt. Isso é suficiente para a maioria dos projetos pessoais e protótipos.
Configuração
- Inscreva-se em dash.cloudflare.com (gratuito).
- Vá para AI > Workers AI e aceite os termos.
- Em Meu Perfil > Tokens de API, crie um token com escopo de leitura/escrita para Workers AI.
- Copie seu ID de conta (topo da página do Workers AI).
Chamada K2.6 via API REST do Cloudflare
curl https://api.cloudflare.com/client/v4/accounts/$ACCOUNT_ID/ai/run/@cf/moonshotai/kimi-k2.6 \
-H "Authorization: Bearer $CF_API_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "Escreva um haicai sobre APIs."}
]
}'
Dentro de um Cloudflare Worker (o ajuste ideal)
export default {
async fetch(request, env) {
const response = await env.AI.run("@cf/moonshotai/kimi-k2.6", {
messages: [
{ role: "user", content: "Explique recursão de forma simples." }
],
});
return Response.json(response);
}
};
Implante com `wrangler deploy`. Agora você tem um endpoint K2.6 gratuito em sua própria URL de Workers.
Limites
- 10.000 neurônios/dia no plano gratuito (reinicia à meia-noite UTC)
- Limite por solicitação na janela de contexto (menor que os 262.144 tokens completos; verifique os limites atuais do Workers AI)
- A disponibilidade de streaming depende da versão atual do endpoint
- Limitado por região
A Cloudflare Workers AI é a melhor opção gratuita de API para desenvolvedores. Você obtém uma URL de produção real, implantações rápidas e não precisa de cartão. Para testes de integração em torno da borda do nível gratuito, combine-a com a mudança de ambiente do Apidog para alternar entre Cloudflare e o endpoint Moonshot pago com um clique.
Opção 4: OpenRouter (roteamento gratuito, principalmente pago)
O OpenRouter oferece o Kimi K2.6 em um nível pago. Dois truques o tornam útil para fluxos de trabalho gratuitos:
Truque 1: variantes mais antigas e gratuitas do Kimi
O OpenRouter hospeda moonshotai/kimi-k2:free (o Kimi K2 anterior, pré-2.6). É gratuito com limites de taxa. A qualidade é inferior ao K2.6, mas é útil para conectar códigos de integração antes de você pagar:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/kimi-k2:free",
"messages": [{"role": "user", "content": "Olá"}]
}'
Desenvolva contra a variante gratuita e, em seguida, troque a string do modelo para `moonshotai/kimi-k2.6` quando estiver pronto para pagar. Para contexto sobre como Qwen lida com o mesmo padrão, consulte nosso guia OpenRouter Qwen 3.6.
Truque 2: promoções de crédito gratuito
O OpenRouter regularmente realiza promoções para novas contas com alguns dólares em crédito, o suficiente para milhões de tokens K2.6. Verifique o painel do OpenRouter ou o Discord deles para ofertas atuais.
O valor do OpenRouter reside na flexibilidade. Uma única chave de API cobre Kimi K2.6, Claude, GPT, Gemini, DeepSeek e Qwen, com preços transparentes por modelo.
Opção 5: auto-hospedar os pesos abertos (custo zero por token)
Esta é a opção mais “gratuita”, com a maior configuração. A Moonshot publica os pesos completos do K2.6 sob uma licença MIT modificada em huggingface.co/moonshotai/Kimi-K2.6. Você pode baixá-los, executá-los e ajustá-los sem pagar à Moonshot.
O problema do hardware
O K2.6 completo tem 1 trilhão de parâmetros. Em FP8, isso representa cerca de 1TB de memória de GPU, o que significa um cluster multi-GPU H100 ou H200. Não é um caminho "gratuito" realista para a maioria das equipes.
A quantização torna isso possível
A comunidade de código aberto publicou compilações quantizadas:
- ubergarm/Kimi-K2.6-GGUF — quantizações compatíveis com llama.cpp. Uma quantização de 4 bits cabe em um único nó 8xH100 estilo DGX. Quantizações menores (Q3, Q2) rodam em configurações menores com perda de qualidade.
- unsloth/Kimi-K2.6 — quantizações amigáveis para ajuste, projetadas para ajuste fino LoRA.
- Aluguel em nuvem — RunPod, Vast.ai ou Modal para aluguel de GPU por hora. Não é estritamente gratuito, mas um fim de semana de testes custa menos de US$ 10.
Executando localmente com llama.cpp
# Instale llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
# Baixe uma compilação quantizada
huggingface-cli download ubergarm/Kimi-K2.6-GGUF kimi-k2.6-q4_K_M.gguf --local-dir ./models
# Execute no modo servidor
./llama-server -m ./models/kimi-k2.6-q4_K_M.gguf --host 0.0.0.0 --port 8080
O servidor expõe uma API compatível com OpenAI em `http://localhost:8080/v1`. Aponte o SDK da OpenAI ou o Apidog para ele e você terá inferência K2.6 totalmente local e gratuita.
Cálculo de memória para auto-hospedagem
Referência rápida para o que se encaixa onde:
- Pesos completos FP16: ~2 TB. Precisa de um rack completo.
- FP8 quantizado: ~1 TB. 2x nós 8xH100 80GB.
- 4 bits (Q4_K_M): ~500 GB. Um único nó 8xH100.
- 3 bits (Q3_K_M): ~375 GB. 4x H100 com alguma descarga de CPU.
- 2 bits (Q2_K): ~250 GB. Roda em hardware de prosumer com perda de qualidade.
Para amadores, uma instância alugada de 2x H100 em Vast.ai custa cerca de US$ 4/hora e executa a quantização Q4. Não é grátis, mas perto o suficiente para um fim de semana.
Quando a auto-hospedagem é a escolha certa
- Requisitos no local (conformidade, soberania de dados, como fluxos de trabalho HIPAA cobertos em nosso guia de API HIPAA)
- Inferência de alto volume onde os custos de API por token se acumulam
- Ajuste fino em dados proprietários
- Você já possui hardware de GPU
Quando não é
- Você está prototipando (a configuração do hardware leva mais tempo do que o protótipo)
- Você precisa de alta taxa de transferência ou baixa latência
- Você não tem capacidade de DevOps
Opção 6: programas de crédito gratuito
A maioria dos provedores comerciais oferece créditos gratuitos para novas contas. Empilhe-os:
- Plataforma Moonshot: novas contas geralmente recebem um pequeno saldo gratuito. Inscreva-se em platform.moonshot.ai ou platform.kimi.ai.
- OpenRouter: créditos promocionais para novas contas.
- Together AI: créditos de teste gratuito para o endpoint Kimi K2.6.
- Fireworks AI: créditos gratuitos para usuários iniciantes.
- Cloudflare Workers AI: 10K neurônios/dia gratuitos para sempre, sem necessidade de cartão de crédito.
Créditos acumulados cobrem milhões de tokens para projetos paralelos, protótipos e avaliação de modelos.
Qual opção gratuita você deve escolher?
Uso pessoal ou pesquisa
kimi.com chat web. Configuração zero, Enxame de Agentes completo, cota diária generosa.
Codificação de hobby
Cloudflare Workers AI. API programável, 10K neurônios/dia gratuitamente, URL de produção real.
Prototipagem de um produto comercial
Combinação. Itere prompts em kimi.com, então pegue o crédito gratuito da Moonshot e construa uma integração de API real com Apidog. Quando os créditos acabarem, você terá uma integração comprovada para orçar.
Trabalho empresarial ou sensível a dados
Auto-hospedar pesos quantizados. Único caminho "gratuito" em produção. Veja ferramentas de teste de API com isolamento de rede para padrões empresariais adjacentes.
Escala de agente ou agente de codificação
Comece com o nível gratuito do Cloudflare, promova para a API paga da Moonshot quando atingir o limite diário.
Limites do nível gratuito que você atingirá
Cada caminho tem uma barreira. Saber onde ela está evita frustrações:
- kimi.com: contagem diária de mensagens, tarefas do Enxame de Agentes contam como múltiplas mensagens.
- Cloudflare Workers AI: 10K neurônios/dia. O uso intenso de K2.6 pode esgotar em algumas centenas de chamadas.
- Variantes gratuitas do OpenRouter: com limite de taxa, geralmente 20 solicitações/min em modelos gratuitos.
- Créditos gratuitos da Moonshot: esgotam após alguns milhões de tokens.
- Auto-hospedado: sem limite de token, mas com custo de hardware + eletricidade.
Misture e combine. Muitas equipes usam kimi.com para exploração, Cloudflare para desenvolvimento/teste e Moonshot pago para produção.
Testando endpoints gratuitos com Apidog
Quando você está unindo níveis gratuitos em kimi.com, Cloudflare, OpenRouter e uma compilação local de llama.cpp, você acaba com quatro ou cinco configurações de endpoint. O Apidog as centraliza.

Em um único projeto Apidog:
- Salve o endpoint do Cloudflare Workers AI com seu ID de conta
- Salve o endpoint da API Moonshot com seu token Bearer
- Salve um endpoint local para sua compilação auto-hospedada
- Salve um endpoint OpenRouter com troca de modelo
- Execute o mesmo prompt de teste em todos os quatro e compare as saídas
O Apidog lida com fluxos SSE em todos esses backends, salva o histórico de solicitações para que você possa repetir chamadas com falha mais tarde e suporta o compartilhamento de equipe para fluxos de trabalho focados em desenvolvedores. O nível gratuito cobre o uso individual com colaboração em equipe para até quatro membros. Baixe o Apidog e você pode ter todos os quatro backends K2.6 gratuitos configurados em menos de 20 minutos.
Para mergulhos mais profundos em padrões de teste de ferramentas relacionados, consulte nossos guias sobre teste de API sem Postman, Apidog dentro do VS Code e ferramentas de teste de API para engenheiros de QA.
Um fluxo de trabalho de avaliação de nível gratuito de 20 minutos
Se você está decidindo se o Kimi K2.6 se encaixa em um projeto, execute isso em 20 minutos antes de gastar dinheiro de verdade:
- 5 minutos — inscreva-se em kimi.com e jogue seu prompt mais difícil do mundo real nele. Ele cumpre a tarefa?
- 5 minutos — configure uma conta Cloudflare Workers AI e acesse
@cf/moonshotai/kimi-k2.6via curl. O tempo de resposta se encaixa no seu orçamento de latência? - 5 minutos — abra o Apidog, salve ambos os endpoints e execute uma solicitação de streaming idêntica em cada um. Compare as contagens de tokens e a cadência de streaming.
- 5 minutos — verifique kimi.com/membership/pricing e o painel da API Moonshot para modelar quanto custaria o volume de produção.
Ao final de 20 minutos, você terá informações suficientes para escolher um caminho de produção. Se o chat for suficiente, permaneça no plano gratuito. Se precisar de API, escolha entre o nível gratuito do Cloudflare, o Moonshot pago ou a auto-hospedagem.
Evite golpes de "chave de API Kimi K2.6 gratuita"
Você verá sites e grupos do Discord oferecendo "chaves de API Kimi K2.6 gratuitas". Pule-os. Eles geralmente são:
- Chaves roubadas que pararão de funcionar.
- Serviços de proxy registrando seus prompts.
- Tentativas de phishing para obter suas informações de pagamento.
Mantenha-se nos caminhos oficiais. As opções gratuitas legítimas listadas acima cobrem o uso real. Se precisar de mais, a API Moonshot paga é acessível; o guia da API Kimi K2.6 orienta a configuração.
FAQ
Kimi K2.6 é realmente gratuito?O chat para consumidores em kimi.com é gratuito com uma cota diária. Os pesos são gratuitos sob licença MIT modificada. O acesso à API é gratuito até um limite (Cloudflare, créditos para novas contas) ou pago.
Preciso de um cartão de crédito para usar o Kimi K2.6 gratuitamente?Não para o chat web kimi.com ou o nível gratuito do Cloudflare Workers AI. Às vezes para o OpenRouter. A verificação do cartão para créditos da plataforma Moonshot varia.
Posso usar o Kimi K2.6 gratuitamente para projetos comerciais?Sim. A licença permite o uso comercial. Em escala muito grande (>100M MAU ou >US$ 20M de receita mensal), você deve creditar visivelmente "Kimi K2.6". Abaixo disso, nenhuma atribuição é necessária.
O nível gratuito suporta Enxame de Agentes?O chat web de kimi.com sim, com capacidade total de 300 agentes. A maioria dos níveis gratuitos de API sim para o modelo base. Os limites de subagentes podem variar por provedor.
Quanto custa o Kimi K2.6 após os créditos gratuitos?Consulte kimi.com/membership/pricing para detalhes oficiais dos níveis. OpenRouter e outros gateways listam suas próprias taxas por token.
Posso usar o Kimi K2.6 gratuitamente na linha de comando?Sim. Instale o Kimi Code ou aponte qualquer CLI compatível com OpenAI para o Cloudflare Workers AI. O auto-hospedagem com llama.cpp oferece uma CLI local que nunca se comunica com a nuvem.
Meus dados são privados no nível gratuito?No kimi.com, as conversas podem ser usadas para melhoria do modelo (verifique as configurações de privacidade). No Cloudflare Workers AI, o Cloudflare registra para faturamento. Em auto-hospedagem, os dados nunca saem da sua máquina. Se a privacidade for crítica, faça a auto-hospedagem.
Os níveis gratuitos incluem recursos de visão e vídeo?O chat kimi.com inclui entrada de imagem e vídeo. O Cloudflare Workers AI suporta texto e imagens; o suporte a vídeo depende da versão do endpoint. Quantizações auto-hospedadas preservam a visão; o suporte a vídeo varia de acordo com a compilação.
Como o Kimi K2.6 se compara a outros modelos de IA de acesso gratuito?É o modelo de agente de peso aberto mais forte em 2026. Contra o Qwen 3.6, ele se destaca em benchmarks de codificação e agente. Contra o Qwen3.5-Omni, ele troca a variedade multimodal por um foco mais nítido no agente. Contra o DeepSeek V3.x, ele tem a vantagem na orquestração de agentes.
Resumo
Kimi K2.6 é um dos poucos modelos de fronteira onde "gratuito" não é um truque de teste. O anúncio da Moonshot o enquadra como o estado da arte de código aberto, e a licença o apoia. Kimi oferece o modelo completo para uso casual. Cloudflare Workers AI oferece um nível de API gratuito programável. A auto-hospedagem oferece custo zero por token se você tiver o hardware.
Escolha o caminho que se alinha ao que você está construindo, teste-o com o Apidog para identificar peculiaridades precocemente e aumente para a API Moonshot paga somente quando os níveis gratuitos não forem mais suficientes. Para a maioria dos usos pessoais e de pequenas equipes, eles nunca serão.
