Os laboratórios chineses cortaram os preços da API de LLM seis vezes no primeiro semestre de 2026, e três desses cortes foram declarados permanentes. O DeepSeek V4-Pro agora custa US$ 0,87 por milhão de tokens de saída. O Xiaomi MiMo V2.5 acabou de nivelar seu nível de contexto longo para US$ 3 de saída. O Qwen3 Max da Alibaba é lançado a US$ 3,90. O Kimi K2.6 da Moonshot mantém o piso de cache-hit em US$ 0,07. O GLM-5 da Zhipu custa US$ 3,20 de saída. Abaixo está o detalhamento completo dos preços para as cinco principais APIs de fronteira da China em maio de 2026, com notas de capacidade e uma matriz de comprador no final para que você possa escolher a certa para sua carga de trabalho.
TL;DR
- Mais barato por token (saída): DeepSeek V4-Pro a US$ 0,87/MTok. Aproximadamente 34x abaixo do GPT-5.5.
- Mais barato com 1M de contexto: Xiaomi MiMo V2.5 Pro a US$ 3/MTok de saída, fixo independentemente do comprimento da entrada.
- Melhor equilíbrio preço-qualidade para produção geral: Alibaba Qwen3 Max a US$ 3,90/MTok de saída, 262K de contexto.
- Menor piso de cache-hit (prompts de sistema longos): Moonshot Kimi K2.6 a US$ 0,07/MTok em cache.
- Cargas de trabalho que exigem raciocínio: Zhipu GLM-5 a US$ 3,20/MTok de saída, 200K de contexto, mais forte em cadeia de pensamento estruturada.
- Todos os cinco laboratórios estão competindo em preço. Três (DeepSeek, MiMo, Kimi) tratam seus cortes de 2026 como permanentes.
Como a guerra de preços de LLM chinesa de 2026 se desenrolou
O padrão começou no Q4 de 2025 e acelerou no Q2 de 2026. Uma linha do tempo aproximada:
- Q4 2025: DeepSeek V3.2 é lançado a US$ 0,28/MTok de entrada, superando os preços de fronteira dos EUA por uma ordem de magnitude. Kimi K2.6 segue com preços em camadas sensíveis ao contexto e uma taxa de cache-hit de US$ 0,07/MTok, a mais baixa do setor.
- Março de 2026: Xiaomi revela o MiMo V2-Pro no OpenRouter com taxas competitivas, mas baseadas em níveis.
- Abril de 2026: DeepSeek V4 é lançado com um desconto promocional de 75% programado para expirar em 31 de maio.
- 22 de maio de 2026: DeepSeek anuncia que o desconto de 75% é permanente. O V4-Pro permanece em US$ 0,435/US$ 0,87 indefinidamente. O detalhamento completo está aqui.
- 27 de maio de 2026: Xiaomi torna o preço do MiMo V2.5 permanente em US$ 1/US$ 3, eliminando o multiplicador de contexto longo. Mais sobre o corte do MiMo.
Os cortes não são aleatórios. Cada laboratório está mirando uma lacuna competitiva específica. DeepSeek está buscando o custo bruto por token. MiMo está buscando cargas de trabalho de contexto longo que outros modelos precificam fora. Qwen e GLM estão mantendo preços de nível médio e competindo em capacidade. Kimi está competindo em fluxos de trabalho de agentes e codificação através do piso de cache-hit.
Em resumo: as 5 principais APIs de LLM chinesas em maio de 2026
| Modelo | Entrada ($/MTok) | Saída ($/MTok) | Cache hit | Contexto | Melhor para |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Mais barato por token, codificação |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG de documento longo, agentes de repositório |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Equilíbrio de produção |
| Moonshot Kimi K2.6 | $0.16–$2.00 (em camadas) | ~$2.50 | $0.07 | 128K | Prompts de sistema longos, agentes de codificação |
| Zhipu GLM-5 | $1.00 | $3.20 | (definido pelo provedor) | 200K | Raciocínio estruturado |
Alguns detalhes a serem lidos na tabela:
- DeepSeek e MiMo têm tarifa fixa. Todos os outros laboratórios neste conjunto ainda usam alguma forma de precificação em camadas ou multiplicador de contexto. A precificação fixa torna o planejamento da capacidade de produção previsível. A precificação em camadas pode surpreendê-lo em meses de contexto longo.
- As taxas de cache-hit variam amplamente. Os US$ 0,07 do Kimi K2.6 e os US$ 0,003625 do DeepSeek V4-Pro são os dois valores atípicos. Para qualquer agente com um prompt de sistema estável, essas são as taxas que você deve usar como referência, e não o preço de tabela de cache-miss. Veja nosso detalhamento aprofundado de cache de prompt para a mecânica.
- As janelas de contexto se dividem bruscamente. Apenas o MiMo V2.5 oferece 1M de tokens no nível mais barato. O próximo maior neste conjunto é o Qwen3 Max, com 262K. Se sua carga de trabalho precisar de >300K tokens, o MiMo não é opcional.
Abaixo: cada modelo recebe uma seção com preços, capacidade e a carga de trabalho em que se destaca.
DeepSeek: o mais barato por token
Modelos: V4-Pro (US$ 0,435 entrada / US$ 0,87 saída / US$ 0,003625 cache hit, 128K contexto), V4-Flash (US$ 0,14 / US$ 0,28).
O V4-Pro da DeepSeek é o preço-base da prateleira de nível de fronteira chinês. O corte permanente de 22 de maio colocou os tokens de saída em US$ 0,87/MTok, aproximadamente 34x abaixo do GPT-5.5 e 17x abaixo do Claude Opus 4.7. O cache-hit de US$ 0,003625/MTok é a menor taxa de primeira parte de qualquer grande laboratório. Confirmado contra a página oficial de preços da DeepSeek.
Onde o V4-Pro se destaca:
- Cargas de trabalho com muita saída (geração de código, cadeias de agentes, ferramentas de conteúdo) onde você gasta 70%+ do seu orçamento de tokens em saída.
- Qualquer coisa com um prompt de sistema estável de 5K a 10K tokens. Cache hits levam o custo de entrada efetivo a quase zero.
- Produção sensível a custos onde você pode absorver de 3 a 7 pontos de diferença de benchmark em relação ao GPT-5.5.
Onde não se encaixa:
- Cargas de trabalho de documentos longos (>128K contexto). O MiMo V2.5 é a escolha mais barata em termos absolutos, mesmo com taxas por token mais altas, porque o DeepSeek não consegue encaixar o prompt.
- Chat em tempo real crítico de latência. O V4-Pro é um modelo de "pensamento" com tempo de primeira token de 600 a 900ms.
Para cobertura mais aprofundada: Corte permanente de preço do DeepSeek V4-Pro, O que é DeepSeek V4, Como usar a API do DeepSeek V4.
Xiaomi MiMo: a opção de 1M de contexto mais barata
Modelos: MiMo V2.5 Pro (US$ 1,00 entrada / US$ 3,00 saída / US$ 0,20 cache, 1M contexto), MiMo V2 Flash (~US$ 0,10 / ~US$ 0,40, 256K contexto).
O corte permanente de 27 de maio da Xiaomi nivelou o preço do MiMo V2.5 em todas as janelas de contexto. Os antigos níveis de contexto longo, que cobravam multiplicadores íngremes acima de 256K tokens de entrada, desapareceram. O novo preço aplica a mesma taxa de US$ 1/US$ 3, quer você envie 5K ou 950K tokens. O aviso oficial de atualização de preço rotula o corte como "permanente".
Onde o V2.5 Pro se destaca:
- RAG de documento longo, análise de código em todo o repositório, sumarização de múltiplos documentos, qualquer carga de trabalho que se encaixe em 300K a 1M de tokens de contexto.
- Processamento de documentos de alto volume onde a previsibilidade de preços importa mais do que o piso absoluto.
Onde não se encaixa:
- Chat com prompt curto. O V2.5 Pro é mais caro que o DeepSeek V4-Pro em qualquer comprimento de contexto que o DeepSeek possa suportar.
- Cargas de trabalho críticas de latência. Existem modelos chineses mais rápidos para orçamentos de resposta em sub-segundos.
A janela de contexto de 1M, juntamente com a taxa de cache competitiva, dá ao MiMo um lugar estruturalmente único no mercado. Até que o DeepSeek estenda o contexto além de 128K ou o Alibaba nivele o preço do Qwen, o MiMo domina o quadrante barato e longo.
Para cobertura mais aprofundada: Quanto custa usar o Xiaomi MiMo V2.5 em 2026, Preços do MiMo V2-Pro & Omni, Programa de tokens gratuitos Xiaomi MiMo Orbit 100T.
Alibaba Qwen: o "cavalo de batalha" da produção
Modelos: Qwen3 Max (US$ 0,78 entrada / US$ 3,90 saída / US$ 0,156 cache, 262K contexto). O mais recente Qwen 3.7 Max a US$ 2,50/MTok entrada com 1M de contexto está em fase de lançamento inicial. As taxas foram verificadas contra a ficha do Qwen3 Max do pricepertoken.
O Qwen3 Max é o carro-chefe da Alibaba e o modelo chinês mais implantado em produção internacional. Ele se posiciona em um ponto de preço competitivo, mas não no nível mais baixo: 1,8x o DeepSeek V4-Pro na entrada, 4,5x na saída. O prêmio paga pelo ecossistema de ferramentas mais amplo (integração de protocolo Anthropic, compatibilidade com OpenAI, hospedagem empresarial Alibaba Cloud) e uma janela de contexto de 262K que lida com a maioria das cargas de trabalho de documentos empresariais.
Onde o Qwen3 Max se destaca:
- Produção multilíngue. O corpus de treinamento do Qwen tende fortemente para o mandarim e idiomas asiáticos, tornando-o o mais forte desempenho não-inglês neste conjunto.
- Cenários de conformidade empresarial. O SLA empresarial da Alibaba e as opções de região de nuvem são as mais maduras de qualquer laboratório chinês.
- Cargas de trabalho que precisam de 200K a 262K de contexto, mas não justificam a banda de qualidade premium do MiMo.
Onde não se encaixa:
- Cargas de trabalho sensíveis a custos e com muita saída. A US$ 3,90/MTok de saída, você está pagando 4,5x a taxa do DeepSeek. Se sua carga de trabalho tolera a qualidade do DeepSeek, mude.
Para cobertura mais aprofundada: Qwen 3 vs OpenAI & DeepSeek: comparação técnica aprofundada para desenvolvedores de API.
Moonshot Kimi: o especialista em codificação
Modelos: Kimi K2.6 com precificação de entrada em camadas de contexto (US$ 0,16 a US$ 2,00/MTok em bandas de 8K, 32K, 64K e 128K), piso de cache hit de US$ 0,07/MTok, taxas de saída em torno de US$ 2,50/MTok na banda média.
O Kimi K2.6 é o campeão de cache-hit. A taxa de US$ 0,07/MTok no acerto é o menor número de primeira parte de qualquer grande laboratório. Combinado com o forte suporte a chamadas de ferramentas e agentes de longa duração do Kimi, o K2.6 é o modelo que se destaca em fluxos de trabalho onde você reutiliza um prompt de sistema "robusto" em muitas interações: agentes de codificação, chatbots de suporte ao cliente com prompts de persona estáveis, pipelines de recuperação com blocos de contexto estáveis.
Onde o K2.6 se destaca:
- Agentes de codificação (fluxos de trabalho estilo Claude Code). A forte conformidade com o formato de chamada de ferramenta e o menor piso de cache-hit tornam os padrões de contexto repetido quase gratuitos.
- Sessões de chat de longa duração onde o prompt do sistema e os exemplos de poucos tiros são estáveis.
Onde não se encaixa:
- Cargas de trabalho variadas e intermitentes onde os prefixos mudam a cada solicitação. O preço de entrada em camadas significa que surpresas no comprimento do contexto podem aumentar sua conta.
- Orçamento previsível. As transições de nível em 32K, 64K e 128K tokens de entrada significam que o mesmo tipo de consulta pode custar 4x mais em um dia longo do que em um dia curto.
Para cobertura mais aprofundada: O preço da API Kimi K2 realmente vale o hype para desenvolvedores em 2026.
Zhipu GLM: o desafiante do raciocínio
Modelos: GLM-5 (US$ 1,00 entrada / US$ 3,20 saída, 200K contexto), GLM-5.1 (US$ 0,98 / US$ 3,08, 200K contexto). As taxas foram verificadas contra a visão geral de preços oficial da Z.AI.
O GLM-5 da Zhipu foi lançado com um aumento de preço de 30% em relação ao GLM-4.7 (um movimento contrariano em um mercado correndo para o fundo), e depois lançou o GLM-5.1 com um desconto marginal. A precificação reflete o posicionamento da Zhipu: não é o mais barato, mas o mais forte em raciocínio estruturado e tarefas de cadeia de pensamento.
Onde o GLM-5 se destaca:
- Matemática, raciocínio formal, tarefas de cadeia de pensamento estruturada. O GLM-5 detém a liderança em múltiplos benchmarks de classe GPQA entre os modelos de fronteira chineses.
- Cargas de trabalho onde o custo marginal é pequeno em relação ao custo de respostas erradas (análise financeira, sumarização legal, raciocínio científico).
- Fluxos de trabalho de agentes de múltiplos passos que se beneficiam de rastros de raciocínio limpos.
Onde não se encaixa:
- Aplicações sensíveis a custos. O GLM-5 é a opção mais cara neste conjunto, tanto na entrada quanto na saída combinadas. Se o custo bruto é o que você otimiza, procure em outro lugar.
- Cargas de trabalho que não recompensam o raciocínio forte. Para geração ou sumarização de conteúdo direto, o prêmio do GLM não vale a pena.
Para cobertura mais aprofundada: GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.
Mais barato por carga de trabalho: uma matriz do comprador
Para cinco cargas de trabalho de produção comuns, aqui está qual modelo se destaca:
| Carga de Trabalho | Vencedor | Porquê |
|---|---|---|
| Geração de código (com muita saída) | DeepSeek V4-Pro | $0.87/MTok de saída é imbatível |
| RAG de documento longo (>300K contexto) | Xiaomi MiMo V2.5 Pro | Única opção de 1M de contexto com preço fixo |
| Agente de codificação com prompt de sistema estável | Kimi K2.6 | Piso de cache hit de $0.07/MTok |
| Suporte ao cliente multilíngue | Alibaba Qwen3 Max | Melhor desempenho não-inglês |
| Matemática, raciocínio formal, análise estruturada | Zhipu GLM-5 | Melhor qualidade de "cadeia de pensamento" |
Três padrões combinados que valem a pena destacar:
- Roteamento de dois modelos. Muitas equipes de produção roteiam de 70 a 85% do tráfego para o DeepSeek V4-Pro e mantêm seu modelo secundário na cauda mais difícil. As economias são grandes e o impacto na qualidade é pequeno para a maioria das cargas de trabalho.
- Segmentação de contexto longo. Se sua carga de trabalho se divide entre contextos curtos e longos, roteie os curtos para o DeepSeek e os longos para o MiMo. A dor da cobrança unificada é real, mas a arbitragem de custos é grande demais para ser ignorada.
- Consolidação de prefixos de cache. Seja qual for o modelo que você escolher, audite seus prompts de sistema. Os acertos de cache são a vitória barata que sobrevive a qualquer troca de modelo.
Notas sobre qualidade e benchmarks
Uma nota sobre qualidade, já que o preço não significa nada se o modelo não consegue fazer o trabalho.
De acordo com a Artificial Analysis, os cinco modelos nesta comparação agrupam-se dentro de 5 a 10 pontos percentuais um do outro na maioria dos benchmarks públicos. As diferenças de cauda interessantes:
- DeepSeek V4-Pro: Forte em codificação (SWE-bench Pro em torno de 55%) e raciocínio (GPQA em torno de 90%). Pequena lacuna em relação ao GPT-5.5 em tarefas de agente de longo prazo.
- MiMo V2.5 Pro: Forte em recuperação de contexto longo (>95% de precisão de agulha em 800K), no meio do pacote em codificação.
- Qwen3 Max: Melhor desempenho não-inglês, forte qualidade de produção geral.
- Kimi K2.6: Mais forte conformidade com o formato de chamada de ferramenta, particularmente para chamadas de ferramenta paralelas.
- GLM-5: Melhor qualidade de raciocínio de "cadeia de pensamento" no conjunto.
Execute sua própria avaliação de 100 amostras antes de se comprometer. Os benchmarks públicos são úteis direcionalmente, mas a lacuna que importa é a do seu tráfego.
Testando todos os cinco com Apidog
Uma implantação de produção multimodelos precisa de um "arnês" de teste multimodelos. O Apidog lida com todas as cinco APIs chinesas a partir de um único espaço de trabalho, porque todas as cinco aceitam corpos de solicitação do OpenAI Chat Completions, com pequenas peculiaridades de compatibilidade. O fluxo de trabalho:

- Crie um ambiente por provedor no Apidog:
api.deepseek.com,platform.xiaomimimo.com, Alibaba Cloud Model Studio,api.moonshot.cnda Moonshot, eopen.bigmodel.cnda Zhipu. - Importe o esquema de Conclusão de Chat da OpenAI uma vez. Alterne a URL base por ambiente.
- Execute o mesmo cenário de teste em todos os cinco com um clique. Compare as respostas, pontuações e latências.
- Configure a validação do esquema JSON contra as formas de
tool_callspara capturar as peculiaridades de formato de streaming exclusivas de cada provedor.
Baixe o Apidog, importe seus casos de teste e você terá uma comparação funcional de cinco vias em menos de quinze minutos. O mesmo fluxo de trabalho que recomendamos nos aprofundamentos por modelo: corte permanente do DeepSeek V4-Pro, custo do MiMo V2.5, preço do Kimi K2.
Para onde a guerra de preços vai a seguir
O piso de preços mudou duas vezes em maio. Mais duas mudanças são prováveis antes do fechamento do Q3.
- Resposta do Qwen. A Alibaba raramente foi a primeira a cortar, mas consistentemente segue em semanas. Espere uma revisão do Qwen3 Max ou um anúncio do Qwen 3.8 até julho.
- Resposta do GLM. O aumento de 30% da Zhipu no GLM-5 parece cada vez mais contrariano. Um GLM-5.2 com um corte estrutural é plausível.
- Simplificação estrutural do Kimi. A precificação de contexto em camadas está saindo de moda. A Moonshot pode nivelar o K2.6 para corresponder à estrutura do MiMo.
Construa de acordo. Três próximos passos:
- Audite suas três principais cargas de trabalho em relação à matriz do comprador acima. Escolha uma para um teste de migração esta semana.
- Fixe seus prefixos de cache. Essa é a vitória, independentemente do modelo que você escolher.
- Configure uma suíte de regressão Apidog que aponte para todos os cinco provedores para que a próxima rodada de cortes leve horas para ser avaliada, em vez de semanas.
O piso de preços ainda não parou de cair. Posicione sua pilha para o que vem a seguir.
