Guerra de Preços de LLMs Chineses em 2026: Comparativo de Custos das 5 Melhores APIs de Fronteira

Ashley Innocent

Ashley Innocent

27 maio 2026

Guerra de Preços de LLMs Chineses em 2026: Comparativo de Custos das 5 Melhores APIs de Fronteira

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Os laboratórios chineses cortaram os preços da API de LLM seis vezes no primeiro semestre de 2026, e três desses cortes foram declarados permanentes. O DeepSeek V4-Pro agora custa US$ 0,87 por milhão de tokens de saída. O Xiaomi MiMo V2.5 acabou de nivelar seu nível de contexto longo para US$ 3 de saída. O Qwen3 Max da Alibaba é lançado a US$ 3,90. O Kimi K2.6 da Moonshot mantém o piso de cache-hit em US$ 0,07. O GLM-5 da Zhipu custa US$ 3,20 de saída. Abaixo está o detalhamento completo dos preços para as cinco principais APIs de fronteira da China em maio de 2026, com notas de capacidade e uma matriz de comprador no final para que você possa escolher a certa para sua carga de trabalho.

botão

TL;DR

Como a guerra de preços de LLM chinesa de 2026 se desenrolou

O padrão começou no Q4 de 2025 e acelerou no Q2 de 2026. Uma linha do tempo aproximada:

Os cortes não são aleatórios. Cada laboratório está mirando uma lacuna competitiva específica. DeepSeek está buscando o custo bruto por token. MiMo está buscando cargas de trabalho de contexto longo que outros modelos precificam fora. Qwen e GLM estão mantendo preços de nível médio e competindo em capacidade. Kimi está competindo em fluxos de trabalho de agentes e codificação através do piso de cache-hit.

Em resumo: as 5 principais APIs de LLM chinesas em maio de 2026

Modelo Entrada ($/MTok) Saída ($/MTok) Cache hit Contexto Melhor para
DeepSeek V4-Pro $0.435 $0.87 $0.003625 128K Mais barato por token, codificação
Xiaomi MiMo V2.5 Pro $1.00 $3.00 $0.20 1M RAG de documento longo, agentes de repositório
Alibaba Qwen3 Max $0.78 $3.90 $0.156 262K Equilíbrio de produção
Moonshot Kimi K2.6 $0.16–$2.00 (em camadas) ~$2.50 $0.07 128K Prompts de sistema longos, agentes de codificação
Zhipu GLM-5 $1.00 $3.20 (definido pelo provedor) 200K Raciocínio estruturado

Alguns detalhes a serem lidos na tabela:

Abaixo: cada modelo recebe uma seção com preços, capacidade e a carga de trabalho em que se destaca.

DeepSeek: o mais barato por token

Modelos: V4-Pro (US$ 0,435 entrada / US$ 0,87 saída / US$ 0,003625 cache hit, 128K contexto), V4-Flash (US$ 0,14 / US$ 0,28).

O V4-Pro da DeepSeek é o preço-base da prateleira de nível de fronteira chinês. O corte permanente de 22 de maio colocou os tokens de saída em US$ 0,87/MTok, aproximadamente 34x abaixo do GPT-5.5 e 17x abaixo do Claude Opus 4.7. O cache-hit de US$ 0,003625/MTok é a menor taxa de primeira parte de qualquer grande laboratório. Confirmado contra a página oficial de preços da DeepSeek.

Onde o V4-Pro se destaca:

Onde não se encaixa:

Para cobertura mais aprofundada: Corte permanente de preço do DeepSeek V4-Pro, O que é DeepSeek V4, Como usar a API do DeepSeek V4.

Xiaomi MiMo: a opção de 1M de contexto mais barata

Modelos: MiMo V2.5 Pro (US$ 1,00 entrada / US$ 3,00 saída / US$ 0,20 cache, 1M contexto), MiMo V2 Flash (~US$ 0,10 / ~US$ 0,40, 256K contexto).

O corte permanente de 27 de maio da Xiaomi nivelou o preço do MiMo V2.5 em todas as janelas de contexto. Os antigos níveis de contexto longo, que cobravam multiplicadores íngremes acima de 256K tokens de entrada, desapareceram. O novo preço aplica a mesma taxa de US$ 1/US$ 3, quer você envie 5K ou 950K tokens. O aviso oficial de atualização de preço rotula o corte como "permanente".

Onde o V2.5 Pro se destaca:

Onde não se encaixa:

A janela de contexto de 1M, juntamente com a taxa de cache competitiva, dá ao MiMo um lugar estruturalmente único no mercado. Até que o DeepSeek estenda o contexto além de 128K ou o Alibaba nivele o preço do Qwen, o MiMo domina o quadrante barato e longo.

Para cobertura mais aprofundada: Quanto custa usar o Xiaomi MiMo V2.5 em 2026, Preços do MiMo V2-Pro & Omni, Programa de tokens gratuitos Xiaomi MiMo Orbit 100T.

Alibaba Qwen: o "cavalo de batalha" da produção

Modelos: Qwen3 Max (US$ 0,78 entrada / US$ 3,90 saída / US$ 0,156 cache, 262K contexto). O mais recente Qwen 3.7 Max a US$ 2,50/MTok entrada com 1M de contexto está em fase de lançamento inicial. As taxas foram verificadas contra a ficha do Qwen3 Max do pricepertoken.

O Qwen3 Max é o carro-chefe da Alibaba e o modelo chinês mais implantado em produção internacional. Ele se posiciona em um ponto de preço competitivo, mas não no nível mais baixo: 1,8x o DeepSeek V4-Pro na entrada, 4,5x na saída. O prêmio paga pelo ecossistema de ferramentas mais amplo (integração de protocolo Anthropic, compatibilidade com OpenAI, hospedagem empresarial Alibaba Cloud) e uma janela de contexto de 262K que lida com a maioria das cargas de trabalho de documentos empresariais.

Onde o Qwen3 Max se destaca:

Onde não se encaixa:

Para cobertura mais aprofundada: Qwen 3 vs OpenAI & DeepSeek: comparação técnica aprofundada para desenvolvedores de API.

Moonshot Kimi: o especialista em codificação

Modelos: Kimi K2.6 com precificação de entrada em camadas de contexto (US$ 0,16 a US$ 2,00/MTok em bandas de 8K, 32K, 64K e 128K), piso de cache hit de US$ 0,07/MTok, taxas de saída em torno de US$ 2,50/MTok na banda média.

O Kimi K2.6 é o campeão de cache-hit. A taxa de US$ 0,07/MTok no acerto é o menor número de primeira parte de qualquer grande laboratório. Combinado com o forte suporte a chamadas de ferramentas e agentes de longa duração do Kimi, o K2.6 é o modelo que se destaca em fluxos de trabalho onde você reutiliza um prompt de sistema "robusto" em muitas interações: agentes de codificação, chatbots de suporte ao cliente com prompts de persona estáveis, pipelines de recuperação com blocos de contexto estáveis.

Onde o K2.6 se destaca:

Onde não se encaixa:

Para cobertura mais aprofundada: O preço da API Kimi K2 realmente vale o hype para desenvolvedores em 2026.

Zhipu GLM: o desafiante do raciocínio

Modelos: GLM-5 (US$ 1,00 entrada / US$ 3,20 saída, 200K contexto), GLM-5.1 (US$ 0,98 / US$ 3,08, 200K contexto). As taxas foram verificadas contra a visão geral de preços oficial da Z.AI.

O GLM-5 da Zhipu foi lançado com um aumento de preço de 30% em relação ao GLM-4.7 (um movimento contrariano em um mercado correndo para o fundo), e depois lançou o GLM-5.1 com um desconto marginal. A precificação reflete o posicionamento da Zhipu: não é o mais barato, mas o mais forte em raciocínio estruturado e tarefas de cadeia de pensamento.

Onde o GLM-5 se destaca:

Onde não se encaixa:

Para cobertura mais aprofundada: GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.

Mais barato por carga de trabalho: uma matriz do comprador

Para cinco cargas de trabalho de produção comuns, aqui está qual modelo se destaca:

Carga de Trabalho Vencedor Porquê
Geração de código (com muita saída) DeepSeek V4-Pro $0.87/MTok de saída é imbatível
RAG de documento longo (>300K contexto) Xiaomi MiMo V2.5 Pro Única opção de 1M de contexto com preço fixo
Agente de codificação com prompt de sistema estável Kimi K2.6 Piso de cache hit de $0.07/MTok
Suporte ao cliente multilíngue Alibaba Qwen3 Max Melhor desempenho não-inglês
Matemática, raciocínio formal, análise estruturada Zhipu GLM-5 Melhor qualidade de "cadeia de pensamento"

Três padrões combinados que valem a pena destacar:

Notas sobre qualidade e benchmarks

Uma nota sobre qualidade, já que o preço não significa nada se o modelo não consegue fazer o trabalho.

De acordo com a Artificial Analysis, os cinco modelos nesta comparação agrupam-se dentro de 5 a 10 pontos percentuais um do outro na maioria dos benchmarks públicos. As diferenças de cauda interessantes:

Execute sua própria avaliação de 100 amostras antes de se comprometer. Os benchmarks públicos são úteis direcionalmente, mas a lacuna que importa é a do seu tráfego.

Testando todos os cinco com Apidog

Uma implantação de produção multimodelos precisa de um "arnês" de teste multimodelos. O Apidog lida com todas as cinco APIs chinesas a partir de um único espaço de trabalho, porque todas as cinco aceitam corpos de solicitação do OpenAI Chat Completions, com pequenas peculiaridades de compatibilidade. O fluxo de trabalho:

  1. Crie um ambiente por provedor no Apidog: api.deepseek.com, platform.xiaomimimo.com, Alibaba Cloud Model Studio, api.moonshot.cn da Moonshot, e open.bigmodel.cn da Zhipu.
  2. Importe o esquema de Conclusão de Chat da OpenAI uma vez. Alterne a URL base por ambiente.
  3. Execute o mesmo cenário de teste em todos os cinco com um clique. Compare as respostas, pontuações e latências.
  4. Configure a validação do esquema JSON contra as formas de tool_calls para capturar as peculiaridades de formato de streaming exclusivas de cada provedor.

Baixe o Apidog, importe seus casos de teste e você terá uma comparação funcional de cinco vias em menos de quinze minutos. O mesmo fluxo de trabalho que recomendamos nos aprofundamentos por modelo: corte permanente do DeepSeek V4-Pro, custo do MiMo V2.5, preço do Kimi K2.

Para onde a guerra de preços vai a seguir

O piso de preços mudou duas vezes em maio. Mais duas mudanças são prováveis antes do fechamento do Q3.

Construa de acordo. Três próximos passos:

O piso de preços ainda não parou de cair. Posicione sua pilha para o que vem a seguir.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs