GLM-5.2 é a maneira econômica de executar um modelo de codificação de classe fronteira. A Z.ai (Zhipu AI) o oferece com pesos abertos sob uma licença MIT, uma janela de contexto de 1M de tokens e um cartão de tarifas de API que supera os grandes laboratórios fechados por uma ampla margem. Esta página é a página essencial. Você obterá o custo exato da API por token, como funciona o desconto de entrada em cache, exemplos práticos em dólar para sessões de codificação reais, os níveis de assinatura do Plano de Codificação GLM e uma análise honesta sobre se o GLM-5.2 é mais barato que o GPT-5.5 para a maneira como você realmente trabalha.
Uma nota antes dos números: os preços de IA mudam rapidamente, e alguns níveis do Plano de Codificação GLM divergem em fontes secundárias. Onde um valor não está confirmado, ele é sinalizado. Trate qualquer número sinalizado como uma estimativa e confirme o preço atual em z.ai antes de alocar um orçamento.
Custo da API GLM-5.2 em resumo
A tarifa da API pay-as-you-go é o ponto de partida mais claro, pois é confirmada pela listagem pública do OpenRouter.
| Item | Preço | Fonte |
|---|---|---|
| Tokens de entrada | $1.40 / 1M | Confirmado (OpenRouter) |
| Tokens de saída | $4.40 / 1M | Confirmado (OpenRouter) |
| Entrada em cache | ~$0.26 / 1M | VentureBeat (atribuir) |
Assim, o custo por token do GLM-5.2 se resume a $0.0000014 por token de entrada e $0.0000044 por token de saída. A saída é aproximadamente 3.1x o preço da entrada, o que é o padrão normal para um modelo de raciocínio: os tokens que ele gera (incluindo seu rastro de pensamento) custam mais do que os tokens que você alimenta.

A taxa de entrada em cache de cerca de $0.26 por 1M de tokens é a alavanca que muda tudo para cargas de trabalho de agentes e chat, e é abordada em sua própria seção abaixo. Esse valor vem da reportagem do VentureBeat, e não de um cartão de tarifas próprio, então atribua-o adequadamente.
Não há uma via gratuita no OpenRouter para glm-5.2. Se você vir uma sendo reivindicada em outro lugar, está errada. Você pode executar os pesos abertos por conta própria pelo custo do seu próprio hardware, o que é um tipo diferente de "grátis". Para essa abordagem, consulte o guia complementar sobre como usar o GLM-5.2 gratuitamente e o artigo anterior sobre executar o GLM-5 localmente gratuitamente.
Como funciona o desconto de entrada em cache
O cache de prompts é o maior controle de custo na tabela de preços do GLM-5.2, e a maioria das pessoas o negligencia.
Aqui está o mecanismo. Quando você envia um prefixo longo e estável repetidamente (um prompt de sistema, definições de ferramentas de um agente de codificação, um arquivo grande que você continua referenciando), o provedor pode armazenar em cache o prefixo processado. Na próxima chamada, a porção em cache é cobrada na taxa de entrada em cache (~$0.26 / 1M) em vez da taxa de entrada total ($1.40 / 1M). Isso representa aproximadamente um desconto de 81% na parte repetida do seu prompt.
Onde isso compensa:
- Agentes de codificação. Ferramentas como Claude Code, Cline e Cursor reenviam um preâmbulo grande e estável (instruções, esquemas de ferramentas, contexto do repositório) a cada turno. Armazenar esse preâmbulo em cache reduz drasticamente o custo de entrada por turno. Os detalhes de configuração estão no guia GLM-5.2 com Claude Code, Cline e Cursor.
- RAG e Q&A de documentos. Se você fizer muitas perguntas sobre o mesmo documento longo, armazene o documento em cache uma vez e pague o preço total apenas por cada pergunta curta mais a resposta.
- Conversas longas. Um histórico de chat crescente é um prefixo estável crescente. O cache mantém o custo de "lembrar" a conversa baixo.
Duas regras práticas. Primeiro, mantenha o conteúdo reutilizado no início do prompt e o conteúdo variável no final; o cache se baseia no prefixo. Segundo, os caches expiram, então o desconto se aplica a chamadas que ocorrem próximas umas das outras, não a uma solicitação que você faz uma vez por hora.
Desativando o raciocínio como controle de custo
GLM-5.2 é um modelo de raciocínio com dois níveis de esforço de pensamento, Alto e Máximo. A Z.ai recomenda o Máximo para codificação. Mas tokens de pensamento são tokens de saída, e a saída é o lado caro da fatura a $4.40 / 1M. Mais pensamento significa mais tokens gerados, o que significa uma fatura maior.
Você tem uma alavanca direta para isso. Na API, você pode desativar o raciocínio completamente:
{
"model": "glm-5.2",
"messages": [
{ "role": "user", "content": "Reformat this JSON and return it." }
],
"thinking": { "type": "disabled" }
}
Use os níveis deliberadamente:
- Raciocínio desativado para trabalho barato e mecânico: formatação, extração, reescritas simples, classificação. Você pula o rastro de raciocínio e paga apenas por uma resposta curta.
- Esforço alto para codificação e análise diária onde você deseja um bom raciocínio sem o gasto máximo de tokens.
- Esforço máximo para codificação e matemática difíceis e de longo prazo, onde o pensamento extra realmente compensa seu custo em correção.
Combinar o nível de esforço com a tarefa é a diferença entre uma fatura de saída de $4.40 e uma de $1 no mesmo prompt. A referência completa dos parâmetros, incluindo reasoning_effort e streaming, está no guia da API GLM-5.2, e o passo a passo da API GLM-5 anterior cobre o mesmo formato compatível com OpenAI se você estiver migrando.
Exemplos de custos calculados
Taxas abstratas por token não significam muito até que você as aplique ao trabalho real. Aqui estão três sessões, precificadas com as taxas confirmadas.
Exemplo 1: uma única sessão de codificação de 100K tokens. Digamos que você execute uma tarefa de codificação agêntica que lê 100K tokens de contexto (seu repositório, instruções, conteúdo de arquivo) e gera 20K tokens de código e raciocínio.
- Entrada: 100.000 × $1.40 / 1.000.000 = $0.140
- Saída: 20.000 × $4.40 / 1.000.000 = $0.088
- Total: ~$0.23
Exemplo 2: a mesma sessão com cache. Agora, suponha que 80K desses 100K de entrada sejam um prefixo estável (prompt de sistema, definições de ferramentas, arquivos inalterados) servido do cache, e 20K sejam novos.
- Entrada em cache: 80.000 × $0.26 / 1.000.000 = $0.021
- Entrada nova: 20.000 × $1.40 / 1.000.000 = $0.028
- Saída: 20.000 × $4.40 / 1.000.000 = $0.088
- Total: ~$0.14
O armazenamento em cache do prefixo estável reduziu o custo da sessão em aproximadamente 40%, e as economias aumentam quanto mais turnos você realiza no mesmo contexto.
Exemplo 3: um assistente de chat fazendo extração com o raciocínio desativado. Um bot de suporte processa 500 mensagens por dia. Cada chamada envia 2K tokens de entrada e retorna 300 tokens de saída, com o raciocínio desativado.
- Entrada: 500 × 2.000 × $1.40 / 1.000.000 = $1.40
- Saída: 500 × 300 × $4.40 / 1.000.000 = $0.66
- Total: ~$2.06 / dia, cerca de $62 por mês para uma carga de trabalho de 500 chamadas por dia.
Estas são estimativas de preços de tabela. Sua fatura real depende de quanto raciocínio você permite e de quanto de sua entrada atinge o cache.
Níveis do Plano de Codificação GLM
Se você vive dentro de um agente de codificação o dia todo, o caminho da assinatura geralmente é mais barato do que as chamadas de API por uso. A Z.ai vende um Plano de Codificação GLM com níveis nomeados (Lite, Pro, Max, mais Equipe), exposto ao Claude Code e ferramentas semelhantes através de um endpoint compatível com Anthropic.

A chave do plano é uma credencial diferente da chave de API padrão. Para conectar o GLM-5.2 ao Claude Code, você o aponta para o endpoint de codificação e seleciona a variante de contexto de 1M através do sufixo do modelo [1m]:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
O valor de API_TIMEOUT_MS é importante. Sem um tempo limite longo, o Claude Code pode encerrar chamadas longas de grande contexto antes que o GLM-5.2 termine. Algumas fontes mostram a URL base de codificação como open.z.ai/api/paas/v4 em vez disso, então verifique o host exato ao vivo. A configuração completa do agente, incluindo Cline e Cursor, está no guia de agentes de codificação GLM-5.2, e o artigo anterior sobre GLM-5.1 com Claude Code cobre o mesmo padrão para a geração anterior.
GLM-5.2 é mais barato que GPT-5.5?
Sim, na API com medição de uso, e por uma ampla margem. A abordagem mais clara vem do VentureBeat, que relatou que o GLM-5.2 "supera o GPT-5.5 em codificação de longo prazo com cerca de 1/6 do custo". Essa afirmação é do VentureBeat, não uma medição da Apidog, e ela combina o desempenho de benchmark com o preço, então interprete-a como uma declaração de valor direcional, e não como uma proporção por token.
No nível do cartão de tarifas, aqui está a comparação de alto nível. O GLM-5.2 é listado a $1.40 de entrada / $4.40 de saída por 1M de tokens. Os modelos fronteira fechados da OpenAI, Anthropic e Google geralmente ficam bem acima disso para seus níveis de raciocínio superiores, por isso a expressão "fração do custo" continua aparecendo. Para uma análise de velocidade e custo baseada em números entre os modelos, consulte GLM-5 vs DeepSeek vs GPT-5 em velocidade e custo e a comparação mais ampla GLM-5.1 vs Claude, GPT, Gemini e DeepSeek.
A comparação de assinaturas é mais matizada. Um nível de Plano de Codificação GLM pesado, estimado em ~$80/mês, se encaixa na mesma faixa de preço das assinaturas de codificação para um único usuário mais caras de outros fornecedores, então os fatores decisivos se tornam a qualidade do modelo em suas tarefas e como os planos medem o uso. A questão plano versus plano (Plano GLM contra Claude Code, Codex, Cursor e MiniMax) é detalhada em Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.
Uma ressalva sobre os benchmarks: os resultados de lançamento que motivam a proposta de valor (SWE-bench Pro 62.1, Terminal-Bench 2.1 a 81.0, MCP-Atlas 77.0) são os resultados publicados da Z.ai. O conjunto completo é detalhado no mergulho profundo nos benchmarks GLM-5.2, e o confronto direto com os laboratórios fechados está em GLM-5.2 vs GPT-5.5, Claude Opus e Gemini.
Qual caminho de precificação você deve escolher?
Um guia de decisão rápido:
- Uso esporádico ou de baixo volume: API pay-as-you-go. Você paga apenas pelo que usa, e as taxas são baixas o suficiente para que o uso leve permaneça barato.
- Codificação o dia todo em um agente: um nível do Plano de Codificação GLM. O custo mensal previsível supera a cobrança por uso quando você faz centenas de chamadas por dia. Verifique o preço do nível primeiro.
- Privacidade, offline ou custo marginal zero: hospede os pesos abertos por conta própria. Nenhuma fatura por token, apenas sua própria computação. Comece com executar o GLM-5 localmente gratuitamente ou GLM-5 gratuitamente com Ollama.
Qualquer que seja o caminho que você escolher, as duas alavancas de custo permanecem as mesmas: armazene seus prefixos estáveis em cache e reduza o esforço de raciocínio para trabalhos que não exigem isso.
Testando os custos do GLM-5.2 antes de se comprometer
Antes de escolher um plano, é útil ver quanto seus prompts reais custam e quanto tempo levam. Você pode apontar qualquer cliente compatível com OpenAI para o endpoint GLM-5.2 e observar o uso de tokens por chamada. O Apidog é útil aqui: é uma plataforma de API completa para projetar, depurar, testar e documentar APIs, para que você possa enviar requisições para https://api.z.ai/api/paas/v4/chat/completions, inspecionar a resposta e a contagem de tokens, e salvar as chamadas como uma coleção reutilizável enquanto compara os níveis de raciocínio e o comportamento de cache. Baixe o Apidog se você quiser comparar o cartão de tarifas com seu próprio tráfego em vez de confiar em um exemplo prático.

A versão resumida: a taxa de API confirmada do GLM-5.2 de $1.40 de entrada e $4.40 de saída é o número a se basear. Armazene seus prefixos em cache, gerencie o esforço de raciocínio e verifique o preço de qualquer nível do Plano de Codificação ao vivo antes de se comprometer.
