GLM-5.2 est le moyen économique d'exécuter un modèle de codage de classe frontière. Z.ai (Zhipu AI) le fournit avec des poids ouverts sous une licence MIT, une fenêtre contextuelle de 1 million de jetons, et une grille tarifaire d'API qui sous-cote largement les grands laboratoires fermés. Cette page est la page clé pour les coûts. Vous obtiendrez le coût exact de l'API par jeton, le fonctionnement de la réduction pour l'entrée en cache, des exemples concrets en dollars pour de véritables sessions de codage, les niveaux d'abonnement du Plan de Codage GLM, et une évaluation honnête de savoir si GLM-5.2 est moins cher que GPT-5.5 pour la façon dont vous travaillez réellement.
Une note avant les chiffres : la tarification de l'IA évolue rapidement, et certains niveaux du Plan de Codage GLM sont en conflit entre les sources secondaires. Lorsqu'un chiffre n'est pas figé, il est signalé. Considérez tout chiffre signalé comme une estimation et confirmez le prix en direct sur z.ai avant d'engager un budget.
Coût de l'API GLM-5.2 en un coup d'œil
Le tarif de l'API pay-as-you-go est le point de départ le plus clair, car il est confirmé par la liste publique d'OpenRouter.
| Élément | Prix | Source |
|---|---|---|
| Jetons d'entrée | $1.40 / 1M | Confirmé (OpenRouter) |
| Jetons de sortie | $4.40 / 1M | Confirmé (OpenRouter) |
| Entrée en cache | ~$0.26 / 1M | VentureBeat (attribution) |
Ainsi, le coût principal de GLM-5.2 par jeton s'élève à 0,0000014 $ par jeton d'entrée et 0,0000044 $ par jeton de sortie. La sortie est environ 3,1 fois plus chère que l'entrée, ce qui est la forme normale pour un modèle de raisonnement : les jetons qu'il génère (y compris sa trace de pensée) coûtent plus cher que les jetons que vous lui fournissez.

Le tarif de l'entrée en cache d'environ 0,26 $ par 1 million de jetons est le levier qui change tout pour les charges de travail d'agents et de chat, et il est couvert dans sa propre section ci-dessous. Ce chiffre provient des rapports de VentureBeat plutôt que d'une grille tarifaire de première partie, attribuez-le donc en conséquence.
Il n'y a pas de voie OpenRouter gratuite pour glm-5.2. Si vous en voyez une revendiquée ailleurs, c'est faux. Vous pouvez exécuter les poids ouverts vous-même pour le coût de votre propre matériel, ce qui est un autre type de "gratuit". Pour cette voie, consultez le guide complémentaire sur comment utiliser GLM-5.2 gratuitement et l'article précédent sur l'exécution de GLM-5 localement gratuitement.
Comment fonctionne la réduction pour l'entrée en cache
Le cache des invites est le principal levier de contrôle des coûts sur la grille tarifaire de GLM-5.2, et la plupart des gens ne l'exploitent pas.
Voici le mécanisme. Lorsque vous envoyez à plusieurs reprises un préfixe long et stable (une invite système, des définitions d'outils d'agent de codage, un grand fichier auquel vous vous référez constamment), le fournisseur peut mettre en cache le préfixe traité. Lors du prochain appel, la partie mise en cache est facturée au tarif de l'entrée en cache (~0,26 $ / 1 million) au lieu du tarif complet de l'entrée (1,40 $ / 1 million). Cela représente une réduction d'environ 81 % sur la partie répétée de votre invite.
Où cela est rentable :
- Agents de codage. Des outils comme Claude Code, Cline et Cursor renvoient un grand préambule stable (instructions, schémas d'outils, contexte de dépôt) à chaque tour. La mise en cache de ce préambule réduit considérablement la facture d'entrée par tour. Les détails de la configuration se trouvent dans le guide GLM-5.2 avec Claude Code, Cline et Cursor.
- RAG et Q&A de documents. Si vous posez de nombreuses questions sur le même document long, mettez le document en cache une fois et ne payez le prix fort que pour chaque courte question plus la réponse.
- Longues conversations. Un historique de chat croissant est un préfixe stable croissant. La mise en cache maintient le coût de la "mémoire" de la conversation à un niveau bas.
Deux règles pratiques. Premièrement, gardez le contenu réutilisé au début de l'invite et le contenu variable à la fin ; les caches s'appuient sur le préfixe. Deuxièmement, les caches expirent, donc la réduction s'applique aux appels qui se succèdent rapidement, pas à une requête que vous faites une fois par heure.
Désactiver la "pensée" comme contrôle des coûts
GLM-5.2 est un modèle de raisonnement avec deux niveaux d'effort de "pensée", Élevé et Max. Z.ai recommande Max pour le codage. Mais les jetons de pensée sont des jetons de sortie, et la sortie est le côté coûteux de la facture à 4,40 $ / 1 million. Plus de pensée signifie plus de jetons générés, ce qui signifie une facture plus élevée.
Vous avez un levier direct pour cela. Dans l'API, vous pouvez désactiver complètement la "pensée" :
{
"model": "glm-5.2",
"messages": [
{ "role": "user", "content": "Reformat this JSON and return it." }
],
"thinking": { "type": "disabled" }
}
Utilisez les niveaux délibérément :
- Pensée désactivée pour les tâches mécaniques et bon marché : formatage, extraction, réécritures simples, classification. Vous ignorez la trace de raisonnement et ne payez que pour une courte réponse.
- Effort élevé pour le codage et l'analyse quotidiens où vous souhaitez un bon raisonnement sans une dépense maximale de jetons.
- Effort maximal pour le codage et les mathématiques difficiles et à long terme, où la pensée supplémentaire justifie son coût en termes de correction.
Adapter le niveau d'effort à la tâche est la différence entre une facture de sortie de 4,40 $ et une de 1 $ pour la même invite. La référence complète des paramètres, y compris reasoning_effort et le streaming, se trouve dans le guide de l'API GLM-5.2, et le guide de l'API GLM-5 précédent couvre la même forme compatible OpenAI si vous migrez.
Exemples de coûts concrets
Les tarifs abstraits par jeton ne signifient pas grand-chose tant que vous ne les avez pas appliqués à un travail réel. Voici trois sessions, tarifées aux taux confirmés.
Exemple 1 : une seule session de codage de 100 000 jetons. Supposons que vous exécutez une tâche de codage agentique qui lit 100 000 jetons de contexte (votre dépôt, instructions, contenu de fichiers) et génère 20 000 jetons de code et de raisonnement.
- Entrée : 100,000 × 1,40 $ / 1,000,000 = 0,140 $
- Sortie : 20,000 × 4,40 $ / 1,000,000 = 0,088 $
- Total : ~0,23 $
Exemple 2 : la même session avec mise en cache. Supposons maintenant que 80 000 de ces 100 000 jetons d'entrée sont un préfixe stable (invite système, définitions d'outils, fichiers inchangés) servis depuis le cache, et que 20 000 sont nouveaux.
- Entrée en cache : 80,000 × 0,26 $ / 1,000,000 = 0,021 $
- Entrée fraîche : 20,000 × 1,40 $ / 1,000,000 = 0,028 $
- Sortie : 20,000 × 4,40 $ / 1,000,000 = 0,088 $
- Total : ~0,14 $
La mise en cache du préfixe stable a réduit le coût de la session d'environ 40 %, et les économies augmentent à mesure que vous effectuez plus de tours avec le même contexte.
Exemple 3 : un assistant de chat effectuant une extraction avec la pensée désactivée. Un bot de support traite 500 messages par jour. Chaque appel envoie 2K jetons d'entrée et renvoie 300 jetons de sortie, la pensée étant désactivée.
- Entrée : 500 × 2 000 × 1,40 $ / 1 000 000 = 1,40 $
- Sortie : 500 × 300 × 4,40 $ / 1 000 000 = 0,66 $
- Total : ~2,06 $ / jour, soit environ 62 $ par mois pour une charge de travail de 500 appels par jour.
Ce sont des estimations de tarifs affichés. Votre facture réelle dépend de la quantité de pensée que vous autorisez et de la quantité de votre entrée qui atteint le cache.
Niveaux du Plan de Codage GLM
Si vous passez toute la journée dans un agent de codage, la voie de l'abonnement est généralement moins chère que les appels d'API facturés à l'usage. Z.ai vend un Plan de Codage GLM avec des niveaux nommés (Lite, Pro, Max, plus Équipe), exposés à Claude Code et à des outils similaires via un point de terminaison compatible Anthropic.

La clé du plan est une autre référence que la clé API standard. Pour connecter GLM-5.2 à Claude Code, vous le pointez vers le point de terminaison de codage et sélectionnez la variante de contexte 1M via le suffixe de modèle [1m] :
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
La valeur API_TIMEOUT_MS est importante. Sans un délai d'attente suffisamment long, Claude Code peut annuler des appels à contexte large avant que GLM-5.2 ne termine. Certaines sources indiquent l'URL de base de codage comme open.z.ai/api/paas/v4 à la place, alors vérifiez l'hôte exact en direct. La configuration complète de l'agent, y compris Cline et Cursor, se trouve dans le guide des agents de codage GLM-5.2, et l'article précédent GLM-5.1 avec Claude Code couvre le même modèle pour la génération précédente.
GLM-5.2 est-il moins cher que GPT-5.5 ?
Oui, sur l'API à la consommation, et de loin. La formulation la plus claire vient de VentureBeat, qui a rapporté que GLM-5.2 "surpasse GPT-5.5 sur le codage à long terme pour environ 1/6e du coût". Cette affirmation est celle de VentureBeat, pas une mesure d'Apidog, et elle regroupe les performances de référence avec le prix, il faut donc la lire comme une déclaration de valeur directionnelle plutôt que comme un ratio par jeton.
Au niveau de la grille tarifaire, voici la comparaison générale. GLM-5.2 est affiché à 1,40 $ en entrée / 4,40 $ en sortie par 1 million de jetons. Les modèles frontières fermés d'OpenAI, Anthropic et Google se situent généralement bien au-dessus de cela pour leurs niveaux de raisonnement supérieurs, c'est pourquoi la formulation "fraction du coût" ne cesse d'apparaître. Pour une analyse détaillée de la vitesse et du coût des modèles, consultez GLM-5 vs DeepSeek vs GPT-5 sur la vitesse et le coût et la comparaison plus large de GLM-5.1 vs Claude, GPT, Gemini et DeepSeek.
La comparaison d'abonnements est plus nuancée. Un niveau élevé du Plan de Codage GLM, estimé à environ 80 $/mois, se situe dans la même fourchette de prix que les abonnements de codage les plus chers pour un seul utilisateur proposés par d'autres fournisseurs. Les facteurs décisifs deviennent alors la qualité du modèle pour vos tâches et la manière dont les plans mesurent l'utilisation. La question de la comparaison de plans (Plan GLM contre Claude Code, Codex, Cursor et MiniMax) est examinée en détail dans Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Plan.
Une mise en garde concernant les benchmarks : les résultats de lancement qui motivent le positionnement en termes de valeur (SWE-bench Pro 62.1, Terminal-Bench 2.1 à 81.0, MCP-Atlas 77.0) sont les résultats publiés par Z.ai. L'ensemble complet est détaillé dans l'analyse approfondie des benchmarks de GLM-5.2, et la confrontation directe avec les laboratoires fermés se trouve dans GLM-5.2 vs GPT-5.5, Claude Opus et Gemini.
Quel chemin de tarification devriez-vous choisir ?
Un guide de décision rapide :
- Utilisation sporadique ou à faible volume : API pay-as-you-go. Vous ne payez que ce que vous exécutez, et les tarifs sont suffisamment bas pour que l'utilisation légère reste bon marché.
- Codage toute la journée dans un agent : un niveau du Plan de Codage GLM. Un coût mensuel prévisible est plus avantageux que la facturation à la consommation lorsque vous effectuez des centaines d'appels par jour. Vérifiez d'abord le prix du niveau.
- Confidentialité, hors ligne ou coût marginal nul : auto-héberger les poids ouverts. Aucune facture par jeton, juste votre propre puissance de calcul. Commencez par exécuter GLM-5 localement gratuitement ou GLM-5 gratuitement avec Ollama.
Quelle que soit la voie que vous choisissez, les deux leviers de coût restent les mêmes : mettez en cache vos préfixes stables et réduisez l'effort de réflexion pour le travail qui n'en a pas besoin.
Tester les coûts de GLM-5.2 avant de vous engager
Avant de choisir un plan, il est utile de voir ce que coûtent vos invites réelles et combien de temps elles prennent. Vous pouvez diriger n'importe quel client compatible OpenAI vers le point de terminaison GLM-5.2 et observer l'utilisation des jetons par appel. Apidog est utile ici : c'est une plateforme API tout-en-un pour la conception, le débogage, le test et la documentation des API, vous pouvez donc envoyer des requêtes à https://api.z.ai/api/paas/v4/chat/completions, inspecter la réponse et les comptes de jetons, et enregistrer les appels comme une collection réutilisable pendant que vous comparez les niveaux de "pensée" et le comportement de la mise en cache. Téléchargez Apidog si vous voulez comparer la grille tarifaire à votre propre trafic au lieu de faire confiance à un exemple travaillé.

La version courte : le taux API confirmé de GLM-5.2 de 1,40 $ en entrée et 4,40 $ en sortie est le chiffre à retenir. Mettez vos préfixes en cache, gérez l'effort de réflexion et vérifiez le prix de tout niveau de plan de codage en direct avant de vous engager.
