Comment utiliser GLM-5.2 avec Claude Code, Cline et Cursor

GLM-5.2 est le modèle de codage à poids ouverts de Z.ai, et il s'intègre aux trois harnais de codage que la plupart des développeurs utilisent déjà : Claude Code, Cline et Cursor. Le hic, c'est que chacun est configuré différemment. Claude Code utilise le format d'API Anthropic, tandis que Cline et Cursor requièrent un point de terminaison compatible OpenAI. Ce guide passe en revue les trois, de bout en bout, en utilisant le Plan de codage GLM comme base.

Si vous voulez d'abord les faits concernant le modèle, commencez par notre aperçu de GLM-5.2 et la référence de l'API GLM-5.2. Ce billet est le guide de configuration.

bouton

Ce dont vous avez besoin avant de commencer

GLM-5.2 est un modèle de mélange d'experts d'environ 753 milliards de paramètres, servi avec une fenêtre contextuelle d'un million de jetons (1 048 576 jetons pour être exact). Il est conçu pour le codage, avec de solides capacités de raisonnement et d'utilisation d'outils agentiques. Le benchmark phare, selon les résultats publiés par Z.ai, est Terminal-Bench 2.1 à 81,0, contre 62,0 pour GLM-5.1. VentureBeat l'a décrit comme surpassant GPT-5.5 sur les benchmarks de codage à long terme pour environ un sixième du coût.

Pour suivre ce guide, vous avez besoin de :

Un compte Z.ai et une clé API. Pour Claude Code et les harnais agentiques, vous souhaitez une clé GLM Coding Plan plutôt qu'une clé de paiement à l'utilisation brute, car le point de terminaison de codage est celui auquel ces clés sont destinées.
Un des trois harnais installé : Claude Code, Cline (une extension VS Code), ou Cursor.
L'ID du modèle, qui est glm-5.2 partout sauf dans Claude Code, où vous utilisez la variante 1M-contexte glm-5.2[1m].

Un mot rapide sur le coût. L'API standard coûte 1,40 $ par million de jetons d'entrée et 4,40 $ par million de jetons de sortie (confirmé par OpenRouter), avec une entrée en cache d'environ 0,26 $ par million (attribué à VentureBeat). Le GLM Coding Plan est un abonnement séparé avec les niveaux Lite, Pro, Max et Team. Les prix publics des niveaux ont fluctué, donc considérez tout chiffre que vous voyez comme approximatif (à partir de juin 2026, vérifiez les tarifs actuels sur z.ai avant de vous engager).

Configurer GLM-5.2 dans Claude Code

Claude Code communique avec un point de terminaison compatible Anthropic, et Z.ai en expose un spécifiquement pour les outils de codage. Vous pointez Claude Code vers ce point de terminaison avec des variables d'environnement, puis vous l'exécutez normalement.

Voici le bloc complet. Placez-le dans votre profil shell (~/.zshrc ou ~/.bashrc), ou définissez-le en ligne avant de lancer.

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Puis lancez Claude Code de la manière habituelle :

claude

Quelques-unes de ces variables méritent une explication, car les ignorer est la cause de la plupart des échecs de configuration.

L'URL de base. https://api.z.ai/api/coding/paas/v4 est le point de terminaison de codage compatible Anthropic. Certains articles plus anciens affichent https://open.z.ai/api/paas/v4 à la place. Les deux ont circulé, donc si les requêtes renvoient des erreurs 404 ou si l'authentification échoue, essayez l'autre hôte et vérifiez la valeur actuelle dans la documentation GLM-5.2 de Z.ai (vérifiez en direct).

Le suffixe [1m]. La définition des variables de modèle Sonnet et Opus sur glm-5.2[1m] indique à Claude Code de router chaque niveau de modèle vers la variante 1M-contexte de GLM-5.2. Sans le suffixe, vous obtenez le contexte par défaut ; avec, vous obtenez le million de jetons complet. La cartographie de Sonnet et Opus vers le même modèle signifie que quel que soit le niveau que Claude Code recherche, vous aboutissez à GLM-5.2.

CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000. Claude Code compacte automatiquement la conversation lorsqu'elle approche de la limite de contexte. La fenêtre par défaut suppose un budget de contexte plus petit. L'augmenter à 1 000 000 permet à Claude Code d'utiliser la fenêtre complète de GLM-5.2 avant de commencer à résumer, afin que vous conserviez une plus grande partie de votre codebase en contexte.

API_TIMEOUT_MS=3000000. Cette variable n'est pas facultative pour le travail à grand contexte. Il s'agit d'un délai d'attente de 3 000 secondes (50 minutes). Lorsque vous alimentez une tâche agentique à long terme dans une fenêtre de 1 million de jetons, le modèle peut réfléchir longtemps avant l'arrivée du premier jeton, surtout avec un effort de réflexion Max. Le délai d'attente par défaut est beaucoup plus court, de sorte que Claude Code tue la requête en cours de vol et vous voyez une erreur de connexion déroutante. Augmentez le délai d'attente et les appels longs se termineront.

Concernant l'effort de réflexion : GLM-5.2 a deux niveaux, Élevé et Max, et Z.ai recommande Max pour le codage. Le point de terminaison de codage applique un défaut judicieux, mais si votre harnais vous permet de passer reasoning_effort, définissez-le sur max pour les tâches les plus difficiles. La réflexion peut également être désactivée entièrement lorsque vous souhaitez des complétions rapides et peu coûteuses.

Si vous venez d'un modèle antérieur, le chemin de migration est le même que celui que nous avons couvert pour GLM-5.1 dans Claude Code et GLM-4.5 avec Claude Code. Échangez l'ID du modèle et l'URL de base, conservez la structure.

Configurer GLM-5.2 dans Cline

Cline est une extension VS Code qui exécute un agent de codage autonome dans votre éditeur. Contrairement à Claude Code, Cline lit à partir d'un point de terminaison compatible OpenAI, la configuration est donc différente.

Installez l'extension Cline depuis le marketplace VS Code et ouvrez ses paramètres (l'icône d'engrenage dans le panneau Cline).
Pour le Fournisseur d'API, choisissez Compatible OpenAI.
Définissez l'URL de base sur https://api.z.ai/api/paas/v4/. Notez le slash final et qu'il s'agit de la base d'API générale, pas du chemin de codage.
Collez votre clé API Z.ai dans Clé API.
Pour l'ID du modèle, entrez glm-5.2 (pas de suffixe [1m] ici, c'est une convention spécifique à Claude Code).
Trouvez le paramètre de fenêtre contextuelle et définissez-le sur 1000000. Cline l'utilise pour décider quand tronquer l'historique, donc le laisser à une valeur par défaut gaspille la plupart de la fenêtre de GLM-5.2.

C'est toute la configuration de GLM-5.2 Cline. Enregistrez, lancez une tâche et regardez Cline planifier, éditer des fichiers et exécuter des commandes contre le modèle.

Une note spécifique à Cline : étant donné que Cline peut déclencher de nombreux appels d'outils par tâche, une fenêtre contextuelle sous-dimensionnée l'oblige à ignorer les étapes précédentes. Définir la fenêtre à un million complet maintient le plan, les différences et la sortie des tests dans le même périmètre, ce qui est exactement là où le long contexte de GLM-5.2 prend tout son sens.

Configurer GLM-5.2 dans Cursor

Cursor est un éditeur autonome axé sur l'IA. Il utilise également le format compatible OpenAI, donc la configuration est très similaire à celle de Cline.

Ouvrez les paramètres de Cursor, allez dans Modèles et faites défiler jusqu'à la section de la clé API OpenAI.
Activez l'URL de base personnalisée (parfois étiquetée "Override OpenAI Base URL").
Définissez l'URL de base sur https://api.z.ai/api/paas/v4/.
Saisissez votre clé API Z.ai.
Ajoutez un modèle personnalisé avec l'ID glm-5.2, puis assurez-vous qu'il est le modèle actif.
Vérifiez la connexion avec le test de clé API intégré de Cursor, puis envoyez une invite.

Cela couvre GLM-5.2 Cursor. Une fois la vérification effectuée, GLM-5.2 alimente le chat et les modifications en ligne de Cursor.

Si vous avez déjà jonglé avec Cursor et d'autres versions de GLM, les compromis que nous avons décrits dans Claude Code vs Cursor avec GLM-4.7 s'appliquent toujours : l'interface utilisateur de Cursor est la plus fluide pour les modifications en ligne, tandis que Claude Code et Cline se concentrent davantage sur les exécutions d'agents autonomes en plusieurs étapes.

Configuration côte à côte

Voici toutes les valeurs réunies en un seul endroit afin que vous puissiez copier la bonne pour chaque harnais.

Paramètre	Claude Code	Cline	Cursor
Format d'API	Compatible Anthropic	Compatible OpenAI	Compatible OpenAI
URL de base	`https://api.z.ai/api/coding/paas/v4` (vérifier en direct)	`https://api.z.ai/api/paas/v4/`	`https://api.z.ai/api/paas/v4/`
ID du modèle	`glm-5.2[1m]`	`glm-5.2`	`glm-5.2`
Type de clé	Clé GLM Coding Plan	Clé API	Clé API
Fenêtre contextuelle	`CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000`	définir à `1000000`	par défaut du modèle
Délai d'expiration	`API_TIMEOUT_MS=3000000`	n/a	n/a
Effort de réflexion	Max (recommandé pour le codage)	via le défaut du fournisseur	via le défaut du fournisseur

Les deux choses qui font le plus trébucher les gens : utiliser la mauvaise URL de base pour le type de harnais, et oublier le suffixe [1m] et le délai d'expiration dans Claude Code.

Testez votre configuration avec un véritable appel API

Avant de faire confiance à un harnais, confirmez que la clé et le modèle fonctionnent avec une requête brute. Cet appel frappe directement l'API générale et isole la configuration du harnais des problèmes de crédentiels.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "user", "content": "Write a Python function that reverses a linked list."}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "stream": false
  }'

Si cela renvoie une complétion, votre clé et l'ID du modèle sont corrects, et tout problème restant concerne la configuration du harnais. C'est aussi un endroit pratique pour intégrer un client API. Si vous testez déjà GLM-5.2 avec vos propres points de terminaison backend, Apidog vous permet d'enregistrer la requête, de gérer l'en-tête ANTHROPIC_API_KEY ou Authorization comme variable d'environnement, et de la rejouer sans retaper le curl. Vous pouvez télécharger Apidog et importer la requête directement à partir du curl ci-dessus.

Quel harnais devriez-vous utiliser ?

Il n'y a pas de gagnant unique. Cela dépend de votre façon de travailler.

Claude Code est le mieux adapté aux exécutions d'agents terminal-natifs et à long terme, et c'est le seul des trois à obtenir le contexte complet de 1M via glm-5.2[1m]. Idéal pour les grandes refactorisations et les changements à l'échelle du dépôt.
Cline intègre l'agent dans VS Code sans quitter votre éditeur, avec une visibilité claire sur chaque appel d'outil. Un bon compromis.
Cursor est le plus soigné pour les modifications rapides en ligne et le travail de style autocomplétion, avec la configuration la plus légère.

Pour une comparaison plus approfondie des fonctionnalités entre les plans, consultez Claude Code vs Codex vs Cursor vs MiniMax vs GLM Plan. Pour savoir comment GLM-5.2 se compare à la pointe de la technologie, consultez GLM-5.2 vs GPT-5.5, Claude Opus et Gemini et la répartition des benchmarks autonome. Et si vous envisagez une mise à niveau, GLM-5.2 vs GLM-5.1 présente les changements.

FAQ

Pourquoi utiliser `glm-5.2[1m]` dans Claude Code mais `glm-5.2` dans Cline et Cursor ?

Le suffixe [1m] est une convention de Claude Code qui sélectionne la variante 1M-contexte via le point de terminaison de codage. Cline et Cursor passent l'ID de modèle simple glm-5.2 au point de terminaison général compatible OpenAI, où la fenêtre contextuelle est définie dans l'interface utilisateur du harnais plutôt que dans l'ID.

Que faire si Claude Code expire lors de tâches longues ?

C'est presque toujours le délai d'expiration. Définissez API_TIMEOUT_MS=3000000 pour que Claude Code attende suffisamment longtemps que les réponses à grand contexte et à effort maximal se terminent. Sans cela, le harnais annule la requête avant que le modèle ne réponde.

Ai-je besoin du GLM Coding Plan ou puis-je utiliser le paiement à l'utilisation ?

Les deux fonctionnent, mais la clé GLM Coding Plan est ce que le point de terminaison de codage attend pour Claude Code, et les niveaux mensuels forfaitaires du plan (Lite, Pro, Max, Team) sont généralement plus avantageux que la facturation par jeton pour le codage quotidien intensif. Confirmez les prix actuels des niveaux sur z.ai, car les chiffres publiés ont changé (vérifiez à partir de juin 2026).

Quelle URL de base est correcte pour Claude Code ?

Utilisez https://api.z.ai/api/coding/paas/v4. Certaines sources listent https://open.z.ai/api/paas/v4. Si l'une échoue avec des erreurs d'authentification ou 404, essayez l'autre et consultez la documentation Z.ai en direct. La base d'API générale (https://api.z.ai/api/paas/v4/) est pour Cline et Cursor, pas pour Claude Code.

GLM-5.2 peut-il gérer les images ?

Aucune variante de vision confirmée n'existe pour GLM-5.2. C'est un modèle de codage et de raisonnement texte-en-texte-hors. Ne vous attendez pas à un "GLM-5.2V" tant que Z.ai n'en aura pas publié un.

Conclusion

Trois harnais, un modèle, deux formats de point de terminaison. Obtenez la bonne URL de base et l'ID du modèle pour le harnais que vous utilisez, souvenez-vous du suffixe [1m] et du délai d'expiration pour Claude Code, et définissez la fenêtre contextuelle à un million complet dans Cline. À partir de là, GLM-5.2 se comporte comme n'importe quel autre backend de codage, juste en open-weights et moins cher à exécuter. Si vous voulez l'exécuter sans aucun harnais, consultez comment utiliser GLM-5.2 gratuitement et la répartition des prix de GLM-5.2. Prenez les poids sur Hugging Face ou tirez le modèle avec Ollama lorsque vous voulez une copie locale.