Qu'est-ce que GLM-5.1 ? Explication du nouveau modèle agentique phare de Z.AI

En bref

GLM-5.1 est le modèle phare de nouvelle génération de Z.AI, lancé en avril 2026. Il est conçu spécifiquement pour l'ingénierie d'agents : tâches de codage de longue haleine, boucles d'optimisation autonomes et projets logiciels complexes nécessitant des centaines d'itérations. Il se classe premier sur SWE-Bench Pro (58.4), domine Terminal-Bench 2.0 (69.0) et surpasse GLM-5 sur tous les principaux benchmarks de codage. Les poids ouverts sont disponibles sous licence MIT.

Introduction

La plupart des modèles d'IA atteignent un plafond après quelques dizaines d'appels d'outils. Ils progressent rapidement au début d'un problème de codage, stagnent, puis produisent des rendements décroissants, quelle que soit la durée que vous leur accordez. Vous finissez par chaperonner l'agent ou accepter un résultat médiocre.

GLM-5.1 est conçu pour briser ce schéma. Z.AI, l'équipe à l'origine de la famille de modèles GLM chez Zhipu AI, a lancé GLM-5.1 en avril 2026 comme leur modèle le plus performant pour les tâches agentiques. L'affirmation clé n'est pas la performance brute sur un benchmark en un seul passage. C'est l'efficacité à long terme : la capacité à continuer de faire des progrès significatifs sur plus de 600 itérations, 8 heures et des milliers d'appels d'outils.

💡

Si vous développez des API basées sur l'IA ou testez des workflows d'agents multi-étapes, suivre ce que GLM-5.1 peut réellement faire est important pour évaluer votre propre pile technologique. Les scénarios de test d'Apidog vous permettent de définir des chaînes d'appels d'API qui reproduisent des workflows d'agents réels, afin que vous puissiez vérifier que votre intégration gère correctement les sorties asynchrones de GLM-5.1, les séquences d'appels d'outils et les réponses en streaming avant de passer en production. Téléchargez Apidog gratuitement pour suivre les sections de test de ce guide.

button

Qu'est-ce que GLM-5.1 ?

GLM-5.1 est un grand modèle linguistique de Zhipu AI, lancé via leur plateforme de développement Z.AI en avril 2026. "GLM" signifie General Language Model (Modèle Linguistique Général), une architecture de modèle que Zhipu développe depuis 2021.

GLM-5.1 succède à GLM-5, lui-même lancé fin 2025. La mise à jour 5.1 se concentre presque entièrement sur les capacités agentiques : la capacité à travailler de manière autonome sur des tâches de longue durée sans nécessiter d'intervention humaine fréquente ni atteindre de limites de performance.

Ce n'est pas principalement un modèle de raisonnement, un modèle d'écriture créative ou un chatbot généraliste. Z.AI le positionne explicitement comme un modèle pour l'ingénierie d'agents : construire des logiciels, exécuter des boucles d'optimisation, écrire et exécuter du code sur de nombreuses itérations, et résoudre des problèmes qui nécessitent un effort soutenu sur de longues sessions.

Les poids du modèle sont disponibles publiquement sur Hugging Face sous la licence MIT. Vous pouvez l'exécuter localement avec vLLM ou SGLang, ou y accéder via l'API BigModel ou la plateforme de développement Z.AI.

Performances de GLM-5.1 sur les benchmarks

Z.AI a publié des résultats de benchmarks comparant GLM-5.1 à GLM-5, GPT-5.4, Claude Opus 4.6 et Gemini 3.1 Pro. Les résultats couvrent trois grandes catégories : l'ingénierie logicielle, le raisonnement et les tâches agentiques.

Ingénierie logicielle

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.4	55.1	57.7	57.3	54.2
NL2Repo	42.7	35.9	41.3	49.8	33.4
Terminal-Bench 2.0	69.0	56.2	75.1	65.4	68.5
CyberGym	68.7	48.3	—	66.6	—

GLM-5.1 se classe numéro 1 sur SWE-Bench Pro, le benchmark standard pour les tâches d'ingénierie logicielle autonome. Sur Terminal-Bench 2.0, GPT-5.4 obtient un score plus élevé (75.1) mais GLM-5.1 devance GLM-5 avec une large marge (69 contre 56.2).

Le score NL2Repo (42.7) mesure la génération de dépôts à long terme. Claude Opus 4.6 mène ici avec 49.8, mais GLM-5.1 bat GLM-5 de 6.8 points et surpasse tous les autres modèles dans cette comparaison.

Raisonnement

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
HLE (avec outils)	52.3	50.4	52.1*	53.1*	51.4*
AIME 2026	95.3	95.4	98.7	95.6	98.2
HMMT Nov. 2025	94.0	96.9	95.8	96.3	94.8
GPQA-Diamond	86.2	86.0	92.0	91.3	94.3

Sur les benchmarks de raisonnement, GLM-5.1 est compétitif mais n'est pas le leader. GPT-5.4 et Gemini 3.1 Pro dominent sur AIME 2026 et GPQA-Diamond. La force de GLM-5.1 réside dans le codage et les tâches agentiques, et non dans le raisonnement pur.

Tâches agentiques

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
BrowseComp (avec contexte)	79.3	75.9	82.7	84.0	85.9
MCP-Atlas (Public)	71.8	69.2	67.2	73.8	69.2
Tool-Decathlon	40.7	38.0	54.6	47.2	48.8
Agentic	68.0	62.0	—	—	—

Sur MCP-Atlas, GLM-5.1 domine le classement avec 71.8. Sur BrowseComp et Tool-Decathlon, il se situe dans la moyenne. Le score du benchmark Agentic (68 contre 62 pour GLM-5) montre l'amélioration la plus nette par rapport à la génération précédente.

Ce qui distingue GLM-5.1 : l'optimisation à long terme

Les tableaux de benchmarks ne racontent qu'une partie de l'histoire. La partie la plus intéressante est ce que Z.AI a démontré au-delà des benchmarks à passage unique.

La plupart des modèles de codage s'améliorent rapidement sur une tâche, puis stagnent. GLM-5.1 est conçu pour rester utile sur des exécutions beaucoup plus longues. Z.AI l'a testé dans trois scénarios avec des retours progressivement moins structurés.

Scénario 1 : optimisation de base de données vectorielle sur plus de 600 itérations

Z.AI a exécuté GLM-5.1 sur un défi d'optimisation de recherche vectorielle en utilisant le jeu de données SIFT-1M. Le modèle a reçu un squelette Rust et a été invité à maximiser les requêtes par seconde (QPS) avec un rappel supérieur à 95 %. Au lieu d'un budget standard de 50 tours, ils ont mis en place une boucle externe où GLM-5.1 pouvait exécuter autant d'itérations que nécessaire.

Graphique montrant l'amélioration des QPS (Queries Per Second) de GLM-5.1 sur plus de 600 itérations pour l'optimisation d'une base de données vectorielle, par rapport à d'autres modèles.

Les résultats montrent clairement la différence. Le meilleur résultat en une seule session pour tous les modèles était de 3 547 QPS (Claude Opus 4.6). GLM-5.1, exécuté sur plus de 600 itérations avec plus de 6 000 appels d'outils, a atteint 21 500 QPS, soit environ 6 fois ce résultat.

L'amélioration n'a pas été continue. Le modèle a effectué des transitions structurelles à des points clés : autour de l'itération 90, il est passé du balayage de corpus complet à la détection de clusters IVF avec compression vectorielle f16, passant d'environ 3 500 à 6 400 QPS. Autour de l'itération 240, il a introduit un pipeline en deux étapes combinant la pré-notation u8 avec le ré-ordonnancement f16, atteignant 13 400 QPS. Six transitions structurelles de ce type se sont produites au cours de l'exécution complète, chacune déclenchée après que le modèle ait analysé ses propres journaux de benchmark et identifié le goulot d'étranglement actuel.

Scénario 2 : optimisation du noyau GPU sur plus de 1 000 itérations

Z.AI a exécuté un benchmark de noyau GPU comparant GLM-5.1 à GLM-5 et Claude Opus 4.6. La tâche consistait à prendre du code PyTorch de référence et à produire des noyaux CUDA plus rapides.

Graphique comparant les améliorations de vitesse des noyaux GPU entre GLM-5.1, GLM-5 et Claude Opus 4.6 sur plus de 1000 itérations.

GLM-5.1 a atteint une accélération de 3,6x par rapport à la base de référence. Claude Opus 4.6 a mené avec 4,2x et montrait encore une marge de progression à la fin de l'exécution. GLM-5 a plafonné plus tôt et a terminé plus bas. Le résultat confirme le schéma : GLM-5.1 maintient son amélioration plus longtemps que GLM-5, mais n'a pas encore égalé le meilleur modèle sur cette tâche spécifique.

Fenêtre de contexte et spécifications techniques

GLM-5.1 prend en charge une fenêtre de contexte de 200 000 jetons. C'est important pour les tâches agentiques où le modèle accumule l'historique des appels d'outils, les fichiers de code, les sorties de test et les journaux d'erreurs sur de nombreuses itérations.

Spécification	Valeur
Fenêtre de contexte	200 000 jetons
Sortie maximale	163 840 jetons
Architecture	Transformeur autorégressif (famille GLM)
Licence	MIT (poids ouverts)
Frameworks d'inférence	vLLM, SGLang
Poids du modèle	HuggingFace (zai-org)

Disponibilité et tarifs

GLM-5.1 est disponible via trois canaux.

API BigModel (bigmodel.cn) : L'API principale pour les développeurs. Vous utilisez le nom du modèle glm-5.1 dans vos requêtes API. La tarification utilise un système de quota plutôt qu'une facturation par jeton. GLM-5.1 consomme 3x le quota pendant les heures de pointe et 2x pendant les heures creuses. Dans le cadre d'une promotion à durée limitée jusqu'à fin avril 2026, l'utilisation en heures creuses est facturée 1x. Les heures de pointe sont de 14h00 à 18h00 UTC+8 tous les jours.

Plan de codage GLM (Z.AI) : Un plan d'abonnement pour les développeurs utilisant des assistants de codage IA. GLM-5.1 est disponible pour tous les abonnés au plan de codage. Vous l'activez en mettant à jour le nom du modèle dans la configuration de votre assistant de codage. Le plan fonctionne avec Claude Code, Cline, Kilo Code, Roo Code, OpenCode et Droid. Le prix commence à 10 $/mois.

Déploiement local : Les poids du modèle sont sur HuggingFace à zai-org/GLM-5.1. Vous pouvez l'exécuter localement avec vLLM ou SGLang. La documentation de déploiement se trouve sur le dépôt GitHub officiel.

GLM-5.1 vs GLM-5 : ce qui a réellement changé

GLM-5 était déjà un modèle de codage performant. GLM-5.1 l'améliore d'une manière spécifique : il étend la fenêtre de travail utile.

Le changement essentiel ne réside pas dans les performances du premier passage. Sur la plupart des benchmarks, GLM-5.1 devance GLM-5 de 3 à 7 points, ce qui est significatif mais pas spectaculaire. La vraie différence apparaît lorsque vous donnez aux deux modèles la même tâche avec un temps illimité.

GLM-5 s'améliore rapidement puis se stabilise. GLM-5.1 continue de progresser au-delà du point où GLM-5 s'arrête. C'est important pour les applications agentiques où vous souhaitez que le modèle continue de fonctionner de manière autonome plutôt que de devoir intervenir et le rediriger.

Concrètement : GLM-5 sur le benchmark de recherche vectorielle a plafonné autour de 8 000-10 000 QPS avec un temps prolongé. GLM-5.1 a atteint 21 500 QPS. Sur le benchmark du noyau GPU, GLM-5 a terminé plus bas et plus tôt que GLM-5.1. Sur la tâche de bureau Linux, GLM-5 a produit un squelette et s'est arrêté.

Le modèle présente encore des lacunes significatives. Claude Opus 4.6 est en tête sur l'optimisation des noyaux GPU et BrowseComp.

GLM-5.1 vs ses concurrents

GLM-5.1 vs Claude Opus 4.6

Sur les benchmarks d'ingénierie logicielle, GLM-5.1 mène sur SWE-Bench Pro (58.4 vs 57.3) et CyberGym (68.7 vs 66.6). Claude Opus 4.6 mène sur NL2Repo (49.8 vs 42.7), l'optimisation des noyaux GPU et BrowseComp. Pour l'accès à l'API, Claude est nettement plus cher. GLM-5.1 via l'API BigModel ou le Plan de Codage est tarifé pour les développeurs exécutant des boucles d'agents à volume élevé.

GLM-5.1 vs GPT-5.4

GPT-5.4 mène sur Terminal-Bench 2.0 (75.1 vs 69.0) et la plupart des benchmarks de raisonnement. GLM-5.1 mène sur SWE-Bench Pro (58.4 vs 57.7) et MCP-Atlas (71.8 vs 67.2). Pour les développeurs en Chine ou ceux qui s'appuient sur l'infrastructure d'IA chinoise, l'accès à l'API BigModel pour GLM-5.1 est nettement plus facile que l'accès à GPT-5.4.

GLM-5.1 vs Gemini 3.1 Pro

Gemini 3.1 Pro domine sur le raisonnement (AIME 2026, GPQA-Diamond) et BrowseComp. GLM-5.1 domine sur SWE-Bench Pro, Terminal-Bench 2.0 et CyberGym. Pour les cas d'utilisation axés sur le code, GLM-5.1 est le choix le plus performant. Pour le raisonnement général et l'analyse de documents, Gemini a un avantage.

Cas d'utilisation pour lesquels GLM-5.1 est le mieux adapté

Agents de codage autonomes : Tâches de longue durée où vous souhaitez que le modèle prenne des décisions sur la prochaine étape à essayer, exécute des tests, analyse les résultats et continue sans fréquents points de contrôle humains. Pour une analyse approfondie de la façon dont les agents gèrent la mémoire au cours de ces exécutions, consultez comment fonctionne la mémoire d'un agent IA. La fenêtre de contexte de 200K et la capacité d'optimisation à long terme le rendent bien adapté ici.

Assistants de codage IA (intégrations Claude Code, Cline, Cursor) : GLM-5.1 est explicitement pris en charge dans le Plan de Codage Z.AI pour une utilisation avec Claude Code, Cline, Kilo Code, Roo Code et d'autres outils de codage IA. Les développeurs qui veulent un modèle de codage performant sans payer le prix par jeton de Claude ou GPT peuvent passer par BigModel.

Automatisation de l'ingénierie logicielle (tâches de type SWE-Bench) : Résolution de problèmes GitHub, génération de requêtes de tirage, automatisation des corrections de bugs. Le classement numéro 1 de GLM-5.1 sur SWE-Bench Pro en fait un choix crédible pour ces pipelines.

Programmation compétitive et optimisation : Réglage du noyau GPU, benchmarking des performances, optimisation d'algorithmes où le modèle peut exécuter des expériences et adapter sa stratégie en fonction des résultats.

Ce pour quoi il n'est pas le mieux adapté : Chatbot généraliste, écriture créative, questions/réponses de documents où la qualité du raisonnement importe plus que la sortie de code. Pour ces cas d'utilisation, les benchmarks de raisonnement montrent que Gemini et GPT-5.4 ont des avantages.

Comment essayer GLM-5.1 dès aujourd'hui

Le moyen le plus rapide de l'essayer est via l'interface de chat Z.AI sur z.ai, qui exécute GLM-5.1 par défaut. Aucune clé API n'est nécessaire pour l'interface de chat.

Pour l'accès API, créez un compte sur bigmodel.cn et générez une clé API. L'API est compatible OpenAI, donc tout client qui fonctionne avec les modèles GPT fonctionne également avec GLM-5.1. Le nom du modèle à utiliser dans les requêtes est glm-5.1.

Pour le déploiement local, les poids sont sur huggingface.co/zai-org. Les instructions de configuration complètes se trouvent dans le dépôt GitHub officiel à github.com/zai-org/GLM-5.1.

Pour une présentation détaillée de l'API avec des exemples de code, l'authentification et la configuration des tests, consultez le guide API GLM-5.1.

Conclusion

GLM-5.1 représente une avancée significative par rapport à GLM-5, notamment quant à sa capacité à rester utile sur des tâches agentiques complexes. Le classement n°1 sur SWE-Bench Pro et la démonstration de recherche vectorielle sur 600 itérations plaident de manière crédible en faveur de ce modèle comme étant le plus puissant des modèles à poids ouverts actuellement disponibles pour les workflows de codage autonomes.

Il ne domine pas tous les benchmarks. Claude Opus 4.6 et GPT-5.4 sont plus performants en matière de raisonnement, d'optimisation GPU et sur certaines tâches agentiques. Mais pour les développeurs qui souhaitent exécuter des agents de codage soutenus sans supporter le coût des modèles de pointe fermés, GLM-5.1 sous licence MIT avec accès API BigModel est une option sérieuse.

Les poids ouverts et la licence MIT méritent d'être soulignés. Vous pouvez exécuter GLM-5.1 localement, l'affiner et le déployer dans votre propre infrastructure sans aucune restriction d'utilisation.

button

FAQ

Que signifie GLM ?General Language Model (Modèle Linguistique Général). C'est l'architecture de modèle que Zhipu AI développe depuis 2021, basée sur le remplissage autorégressif de blancs plutôt que sur l'approche de type décodeur uniquement utilisée par les modèles de la famille GPT.

GLM-5.1 est-il open source ?Oui. Les poids du modèle sont publiés sous la licence MIT sur HuggingFace à zai-org/GLM-5.1. MIT est l'une des licences open source les plus permissives, autorisant l'utilisation commerciale, le fine-tuning et la redistribution.

Quelle fenêtre de contexte GLM-5.1 prend-il en charge ?200 000 jetons (environ 150 000 mots), avec une sortie maximale de 163 840 jetons.

Comment GLM-5.1 se compare-t-il à DeepSeek-V3.2 ?Les benchmarks de Z.AI montrent que GLM-5.1 domine DeepSeek-V3.2 sur les tâches d'ingénierie logicielle. Sur les benchmarks de raisonnement, DeepSeek-V3.2 est compétitif. Pour les agents de codage spécifiquement, GLM-5.1 est le choix le plus performant d'après les données publiées.

Puis-je utiliser GLM-5.1 avec Claude Code ou Cursor ?Oui. Le Plan de Codage Z.AI prend en charge Claude Code, Cline, Kilo Code, Roo Code et OpenCode via l'API BigModel. Vous mettez à jour le nom du modèle dans le fichier de configuration de votre assistant de codage. Les plans commencent à 10 $/mois.

Comment accéder à GLM-5.1 via l'API ?Créez un compte sur bigmodel.cn, générez une clé API, et utilisez le nom du modèle glm-5.1 dans les requêtes vers https://open.bigmodel.cn/api/paas/v4/chat/completions. Le guide API complet se trouve dans le guide API GLM-5.1.

GLM-5.1 est-il disponible gratuitement ?L'interface de chat Z.AI sur z.ai est gratuite. L'accès API via BigModel utilise un système de quota avec des plans payants. L'utilisation en heures creuses est facturée 1x le quota jusqu'à fin avril 2026 en tant que tarif promotionnel.