En bref
GLM-5.1 (744B MoE, 40-44B paramètres actifs, licence MIT) atteint 77,8 % sur SWE-bench contre 80,8 % pour Claude Opus 4.6. Il coûte 1,00 $/3,20 $ par million de jetons contre 15,00 $/75,00 $ pour Claude Opus 4.6. C'est le modèle à poids ouverts le plus performant en 2026, entraîné entièrement sur du matériel Huawei sans GPU Nvidia. Pour les équipes soucieuses des coûts qui ont besoin de performances de codage proches de la pointe, GLM-5.1 est l'option ouverte la plus solide.
Introduction
GLM-5.1 de Zhipu AI (publié le 27 mars 2026) est significatif pour deux raisons qui dépassent les performances brutes des benchmarks : il est à poids ouverts sous licence MIT, et il a été entraîné sur 100 000 puces Huawei Ascend 910B – sans aucun matériel Nvidia.
Pour les organisations préoccupées par les dépendances de la chaîne d'approvisionnement ou nécessitant une personnalisation du modèle, ces facteurs sont aussi importants que les scores des benchmarks.
Spécifications
| Spécification | GLM-5.1 |
|---|---|
| Paramètres | 744 milliards au total (MoE) |
| Actifs par jeton | 40-44 milliards |
| Architecture d'experts | 256 experts, 8 actifs par jeton |
| Fenêtre contextuelle | 200 000 jetons |
| Sortie maximale | 131 072 jetons |
| Données d'entraînement | 28,5 billions de jetons |
| Matériel d'entraînement | 100 000 Huawei Ascend 910B |
| Licence | MIT (poids ouverts) |
La structure de 744 milliards de paramètres au total contre 40-44 milliards de paramètres actifs est caractéristique de l'architecture MoE : le modèle est grand en capacité totale mais efficace par inférence car seule une fraction des paramètres s'active pour chaque jeton.
Comparaison des benchmarks
Raisonnement et connaissances
| Benchmark | GLM-5 (base 5.1) | Claude Opus 4.6 | Notes |
|---|---|---|---|
| AIME 2025 | 92,7 % | ~88 % | GLM-5 est plus performant |
| GPQA Diamond | 86,0 % | 91,3 % | Claude est en tête |
| MMLU | 88-92 % | ~90 % et plus | Comparable |
Codage
| Benchmark | GLM-5.1 | Claude Opus 4.6 |
|---|---|---|
| SWE-bench | 77,8 % | 80,8 % |
| LiveCodeBench | 52,0 % | Plus élevé |
GLM-5.1 atteint 77,8 % sur SWE-bench — 3 points derrière Claude Opus 4.6 mais significativement en avance sur GPT-5, Gemini et DeepSeek sur ce benchmark spécifique. L'amélioration de 28 % du codage de GLM-5 à 5.1 est venue d'un affinement post-entraînement plutôt que de changements architecturaux.
Préférence humaine (LMArena)
GLM-5 se classe n°1 parmi les modèles à poids ouverts sur LMArena pour les arènes Texte et Code. Parmi tous les modèles, il est compétitif avec les meilleurs modèles fermés.
Comparaison des prix
| Modèle | Entrée (par million de jetons) | Sortie (par million de jetons) |
|---|---|---|
| GLM-5.1 | 1,00 $ | 3,20 $ |
| DeepSeek V3.2 | 0,27 $ | 1,10 $ |
| Claude Sonnet 4.6 | 3,00 $ | 15,00 $ |
| GPT-5.2 | 3,00 $ | 12,00 $ |
| Claude Opus 4.6 | 15,00 $ | 75,00 $ |
| Gemini 2.5 Pro | 1,25 $ | 10,00 $ |
GLM-5.1 offre environ 94,6 % des performances de codage de Claude Opus 4.6 pour 1/15 du coût (basé sur les affirmations internes de Zhipu AI ; vérification indépendante en attente pour le chiffre de 94,6 % spécifiquement).
Pour les équipes qui exécutent des agents de codage en production à grande échelle, cette différence de coût modifie considérablement l'économie.
L'avantage des poids ouverts
GLM-5.1 est disponible sur Hugging Face sous licence MIT. Les équipes peuvent :
- Télécharger et auto-héberger (nécessite ~1,49 To pour le BF16 complet)
- Affiner sur des données spécifiques à un domaine
- Déployer avec un contrôle total sur la gestion des données et l'infrastructure
- Modifier l'architecture du modèle ou le post-entraînement pour des tâches spécifiques
L'exigence de stockage de 1,49 To et l'infrastructure GPU pour 744 milliards de paramètres rendent l'auto-hébergement complet coûteux. Pour la plupart des équipes, l'accès via API est plus pratique.
Limitations
Texte uniquement : GLM-5.1 ne traite que les entrées textuelles. Aucune compréhension d'image, d'audio ou de vidéo. Cela limite les cas d'utilisation par rapport aux modèles multimodaux comme GPT-5.2 et Gemini 2.5 Pro.
Indépendance des benchmarks : Les benchmarks de codage de GLM-5.1 utilisent Claude Code comme cadre d'évaluation. La vérification indépendante des scores exacts sur une infrastructure d'évaluation non-Claude est en attente.
Poids de GLM-5.1 en attente : Seuls les poids de GLM-5 sont actuellement publics. GLM-5.1 est disponible via API ; les poids de la version 5.1 n'ont pas été publiés à la date de publication.
Exigences de stockage : 1,49 To pour l'auto-hébergement. Un auto-déploiement pratique nécessite un investissement substantiel dans l'infrastructure.
Test de GLM-5.1 avec Apidog
Via WaveSpeedAI (recommandé pour l'accès API) :
POST https://api.wavespeed.ai/api/v1/chat/completions
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"model": "glm-5",
"messages": [
{
"role": "user",
"content": "{{coding_task}}"
}
],
"temperature": 0.2,
"max_tokens": 4096
}
Comparer avec Claude Opus 4.6 :
POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
Content-Type: application/json
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "{{coding_task}}"}]
}
Utilisez la même variable {{coding_task}} pour les deux. Comparez :
- Correction du code (fonctionne-t-il ?)
- Qualité du code (est-il lisible et bien structuré ?)
- Longueur de la réponse (plus courte = plus ciblée)
- Utilisation des jetons (vérifiez les métadonnées de la réponse)
À 1,00 $/3,20 $ contre 15,00 $/75,00 $, la même tâche de codage coûte environ 20 à 25 fois plus cher sur Claude Opus 4.6.
Qui devrait utiliser GLM-5.1
Très adapté :
- Équipes ayant besoin de performances de codage de pointe à coût réduit
- Organisations nécessitant des modèles à poids ouverts pour la conformité ou la personnalisation
- Développeurs créant pour le marché chinois ou des cas d'utilisation multilingues
- Équipes de recherche étudiant les modèles ouverts proches de la pointe
De meilleures alternatives existent :
- Cas d'utilisation multimodaux : GPT-5.2 ou Gemini 2.5 Pro
- Capacité de raisonnement maximale quel que soit le coût : Claude Opus 4.6
- Option la moins chère possible : DeepSeek V3.2 à 0,27 $/1,10 $
FAQ
GLM-5.1 est-il disponible via une API compatible OpenAI ?
Les modèles GLM utilisent un format d'API compatible avec les SDK courants. Consultez la documentation actuelle de Zhipu AI pour le format exact du point de terminaison.
Qu'est-ce qui rend l'entraînement sur matériel Huawei significatif ?
La plupart des modèles de pointe sont entraînés sur des clusters Nvidia A100/H100. GLM-5.1 démontrant des performances proches de la pointe sur le matériel Huawei Ascend prouve que des alternatives à l'infrastructure Nvidia sont viables.
La licence MIT autorise-t-elle l'utilisation commerciale ?
Oui. La licence MIT autorise l'utilisation commerciale, la modification et la distribution. C'est plus permissif que les licences de la plupart des autres modèles de pointe.
Comment GLM-5.1 se compare-t-il aux meilleurs modèles open source ?
GLM-5 se classe n°1 sur LMArena parmi les modèles à poids ouverts, devant Llama, Qwen et d'autres alternatives ouvertes.
À quoi sert la fenêtre contextuelle de 200 000 jetons ?
200 000 jetons peuvent contenir environ 150 000 mots — un livre entier, une grande base de code, ou de nombreux documents simultanément. Pour les applications à long contexte comme l'analyse de documents ou la révision de grandes bases de code, c'est suffisant pour la plupart des cas d'utilisation pratiques.
