GLM-5.2 ist das neueste Flaggschiffmodell von Z.ai (dem Zhipu AI Labor) und wurde mit einem klaren Versprechen eingeführt: offene Gewichte, Code-fokussiert und wettbewerbsfähig mit den größten geschlossenen Frontier-Modellen. Wenn Sie den Namen gehört haben und eine direkte Antwort auf „Was ist GLM-5.2?“ suchen, ist dies die maßgebliche Erklärung. Wir werden behandeln, wer es herstellt, was es unter der Haube wirklich ist, wie man darauf zugreifen kann und wo die ehrlichen Einschränkungen liegen.
TL;DR
- Was es ist: GLM-5.2 ist ein großes Sprachmodell mit offenen Gewichten von Z.ai, das für Coding, logisches Denken und die Verwendung von Agenten-Tools entwickelt wurde.
- Größe: Etwa 753 Milliarden Parameter in einem Mixture-of-Experts (MoE)-Design, BF16, mit einem neuen „IndexShare“-Trick für Sparse Attention, um lange Kontexte kostengünstiger zu halten.
- Kontext: 1 Million Tokens (1.048.576). Die maximale Ausgabe wird in den z.ai-Dokumenten mit bis zu 128.000 Tokens angegeben (live überprüfen, da nicht jeder Host dieselbe Obergrenze angibt).
- Lizenz: MIT, offene Gewichte. Sie können es herunterladen, selbst hosten, feinabstimmen und kommerziell nutzen.
- Schlagzeilen-Benchmark: Terminal-Bench 2.1 stieg laut den veröffentlichten Ergebnissen von Z.ai von 62,0 bei GLM-5.1 auf 81,0. SWE-bench Pro liegt bei 62,1.
- Zugang: Z.ai API, Claude Code über den GLM Coding Plan, OpenRouter und Ollama.
- Einschränkung: Es ist Text-rein, Text-raus. Es gibt keine bestätigte Vision-Variante. Erwarten Sie keine Bildeingabe.
Wer stellt GLM-5.2 her und was ist es
GLM-5.2 stammt von Z.ai, dem Labor, das auch als Zhipu AI bekannt ist. Es ist der neueste Eintrag in der GLM-Familie („General Language Model“) und folgt auf die Veröffentlichung von GLM-5.1. Die Positionierung ist explizit: Dies ist ein Coding-Flaggschiff, das seine Gewichte offen liefert, anstatt sich hinter einer reinen API-Mauer zu verstecken.

Diese Haltung der offenen Gewichte ist hier die ganze Geschichte. Die meisten Modelle, die sich mit GPT-5.5 oder Claude Opus 4.8 messen, sind geschlossen. GLM-5.2 bietet vergleichbare Funktionen in einer Datei, die Sie herunterladen können. Wenn Sie unsere GLM-5.1-Übersicht gelesen haben, stellen Sie sich 5.2 als dieselbe Linie mit einem schärferen Fokus auf Coding und Agenten-Fähigkeiten vor.
GLM-5.2 ist ein Allzweckmodell mit einer starken Neigung zum Coding. Es verarbeitet logisches Denken, Mathematik und mehrsprachigen Text (Englisch und Chinesisch sind erstklassig), aber Z.ai hat es am stärksten auf Softwareentwicklung und tool-gesteuerte, mehrschrittige Agenten-Aufgaben abgestimmt.
Identität: Wie man GLM-5.2 auf verschiedenen Plattformen findet
Eine Sache, die bei offenen Modellen zu Verwirrung führt, ist die Benennung. Dasselbe Modell trägt je nach Ladeort unterschiedliche Bezeichnungen. Hier ist die Übersicht.
| Plattform | Bezeichnung |
|---|---|
| Hugging Face | zai-org/GLM-5.2 |
| Z.ai API | glm-5.2 |
| Ollama | glm-5.2 |
| OpenRouter | z-ai/glm-5.2 |
Die Gewichte sind MIT-lizenziert ohne regionale Beschränkungen, sodass das Hugging Face Repo wirklich heruntergeladen werden kann und nicht eingeschränkt ist. Sie können die Modellkarte und Dateien auf der GLM-5.2-Seite auf Hugging Face überprüfen.
Architektur in einfachen Worten: 753B MoE + IndexShare
GLM-5.2 ist ein Mixture-of-Experts-Modell mit ungefähr 753 Milliarden Gesamtparametern, bereitgestellt in BF16. MoE bedeutet, dass das Modell in viele „Experten“-Subnetzwerke aufgeteilt ist, und nur ein Bruchteil davon wird für jedes gegebene Token aktiviert. Sie erhalten die Wissenskapazität eines riesigen Modells, ohne die volle Rechenleistung bei jedem Vorwärtsdurchlauf bezahlen zu müssen. So bleibt ein 753B-Modell nutzbar.

Das neuere Element ist die Sparse Attention. GLM-5.2 führt eine Methode ein, die Z.ai IndexShare nennt. Normale Attention wird schnell teuer, wenn Ihr Kontext wächst, da jedes Token auf jedes andere Token achtet. IndexShare verwendet einen einzigen „Indexer“ über jede Gruppe von 4 Sparse-Attention-Layern wieder, anstatt für jeden Layer einen neuen zu berechnen. In der Praxis senkt dies die Kosten der Attention bei langem Kontext, was genau das ist, was Sie wollen, wenn Ihr Kontextfenster eine Million Tokens breit ist.
Sie müssen die Mathematik nicht verstehen, um davon zu profitieren. Die Quintessenz: GLM-5.2 ist so konzipiert, dass das Füttern mit einer großen Codebasis oder einem langen Dokument Ihre Latenz und Kosten nicht so in die Höhe treibt, wie es ein dichtes Modell tun würde.
Ein 1-Millionen-Token-Kontextfenster
GLM-5.2 unterstützt ein 1-Millionen-Token-Kontextfenster (genau 1.048.576 Tokens). Das ist genug, um ein gesamtes mittelgroßes Repository, eine lange Spezifikation oder einen Stapel verwandter Dokumente in einen einzigen Prompt zu geben und das Modell aufzufordern, über all dies zu resonieren.
Bei der maximalen Ausgabe sollten Sie vorsichtig sein. Die z.ai-Dokumente listen eine Ausgabe von bis zu 128.000 Tokens auf, aber nicht jeder Host veröffentlicht dieselbe Zahl, und OpenRouter listet sie überhaupt nicht auf. Behandeln Sie 128.000 Tokens daher als die dokumentierte Obergrenze, die live überprüft werden muss, und nicht als Garantie an jedem Endpunkt. Wenn Ihr Workflow von sehr langen Generierungen abhängt, überprüfen Sie die Grenze bei dem spezifischen Anbieter, den Sie verwenden.
Für den Kontext, wie diese Generation die Messlatte höher gelegt hat, schlüsselt unser GLM-5.2 vs. GLM-5.1 Vergleich auf, was sich von Version zu Version geändert hat.
Denkaufwand: Hoch, Maximal und Deaktivieren
GLM-5.2 ist ein reasoning-fähiges Modell mit steuerbarem „Denkverhalten“. Sie erhalten zwei Stufen des Denkaufwands:
- Hoch, starkes logisches Denken mit geringerem Rechenaufwand.
- Maximal, das tiefste logische Denken. Z.ai empfiehlt Maximal speziell für Coding-Aufgaben.
Sie können das Denken auch vollständig deaktivieren. Für schnelle Suchen, Formatierungen oder einfache Transformationen möchten Sie nicht, dass das Modell Tokens für eine interne Gedankenabfolge verbrennt. Das Deaktivieren des Denkens hält diese Aufrufe schnell und günstig.
In der API wird dies einem thinking-Parameter ({"type": "enabled"} oder {"type": "disabled"}) und einem reasoning_effort-Wert wie "max" zugeordnet. Wir gehen in der GLM-5.2 API-Anleitung tiefer auf die Request-Struktur ein, aber das mentale Modell ist einfach: Erhöhen Sie das logische Denken für anspruchsvolle Ingenieursarbeit, schalten Sie es bei trivialen Aufrufen ab.
MIT-Lizenz und offene Gewichte: Was Sie tatsächlich davon haben
„Offene Gewichte“ wird oft leichtfertig verwendet, daher hier, was die MIT-Lizenz von GLM-5.2 konkret ermöglicht:
- Selbst-Hosting. Führen Sie es auf Ihrer eigenen Hardware oder einer gemieteten GPU aus. Nichts verlässt Ihr Netzwerk.
- Feinabstimmung. Passen Sie es an Ihre Domäne, Ihre Codebase-Konventionen oder eine spezialisierte Aufgabe an.
- Kommerzielle Nutzung. MIT ist permissiv. Sie können Produkte darauf aufbauen, ohne dass eine restriktive Lizenz über Ihnen schwebt.
- Keine regionale Sperre. Die Gewichte sind nicht hinter einer Regionsprüfung eingeschränkt.
Für Teams mit Datenresidenz- oder Compliance-Einschränkungen ist dies wichtiger als ein oder zwei Benchmark-Punkte. Sie können Prompts und Code im eigenen Haus behalten. Wenn Sie den vollständig lokalen Weg ausprobieren möchten, lesen Sie GLM-5 lokal kostenlos ausführen und GLM-5 kostenlos mit Ollama für die Muster, die auf 5.2 übertragen werden.
Code-fokussiert und Agenten-fähig: die Benchmarks
Z.ai hat GLM-5.2 entwickelt, um echte Softwarearbeit zu leisten, nicht nur darüber zu chatten. Die Benchmark-Geschichte konzentriert sich auf Coding und die Verwendung von Agenten-Tools. Die unten stehenden Zahlen sind die von Z.ai veröffentlichten Ergebnisse, daher sind sie als eigene Messungen des Labors und nicht als unabhängige Drittanbieter-Scores zu verstehen.
| Benchmark | GLM-5.2 | Bemerkenswerter Vergleich |
|---|---|---|
| Terminal-Bench 2.1 | 81.0 | GLM-5.1 erreichte 62.0 |
| SWE-bench Pro | 62.1 | GPT-5.5 58.6, GLM-5.1 58.4 |
| MCP-Atlas | 77.0 | GPT-5.5 75.3, Claude Opus 4.8 77.8 |
| Humanity’s Last Exam (mit Tools) | 54.7 | GPT-5.5 52.2 |
| AIME 2026 | 99.2 | n/a |
| GPQA-Diamond | 91.2 | n/a |
Die herausragende Statistik ist Terminal-Bench. Ein Sprung von 62,0 auf 81,0 in einer einzigen Generation ist ein großer Fortschritt bei einem Benchmark, der misst, ob ein Modell tatsächlich ein Terminal bedienen kann, um Aufgaben zu erledigen. SWE-bench Pro mit 62,1, das GPT-5.5's 58,6 übertrifft, ist die andere Schlagzeile: Es weist auf echte Problemlösung auf Repository-Ebene hin, nicht auf Spielzeug-Code-Schnipsel.
Z.ai meldet GLM-5.2 auch als das höchste Open-Source-Modell auf FrontierSWE, PostTrainBench und SWE-Marathon und positioniert es gegen GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro und DeepSeek-V4-Pro. VentureBeat formulierte den Kostenaspekt unverblümt und schrieb, dass GLM-5.2 „GPT-5.5 bei Long-Horizon-Coding zu etwa 1/6 der Kosten schlägt“ (diese Zeile ist die Formulierung von VentureBeat in ihrer GLM-5.2-Berichterstattung, keine Apidog-Messung).
Für die vollständige Aufschlüsselung und die „Äpfel mit Äpfeln“-Einschränkungen siehe unseren GLM-5.2 Benchmarks Deep Dive und den direkten Vergleich GLM-5.2 vs. GPT-5.5, Claude Opus und Gemini.
Wie man GLM-5.2 auf einen Blick zugreift
Sie haben vier praktische Wege, je nachdem, ob Sie eine gehostete API, ein agentenbasiertes Coding-Setup, einen Router oder eine lokale Installation wünschen.
| Zugangsweg | Am besten für | Kurze Anmerkung |
|---|---|---|
| Z.ai API | Direkte, gehostete Aufrufe | OpenAI-kompatibel, Endpunkt unter https://api.z.ai/api/paas/v4/ |
| Claude Code (GLM Coding Plan) | Agentenbasiertes Coding in Ihrem Terminal | Anthropic-kompatible Basis-URL, wählen Sie die [1m]-Variante |
| OpenRouter | Ein Schlüssel, viele Modelle | Modell-ID z-ai/glm-5.2 |
| Ollama | Lokal / Offline | Holen Sie glm-5.2 aus der Bibliothek |
Z.ai API. Die allgemeine API ist OpenAI-kompatibel. Sie rufen https://api.z.ai/api/paas/v4/chat/completions mit einem Bearer-Schlüssel auf und übergeben die üblichen Parameter plus thinking, reasoning_effort, temperature und stream. Funktions- und Tool-Aufrufe werden unterstützt.
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [{"role": "user", "content": "Refactor this function for readability."}],
"thinking": {"type": "enabled"},
"reasoning_effort": "max",
"stream": true
}'
Claude Code über den GLM Coding Plan. Z.ai stellt einen Anthropic-kompatiblen Coding-Endpunkt bereit, sodass Sie Claude Code auf GLM-5.2 verweisen können. Die Coding-Basis-URL ist https://api.z.ai/api/coding/paas/v4 (einige Quellen zeigen open.z.ai/api/paas/v4, also live überprüfen), und Sie konfigurieren Ihre Claude Code-Umgebung, um darüber zu routen.
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
Das [1m]-Suffix wählt die 1M-Kontext-Variante aus. Diese API_TIMEOUT_MS-Zeile ist keine optionale Füllung: Lange Aufrufe mit großem Kontext können das Standard-Timeout von Claude Code überschreiten, daher verhindert eine Erhöhung, dass das Tool Anfragen mitten im Fluss abbricht. Wir gehen dieses Setup, plus Cline und Cursor, in der Anleitung GLM-5.2 in Claude Code, Cline und Cursor durch. Wenn Sie die frühere Generation auf diese Weise verwendet haben, behandelt unser Artikel GLM-5.1 mit Claude Code denselben Workflow.
OpenRouter. Wenn Sie bereits über OpenRouter routen, ist GLM-5.2 als z-ai/glm-5.2 verfügbar. Überprüfen Sie die Live-Auflistung unter openrouter.ai/z-ai/glm-5.2. Beachten Sie, dass es für dieses Modell keine kostenlose OpenRouter-Spur gibt, planen Sie also nicht damit.
Ollama. Für die lokale Nutzung ziehen Sie es aus der Ollama-Bibliothek. Dies ist der Weg für Offline-Arbeit oder strenge Datenkontrolle, mit dem offensichtlichen Kompromiss, dass Sie echten GPU-Speicher benötigen, um ein 753B MoE komfortabel zu betreiben.
Für eine Zusammenfassung der wirklich kostenlosen Optionen siehe wie man GLM-5.2 kostenlos nutzt.
Preise, kurz zusammengefasst
Bei der gehosteten API bestätigt OpenRouter Preise von 1,40 $ pro 1 Million Input-Tokens und 4,40 $ pro 1 Million Output-Tokens. VentureBeat nennt für gecachte Eingaben etwa 0,26 $ pro 1 Million. Der GLM Coding Plan hat gestaffelte Abonnements (Lite, Pro, Max und Team), aber die genauen monatlichen Zahlen variieren je nach sekundären Quellen, daher bestätigen Sie die aktuellen Preise bei z.ai, bevor Sie sich festlegen (Stand Juni 2026). Unsere GLM-5.2 Preisaufschlüsselung führt eine laufende Bilanz.
Wo Apidog ins Spiel kommt
Wenn Sie mit der GLM-5.2 API entwickeln oder sie in einen Agenten integrieren, der Ihre eigenen Dienste aufruft, müssen Sie diese Endpunkte dennoch entwerfen, testen und dokumentieren. Hier hilft Apidog. Sie können die LLM-gestützten Endpunkte mocken, bevor die eigentliche Integration fertig ist, die Request- und Response-Strukturen debuggen (einschließlich Streaming und Tool-Call-Payloads) und Ihre API-Dokumentation synchron halten, wenn sich der Vertrag ändert. Es ist eine All-in-One-API-Plattform, sodass Design, Debugging, Test, Mocking und Dokumentation an einem Ort statt an vier Orten stattfinden. Wenn Sie bereit sind, es auszuprobieren, laden Sie Apidog herunter und richten Sie es auf Ihre GLM-5.2-Integration aus.
Wie GLM-5.2 im Vergleich zum Rest der Familie und des Feldes abschneidet
GLM-5.2 ist der coding- und agentenbasierte Höhepunkt der aktuellen GLM-Reihe. Wenn Sie es gegen frühere Versionen oder konkurrierende Labore abwägen, sind dies die nützlichen nächsten Leseempfehlungen:
- GLM-5.1 vs. Claude, GPT, Gemini und DeepSeek für den Stand der vorherigen Generation.
- GLM-5 vs. DeepSeek vs. GPT-5 bezüglich Geschwindigkeit und Kosten für den Effizienz-Aspekt.
- Claude Opus 4.8 vs. GPT-5.5 vs. Gemini 3.5 für das Frontier-Modell mit geschlossenem Quellcode, das es verfolgt.
- Der offizielle Z.ai GLM-5.2 Blogbeitrag und die Docs für die Quell-der-Wahrheit-Spezifikationen.
FAQ
Was ist GLM-5.2 in einem Satz? Es ist Z.ais Flaggschiff-LLM mit offenen Gewichten, ein MoE-Modell mit ~753 Milliarden Parametern, das für Coding, logisches Denken und die Verwendung von Agenten-Tools optimiert wurde, mit einem 1-Millionen-Token-Kontextfenster und einer MIT-Lizenz.
Ist GLM-5.2 tatsächlich kostenlos? Die Gewichte können unter MIT kostenlos heruntergeladen und selbst gehostet werden. Die gehostete Z.ai API und der GLM Coding Plan sind kostenpflichtig. Es gibt keine kostenlose OpenRouter-Stufe dafür, daher bedeutet „kostenlos“ hier offene Gewichte, nicht einen kostenlosen gehosteten Endpunkt.
Kann GLM-5.2 Bilder sehen? Nein. Es ist Text-rein, Text-raus gemäß den API-Dokumenten, ohne bestätigte Vision-Variante. Verwenden Sie ein separates Vision-Modell, wenn Sie Bildeingaben benötigen.
Wie unterscheidet sich GLM-5.2 von GLM-5.1? Der größte sichtbare Sprung liegt im agentenbasierten Coding. Terminal-Bench 2.1 stieg laut den Ergebnissen von Z.ai von 62,0 auf 81,0, zusätzlich zu den SWE-bench Pro-Verbesserungen und der neuen IndexShare Sparse Attention. Sehen Sie den GLM-5.2 vs. GLM-5.1 Vergleich für die vollständigen Unterschiede.
Welche Kontextlänge und Ausgabelänge unterstützt es? Der Kontext beträgt 1 Million Tokens. Die Ausgabe ist bei z.ai mit bis zu 128.000 Tokens dokumentiert, aber nicht jeder Host listet dieselbe Obergrenze auf, überprüfen Sie dies also bei Ihrem Anbieter.
Die Kurzfassung
GLM-5.2 ist das Ergebnis, wenn ein Labor für offene Gewichte beschließt, direkt mit den geschlossenen Frontier-Modellen im Bereich Coding zu konkurrieren. Sie erhalten ein 753B MoE-Modell mit einem Millionen-Token-Fenster, steuerbarem Denkaufwand, einer MIT-Lizenz, die Ihnen das Selbst-Hosting und die Bereitstellung ermöglicht, sowie Benchmark-Ergebnisse, die es in die Konversation mit GPT-5.5 und Claude Opus 4.8 bringen, zumindest nach Z.ais eigenen Zahlen. Die Einschränkungen sind real (nur Text, zu überprüfende Ausgabegrenzen, Benchmark-Angaben des Anbieters), aber das Kernversprechen bleibt bestehen: Dies ist ein ernstzunehmendes Coding-Modell, das Sie tatsächlich besitzen können. Beginnen Sie mit der GLM-5.2 API-Anleitung, wenn Sie bereit sind zu entwickeln.
