Was ist GLM-5.2?

Was ist GLM-5.2? Z.ais Open-Weights 753B MoE Coding-Flaggschiff: 1M Kontext, MIT-Lizenz, Benchmarks und wie man über API, Claude Code und Ollama darauf zugreift.

Ashley Innocent

Ashley Innocent

17 June 2026

Was ist GLM-5.2?

Apidog für Unternehmen

On-Premises Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

GLM-5.2 ist das neueste Flaggschiffmodell von Z.ai (dem Zhipu AI Labor) und wurde mit einem klaren Versprechen eingeführt: offene Gewichte, Code-fokussiert und wettbewerbsfähig mit den größten geschlossenen Frontier-Modellen. Wenn Sie den Namen gehört haben und eine direkte Antwort auf „Was ist GLM-5.2?“ suchen, ist dies die maßgebliche Erklärung. Wir werden behandeln, wer es herstellt, was es unter der Haube wirklich ist, wie man darauf zugreifen kann und wo die ehrlichen Einschränkungen liegen.

button

TL;DR

Wer stellt GLM-5.2 her und was ist es

GLM-5.2 stammt von Z.ai, dem Labor, das auch als Zhipu AI bekannt ist. Es ist der neueste Eintrag in der GLM-Familie („General Language Model“) und folgt auf die Veröffentlichung von GLM-5.1. Die Positionierung ist explizit: Dies ist ein Coding-Flaggschiff, das seine Gewichte offen liefert, anstatt sich hinter einer reinen API-Mauer zu verstecken.

Diese Haltung der offenen Gewichte ist hier die ganze Geschichte. Die meisten Modelle, die sich mit GPT-5.5 oder Claude Opus 4.8 messen, sind geschlossen. GLM-5.2 bietet vergleichbare Funktionen in einer Datei, die Sie herunterladen können. Wenn Sie unsere GLM-5.1-Übersicht gelesen haben, stellen Sie sich 5.2 als dieselbe Linie mit einem schärferen Fokus auf Coding und Agenten-Fähigkeiten vor.

GLM-5.2 ist ein Allzweckmodell mit einer starken Neigung zum Coding. Es verarbeitet logisches Denken, Mathematik und mehrsprachigen Text (Englisch und Chinesisch sind erstklassig), aber Z.ai hat es am stärksten auf Softwareentwicklung und tool-gesteuerte, mehrschrittige Agenten-Aufgaben abgestimmt.

Identität: Wie man GLM-5.2 auf verschiedenen Plattformen findet

Eine Sache, die bei offenen Modellen zu Verwirrung führt, ist die Benennung. Dasselbe Modell trägt je nach Ladeort unterschiedliche Bezeichnungen. Hier ist die Übersicht.

Plattform Bezeichnung
Hugging Face zai-org/GLM-5.2
Z.ai API glm-5.2
Ollama glm-5.2
OpenRouter z-ai/glm-5.2

Die Gewichte sind MIT-lizenziert ohne regionale Beschränkungen, sodass das Hugging Face Repo wirklich heruntergeladen werden kann und nicht eingeschränkt ist. Sie können die Modellkarte und Dateien auf der GLM-5.2-Seite auf Hugging Face überprüfen.

Architektur in einfachen Worten: 753B MoE + IndexShare

GLM-5.2 ist ein Mixture-of-Experts-Modell mit ungefähr 753 Milliarden Gesamtparametern, bereitgestellt in BF16. MoE bedeutet, dass das Modell in viele „Experten“-Subnetzwerke aufgeteilt ist, und nur ein Bruchteil davon wird für jedes gegebene Token aktiviert. Sie erhalten die Wissenskapazität eines riesigen Modells, ohne die volle Rechenleistung bei jedem Vorwärtsdurchlauf bezahlen zu müssen. So bleibt ein 753B-Modell nutzbar.

Das neuere Element ist die Sparse Attention. GLM-5.2 führt eine Methode ein, die Z.ai IndexShare nennt. Normale Attention wird schnell teuer, wenn Ihr Kontext wächst, da jedes Token auf jedes andere Token achtet. IndexShare verwendet einen einzigen „Indexer“ über jede Gruppe von 4 Sparse-Attention-Layern wieder, anstatt für jeden Layer einen neuen zu berechnen. In der Praxis senkt dies die Kosten der Attention bei langem Kontext, was genau das ist, was Sie wollen, wenn Ihr Kontextfenster eine Million Tokens breit ist.

Sie müssen die Mathematik nicht verstehen, um davon zu profitieren. Die Quintessenz: GLM-5.2 ist so konzipiert, dass das Füttern mit einer großen Codebasis oder einem langen Dokument Ihre Latenz und Kosten nicht so in die Höhe treibt, wie es ein dichtes Modell tun würde.

Ein 1-Millionen-Token-Kontextfenster

GLM-5.2 unterstützt ein 1-Millionen-Token-Kontextfenster (genau 1.048.576 Tokens). Das ist genug, um ein gesamtes mittelgroßes Repository, eine lange Spezifikation oder einen Stapel verwandter Dokumente in einen einzigen Prompt zu geben und das Modell aufzufordern, über all dies zu resonieren.

Bei der maximalen Ausgabe sollten Sie vorsichtig sein. Die z.ai-Dokumente listen eine Ausgabe von bis zu 128.000 Tokens auf, aber nicht jeder Host veröffentlicht dieselbe Zahl, und OpenRouter listet sie überhaupt nicht auf. Behandeln Sie 128.000 Tokens daher als die dokumentierte Obergrenze, die live überprüft werden muss, und nicht als Garantie an jedem Endpunkt. Wenn Ihr Workflow von sehr langen Generierungen abhängt, überprüfen Sie die Grenze bei dem spezifischen Anbieter, den Sie verwenden.

Für den Kontext, wie diese Generation die Messlatte höher gelegt hat, schlüsselt unser GLM-5.2 vs. GLM-5.1 Vergleich auf, was sich von Version zu Version geändert hat.

Denkaufwand: Hoch, Maximal und Deaktivieren

GLM-5.2 ist ein reasoning-fähiges Modell mit steuerbarem „Denkverhalten“. Sie erhalten zwei Stufen des Denkaufwands:

Sie können das Denken auch vollständig deaktivieren. Für schnelle Suchen, Formatierungen oder einfache Transformationen möchten Sie nicht, dass das Modell Tokens für eine interne Gedankenabfolge verbrennt. Das Deaktivieren des Denkens hält diese Aufrufe schnell und günstig.

In der API wird dies einem thinking-Parameter ({"type": "enabled"} oder {"type": "disabled"}) und einem reasoning_effort-Wert wie "max" zugeordnet. Wir gehen in der GLM-5.2 API-Anleitung tiefer auf die Request-Struktur ein, aber das mentale Modell ist einfach: Erhöhen Sie das logische Denken für anspruchsvolle Ingenieursarbeit, schalten Sie es bei trivialen Aufrufen ab.

MIT-Lizenz und offene Gewichte: Was Sie tatsächlich davon haben

„Offene Gewichte“ wird oft leichtfertig verwendet, daher hier, was die MIT-Lizenz von GLM-5.2 konkret ermöglicht:

Für Teams mit Datenresidenz- oder Compliance-Einschränkungen ist dies wichtiger als ein oder zwei Benchmark-Punkte. Sie können Prompts und Code im eigenen Haus behalten. Wenn Sie den vollständig lokalen Weg ausprobieren möchten, lesen Sie GLM-5 lokal kostenlos ausführen und GLM-5 kostenlos mit Ollama für die Muster, die auf 5.2 übertragen werden.

Code-fokussiert und Agenten-fähig: die Benchmarks

Z.ai hat GLM-5.2 entwickelt, um echte Softwarearbeit zu leisten, nicht nur darüber zu chatten. Die Benchmark-Geschichte konzentriert sich auf Coding und die Verwendung von Agenten-Tools. Die unten stehenden Zahlen sind die von Z.ai veröffentlichten Ergebnisse, daher sind sie als eigene Messungen des Labors und nicht als unabhängige Drittanbieter-Scores zu verstehen.

Benchmark GLM-5.2 Bemerkenswerter Vergleich
Terminal-Bench 2.1 81.0 GLM-5.1 erreichte 62.0
SWE-bench Pro 62.1 GPT-5.5 58.6, GLM-5.1 58.4
MCP-Atlas 77.0 GPT-5.5 75.3, Claude Opus 4.8 77.8
Humanity’s Last Exam (mit Tools) 54.7 GPT-5.5 52.2
AIME 2026 99.2 n/a
GPQA-Diamond 91.2 n/a

Die herausragende Statistik ist Terminal-Bench. Ein Sprung von 62,0 auf 81,0 in einer einzigen Generation ist ein großer Fortschritt bei einem Benchmark, der misst, ob ein Modell tatsächlich ein Terminal bedienen kann, um Aufgaben zu erledigen. SWE-bench Pro mit 62,1, das GPT-5.5's 58,6 übertrifft, ist die andere Schlagzeile: Es weist auf echte Problemlösung auf Repository-Ebene hin, nicht auf Spielzeug-Code-Schnipsel.

Z.ai meldet GLM-5.2 auch als das höchste Open-Source-Modell auf FrontierSWE, PostTrainBench und SWE-Marathon und positioniert es gegen GPT-5.5, Claude Opus 4.8, Gemini 3.1 Pro und DeepSeek-V4-Pro. VentureBeat formulierte den Kostenaspekt unverblümt und schrieb, dass GLM-5.2 „GPT-5.5 bei Long-Horizon-Coding zu etwa 1/6 der Kosten schlägt“ (diese Zeile ist die Formulierung von VentureBeat in ihrer GLM-5.2-Berichterstattung, keine Apidog-Messung).

Für die vollständige Aufschlüsselung und die „Äpfel mit Äpfeln“-Einschränkungen siehe unseren GLM-5.2 Benchmarks Deep Dive und den direkten Vergleich GLM-5.2 vs. GPT-5.5, Claude Opus und Gemini.

Wie man GLM-5.2 auf einen Blick zugreift

Sie haben vier praktische Wege, je nachdem, ob Sie eine gehostete API, ein agentenbasiertes Coding-Setup, einen Router oder eine lokale Installation wünschen.

Zugangsweg Am besten für Kurze Anmerkung
Z.ai API Direkte, gehostete Aufrufe OpenAI-kompatibel, Endpunkt unter https://api.z.ai/api/paas/v4/
Claude Code (GLM Coding Plan) Agentenbasiertes Coding in Ihrem Terminal Anthropic-kompatible Basis-URL, wählen Sie die [1m]-Variante
OpenRouter Ein Schlüssel, viele Modelle Modell-ID z-ai/glm-5.2
Ollama Lokal / Offline Holen Sie glm-5.2 aus der Bibliothek

Z.ai API. Die allgemeine API ist OpenAI-kompatibel. Sie rufen https://api.z.ai/api/paas/v4/chat/completions mit einem Bearer-Schlüssel auf und übergeben die üblichen Parameter plus thinking, reasoning_effort, temperature und stream. Funktions- und Tool-Aufrufe werden unterstützt.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [{"role": "user", "content": "Refactor this function for readability."}],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "stream": true
  }'

Claude Code über den GLM Coding Plan. Z.ai stellt einen Anthropic-kompatiblen Coding-Endpunkt bereit, sodass Sie Claude Code auf GLM-5.2 verweisen können. Die Coding-Basis-URL ist https://api.z.ai/api/coding/paas/v4 (einige Quellen zeigen open.z.ai/api/paas/v4, also live überprüfen), und Sie konfigurieren Ihre Claude Code-Umgebung, um darüber zu routen.

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Das [1m]-Suffix wählt die 1M-Kontext-Variante aus. Diese API_TIMEOUT_MS-Zeile ist keine optionale Füllung: Lange Aufrufe mit großem Kontext können das Standard-Timeout von Claude Code überschreiten, daher verhindert eine Erhöhung, dass das Tool Anfragen mitten im Fluss abbricht. Wir gehen dieses Setup, plus Cline und Cursor, in der Anleitung GLM-5.2 in Claude Code, Cline und Cursor durch. Wenn Sie die frühere Generation auf diese Weise verwendet haben, behandelt unser Artikel GLM-5.1 mit Claude Code denselben Workflow.

OpenRouter. Wenn Sie bereits über OpenRouter routen, ist GLM-5.2 als z-ai/glm-5.2 verfügbar. Überprüfen Sie die Live-Auflistung unter openrouter.ai/z-ai/glm-5.2. Beachten Sie, dass es für dieses Modell keine kostenlose OpenRouter-Spur gibt, planen Sie also nicht damit.

Ollama. Für die lokale Nutzung ziehen Sie es aus der Ollama-Bibliothek. Dies ist der Weg für Offline-Arbeit oder strenge Datenkontrolle, mit dem offensichtlichen Kompromiss, dass Sie echten GPU-Speicher benötigen, um ein 753B MoE komfortabel zu betreiben.

Für eine Zusammenfassung der wirklich kostenlosen Optionen siehe wie man GLM-5.2 kostenlos nutzt.

Preise, kurz zusammengefasst

Bei der gehosteten API bestätigt OpenRouter Preise von 1,40 $ pro 1 Million Input-Tokens und 4,40 $ pro 1 Million Output-Tokens. VentureBeat nennt für gecachte Eingaben etwa 0,26 $ pro 1 Million. Der GLM Coding Plan hat gestaffelte Abonnements (Lite, Pro, Max und Team), aber die genauen monatlichen Zahlen variieren je nach sekundären Quellen, daher bestätigen Sie die aktuellen Preise bei z.ai, bevor Sie sich festlegen (Stand Juni 2026). Unsere GLM-5.2 Preisaufschlüsselung führt eine laufende Bilanz.

Wo Apidog ins Spiel kommt

Wenn Sie mit der GLM-5.2 API entwickeln oder sie in einen Agenten integrieren, der Ihre eigenen Dienste aufruft, müssen Sie diese Endpunkte dennoch entwerfen, testen und dokumentieren. Hier hilft Apidog. Sie können die LLM-gestützten Endpunkte mocken, bevor die eigentliche Integration fertig ist, die Request- und Response-Strukturen debuggen (einschließlich Streaming und Tool-Call-Payloads) und Ihre API-Dokumentation synchron halten, wenn sich der Vertrag ändert. Es ist eine All-in-One-API-Plattform, sodass Design, Debugging, Test, Mocking und Dokumentation an einem Ort statt an vier Orten stattfinden. Wenn Sie bereit sind, es auszuprobieren, laden Sie Apidog herunter und richten Sie es auf Ihre GLM-5.2-Integration aus.

Wie GLM-5.2 im Vergleich zum Rest der Familie und des Feldes abschneidet

GLM-5.2 ist der coding- und agentenbasierte Höhepunkt der aktuellen GLM-Reihe. Wenn Sie es gegen frühere Versionen oder konkurrierende Labore abwägen, sind dies die nützlichen nächsten Leseempfehlungen:

FAQ

Was ist GLM-5.2 in einem Satz? Es ist Z.ais Flaggschiff-LLM mit offenen Gewichten, ein MoE-Modell mit ~753 Milliarden Parametern, das für Coding, logisches Denken und die Verwendung von Agenten-Tools optimiert wurde, mit einem 1-Millionen-Token-Kontextfenster und einer MIT-Lizenz.

Ist GLM-5.2 tatsächlich kostenlos? Die Gewichte können unter MIT kostenlos heruntergeladen und selbst gehostet werden. Die gehostete Z.ai API und der GLM Coding Plan sind kostenpflichtig. Es gibt keine kostenlose OpenRouter-Stufe dafür, daher bedeutet „kostenlos“ hier offene Gewichte, nicht einen kostenlosen gehosteten Endpunkt.

Kann GLM-5.2 Bilder sehen? Nein. Es ist Text-rein, Text-raus gemäß den API-Dokumenten, ohne bestätigte Vision-Variante. Verwenden Sie ein separates Vision-Modell, wenn Sie Bildeingaben benötigen.

Wie unterscheidet sich GLM-5.2 von GLM-5.1? Der größte sichtbare Sprung liegt im agentenbasierten Coding. Terminal-Bench 2.1 stieg laut den Ergebnissen von Z.ai von 62,0 auf 81,0, zusätzlich zu den SWE-bench Pro-Verbesserungen und der neuen IndexShare Sparse Attention. Sehen Sie den GLM-5.2 vs. GLM-5.1 Vergleich für die vollständigen Unterschiede.

Welche Kontextlänge und Ausgabelänge unterstützt es? Der Kontext beträgt 1 Million Tokens. Die Ausgabe ist bei z.ai mit bis zu 128.000 Tokens dokumentiert, aber nicht jeder Host listet dieselbe Obergrenze auf, überprüfen Sie dies also bei Ihrem Anbieter.

Die Kurzfassung

GLM-5.2 ist das Ergebnis, wenn ein Labor für offene Gewichte beschließt, direkt mit den geschlossenen Frontier-Modellen im Bereich Coding zu konkurrieren. Sie erhalten ein 753B MoE-Modell mit einem Millionen-Token-Fenster, steuerbarem Denkaufwand, einer MIT-Lizenz, die Ihnen das Selbst-Hosting und die Bereitstellung ermöglicht, sowie Benchmark-Ergebnisse, die es in die Konversation mit GPT-5.5 und Claude Opus 4.8 bringen, zumindest nach Z.ais eigenen Zahlen. Die Einschränkungen sind real (nur Text, zu überprüfende Ausgabegrenzen, Benchmark-Angaben des Anbieters), aber das Kernversprechen bleibt bestehen: Dies ist ein ernstzunehmendes Coding-Modell, das Sie tatsächlich besitzen können. Beginnen Sie mit der GLM-5.2 API-Anleitung, wenn Sie bereit sind zu entwickeln.

button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen