Anleitung: GLM-5.2 mit Claude Code, Cline und Cursor verwenden

GLM-5.2 ist Z.ais Open-Weights-Codierungsmodell und lässt sich in die drei Coding-Harnesses integrieren, die die meisten Entwickler bereits verwenden: Claude Code, Cline und Cursor. Der Haken ist, dass jeder davon anders verdrahtet ist. Claude Code spricht das Anthropic API-Format, während Cline und Cursor einen OpenAI-kompatiblen Endpunkt benötigen. Dieser Leitfaden führt Sie anhand des GLM Coding Plan als Rückgrat End-to-End durch alle drei.

Wenn Sie zuerst nur die Modellfakten wissen möchten, beginnen Sie mit unserer GLM-5.2-Übersicht und der GLM-5.2-API-Referenz. Dieser Beitrag ist der Verdrahtungsleitfaden.

button

Was Sie vor dem Start benötigen

GLM-5.2 ist ein Mixture-of-Experts-Modell mit rund 753B Parametern, das mit einem 1M Token Kontextfenster (genau 1.048.576 Tokens) bereitgestellt wird. Es ist primär für das Coding konzipiert, mit starkem Reasoning und agentischer Werkzeugnutzung. Der Schlagzeilen-Benchmark ist laut Z.ais veröffentlichten Ergebnissen Terminal-Bench 2.1 mit 81.0, ein Anstieg von GLM-5.1s 62.0. VentureBeat beschrieb es als überlegen gegenüber GPT-5.5 bei Long-Horizon-Coding-Benchmarks für ungefähr ein Sechstel der Kosten.

Um diesem Leitfaden zu folgen, benötigen Sie:

Ein Z.ai-Konto und einen API-Schlüssel. Für Claude Code und die agentischen Harnesses benötigen Sie einen **GLM Coding Plan**-Schlüssel und keinen reinen Pay-as-you-go-Schlüssel, da der Coding-Endpunkt der Geltungsbereich dieser Schlüssel ist.
Eines der drei Harnesses installiert: Claude Code, Cline (eine VS Code-Erweiterung) oder Cursor.
Die Modell-ID, die überall `glm-5.2` lautet, außer in Claude Code, wo Sie die 1M-Kontext-Variante `glm-5.2[1m]` verwenden.

Ein kurzes Wort zu den Kosten. Die Standard-API kostet 1,40 $ pro 1M Eingabetokens und 4,40 $ pro 1M Ausgabetokens (bestätigt von OpenRouter), wobei zwischengespeicherte Eingaben etwa 0,26 $ pro 1M kosten (zugeschrieben VentureBeat). Der GLM Coding Plan ist ein separates Abonnement mit Lite-, Pro-, Max- und Team-Stufen. Die öffentlichen Stufenpreise haben sich geändert, daher ist jede angezeigte Zahl als ungefähr zu betrachten (Stand Juni 2026, überprüfen Sie die aktuellen Preise unter z.ai, bevor Sie sich festlegen).

GLM-5.2 in Claude Code einrichten

Claude Code kommuniziert mit einem Anthropic-kompatiblen Endpunkt, und Z.ai stellt einen speziell für Codierungstools bereit. Sie weisen Claude Code mit Umgebungsvariablen auf diesen Endpunkt hin und führen es dann wie gewohnt aus.

Hier ist der vollständige Block. Fügen Sie ihn in Ihr Shell-Profil (`~/.zshrc` oder `~/.bashrc`) ein oder setzen Sie ihn inline vor dem Start.

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Starten Sie dann Claude Code auf die übliche Weise:

claude

Einige dieser Variablen verdienen eine Erklärung, da das Überspringen der Variablen die meisten Setups zum Scheitern bringt.

Die Basis-URL. `https://api.z.ai/api/coding/paas/v4` ist der Anthropic-kompatible Coding-Endpunkt. Einige ältere Anleitungen zeigen stattdessen `https://open.z.ai/api/paas/v4`. Beide sind im Umlauf, wenn also Anfragen mit 404 fehlschlagen oder die Authentifizierung fehlschlägt, versuchen Sie den anderen Host und überprüfen Sie den aktuellen Wert in den Z.ai GLM-5.2-Dokumenten (live überprüfen).

Das Suffix `[1m]`. Wenn Sie sowohl die Sonnet- als auch die Opus-Modellvariablen auf `glm-5.2[1m]` setzen, teilen Sie Claude Code mit, dass jeder Modell-Tier auf die 1M-Kontext-Variante von GLM-5.2 weitergeleitet werden soll. Ohne das Suffix erhalten Sie den Standardkontext; mit ihm erhalten Sie die vollen eine Million Tokens. Das Mapping von Sonnet und Opus auf dasselbe Modell bedeutet, dass Sie auf GLM-5.2 landen, egal welchen Tier Claude Code ansteuert.

`CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000`. Claude Code komprimiert die Konversation automatisch, wenn sie sich der Kontextgrenze nähert. Das Standardfenster geht von einem kleineren Kontextbudget aus. Eine Erhöhung auf 1.000.000 ermöglicht es Claude Code, das gesamte Fenster von GLM-5.2 zu nutzen, bevor es mit der Zusammenfassung beginnt, sodass Sie mehr von Ihrer Codebasis im Kontext behalten.

`API_TIMEOUT_MS=3000000`. Dies ist für Arbeiten mit großem Kontext nicht optional. Das ist ein Timeout von 3.000 Sekunden (50 Minuten). Wenn Sie eine langfristige Agentenaufgabe in ein 1M-Token-Fenster einspeisen, kann das Modell lange nachdenken, bevor das erste Token ankommt, insbesondere bei maximaler Denkaufwand. Der Standard-Timeout ist viel kürzer, sodass Claude Code die Anfrage mittendrin abbricht und Sie einen verwirrenden Verbindungsfehler sehen. Erhöhen Sie den Timeout, und die langen Aufrufe werden abgeschlossen.

Zum Denkaufwand: GLM-5.2 hat zwei Stufen, High und Max, und Z.ai empfiehlt Max für die Codierung. Der Codierungs-Endpunkt wendet einen sinnvollen Standardwert an, aber wenn Ihr Harness es Ihnen erlaubt, `reasoning_effort` zu übergeben, setzen Sie es für die schwierigsten Aufgaben auf `max`. Das Denken kann auch vollständig deaktiviert werden, wenn Sie schnelle, günstige Vervollständigungen wünschen.

Wenn Sie von einem früheren Modell kommen, ist der Migrationspfad derselbe, den wir für GLM-5.1 in Claude Code und GLM-4.5 mit Claude Code behandelt haben. Tauschen Sie die Modell-ID und die Basis-URL aus, behalten Sie die Struktur bei.

GLM-5.2 in Cline einrichten

Cline ist eine VS Code-Erweiterung, die einen autonomen Codierungsagenten in Ihrem Editor ausführt. Im Gegensatz zu Claude Code liest Cline von einem OpenAI-kompatiblen Endpunkt, daher ist die Verdrahtung anders.

Installieren Sie die Cline-Erweiterung vom VS Code Marketplace und öffnen Sie deren Einstellungen (das Zahnrad-Symbol im Cline-Panel).
Wählen Sie für API-Anbieter die Option OpenAI-kompatibel.
Stellen Sie die Basis-URL auf `https://api.z.ai/api/paas/v4/` ein. Beachten Sie den abschließenden Schrägstrich und dass dies die allgemeine API-Basis ist, nicht der Codierungspfad.
Fügen Sie Ihren Z.ai API-Schlüssel in das Feld API-Schlüssel ein.
Geben Sie für Modell-ID `glm-5.2` ein (hier kein `[1m]`-Suffix, das ist eine Claude-Code-spezifische Konvention).
Suchen Sie die Einstellung für das Kontextfenster und stellen Sie sie auf 1000000 ein. Cline verwendet dies, um zu entscheiden, wann der Verlauf gekürzt werden soll. Wenn Sie den Standardwert belassen, wird der größte Teil des GLM-5.2-Fensters verschwendet.

Das ist die komplette Einrichtung für GLM-5.2 Cline. Speichern Sie, starten Sie eine Aufgabe und beobachten Sie, wie Cline plant, Dateien bearbeitet und Befehle für das Modell ausführt.

Eine Cline-spezifische Anmerkung: Da Cline viele Tool-Aufrufe pro Aufgabe auslösen kann, zwingt ein zu kleines Kontextfenster das Modell, frühere Schritte zu verwerfen. Wenn das Fenster auf eine ganze Million eingestellt ist, bleiben der Plan, die Diffs und die Testergebnisse alle im Blickfeld, und genau hier erweist sich der lange Kontext von GLM-5.2 als nützlich.

GLM-5.2 in Cursor einrichten

Cursor ist ein eigenständiger, auf KI basierender Editor. Er spricht ebenfalls das OpenAI-kompatible Format, daher ähnelt die Konfiguration stark der von Cline.

Öffnen Sie die Cursor-Einstellungen, gehen Sie zu Modelle und scrollen Sie zum Abschnitt für den OpenAI-API-Schlüssel.
Aktivieren Sie die Option Benutzerdefinierte Basis-URL (manchmal als „OpenAI Basis-URL überschreiben“ bezeichnet).
Stellen Sie die Basis-URL auf `https://api.z.ai/api/paas/v4/` ein.
Geben Sie Ihren Z.ai API-Schlüssel ein.
Fügen Sie ein benutzerdefiniertes Modell mit der ID `glm-5.2` hinzu und stellen Sie sicher, dass es das aktive Modell ist.
Überprüfen Sie die Verbindung mit dem integrierten API-Schlüsseltest von Cursor und senden Sie dann eine Eingabeaufforderung.

Damit ist GLM-5.2 Cursor abgedeckt. Sobald die Verifizierung abgeschlossen ist, treibt GLM-5.2 den Chat und die Inline-Bearbeitungen von Cursor an.

Wenn Sie Cursor zuvor mit anderen GLM-Versionen jongliert haben, gelten immer noch die Kompromisse, die wir in Claude Code vs Cursor mit GLM-4.7 beschrieben haben: Cursors Benutzeroberfläche ist die flüssigste für Inline-Bearbeitungen, während Claude Code und Cline stärker auf autonome, mehrstufige Agentenausführungen setzen.

Side-by-Side-Konfiguration

Hier sind alle Werte an einem Ort, damit Sie den richtigen pro Harness kopieren können.

Einstellung	Claude Code	Cline	Cursor
API-Format	Anthropic-kompatibel	OpenAI-kompatibel	OpenAI-kompatibel
Basis-URL	`https://api.z.ai/api/coding/paas/v4` (live überprüfen)	`https://api.z.ai/api/paas/v4/`	`https://api.z.ai/api/paas/v4/`
Modell-ID	`glm-5.2[1m]`	`glm-5.2`	`glm-5.2`
Schlüsseltyp	GLM Coding Plan Schlüssel	API-Schlüssel	API-Schlüssel
Kontextfenster	`CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000`	auf `1000000` einstellen	Modellstandard
Timeout	`API_TIMEOUT_MS=3000000`	nicht zutreffend	nicht zutreffend
Denkaufwand	Max (für Coding empfohlen)	über Anbieterstandard	über Anbieterstandard

Die beiden häufigsten Stolpersteine: die Verwendung der falschen Basis-URL für den Harness-Typ und das Vergessen des `[1m]`-Suffixes und des Timeouts in Claude Code.

Testen Sie Ihr Setup mit einem echten API-Aufruf

Bevor Sie einem Harness vertrauen, bestätigen Sie, dass der Schlüssel und das Modell mit einer Rohanfrage funktionieren. Dieser Aufruf trifft die allgemeine API direkt und isoliert die Harness-Konfiguration von Anmeldeinformationsproblemen.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "user", "content": "Write a Python function that reverses a linked list."}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "stream": false
  }'

Wenn dies eine Vervollständigung zurückgibt, sind Ihr Schlüssel und Ihre Modell-ID in Ordnung, und jedes verbleibende Problem liegt in der Konfiguration des Harness. Dies ist auch ein praktischer Punkt, um einen API-Client einzubeziehen. Wenn Sie GLM-5.2 bereits neben Ihren eigenen Backend-Endpunkten testen, können Sie mit Apidog die Anfrage speichern, den `ANTHROPIC_API_KEY`- oder `Authorization`-Header als Umgebungsvariable verwalten und sie wiederholen, ohne den Curl neu eingeben zu müssen. Sie können Apidog herunterladen und die Anfrage direkt aus dem obigen Curl importieren.

Welchen Harness sollten Sie verwenden?

Es gibt keinen einzigen Gewinner. Es hängt davon ab, wie Sie am liebsten arbeiten.

Claude Code eignet sich am besten für terminal-native, langfristige Agentenläufe und ist der einzige der drei, der den vollen 1M Kontext über `glm-5.2[1m]` erhält. Am besten für große Refaktorierungen und repo-weite Änderungen.
Cline bringt den Agenten in VS Code, ohne Ihren Editor zu verlassen, mit klarer Sichtbarkeit auf jeden Tool-Aufruf. Guter Mittelweg.
Cursor ist am polishedesten für schnelle Inline-Bearbeitungen und Autovervollständigungs-ähnliche Arbeiten, mit der leichtesten Konfiguration.

Für einen tieferen Funktionsvergleich über die Pläne hinweg siehe Claude Code vs Codex vs Cursor vs MiniMax vs GLM Plan. Für einen Vergleich von GLM-5.2 mit den Spitzenmodellen siehe GLM-5.2 vs GPT-5.5, Claude Opus und Gemini und die eigenständige Benchmark-Übersicht. Und wenn Sie ein Upgrade in Betracht ziehen, zeigt GLM-5.2 vs GLM-5.1, was sich geändert hat.

FAQ

Warum verwende ich `glm-5.2[1m]` in Claude Code, aber `glm-5.2` in Cline und Cursor?

Das Suffix `[1m]` ist eine Claude-Code-Konvention, die die 1M-Kontext-Variante über den Codierungs-Endpunkt auswählt. Cline und Cursor übergeben die einfache Modell-ID `glm-5.2` an den allgemeinen OpenAI-kompatiblen Endpunkt, wo das Kontextfenster in der Harness-Benutzeroberfläche anstelle der ID festgelegt wird.

Was passiert, wenn Claude Code bei langen Aufgaben ein Timeout hat?

Das ist fast immer das Timeout-Problem. Setzen Sie `API_TIMEOUT_MS=3000000`, damit Claude Code lange genug wartet, bis Antworten mit großem Kontext und maximaler Anstrengung abgeschlossen sind. Ohne dies bricht das Harness die Anfrage ab, bevor das Modell eine Antwort liefert.

Benötige ich den GLM Coding Plan, oder kann ich Pay-as-you-go nutzen?

Beide funktionieren, aber der GLM Coding Plan-Schlüssel ist das, was der Codierungs-Endpunkt für Claude Code erwartet, und die festen monatlichen Tarife des Plans (Lite, Pro, Max, Team) übertreffen in der Regel die Abrechnung pro Token für intensives tägliches Codieren. Bestätigen Sie die aktuellen Tier-Preise unter z.ai, da sich die veröffentlichten Zahlen geändert haben (Stand Juni 2026 überprüfen).

Welche Basis-URL ist für Claude Code korrekt?

Verwenden Sie `https://api.z.ai/api/coding/paas/v4`. Einige Quellen listen `https://open.z.ai/api/paas/v4` auf. Wenn eine fehlschlägt (Authentifizierung oder 404), versuchen Sie die andere und überprüfen Sie die aktuellen Z.ai-Dokumente. Die allgemeine API-Basis (`https://api.z.ai/api/paas/v4/`) ist für Cline und Cursor, nicht für Claude Code.

Kann GLM-5.2 Bilder verarbeiten?

Für GLM-5.2 gibt es keine bestätigte Vision-Variante. Es ist ein Text-In, Text-Out Codierungs- und Reasoning-Modell. Erwarten Sie kein „GLM-5.2V“, bevor Z.ai eines veröffentlicht.

Fazit

Drei Harnesses, ein Modell, zwei Endpunktformate. Geben Sie die richtige Basis-URL und Modell-ID für das verwendete Harness an, denken Sie an das `[1m]`-Suffix und das Timeout für Claude Code, und stellen Sie das Kontextfenster in Cline auf volle eine Million ein. Von da an verhält sich GLM-5.2 wie jedes andere Coding-Backend, nur als Open-Weights und günstiger im Betrieb. Wenn Sie es ganz ohne Harness ausführen möchten, lesen Sie wie Sie GLM-5.2 kostenlos nutzen können und die GLM-5.2 Preisübersicht. Holen Sie sich die Gewichte von Hugging Face oder ziehen Sie das Modell mit Ollama, wenn Sie eine lokale Kopie wünschen.

button