GLM-5.2 Preise: API-Kosten, Gecachte Eingaben und GLM-Codierungsplan-Tarife (2026)

GLM-5.2 ist der günstige Weg, ein Frontier-Klasse-Codierungsmodell zu betreiben. Z.ai (Zhipu AI) liefert es mit offenen Gewichten unter einer MIT-Lizenz, einem 1M-Token-Kontextfenster und einer API-Preistabelle, die die großen geschlossenen Labore deutlich unterbietet. Diese Seite ist die wichtigste Seite. Sie erhalten die genauen API-Kosten pro Token, wie der Rabatt für zwischengespeicherte Eingaben funktioniert, durchgerechnete Dollar-Beispiele für echte Codierungs-Sitzungen, die Abonnementstufen des GLM Coding Plans und eine ehrliche Einschätzung, ob GLM-5.2 für Ihre tatsächliche Arbeitsweise günstiger ist als GPT-5.5.

Ein Hinweis vor den Zahlen: Die KI-Preisgestaltung ändert sich schnell, und einige GLM Coding Plan-Stufen widersprechen sich in sekundären Quellen. Wo eine Zahl nicht feststeht, ist sie gekennzeichnet. Behandeln Sie jede gekennzeichnete Zahl als Schätzung und bestätigen Sie den aktuellen Preis auf z.ai, bevor Sie ein Budget festlegen.

Button

GLM-5.2 API-Kosten auf einen Blick

Der Pay-as-you-go-API-Tarif ist der sauberste Ausgangspunkt, da er durch die öffentliche Auflistung von OpenRouter bestätigt wird.

Posten	Preis	Quelle
Input-Tokens	$1.40 / 1M	Bestätigt (OpenRouter)
Output-Tokens	$4.40 / 1M	Bestätigt (OpenRouter)
Zwischengespeicherte Eingabe	~$0.26 / 1M	VentureBeat (Zuschreibung)

Somit belaufen sich die GLM-5.2-Kosten pro Token auf 0,0000014 $ pro Input-Token und 0,0000044 $ pro Output-Token. Der Output ist etwa 3,1-mal so teuer wie der Input, was die normale Form für ein Denkmodell ist: Die von ihm generierten Tokens (einschließlich seiner Denkspuren) kosten mehr als die Tokens, die Sie ihm zuführen.

Der Tarif für zwischengespeicherte Eingaben von etwa 0,26 $ pro 1 Million Tokens ist der Hebel, der alles für agentenbasierte und Chat-Workloads verändert, und er wird in einem eigenen Abschnitt weiter unten behandelt. Diese Zahl stammt aus der Berichterstattung von VentureBeat und nicht aus einer primären Preistabelle, daher ist sie entsprechend zuzuordnen.

Es gibt keine kostenlose OpenRouter-Spur für glm-5.2. Wenn Sie anderswo eine solche behaupten sehen, ist das falsch. Sie können die offenen Gewichte selbst auf Kosten Ihrer eigenen Hardware ausführen, was eine andere Art von „kostenlos“ ist. Für diesen Weg siehe den begleitenden Leitfaden unter wie man GLM-5.2 kostenlos nutzt und den früheren Artikel unter GLM-5 lokal kostenlos ausführen.

Wie der Rabatt für zwischengespeicherte Eingaben funktioniert

Prompt-Caching ist die größte Kostenkontrolle auf der GLM-5.2-Preistabelle, und die meisten Leute nutzen es nicht.

So funktioniert es. Wenn Sie wiederholt ein langes, stabiles Präfix senden (einen System-Prompt, Werkzeugdefinitionen eines Code-Agenten, eine große Datei, auf die Sie immer wieder verweisen), kann der Anbieter das verarbeitete Präfix zwischenspeichern. Beim nächsten Aufruf wird der zwischengespeicherte Teil zum Tarif für zwischengespeicherte Eingaben (~0,26 $ / 1M) statt zum vollen Input-Tarif (1,40 $ / 1M) abgerechnet. Das ist grob ein Rabatt von 81 % auf den wiederholten Teil Ihres Prompts.

Wo sich das auszahlt:

Code-Agenten. Tools wie Claude Code, Cline und Cursor senden bei jeder Runde eine große stabile Präambel (Anweisungen, Werkzeugschemata, Repo-Kontext) erneut. Das Zwischenspeichern dieser Präambel reduziert die Input-Kosten pro Runde dramatisch. Die Einrichtungsdetails finden Sie im GLM-5.2 mit Claude Code, Cline und Cursor Leitfaden.
RAG und Dokument-Q&A. Wenn Sie viele Fragen zu demselben langen Dokument stellen, speichern Sie das Dokument einmal zwischen und zahlen Sie nur den vollen Preis für jede kurze Frage plus die Antwort.
Lange Konversationen. Eine wachsende Chat-Historie ist ein wachsendes stabiles Präfix. Das Zwischenspeichern hält die Kosten für das „Erinnern“ an die Konversation gering.

Zwei praktische Regeln. Erstens, halten Sie den wiederverwendeten Inhalt am Anfang des Prompts und den variablen Inhalt am Ende; Caches basieren auf dem Präfix. Zweitens, Caches verfallen, daher gilt der Rabatt für Aufrufe, die zeitlich eng beieinander liegen, nicht für eine Anfrage, die Sie einmal pro Stunde stellen.

Denken als Kostenkontrolle deaktivieren

GLM-5.2 ist ein Denkmodell mit zwei Denkanstrengungsstufen, Hoch und Max. Z.ai empfiehlt Max für die Codierung. Aber Denk-Tokens sind Output-Tokens, und Output ist die teure Seite der Rechnung mit 4,40 $ / 1 Million. Mehr Denken bedeutet mehr generierte Tokens bedeutet eine größere Rechnung.

Dafür haben Sie einen direkten Hebel. In der API können Sie das Denken vollständig deaktivieren:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformat this JSON and return it." }
  ],
  "thinking": { "type": "disabled" }
}

Nutzen Sie die Stufen bewusst:

Denken deaktiviert für günstige, mechanische Arbeiten: Formatieren, Extrahieren, einfache Umschreibungen, Klassifizierung. Sie überspringen die Denkspur und zahlen nur für eine kurze Antwort.
Hoher Aufwand für alltägliche Codierungs- und Analysearbeiten, bei denen Sie gutes Denken ohne maximalen Token-Verbrauch wünschen.
Maximaler Aufwand für schwierige, langfristige Codierungs- und Mathematikaufgaben, bei denen das zusätzliche Denken seine Kosten in puncto Korrektheit tatsächlich einbringt.

Das Anpassen des Aufwands an die Aufgabe macht den Unterschied zwischen einer Output-Rechnung von 4,40 $ und einer von 1 $ bei demselben Prompt aus. Die vollständige Parameterreferenz, einschließlich `reasoning_effort` und Streaming, finden Sie im GLM-5.2 API-Leitfaden, und die frühere GLM-5 API-Anleitung behandelt dieselbe OpenAI-kompatible Form, wenn Sie migrieren.

Durchgerechnete Kostenbeispiele

Abstrakte Pro-Token-Tarife bedeuten nicht viel, bis Sie sie auf echte Arbeit anwenden. Hier sind drei Sitzungen, die zu den bestätigten Tarifen berechnet wurden.

Beispiel 1: Eine einzelne 100K-Token-Codierungs-Sitzung. Angenommen, Sie führen eine agentenbasierte Codierungsaufgabe aus, die 100.000 Kontext-Tokens (Ihr Repository, Anweisungen, Dateiinhalte) liest und 20.000 Tokens Code und Begründung generiert.

Input: 100.000 × 1,40 $ / 1.000.000 = 0,140 $
Output: 20.000 × 4,40 $ / 1.000.000 = 0,088 $
Gesamt: ~0,23 $

Beispiel 2: Dieselbe Sitzung mit Caching. Nehmen wir nun an, 80.000 der 100.000 Input-Tokens sind ein stabiles Präfix (System-Prompt, Werkzeugdefinitionen, unveränderte Dateien), das aus dem Cache bereitgestellt wird, und 20.000 sind neu.

Zwischengespeicherter Input: 80.000 × 0,26 $ / 1.000.000 = 0,021 $
Neuer Input: 20.000 × 1,40 $ / 1.000.000 = 0,028 $
Output: 20.000 × 4,40 $ / 1.000.000 = 0,088 $
Gesamt: ~0,14 $

Das Zwischenspeichern des stabilen Präfixes reduzierte die Sitzungskosten um etwa 40 %, und die Einsparungen wachsen, je mehr Runden Sie mit demselben Kontext drehen.

Beispiel 3: Ein Chat-Assistent, der Extraktionen mit deaktiviertem Denken durchführt. Ein Support-Bot verarbeitet 500 Nachrichten pro Tag. Jeder Aufruf sendet 2.000 Input-Tokens und gibt 300 Output-Tokens zurück, Denken deaktiviert.

Input: 500 × 2.000 × 1,40 $ / 1.000.000 = 1,40 $
Output: 500 × 300 × 4,40 $ / 1.000.000 = 0,66 $
Gesamt: ~2,06 $ / Tag, etwa 62 $ pro Monat für eine Arbeitslast von 500 Aufrufen pro Tag.

Dies sind Schätzungen der Listenpreise. Ihre tatsächliche Rechnung hängt davon ab, wie viel Denken Sie zulassen und wie viel Ihrer Eingaben den Cache trifft.

GLM Coding Plan Stufen

Wenn Sie den ganzen Tag mit einem Code-Agenten arbeiten, ist der Abonnementweg normalerweise günstiger als getaktete API-Aufrufe. Z.ai verkauft einen GLM Coding Plan mit benannten Stufen (Lite, Pro, Max, plus Team), der Claude Code und ähnlichen Tools über einen Anthropic-kompatiblen Endpunkt zugänglich gemacht wird.

Der Plan-Schlüssel ist ein anderes Anmeldeinformation als der Standard-API-Schlüssel. Um GLM-5.2 in Claude Code einzubinden, richten Sie es auf den Codierungs-Endpunkt und wählen die 1M-Kontext-Variante über das Modell-Suffix `[1m]` aus:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Der Wert von `API_TIMEOUT_MS` ist wichtig. Ohne einen langen Timeout kann Claude Code lange Aufrufe mit großem Kontext beenden, bevor GLM-5.2 fertig ist. Einige Quellen zeigen die Codierungs-Basis-URL stattdessen als `open.z.ai/api/paas/v4`, daher verifizieren Sie den genauen Host live. Die vollständige Agenten-Einrichtung, einschließlich Cline und Cursor, finden Sie im GLM-5.2 Code-Agenten-Leitfaden, und der frühere GLM-5.1 mit Claude Code-Artikel behandelt dasselbe Muster für die vorherige Generation.

Ist GLM-5.2 günstiger als GPT-5.5?

Ja, bei der getakteten API, und zwar deutlich. Die klarste Formulierung stammt von VentureBeat, die berichteten, dass GLM-5.2 „GPT-5.5 bei der langfristigen Codierung zu etwa einem Sechstel der Kosten schlägt.“ Diese Behauptung stammt von VentureBeat, nicht von einer Apidog-Messung, und sie bündelt Benchmark-Leistung mit dem Preis, daher ist sie als richtungsweisende Wertaussage und nicht als Pro-Token-Verhältnis zu verstehen.

Auf der Preistabellen-Ebene ist hier der grobe Vergleich. GLM-5.2 wird mit 1,40 $ Input / 4,40 $ Output pro 1 Million Tokens gelistet. Die geschlossenen Frontier-Modelle von OpenAI, Anthropic und Google liegen bei ihren Top-Reasoning-Stufen im Allgemeinen deutlich darüber, weshalb die Formulierung „Bruchteil der Kosten“ immer wieder auftaucht. Für eine auf Zahlen basierende Aufschlüsselung von Geschwindigkeit und Kosten über verschiedene Modelle hinweg, siehe GLM-5 vs. DeepSeek vs. GPT-5 in Bezug auf Geschwindigkeit und Kosten und den breiteren GLM-5.1 vs. Claude, GPT, Gemini und DeepSeek Vergleich.

Der Abonnement-Vergleich ist nuancierter. Eine hohe GLM Coding Plan-Stufe mit geschätzten ~80 $/Monat liegt im gleichen Bereich wie die teuersten Einzelsitz-Codierungsabonnements anderer Anbieter, sodass die entscheidenden Faktoren die Modellqualität für Ihre Aufgaben und die Abrechnung der Nutzung durch die Pläne werden. Die Frage Plan gegen Plan (GLM Plan gegen Claude Code, Codex, Cursor und MiniMax) wird detailliert in Claude Code vs. Codex vs. Cursor vs. MiniMax Plan vs. GLM Plan behandelt.

Ein Vorbehalt bei Benchmarks: Die Start-Ergebnisse, die das Wertversprechen untermauern (SWE-bench Pro 62.1, Terminal-Bench 2.1 bei 81.0, MCP-Atlas 77.0), sind die von Z.ai veröffentlichten Ergebnisse. Der vollständige Satz ist in der GLM-5.2 Benchmarks Deep-Dive aufgeschlüsselt, und der direkte Vergleich mit den geschlossenen Laboren befindet sich in GLM-5.2 vs. GPT-5.5, Claude Opus und Gemini.

Welchen Preisweg sollten Sie wählen?

Ein kurzer Entscheidungsleitfaden:

Spitze oder geringe Nutzung: Pay-as-you-go-API. Sie zahlen nur für das, was Sie nutzen, und die Tarife sind niedrig genug, sodass eine geringe Nutzung günstig bleibt.
Ganztägiges Codieren in einem Agenten: Eine GLM Coding Plan-Stufe. Vorhersehbare monatliche Kosten sind besser als getaktete Abrechnung, sobald Sie Hunderte von Aufrufen pro Tag tätigen. Überprüfen Sie zuerst den Preis der Stufe.
Datenschutz, Offline oder Null Grenzkosten: Hosten Sie die offenen Gewichte selbst. Keine Token-Abrechnung, nur Ihre eigene Rechenleistung. Beginnen Sie mit GLM-5 lokal kostenlos ausführen oder GLM-5 kostenlos mit Ollama.

Welchen Weg Sie auch wählen, die beiden Kostenhebel bleiben gleich: Speichern Sie Ihre stabilen Präfixe zwischen und reduzieren Sie den Denkaufwand für Aufgaben, die ihn nicht benötigen.

GLM-5.2 Kosten testen, bevor Sie sich festlegen

Bevor Sie sich für einen Plan entscheiden, ist es hilfreich zu sehen, was Ihre tatsächlichen Prompts kosten und wie lange sie dauern. Sie können jeden OpenAI-kompatiblen Client auf den GLM-5.2-Endpunkt richten und die Token-Nutzung pro Aufruf überwachen. Apidog ist hier nützlich: Es ist eine All-in-One-API-Plattform zum Entwerfen, Debuggen, Testen und Dokumentieren von APIs, sodass Sie Anfragen an `https://api.z.ai/api/paas/v4/chat/completions` senden, die Antwort und Token-Anzahl überprüfen und die Aufrufe als wiederverwendbare Sammlung speichern können, während Sie Denkebenen und Caching-Verhalten vergleichen. Laden Sie Apidog herunter, wenn Sie die Preistabelle mit Ihrem eigenen Traffic vergleichen möchten, anstatt einem durchgerechneten Beispiel zu vertrauen.

Button

Die Kurzversion: Der bestätigte API-Tarif von GLM-5.2 von 1,40 $ Input und 4,40 $ Output ist die Zahl, an der man sich orientieren sollte. Speichern Sie Ihre Präfixe zwischen, managen Sie den Denkaufwand und überprüfen Sie den Live-Preis jeder Coding Plan-Stufe, bevor Sie sich festlegen.