GLM-5.2 Benchmarks und Spezifikationen: SWE-bench Pro, Terminal-Bench und was die Zahlen bedeuten

GLM-5.2 von Z.ai (Zhipu AI) wurde mit einer Reihe von Benchmark-Zahlen veröffentlicht, und einige davon sind wirklich bemerkenswert. Die Schlagzeile ist SWE-bench Pro mit 62,1, knapp vor GPT-5.5. Die größere Geschichte ist eine Zeile tiefer verborgen: Terminal-Bench sprang in einer einzigen Generation von 62,0 auf 81,0. Dieser Beitrag geht jeden GLM-5.2 Benchmark-Score durch, erklärt, was der Test tatsächlich misst, und zeigt auf, wo der Vorsprung real ist und wo es sich um einen Rundungsfehler handelt.

Alle hier genannten Startwerte sind, sofern nicht anders angegeben, von Z.ai veröffentlichte Ergebnisse. Wenn ein Modell auf seinen eigenen Scorecards behauptet, das Feld zu schlagen, liest man das mit hochgezogener Augenbraue. Wir werden also genau darlegen, was jeder Benchmark beweist und was nicht.

💡

Wenn Sie APIs beim Evaluieren solcher Modelle erstellen oder testen, ist Apidog die All-in-One-Plattform, die wir zum Entwerfen, Debuggen, Mocken und Dokumentieren der Endpunkte verwenden, die diese Modelle aufrufen. Mehr dazu später, aber es ist relevant: Viele der Verbesserungen von GLM-5.2 zeigen sich bei agentenbasierten Arbeiten und der Tool-Nutzung, was genau API-Gebiet ist.

Schaltfläche

Die Kurzversion: GLM-5.2 Benchmark-Scores auf einen Blick

Hier ist die vollständige GLM-5.2 Benchmark-Tabelle, mit den engsten Konkurrenten zum Kontext. Betrachten Sie die Vergleichsspalten als von Z.ai angegebene Werte für diese Modelle, nicht als unabhängige Neu-Ausführungen.

Benchmark	Was es misst	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	Behebung von Fehlern in realen Repositories	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	Mehrstufige Shell-/Agentenaufgaben	81.0	62.0	n/a	n/a
MCP-Atlas	Werkzeugnutzung über MCP-Server	77.0	n/a	75.3	77.8
Humanity’s Last Exam (mit Tools)	Schwierige Experten-Argumentation	54.7	n/a	52.2	n/a
AIME 2026	Wettbewerbs-Mathematik	99.2	n/a	n/a	n/a
GPQA-Diamond	Wissenschaft auf Graduierten-Niveau	91.2	n/a	n/a	n/a

Z.ai meldet GLM-5.2 auch als das höchstbewertete Open-Source-Modell auf FrontierSWE, PostTrainBench und SWE-Marathon. Wir werden später darauf eingehen, was diese Qualifikation („Open-Source“) bedeutet.

Eine einfache Erklärung, was dieses Modell ist, finden Sie in der GLM-5.2 Übersicht. Für einen direkten Vergleich mit proprietären Modellen gibt es eine spezielle GLM-5.2 vs. GPT-5.5, Opus und Gemini Aufschlüsselung.

SWE-bench Pro: 62,1 und was es wirklich aussagt

SWE-bench Pro ist die schwierigere, kuratierte Variante des ursprünglichen SWE-bench. Es gibt einem Modell ein echtes GitHub-Problem sowie das gesamte Repository und fordert es auf, einen Patch zu erstellen, der die versteckte Testsuite des Projekts erfolgreich durchläuft. Keine Multiple Choice, keine Spielzeugfunktionen. Man behebt den Fehler entweder in echten Dateien oder nicht.

GLM-5.2 erreicht 62,1 Punkte. GPT-5.5 liegt bei 58,6 und GLM-5.1 bei 58,4, laut Z.ai. Daraus ergeben sich zwei ehrliche Erkenntnisse:

Der 3,5-Punkte-Vorsprung vor GPT-5.5 ist bedeutsam, aber keine Kluft. Bei einem so ungenauen Benchmark können ein paar Punkte von Testumgebungsdetails, Wiederholungsbudgets und Prompt-Scaffolding abhängen. Nennen Sie es „konkurrenzfähig an der Spitze“, nicht „dominant“.
Der 3,7-Punkte-Zuwachs gegenüber GLM-5.1 ist das zuverlässigere Signal, da dasselbe Labor auf dieselbe Weise über zwei seiner eigenen Modelle hinweg misst. Generationenübergreifende Deltas sind die sauberste Lesart, die Sie erhalten.

Warum sollte man sich überhaupt für SWE-bench Pro interessieren? Weil es der nächstgelegene öffentliche Proxy für die Frage ist: „Kann dieses Modell meine tatsächliche Arbeit erledigen?“ Das Beheben eines Fehlers in einer weitläufigen Codebasis erfordert das Lesen von unbekanntem Code, das Auffinden der richtigen Datei und das Bearbeiten, ohne drei andere Dinge zu zerstören. Das ist die tägliche Realität der Softwareentwicklung, weshalb coding-first Modelle zuerst danach bewertet werden.

Terminal-Bench 2.1: 81,0 ist die Heldenzahl

Wenn Sie eine Zeile in der Tabelle lesen, lesen Sie diese. Terminal-Bench bewertet ein Modell als Agent in einer echten Shell: Abhängigkeiten installieren, Befehle ausführen, Ausgabe analysieren, Fehler beheben und eine mehrstufige Aufgabe von Anfang bis Ende abschließen. Es belohnt Ausdauer und Werkzeugdisziplin, nicht einmalige Cleverness.

GLM-5.1 erreichte 62,0 Punkte. GLM-5.2 erreicht 81,0 Punkte. Das ist ein Sprung von 19 Punkten in einer Generation, und es ist aus gutem Grund die herausragende Leistungsstatistik von GLM-5.2. Der Unterschied zwischen „scheitert bei etwa vier von zehn Aufgaben“ und „erledigt etwa vier von fünf“ ist der Unterschied zwischen einem Modell, das man betreuen muss, und einem, dem man ein Terminal übergeben kann.

Hier schließt sich auch der Kreis zwischen Architektur und Benchmark. Z.ai schreibt GLM-5.2 die „IndexShare“-Sparse-Attention zu, die einen Indexer über jeweils vier Sparse-Attention-Schichten wiederverwendet, um die Aufmerksamkeitskosten bei langem Kontext niedrig zu halten. Agentenaufgaben mit langem Horizont erzeugen lange Transkripte: Befehl, Ausgabe, Befehl, Ausgabe, über Dutzende von Durchläufen. Ein Modell, das diesen Kontext kostengünstig und genau hält, ist ein Modell, das den roten Faden nicht mitten in einem Build verliert. Der Sprung beim Terminal-Bench ist der praktische Nutzen dieses Designs. Für den vollständigen Generationsvergleich siehe GLM-5.2 vs GLM-5.1.

Eine ehrliche Einschränkung: Terminal-Bench ist ein von Z.ai gemeldeter Wert, und agentenbasierte Benchmarks reagieren empfindlich auf das Gerüst um das Modell herum (Timeout-Limits, erlaubte Wiederholungen, der Harness-Prompt). Der Sprung ist groß genug, dass das Gerüst allein ihn wahrscheinlich nicht erklären kann, aber überprüfen Sie dies mit Ihrer eigenen Arbeitslast, bevor Sie eine Pipeline darauf setzen.

MCP-Atlas: 77,0 und ein ehrliches Kopf-an-Kopf-Rennen an der Spitze

MCP-Atlas misst die Tool-Nutzung über das Model Context Protocol, die Standardmethode, wie Modelle externe Tools und Server aufrufen. Es ist der Benchmark, der am direktesten auf Agenten- und API-Arbeit zutrifft: Kann das Modell das richtige Tool auswählen, den Aufruf korrekt formatieren, das Ergebnis lesen und fortfahren?

GLM-5.2 landet bei 77,0. GPT-5.5 liegt bei 75,3 und Claude Opus 4.8 bei 77,8, laut Z.ai. Dies ist die Zeile, in der Sie dem Drang widerstehen sollten, einen Gewinner zu deklarieren. GLM-5.2 schlägt GPT-5.5 um 1,7 Punkte und liegt 0,8 Punkte hinter Opus 4.8. Das sind Rundungsfehler-Margen. Die faire Aussage ist, dass bei der MCP-ähnlichen Tool-Nutzung die drei Modelle Kopf an Kopf liegen und GLM-5.2 seinen Platz in dieser Gruppe verdient hat.

Das ist wichtig, weil die Tool-Nutzung der Punkt ist, an dem ein Codierungsmodell auf Ihren Stack trifft. Jeder MCP-Aufruf ist funktional eine API-Interaktion: eine strukturierte Anfrage, eine zu parsende Antwort, ein zu handhabender Fehler. Wenn Sie ein Modell in reale Dienste integrieren, möchten Sie die gleiche Sorgfalt anwenden, die Sie bei jeder anderen Integration anwenden würden. Genau hier passt Apidog. Sie können die Endpunkte, die ein Agent treffen wird, definieren und mocken, dann die tatsächlichen Anforderungs- und Antwort-Payloads debuggen, die das Modell generiert, bevor Sie es auf die Produktion loslassen. Laden Sie Apidog herunter, wenn Sie diese Tool-Aufrufe genauso testen möchten wie jede andere API.

Argumentation und Mathematik: HLE 54,7, AIME 99,2, GPQA-Diamond 91,2

Codieren ist nicht die ganze Geschichte. GLM-5.2 weist auch starke Argumentationswerte auf.

Humanity’s Last Exam (mit Tools): 54,7. HLE ist eine bewusst brutale Prüfung, die Expertenfragen aus vielen Bereichen umfasst und darauf ausgelegt ist, eine einfache Sättigung zu verhindern. Die Einstellung „mit Tools“ ermöglicht es dem Modell, zu suchen und zu rechnen, anstatt kalt zu antworten. GLM-5.2s 54,7 übertrifft GPT-5.5s 52,2 (laut Z.ai). Bei einem so schwierigen Benchmark ist alles im Bereich der 50er-Jahre ein ernstzunehmendes Ergebnis.
AIME 2026: 99,2. AIME ist Wettbewerbsmathematik für starke Gymnasiasten. Eine 99,2 ist effektiv eine Deckelpunktzahl, die hauptsächlich besagt, dass der Test keine führenden Modelle mehr trennt. Es ist eher ein Signal für „keine Schwächen hier“ als ein Unterscheidungsmerkmal.
GPQA-Diamond: 91,2. GPQA-Diamond ist der schwierigste Teil eines naturwissenschaftlichen Q&A-Sets auf Graduierten-Niveau, das so gefiltert ist, dass Nicht-Experten es selbst mit Webzugang nicht durch Brute-Force lösen können. Eine 91,2 positioniert GLM-5.2 fest im Spitzenfeld der technischen Argumentation.

Das Muster hierbei: GLM-5.2 ist kein enger Codespezialist, der bei Mathematik oder Wissenschaft versagt. Die zwei Denk-Anstrengungsstufen (High und Max, wobei Max für das Codieren empfohlen wird) ermöglichen es Ihnen, Latenz gegen Tiefe bei den schwierigeren Problemen einzutauschen. Wenn Sie neben dem Codieren auch den tieferen Mathematik- und Argumentationsaspekt wünschen, führt der Beitrag GLM-5.2 Benchmarks vs. das Feld diesen Vergleich weiter.

Die Behauptung „höchstes Open-Source“, erklärt

Z.ai meldet GLM-5.2 als das führende Open-Source-Modell auf FrontierSWE, PostTrainBench und SWE-Marathon. Lesen Sie diese Qualifikation sorgfältig, denn sie leistet echte Arbeit.

„Höchstes Open-Source“ ist eine engere Behauptung als „das höchste, Punkt.“ Das Feld der Open-Weights ist hier der relevante Rahmen: GLM-5.2 wird unter einer MIT-Lizenz mit offenen Gewichten und ohne regionale Beschränkungen geliefert, was ein anderes Angebot ist als ein geschlossenes API-Modell, das man mietet. Gegenüber anderen Open-Weights-Modellen ist es eine starke Behauptung, an der Spitze von FrontierSWE (Software-Aufgaben mit Grenzschwierigkeit), PostTrainBench (Fähigkeit nach dem Training) und SWE-Marathon (lange, nachhaltige Software-Arbeit) zu stehen, und es ist die Behauptung, die zählt, wenn Ihre Einschränkung lautet: „muss selbst gehostet werden können.“

Es ist nicht dasselbe wie jedes proprietäre Modell in diesen Tests zu übertreffen. Wo GLM-5.2 tatsächlich GPT-5.5 schlägt, wie bei SWE-bench Pro und HLE, sagt Z.ai dies direkt, ohne den Open-Source-Vorbehalt. Das mentale Modell ist also: insgesamt an oder nahe der Spitze, und eindeutig Erster unter den Modellen, die Sie selbst herunterladen und ausführen können. VentureBeat formulierte den Wert unverblümt und berichtete, dass GLM-5.2 „GPT-5.5 bei Langzeit-Codierung mit etwa einem Sechstel der Kosten schlägt.“ Das ist VentureBeats Charakterisierung, die es wert ist, zugeschrieben und nicht als gemessene Tatsache behauptet zu werden.

GLM-5.2 Spezifikationen auf einen Blick

Benchmarks sind nur im Kontext der Hardware- und Lizenzierungsrealität aussagekräftig. Hier sind die GLM-5.2 Spezifikationen, die bestimmen, wie sich die Scores auf Ihr Setup übertragen.

Spezifikation	Wert
Parameter	~753B insgesamt, Mixture-of-Experts (MoE)
Präzision	BF16
Attention	IndexShare Sparse Attention (ein Indexer wird pro 4 Sparse-Layer geteilt)
Kontextfenster	1 Mio. Token (1.048.576)
Maximale Ausgabe	Bis zu 128K pro z.ai Docs (live überprüfen; OpenRouter listet keinen Wert)
Modalität	Texteingabe, Textausgabe (keine bestätigte Visionsvariante)
Denkanstrengung	Hoch und Max; kann deaktiviert werden
Lizenz	MIT, offene Gewichte, keine regionalen Beschränkungen
Modell-IDs	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

Ein paar Anmerkungen zum Lesen dieser Seitenleiste. Die Parameteranzahl von ~753B ist die gesamte MoE-Größe, nicht die aktive Pro-Token-Anzahl, also lesen Sie es nicht als „benötigt 753B an dichter Rechenleistung pro Forward-Pass“, das ist der Sinn von MoE. Der 1M-Token-Kontext ist die Spezifikation, die das Terminal-Bench-Ergebnis glaubwürdig macht: Lange Agentenläufe benötigen einen Platz für all diese Historie. Bei der maximalen Ausgabe ist Vorsicht geboten. Die Dokumente von Z.ai nennen bis zu 128K (Stand Juni 2026, aktuelles Limit unter z.ai überprüfen), aber es wird nicht konsistent über alle Anbieter hinweg aufgeführt, also behandeln Sie es eher als dokumentierte Obergrenze denn als garantierte. Und es gibt kein GLM-5.2 Vision-Modell. Wenn Sie irgendwo „GLM-5.2V“ sehen, ist es nichts, was Z.ai bestätigt hat.

Die Preisgestaltung folgt der Open-Weights-Logik: OpenRouter listet 1,40 $ pro 1 Million Eingabe-Token und 4,40 $ pro 1 Million Ausgabe-Token, wobei zwischengespeicherte Eingaben etwa 0,26 $ pro 1 Million kosten (Zahl von VentureBeat). Dieses Kostenprofil ist das Rückgrat der Aussage „ein Sechstel der Kosten“. Für die vollständige Kostenaufschlüsselung, einschließlich der GLM Coding Plan Stufen, siehe die Seite GLM-5.2 Preisgestaltung, und wenn Sie es ausführen möchten, ohne pro Token zu bezahlen, behandelt wie man GLM-5.2 kostenlos nutzt den Self-Host-Weg.

Wie Sie diese Benchmarks selbst überprüfen können

Anbieter-Scorecards sind ein Ausgangspunkt, kein Urteil. Drei Dinge, die Sie tun sollten, bevor Sie einer dieser Zahlen für eine echte Entscheidung vertrauen:

Lesen Sie die Primärquellen. Der Z.ai GLM-5.2 Blog und die Z.ai Docs enthalten die offizielle Methodik. Die Hugging Face Modellkarte enthält die Gewichte und Konfiguration, wenn Sie die Architektur direkt prüfen möchten.
Überprüfen Sie Drittanbieter-Listungen. Die OpenRouter-Seite bestätigt die Preise und die Modell-ID, und der Ollama-Bibliothekseintrag bestätigt den lokalen Ausführungspfad. VentureBeats Berichterstattung liefert eine externe Einordnung der Kostenaspekte.
Führen Sie Ihre eigene Evaluierung durch. Der einzige Benchmark, der wirklich zählt, ist Ihre Arbeitslast. Integrieren Sie GLM-5.2 in eine reale Aufgabe, idealerweise eine agentenbasierte mit Tool-Aufrufen, und beobachten Sie, wie es sich über viele Durchläufe verhält. Für den Kontext früherer Generationen zu dieser genauen Übung sind der GLM-5.1-Artikel und der Vergleich GLM-5 vs. DeepSeek vs. GPT-5 Geschwindigkeit und Kosten nützliche Baselines.

Wenn Sie diese eigene Arbeitslast-Evaluierung durchführen, sind die Tool-Aufrufe der Punkt, an dem Modelle still und leise versagen – fehlerhaftes JSON, falsche Tool-Auswahl, fehlende Fehlerbehandlung. Das Mocking dieser Endpunkte in Apidog ermöglicht es Ihnen, die tatsächlichen Anfragen und Antworten des Modells zu beobachten, ohne Live-Dienste zu belasten, was der schnellste Weg ist, einen Benchmark-Helden von einem Modell zu unterscheiden, das in Ihrem Stack funktioniert.

Das Fazit

Das Benchmark-Blatt von GLM-5.2 hält einer genauen Prüfung besser stand als die meisten Launch-Scorecards. Der Sprung von Terminal-Bench von 62,0 auf 81,0 ist die wirklich große Zahl, der SWE-bench Pro Vorsprung vor GPT-5.5 ist real, wenn auch bescheiden, und das MCP-Atlas-Ergebnis ist ein ehrliches Drei-Wege-Unentschieden an der Spitze. Kombinieren Sie diese Scores mit offenen Gewichten, einer MIT-Lizenz, einem 1M-Token-Kontext und einer Wirtschaftlichkeit von etwa einem Sechstel der Kosten, und Sie erhalten ein Modell, das eine ernsthafte Evaluierung verdient, anstatt nur einen höflichen Blick.

Die Benchmarks weisen Sie auf das richtige Modell hin. Ihre eigene Arbeitslast bestätigt dies. Wenn Sie diesen Test durchführen und er echte API- und Tool-Aufrufe beinhaltet, richten Sie die Endpunkte in Apidog ein, damit Sie genau sehen können, was das Modell sendet und empfängt, und entscheiden Sie dann basierend darauf, was es in Ihrem Stack leistet, nicht darauf, was es auf dem Stack eines anderen erzielt hat.