GLM-5.1: Das neue Flaggschiff-Modell von Z.AI einfach erklärt

TL;DR

GLM-5.1 ist Z.AIs Flaggschiffmodell der nächsten Generation, veröffentlicht im April 2026. Es wurde speziell für agentische Ingenieuraufgaben entwickelt: langwierige Codierungsaufgaben, autonome Optimierungsschleifen und komplexe Softwareprojekte, die Hunderte von Iterationen erfordern. Es belegt Platz 1 auf SWE-Bench Pro (58.4), führt bei Terminal-Bench 2.0 (69.0) und übertrifft GLM-5 in allen wichtigen Coding-Benchmarks. Die offenen Gewichte sind unter der MIT-Lizenz verfügbar.

Einleitung

Die meisten KI-Modelle stoßen nach wenigen Dutzend Tool-Aufrufen an ihre Grenzen. Sie erzielen schnelle erste Fortschritte bei einem Codierungsproblem, stagnieren dann und liefern danach immer geringere Ergebnisse, egal wie viel Zeit man ihnen gibt. Man muss den Agenten ständig überwachen oder ein mittelmäßiges Ergebnis akzeptieren.

GLM-5.1 wurde entwickelt, um dieses Muster zu durchbrechen. Z.AI, das Team hinter der GLM-Modellfamilie bei Zhipu AI, veröffentlichte GLM-5.1 im April 2026 als ihr leistungsfähigstes Modell für agentische Aufgaben. Die zentrale Behauptung ist nicht die reine Benchmark-Leistung bei einem einzigen Durchlauf. Es ist die Langzeit-Effektivität: die Fähigkeit, über 600 Iterationen, 8 Stunden und Tausende von Tool-Aufrufen hinweg bedeutsame Fortschritte zu erzielen.

💡

Wenn Sie auf KI-APIs aufbauen oder mehrstufige Agenten-Workflows testen, ist es wichtig zu verfolgen, was GLM-5.1 tatsächlich leisten kann, um Ihren eigenen Stack zu bewerten. Mit den Testszenarien von Apidog können Sie Ketten von API-Aufrufen definieren, die reale Agenten-Workflows widerspiegeln, sodass Sie vor der Produktion überprüfen können, ob Ihre Integration die asynchronen Ausgaben, Tool-Aufrufsequenzen und Streaming-Antworten von GLM-5.1 korrekt verarbeitet. Laden Sie Apidog kostenlos herunter, um die Testabschnitte in diesem Leitfaden zu verfolgen.

Button

Was ist GLM-5.1?

GLM-5.1 ist ein großes Sprachmodell von Zhipu AI, das im April 2026 über ihre Z.AI-Entwicklerplattform veröffentlicht wurde. „GLM“ steht für General Language Model, eine Modellarchitektur, die Zhipu seit 2021 entwickelt.

GLM-5.1 ist der Nachfolger von GLM-5, das selbst Ende 2025 auf den Markt kam. Das 5.1-Update konzentriert sich fast ausschließlich auf agentische Fähigkeiten: die Fähigkeit, autonom an langwierigen Aufgaben zu arbeiten, ohne häufige menschliche Eingriffe zu erfordern oder an Leistungsgrenzen zu stoßen.

Es ist nicht primär ein Denkmodell, ein kreatives Schreibmodell oder ein allgemeiner Chatbot. Z.AI positioniert es explizit als Modell für agentisches Engineering: Softwareentwicklung, Ausführung von Optimierungsschleifen, Schreiben und Ausführen von Code über viele Iterationen hinweg und das Lösen von Problemen, die über lange Sitzungen hinweg kontinuierliche Anstrengungen erfordern.

Die Modellgewichte sind auf Hugging Face unter der MIT-Lizenz öffentlich verfügbar. Sie können es lokal mit vLLM oder SGLang ausführen oder über die BigModel API oder die Z.AI-Entwicklerplattform darauf zugreifen.

GLM-5.1 Benchmark-Leistung

Z.AI veröffentlichte Benchmark-Ergebnisse, die GLM-5.1 mit GLM-5, GPT-5.4, Claude Opus 4.6 und Gemini 3.1 Pro vergleichen. Die Ergebnisse umfassen drei große Kategorien: Software-Engineering, Schlussfolgerungen und agentische Aufgaben.

Software-Engineering

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.4	55.1	57.7	57.3	54.2
NL2Repo	42.7	35.9	41.3	49.8	33.4
Terminal-Bench 2.0	69.0	56.2	75.1	65.4	68.5
CyberGym	68.7	48.3	—	66.6	—

GLM-5.1 belegt Platz 1 auf SWE-Bench Pro, dem Standard-Benchmark für autonome Software-Engineering-Aufgaben. Bei Terminal-Bench 2.0 erzielt GPT-5.4 eine höhere Punktzahl (75.1), aber GLM-5.1 übertrifft GLM-5 deutlich (69 gegenüber 56.2).

Der NL2Repo-Score (42.7) misst die Erzeugung von Repositories mit langem Horizont. Claude Opus 4.6 führt hier mit 49.8, aber GLM-5.1 übertrifft GLM-5 um 6.8 Punkte und übertrifft jedes andere Modell in diesem Vergleich.

Schlussfolgerungen

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
HLE (w/ Tools)	52.3	50.4	52.1*	53.1*	51.4*
AIME 2026	95.3	95.4	98.7	95.6	98.2
HMMT Nov. 2025	94.0	96.9	95.8	96.3	94.8
GPQA-Diamond	86.2	86.0	92.0	91.3	94.3

Bei den Schlussfolgerungs-Benchmarks ist GLM-5.1 konkurrenzfähig, aber nicht führend. GPT-5.4 und Gemini 3.1 Pro führen bei AIME 2026 und GPQA-Diamond. GLM-5.1s Stärke liegt in Codierungs- und agentischen Aufgaben, nicht in reinem Schlussfolgern.

Agentische Aufgaben

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
BrowseComp (w/ Context)	79.3	75.9	82.7	84.0	85.9
MCP-Atlas (Public)	71.8	69.2	67.2	73.8	69.2
Tool-Decathlon	40.7	38.0	54.6	47.2	48.8
Agentic	68.0	62.0	—	—	—

Bei MCP-Atlas führt GLM-5.1 das Feld mit 71.8 an. Bei BrowseComp und Tool-Decathlon liegt es im mittleren Bereich. Der Agentic-Benchmark-Score (68 gegenüber 62 für GLM-5) zeigt die deutlichste Verbesserung gegenüber der vorherigen Generation.

Was GLM-5.1 anders macht: Langzeit-Optimierung

Die Benchmark-Tabellen erzählen einen Teil der Geschichte. Der interessantere Teil ist, was Z.AI über Einzelpass-Benchmarks hinaus demonstrierte.

Die meisten Codierungsmodelle verbessern sich bei einer Aufgabe schnell und stagnieren dann. GLM-5.1 ist darauf ausgelegt, über viel längere Läufe hinweg nützlich zu bleiben. Z.AI testete dies in drei Szenarien mit schrittweise weniger strukturiertem Feedback.

Szenario 1: Vektordatenbank-Optimierung über 600 Iterationen

Z.AI setzte GLM-5.1 bei einer Optimierungsherausforderung für die Vektorsuche unter Verwendung des SIFT-1M-Datensatzes ein. Das Modell erhielt ein Rust-Gerüst und wurde gebeten, die Abfragen pro Sekunde (QPS) bei einer Trefferquote von über 95 % zu maximieren. Anstelle eines Standardbudgets von 50 Durchläufen richteten sie eine äußere Schleife ein, in der GLM-5.1 so viele Iterationen wie nötig ausführen konnte.

Die Ergebnisse zeigen den Unterschied deutlich. Das beste Einzelsitzungs-Ergebnis über alle Modelle hinweg betrug 3.547 QPS (Claude Opus 4.6). GLM-5.1 erreichte bei über 600 Iterationen mit mehr als 6.000 Tool-Aufrufen 21.500 QPS, was ungefähr dem Sechsfachen dieses Ergebnisses entspricht.

Die Verbesserung war nicht kontinuierlich. Das Modell vollzog an Schlüsselstellen strukturelle Übergänge: Um Iteration 90 wechselte es vom vollständigen Korpus-Scanning zur IVF-Cluster-Sondierung mit f16-Vektorkompression, wodurch es von ~3.500 auf 6.400 QPS sprang. Um Iteration 240 führte es eine zweistufige Pipeline ein, die u8-Vorbewertung mit f16-Reranking kombinierte, wodurch 13.400 QPS erreicht wurden. Sechs solcher strukturellen Übergänge fanden während des gesamten Laufs statt, wobei jeder ausgelöst wurde, nachdem das Modell seine eigenen Benchmark-Protokolle analysiert und den aktuellen Engpass identifiziert hatte.

Szenario 2: GPU-Kernel-Optimierung über 1.000+ Durchläufe

Z.AI führte einen GPU-Kernel-Benchmark durch, der GLM-5.1 mit GLM-5 und Claude Opus 4.6 verglich. Die Aufgabe bestand darin, Referenz-PyTorch-Code zu nehmen und schnellere CUDA-Kernel zu erzeugen.

GLM-5.1 erreichte eine 3.6-fache Beschleunigung gegenüber der Baseline. Claude Opus 4.6 führte mit 4.2x und zeigte am Ende des Laufs immer noch Spielraum nach oben. GLM-5 stagnierte früher und erreichte niedrigere Werte. Das Ergebnis bestätigt das Muster: GLM-5.1 hält die Verbesserung länger aufrecht als GLM-5, hat aber das Top-Modell bei dieser spezifischen Aufgabe noch nicht erreicht.

Kontextfenster und technische Spezifikationen

GLM-5.1 unterstützt ein Kontextfenster von 200.000 Tokens. Dies ist wichtig für agentische Aufgaben, bei denen das Modell über viele Iterationen hinweg den Verlauf der Tool-Aufrufe, Codedateien, Testergebnisse und Fehlerprotokolle ansammelt.

Spezifikation	Wert
Kontextfenster	200.000 Tokens
Maximale Ausgabe	163.840 Tokens
Architektur	Autoregressiver Transformer (GLM-Familie)
Lizenz	MIT (offene Gewichte)
Inferenz-Frameworks	vLLM, SGLang
Modellgewichte	HuggingFace (zai-org)

Verfügbarkeit und Preise

GLM-5.1 ist über drei Kanäle verfügbar.

BigModel API (bigmodel.cn): Die primäre Entwickler-API. Sie verwenden den Modellnamen glm-5.1 in Ihren API-Anfragen. Die Preisgestaltung basiert auf einem Quoten-System und nicht auf einer Abrechnung pro Token. GLM-5.1 verbraucht während der Spitzenzeiten das 3-fache und außerhalb der Spitzenzeiten das 2-fache der Quote. Als zeitlich begrenzte Aktion bis Ende April 2026 wird die Nutzung außerhalb der Spitzenzeiten zum 1-fachen Satz abgerechnet. Die Spitzenzeiten sind täglich von 14:00-18:00 UTC+8.

GLM Coding Plan (Z.AI): Ein Abonnementplan für Entwickler, die KI-Codierungsassistenten nutzen. GLM-5.1 ist allen Abonnenten des Coding Plans zugänglich. Sie aktivieren es, indem Sie den Modellnamen in der Konfiguration Ihres Codierungsassistenten aktualisieren. Der Plan funktioniert mit Claude Code, Cline, Kilo Code, Roo Code, OpenCode und Droid. Die Preise beginnen bei 10 $/Monat.

Lokale Bereitstellung: Die Modellgewichte befinden sich auf HuggingFace unter zai-org/GLM-5.1. Sie können es mit vLLM oder SGLang ausführen. Die Bereitstellungsdokumentation finden Sie im offiziellen GitHub-Repository.

GLM-5.1 vs GLM-5: Was sich tatsächlich geändert hat

GLM-5 war bereits ein starkes Codierungsmodell. GLM-5.1 verbessert es auf spezifische Weise: Es erweitert das Fenster nützlicher Arbeit.

Die Kernänderung liegt nicht in der Leistung beim ersten Durchlauf. Bei den meisten Benchmarks übertrifft GLM-5.1 GLM-5 um 3-7 Punkte, was bedeutsam, aber nicht dramatisch ist. Der eigentliche Unterschied zeigt sich, wenn man beiden Modellen dieselbe Aufgabe mit unbegrenzter Zeit gibt.

GLM-5 verbessert sich schnell und stagniert dann. GLM-5.1 macht weiterhin Fortschritte über den Punkt hinaus, an dem GLM-5 aufhört. Dies ist wichtig für agentische Anwendungen, bei denen das Modell autonom weiterarbeiten soll, anstatt dass Sie eingreifen und es umleiten müssen.

Konkret: GLM-5 stagnierte beim Vektorsuche-Benchmark bei etwa 8.000-10.000 QPS mit verlängerter Zeit. GLM-5.1 erreichte 21.500 QPS. Beim GPU-Kernel-Benchmark schnitt GLM-5 niedriger und früher ab als GLM-5.1. Bei der Linux-Desktop-Aufgabe erzeugte GLM-5 ein Gerüst und stoppte.

Das Modell weist immer noch signifikante Lücken auf. Claude Opus 4.6 führt bei der GPU-Kernel-Optimierung und bei BrowseComp.

GLM-5.1 vs. Konkurrenten

GLM-5.1 vs. Claude Opus 4.6

Bei Software-Engineering-Benchmarks führt GLM-5.1 bei SWE-Bench Pro (58.4 vs. 57.3) und CyberGym (68.7 vs. 66.6). Claude Opus 4.6 führt bei NL2Repo (49.8 vs. 42.7), GPU-Kernel-Optimierung und BrowseComp. Für den API-Zugriff ist Claude deutlich teurer. GLM-5.1 über die BigModel API oder den Coding Plan ist für Entwickler konzipiert, die Agentenschleifen mit hohem Volumen ausführen.

GLM-5.1 vs. GPT-5.4

GPT-5.4 führt bei Terminal-Bench 2.0 (75.1 vs. 69.0) und den meisten Reasoning-Benchmarks. GLM-5.1 führt bei SWE-Bench Pro (58.4 vs. 57.7) und MCP-Atlas (71.8 vs. 67.2). Für Entwickler in China oder diejenigen, die auf chinesischer KI-Infrastruktur aufbauen, ist der BigModel API-Zugriff auf GLM-5.1 deutlich einfacher als der GPT-5.4-Zugriff.

GLM-5.1 vs. Gemini 3.1 Pro

Gemini 3.1 Pro führt bei der Schlussfolgerung (AIME 2026, GPQA-Diamond) und BrowseComp. GLM-5.1 führt bei SWE-Bench Pro, Terminal-Bench 2.0 und CyberGym. Für Code-zentrierte Anwendungsfälle ist GLM-5.1 die stärkere Wahl. Für allgemeines Schlussfolgern und die Dokumentenanalyse hat Gemini einen Vorteil.

Anwendungsfälle, für die GLM-5.1 am besten geeignet ist

Autonome Codierungsagenten: Langlaufende Aufgaben, bei denen das Modell Entscheidungen darüber treffen soll, was als Nächstes versucht werden soll, Tests auszuführen, Ergebnisse zu analysieren und fortzufahren, ohne häufige menschliche Kontrollpunkte. Für einen detaillierten Einblick, wie Agenten das Gedächtnis über diese Läufe hinweg verwalten, siehe wie das Gedächtnis von KI-Agenten funktioniert. Das 200K Kontextfenster und die Fähigkeit zur Langzeit-Optimierung machen es hierfür gut geeignet.

KI-Codierungsassistenten (Claude Code, Cline, Cursor-Integrationen): GLM-5.1 wird explizit im Z.AI Coding Plan für die Verwendung mit Claude Code, Cline, Kilo Code, Roo Code und anderen KI-Codierungstools unterstützt. Entwickler, die ein leistungsstarkes Codierungsmodell wünschen, ohne die Kosten für Claude- oder GPT-Tokens zu zahlen, können dies über BigModel tun.

Software-Engineering-Automatisierung (Aufgaben der SWE-Bench-Klasse): GitHub-Issue-Lösung, Pull-Request-Generierung, Bugfix-Automatisierung. Die Platzierung von GLM-5.1 als Nummer 1 auf SWE-Bench Pro macht es zu einer glaubwürdigen Wahl für diese Pipelines.

Wettbewerbsprogrammierung und Optimierung: GPU-Kernel-Optimierung, Leistungs-Benchmarking, Algorithmenoptimierung, bei der das Modell Experimente durchführen und seine Strategie basierend auf den Ergebnissen anpassen kann.

Wofür es nicht am besten geeignet ist: Allzweck-Chatbot, kreatives Schreiben, Dokumenten-Q&A, wo die Qualität der Schlussfolgerungen wichtiger ist als die Code-Ausgabe. Für diese Anwendungsfälle zeigen die Reasoning-Benchmarks, dass Gemini und GPT-5.4 Vorteile haben.

Wie man GLM-5.1 heute ausprobiert

Der schnellste Weg, es auszuprobieren, ist über die Z.AI Chat-Oberfläche unter z.ai, die standardmäßig GLM-5.1 ausführt. Für die Chat-Oberfläche ist kein API-Schlüssel erforderlich.

Für den API-Zugriff erstellen Sie ein Konto auf bigmodel.cn und generieren einen API-Schlüssel. Die API ist OpenAI-kompatibel, sodass jeder Client, der mit GPT-Modellen funktioniert, auch mit GLM-5.1 funktioniert. Der in Anfragen zu verwendende Modellname ist glm-5.1.

Für die lokale Bereitstellung befinden sich die Gewichte auf HuggingFace unter zai-org/GLM-5.1. Vollständige Einrichtungsanweisungen finden Sie im offiziellen GitHub-Repository.

Für eine detaillierte Anleitung zur API mit Codebeispielen, Authentifizierung und Testeinrichtung siehe den GLM-5.1 API-Leitfaden.

Fazit

GLM-5.1 ist ein signifikanter Fortschritt gegenüber GLM-5, insbesondere hinsichtlich seiner anhaltenden Nützlichkeit bei schwierigen agentischen Aufgaben. Die #1 Platzierung auf SWE-Bench Pro und die Demonstration der Vektorsuche über 600 Iterationen untermauern glaubwürdig, dass dies das stärkste Open-Weights-Modell für autonome Codierungs-Workflows ist, das derzeit verfügbar ist.

Es führt nicht bei jedem Benchmark. Claude Opus 4.6 und GPT-5.4 sind stärker bei Schlussfolgerungen, GPU-Optimierung und einigen agentischen Aufgaben. Aber für Entwickler, die nachhaltige Codierungsagenten betreiben möchten, ohne die Kosten geschlossener Spitzenmodelle zu zahlen, ist GLM-5.1 unter der MIT-Lizenz mit BigModel API-Zugriff eine ernsthafte Option.

Die offenen Gewichte und die MIT-Lizenz sind hervorzuheben. Sie können GLM-5.1 lokal ausführen, feinabstimmen und in Ihrer eigenen Infrastruktur ohne Nutzungsbeschränkungen bereitstellen.

Button

FAQ

Wofür steht GLM?General Language Model. Es ist die Modellarchitektur, die Zhipu AI seit 2021 entwickelt hat, basierend auf autoregressiver Lückentext-Ergänzung anstatt des von GPT-Modellen verwendeten Decoder-Only-Ansatzes.

Ist GLM-5.1 Open Source?Ja. Die Modellgewichte werden unter der MIT-Lizenz auf HuggingFace unter zai-org/GLM-5.1 veröffentlicht. MIT ist eine der freizügigsten Open-Source-Lizenzen, die kommerzielle Nutzung, Feinabstimmung und Weiterverbreitung erlaubt.

Welches Kontextfenster unterstützt GLM-5.1?200.000 Tokens (ungefähr 150.000 Wörter), mit einer maximalen Ausgabe von 163.840 Tokens.

Wie vergleicht sich GLM-5.1 mit DeepSeek-V3.2?Die Benchmarks von Z.AI zeigen, dass GLM-5.1 DeepSeek-V3.2 bei Software-Engineering-Aufgaben übertrifft. Bei Reasoning-Benchmarks ist DeepSeek-V3.2 konkurrenzfähig. Speziell für Codierungsagenten ist GLM-5.1 die stärkere Wahl, basierend auf den veröffentlichten Daten.

Kann ich GLM-5.1 mit Claude Code oder Cursor verwenden?Ja. Der Z.AI Coding Plan unterstützt Claude Code, Cline, Kilo Code, Roo Code und OpenCode über die BigModel API. Sie aktualisieren den Modellnamen in der Konfigurationsdatei Ihres Codierungsassistenten. Die Pläne beginnen bei 10 $/Monat.

Wie greife ich über die API auf GLM-5.1 zu?Erstellen Sie ein Konto auf bigmodel.cn, generieren Sie einen API-Schlüssel und verwenden Sie den Modellnamen glm-5.1 in Anfragen an https://open.bigmodel.cn/api/paas/v4/chat/completions. Die vollständige API-Anleitung finden Sie im GLM-5.1 API-Leitfaden.

Ist GLM-5.1 kostenlos verfügbar?Die Z.AI Chat-Oberfläche unter z.ai ist kostenlos nutzbar. Der API-Zugriff über BigModel verwendet ein Quoten-System mit kostenpflichtigen Plänen. Die Nutzung außerhalb der Spitzenzeiten wird bis Ende April 2026 als Aktionsrate zum 1-fachen Satz der Quote abgerechnet.