Cursor ließ am 19. März 2026 eine Bombe platzen. Ihr neues Modell Composer 2 erreicht nicht nur die Leistung von Claude Opus 4.6 und GPT-5.4 bei Codierungs-Benchmarks – es übertrifft sie sogar beide.
Die Zahlen erzählen eine beeindruckende Geschichte: 61,7 auf Terminal-Bench 2.0. 73,7 auf SWE-bench Multilingual. Ein Sprung von 17 Punkten gegenüber der Vorgängerversion. Und sie bieten es zu etwa einem Drittel des Preises an, den die Konkurrenz verlangt.
Sollten sich diese Behauptungen bei unabhängiger Prüfung bewahrheiten, hat sich die Landschaft der KI-Codierung gerade unter unseren Füßen verschoben.
Hier ist alles, was Sie über Composer 2 wissen müssen, warum die Benchmarks wichtig sind und was dies für Ihren Entwicklungs-Stack bedeutet.
Die Benchmarks, über die jeder spricht
Die Ankündigung von Cursor konzentriert sich auf drei proprietäre und branchenübliche Benchmarks. Die Ergebnisse zeigen, dass Composer 2 sowohl die Vorgängerversion als auch konkurrierende Frontier-Modelle übertrifft:

*Ungefähre Vergleichswerte basierend auf den Infrastrukturtests von Cursor
Der Sprung von Composer 1.5 zu Composer 2 stellt die größte Verbesserung innerhalb einer einzigen Generation dar, die Cursor je geliefert hat. Siebzehn Punkte auf CursorBench. Fast 8 Punkte auf SWE-bench. Dies sind keine inkrementellen Verbesserungen – es sind die Art von Sprüngen, die man typischerweise nur alle paar Jahre sieht, nicht zwischen kleineren Versions-Updates.

Cursor führt die Verbesserung auf ihren ersten durchgehenden Vortrainingslauf zurück. Dies schafft eine stärkere Grundlage für das nachfolgende Reinforcement Learning, wodurch das Modell Codierungsaufgaben bewältigen kann, die Hunderte von sequenziellen Aktionen erfordern, ohne den Kontext zu verlieren.
Die Preisstrategie, die alles verändert
Benchmark-Leistung sorgt für Schlagzeilen. Die Preisgestaltung gewinnt Märkte.
Die Preisstruktur von Composer 2:
- Standardvariante: 0,50 $ pro Million Input-Tokens, 2,50 $ pro Million Output-Tokens
- Schnelle Variante: 1,50 $ pro Million Input-Tokens, 7,50 $ pro Million Output-Tokens
Die schnelle Variante bietet identische Intelligenz bei geringerer Latenz. Cursor positioniert sie explizit als günstiger als konkurrierende „schnelle“ Modelle, während sie dieselbe Leistungsstufe beibehält.

Zur Veranschaulichung, so sieht die Berechnung für ein Team aus, das monatlich 10 Millionen Output-Tokens generiert:
| Modell | Monatliche Kosten |
|---|---|
| Composer 2 | ~25 $ |
| Claude Opus 4.6 | ~75-150 $ |
| GPT-5.4 | ~60-120 $ |
Dies sind ungefähre Vergleiche basierend auf den veröffentlichten Preisen von Anthropic und OpenAI. Die tatsächlichen Kosten variieren je nach Nutzungsmuster und Unternehmensvereinbarungen. Aber die Richtung ist klar: Cursor unterbietet die Konkurrenz deutlich.
Terminal-Bench 2.0 im Detail
Terminal-Bench 2.0 ist nicht nur ein weiterer Codierungs-Benchmark. Er testet, ob eine KI reale Terminal- und Codierungsaufgaben autonom erledigen kann – ohne Hilfestellung, ohne Schritt-für-Schritt-Anleitung.
Der Benchmark wird vom Laude Institute gepflegt und verwendet verschiedene Bewertungs-Frameworks für unterschiedliche Modellfamilien:
- Anthropic-Modelle: Bewertet mit dem Claude Code-Framework
- OpenAI-Modelle: Bewertet mit dem Simple Codex-Framework
- Cursor-Modelle: Bewertet mit dem Harbor-Bewertungs-Framework (dem offiziell benannten Framework für Terminal-Bench 2.0)
Cursor führte 5 Iterationen pro Modell-Agent-Paar durch und meldete Durchschnittswerte. Der Benchmark konzentriert sich auf das Agentenverhalten: Kann die KI eine unbekannte Codebasis navigieren, Terminalbefehle ausführen, Fehler beheben und mehrstufige Aufgaben ohne menschliches Eingreifen abschließen?
Ein Wert von 61,7 bedeutet, dass Composer 2 etwa 62 % der Aufgaben, die es versucht hat, erfolgreich abgeschlossen hat. Diese Zahl mag nicht überwältigend klingen, bis man sie mit der Konkurrenz – und mit der vorherigen Version von Composer selbst – vergleicht.
SWE-bench Multilingual: Der Praxistest
SWE-bench bewertet die Fähigkeit einer KI, tatsächliche GitHub-Probleme über mehrere Programmiersprachen hinweg zu lösen. Dies sind keine synthetischen Testdaten. Es handelt sich um echte Bugs, echte Feature-Anfragen und echte Codebasen.

Ein Wert von 73,7 bedeutet, dass Composer 2 etwa 74 % der Probleme, die es versucht hat, erfolgreich gelöst hat. Zum Vergleich: Composer 1 erreichte auf demselben Benchmark 56,9 %. Das ist eine Verbesserung von 17 Punkten in der Fähigkeit des Modells, reale Codeänderungen zu verstehen, zu beheben und zu überprüfen.
Dieser Benchmark ist wichtig, weil er die Problemlösung testet, nicht nur die Code-Vervollständigung. Die KI muss:
- Die Problembeschreibung analysieren (oft vage oder unvollständig)
- Relevante Dateien in einer Codebasis finden
- Die vorhandene Codestruktur verstehen
- Gezielte Korrekturen vornehmen, ohne andere Funktionalitäten zu beeinträchtigen
- Überprüfen, ob die Änderungen wie beabsichtigt funktionieren
Die meisten Codierungsassistenten sind in Schritt 4 – der Generierung von Code-Snippets – hervorragend. Das Ergebnis von Composer 2 deutet darauf hin, dass es in den Schritten 1, 2, 3 und 5 deutlich besser geworden ist.
Wie Cursor ein Benchmark-schlagendes Modell entwickelte
Die technische Geschichte hinter Composer 2 umfasst zwei Schlüsselphasen:
Phase 1: Fortgesetztes Vortraining
Cursor nahm sein Basismodell und trainierte es mit zusätzlichen Codedaten weiter. Dies ist nicht dasselbe wie das ursprüngliche Vortraining, das das Basismodell erstellte. Stattdessen handelt es sich um einen gezielten Verfeinerungsprozess, der das Verständnis des Modells für Codemuster, APIs und Entwicklungs-Workflows stärkt.
Stellen Sie es sich wie eine medizinische Facharztausbildung vor. Das Modell hat bereits seinen Doktortitel (das Basis-Vortraining). Das fortgesetzte Vortraining ist die spezialisierte Weiterbildung, die es zu einem Experten in einem Bereich macht.
Phase 2: Reinforcement Learning bei Aufgaben mit langem Zeithorizont
Auf der gestärkten Basis wendet Cursor Reinforcement Learning speziell auf Codierungsaufgaben mit langem Zeithorizont an. Dies sind Aufgaben, die Hunderte von sequenziellen Aktionen erfordern – das Refactoring eines großen Moduls, die Migration einer gesamten Codebasis zu einer neuen API oder das Debuggen eines komplexen Integrationsproblems.
Der Reinforcement-Learning-Prozess funktioniert wie folgt:
- Das Modell versucht eine Aufgabe mit langem Zeithorizont
- Es erhält Feedback, ob die Aufgabe erfolgreich war
- Über Tausende von Iterationen lernt es, welche Aktionssequenzen zum Erfolg führen
Dieser Ansatz spiegelt wider, wie Anthropic und OpenAI ihre eigene Modellentwicklung diskutiert haben. Der Unterschied: Cursor trainiert speziell an Codierungsaufgaben mit erweiterten Aktionssequenzen, nicht an allgemeinem Denken oder Chat-Interaktionen.
Was dies für Entwicklungsteams bedeutet
Wenn Composer 2 diese Benchmark-Ansprüche im täglichen Gebrauch erfüllt, werden mehrere Verschiebungen in der gesamten Branche wahrscheinlich.
1. Konsolidierung von KI-Codierungs-Tools
Viele Teams verwenden derzeit mehrere KI-Tools – eines für die Code-Vervollständigung, ein anderes für das Refactoring, ein weiteres für das Debugging, noch ein weiteres für die Code-Überprüfung. Die Benchmark-Leistung von Composer 2 deutet darauf hin, dass es all diese Aufgaben auf einem Spitzeniveau bewältigen kann.
Erwarten Sie, dass Teams sich auf weniger Tools konzentrieren werden. Der kognitive Overhead des Kontextwechsels zwischen verschiedenen KI-Assistenten summiert sich. Ein einziges Modell, das bei allen Aufgaben gut abschneidet, reduziert diese Reibung.
2. Kosten werden zu einem primären Entscheidungsfaktor
Mit 0,50 $ pro Million Input-Tokens liegt Composer 2 preislich unter den meisten Enterprise-KI-Codierungslösungen. Für Teams mit hohem Volumen – die täglich Millionen von Tokens generieren – könnte diese Preisgestaltung Entscheidungen von etablierten Anbietern wegbewegen.
Die schnelle Variante fügt eine weitere Dimension hinzu. Teams, die Antworten mit geringer Latenz benötigen (Pair Programming, Echtzeit-Code-Review), können für Geschwindigkeit mehr bezahlen. Teams, die Kosten über Latenz priorisieren, können die Standardvariante verwenden. Beide erhalten die gleiche zugrunde liegende Intelligenz.
3. Benchmark-Skepsis bleibt gesund
Die Benchmark-Methodologie von Cursor enthält ein wichtiges Detail: Sie nahmen „den höchsten Wert zwischen dem offiziellen Leaderboard-Score und dem in unserer Infrastruktur aufgezeichneten Score“ für Nicht-Composer-Modelle.
Dieser Ansatz hat eine vernünftige Begründung – Infrastrukturunterschiede können die Ergebnisse beeinflussen. Es bedeutet aber auch, dass die Vergleiche von Cursor nicht unabhängig validiert wurden. Teams sollten Composer 2 auf ihren tatsächlichen Codebasen testen, bevor sie unternehmensweite Entscheidungen treffen.
Benchmarks leiten Entscheidungen. Praxistests bestätigen sie.
Die Wettbewerbsreaktion, über die niemand spricht
Wenn ein Akteur den Markt verschiebt, reagieren andere. Die Ankündigung von Cursor setzt drei Gruppen unter Druck:
Anthropic baute seinen Ruf bei Entwicklern auf den Codierungsfähigkeiten von Claude auf. Dass Composer 2 Opus 4.6 bei Codierungs-Benchmarks schlägt, stellt diese Positionierung in Frage. Es ist zu erwarten, dass Anthropic entweder aktualisierte Benchmarks veröffentlicht oder eigene codierungsbezogene Verbesserungen ankündigt.
OpenAI wurde wegen der Codierungsleistung von GPT-5.4 im Vergleich zu seinen Vorgängern kritisiert. Die Fortschritte von Composer 2 erhöhen den Druck. OpenAI könnte die Entwicklung eigener Codierungsmodelle beschleunigen oder die Preise anpassen, um wettbewerbsfähig zu bleiben.
GitHub Copilot und andere in IDEs integrierte Tools stehen vor einer anderen Herausforderung. Cursor ist nicht nur ein Modell – es ist eine IDE mit einem eng integrierten KI-Assistenten. Die Kombination aus Modellleistung und IDE-Integration schafft einen Graben, den reine API-Anbieter nicht so leicht überwinden können.
Wo Apidog in die KI-Codierungsrevolution passt
KI-Codierungs-Tools wie Cursor sind hervorragend darin, Code zu generieren und zu modifizieren. Eine Funktion schreiben, ein Modul refaktorisieren, einen fehlgeschlagenen Test debuggen – Composer 2 bewältigt diese Aufgaben gut.

Doch die API-Entwicklung erfordert mehr als nur Code-Generierung. Sie verlangt Test-, Debugging-, Mocking- und Dokumentations-Workflows, die über das hinausgehen, was ein KI-Assistent bietet.
Apidog verwaltet den gesamten API-Lebenszyklus:
- API-Design: Visueller Designer mit OpenAPI-Unterstützung und Branch-basierter Versionierung. Entwerfen Sie Ihre API, bevor Sie Implementierungscode schreiben.
- Testen: Automatisierte Testszenarien mit visuellen Assertions und CI/CD-Integration. Fangen Sie Regressionen ab, bevor sie die Produktion erreichen.
- Debugging: Visuelle Debugging-Tools, die Anforderungs- und Antwortflüsse in Echtzeit anzeigen. Sehen Sie genau, was bei Ihren API-Aufrufen geschieht.
- Mocking: Intelligente Mock-Server mit dynamischen Antworten, kein Code erforderlich. Entsperren Sie die Frontend-Entwicklung, bevor das Backend bereit ist.
- Dokumentation: Automatisch generierte, anpassbare Dokumentation mit Unterstützung für benutzerdefinierte Domains. Halten Sie die Dokumentation mit dem tatsächlichen API-Verhalten synchron.
Teams, die Cursor für die Code-Generierung verwenden, können es mit Apidog für das API-Workflow-Management kombinieren. Die KI schreibt den Code. Apidog stellt sicher, dass die API wie beabsichtigt funktioniert, getestet bleibt und dokumentiert wird.
Das Fazit
Cursor Composer 2 stellt einen bedeutenden Fortschritt in den KI-Codierungsfähigkeiten dar. Die Benchmark-Verbesserungen sind beträchtlich. Die Preisgestaltung ist aggressiv. Die Auswirkungen auf Entwicklungsteams sind real.
Aber Benchmarks liefern keinen Code aus. Teams sollten Composer 2 auf ihren tatsächlichen Codebasen und mit ihren tatsächlichen Workflows testen, bevor sie Entscheidungen treffen. Das Modell, das auf dem Papier gewinnt, gewinnt nicht immer in der Praxis.
TL;DR
- Composer 2 erreicht 61,7 auf Terminal-Bench 2.0 und 73,7 auf SWE-bench Multilingual – und übertrifft damit sowohl Claude Opus 4.6 als auch GPT-5.4 in den Bewertungen von Cursor
- Der Preis beginnt bei 0,50 $ pro Million Input-Tokens – etwa ein Drittel der Kosten konkurrierender Frontier-Modelle
- Verbesserungen resultieren aus fortgesetztem Vortraining plus Reinforcement Learning bei Codierungsaufgaben mit langem Zeithorizont
- Schnelle Variante für 1,50 $ pro Million Input-Tokens verfügbar mit identischer Intelligenz, geringerer Latenz
- Unabhängige Validierung ist wichtig – testen Sie es auf Ihrer Codebasis vor der unternehmensweiten Einführung
- Apidog ergänzt KI-Codierungs-Tools durch die Verwaltung von API-Tests, Debugging, Mocking und Dokumentation
FAQ
Ist Composer 2 tatsächlich besser als Claude Opus 4.6 für die Codierung?
Die Benchmarks von Cursor zeigen, dass Composer 2 Opus 4.6 auf Terminal-Bench 2.0 und SWE-bench Multilingual übertrifft. Die Spanne: etwa 2-3 Punkte auf jedem Benchmark. Dies sind bedeutsame Unterschiede, aber nicht überwältigend.
Die reale Leistung hängt von Ihrem spezifischen Anwendungsfall ab. Code-Vervollständigung, Refactoring, Debugging und architektonische Entscheidungen testen alle unterschiedliche Fähigkeiten. Ein Modell, das bei Benchmarks gewinnt, muss nicht unbedingt auf Ihrer Codebasis gewinnen.
Testen Sie beide Tools bei Ihrer tatsächlichen Arbeit, bevor Sie Entscheidungen treffen.
Was ist der Unterschied zwischen den Standard- und schnellen Varianten von Composer 2?
Beide Varianten verfügen über identische Intelligenz und Benchmark-Werte. Die schnelle Variante tauscht höhere Kosten gegen geringere Latenz – mehr Tokens pro Sekunde, schnellere Antworten.
Cursor meldet Geschwindigkeitsmetriken basierend auf Traffic-Snapshots vom 18. März 2026, normalisiert, um Token-Größenunterschiede zwischen Anbietern zu berücksichtigen. Anthropic-Tokens sind etwa 15 Prozent kleiner, daher hat Cursor den Vergleich entsprechend angepasst.
Teams, die Echtzeit-Interaktion priorisieren (Pair Programming, Live-Code-Review), sollten die schnelle Variante in Betracht ziehen. Teams, die Kosten priorisieren, sollten Standard Composer 2 verwenden.
Wie vergleicht sich der Preis von Composer 2 mit dem der Konkurrenz?
Mit 0,50 $ pro Million Input-Tokens und 2,50 $ pro Million Output-Tokens unterbietet Composer 2 die meisten Enterprise-KI-Codierungslösungen.
Zum groben Vergleich:
- Anthropic Claude Opus 4.6: Ca. 1,50-3,00 $ pro Million Input-Tokens, 7,50-15,00 $ pro Million Output-Tokens (variiert je nach Stufe)
- OpenAI GPT-5.4: Ca. 1,00-2,00 $ pro Million Input-Tokens, 5,00-10,00 $ pro Million Output-Tokens (variiert je nach Stufe)
Teams mit hoher Nutzung sollten die Gesamtkosten basierend auf ihren spezifischen Token-Verbrauchsmustern berechnen. Input-intensive Workloads (Analyse großer Codebasen) profitieren stärker von der Input-Preisgestaltung von Composer 2. Output-intensive Workloads (Code-Generierung) profitieren sowohl von der Input- als auch von der Output-Preisgestaltung.
Sollte ich von meinem aktuellen KI-Codierungs-Tool wechseln?
Wenn Sie mit einem anderen Tool bereits produktiv sind, rechtfertigen Benchmark-Verbesserungen allein möglicherweise keinen Wechsel. Berücksichtigen Sie:
- Aktuelle Workflow-Integration: Wie tief ist Ihr bestehendes Tool in Ihren Workflow eingebettet?
- Teamvertrautheit: Wie viel institutionelles Wissen hat Ihr Team um Ihr aktuelles Tool aufgebaut?
- Spezifische Leistungslücken: Gibt es Aufgaben, bei denen Ihr aktuelles Tool durchweg unzureichend ist?
- Gesamtkosten bei Ihrem Nutzungsvolumen: Was ist der tatsächliche monatliche Ausgabenunterschied?
Testen Sie Composer 2 eine Woche lang auf Ihrer tatsächlichen Codebasis. Vergleichen Sie es direkt mit Ihrem aktuellen Tool bei Aufgaben, die Sie täglich erledigen. Lassen Sie die reale Leistung die Entscheidung bestimmen.
Kann ich Cursor und Apidog zusammen verwenden?
Ja. Cursor übernimmt die KI-gestützte Code-Generierung und -Modifikation. Apidog verwaltet den API-Entwicklungslebenszyklus – Design, Testen, Debugging, Mocking und Dokumentation.
Typischer Workflow:
- Verwenden Sie Cursor, um API-Endpunktcode zu generieren
- Importieren Sie die API-Definition in Apidog
- Verwenden Sie Apidog, um Testszenarien zu entwerfen und automatisierte Tests durchzuführen
- Beheben Sie Probleme mit den visuellen Debugging-Tools von Apidog
- Generieren und veröffentlichen Sie Dokumentation aus Apidog
Teams verwenden oft KI-Tools für die Code-Erstellung und verlassen sich dann auf Apidog, um die resultierenden APIs zu validieren, zu testen und zu dokumentieren.
Wo ist der Haken? Warum ist Composer 2 so viel günstiger?
Kein offensichtlicher Haken. Cursor scheint eine Strategie der Markteroberung zu verfolgen: Marktanteile durch aggressive Preisgestaltung gewinnen, solange ihr technischer Vorsprung besteht.
Diese Strategie ist aus mehreren Gründen sinnvoll:
- Vertikale Integration: Cursor kontrolliert sowohl die IDE als auch das Modell, wodurch die Abhängigkeit von APIs Dritter reduziert wird
- Nutzungsdaten: Mehr Nutzer bedeuten mehr Daten zur Verbesserung zukünftiger Modelle
- Lock-in-Potenzial: Teams, die Workflows um Cursor herum aufbauen, werden seltener wechseln, wenn Konkurrenten reagieren
Die Preisgestaltung wird nicht ewig halten. Wettbewerber werden reagieren. Aber vorerst können Early Adopter erhebliche Kosteneinsparungen erzielen.
Wie überprüfe ich die Benchmark-Behauptungen von Cursor unabhängig?
Terminal-Bench 2.0 führt ein öffentliches Leaderboard auf seiner offiziellen Website. Sie können die von Cursor gemeldeten Ergebnisse mit denen anderer Modelle vergleichen.
Für eine unabhängige Validierung:
- Überprüfen Sie das Terminal-Bench 2.0 Leaderboard für offizielle Ergebnisse
- Lesen Sie die Methodik-Dokumentation des Laude Institute
- Testen Sie Composer 2 auf Ihrer eigenen Codebasis mit Ihren eigenen Bewertungskriterien
Benchmarks leiten Entscheidungen. Praxistests bestätigen sie.
