Claude Sonnet 5 Benchmarks: Was die Zahlen wirklich aussagen

Claude Sonnet 5 wurde am 30. Juni 2026 veröffentlicht, und die zentrale Behauptung von Anthropic ist kühn: Agentenleistung nahe Opus 4.8 zu einem deutlich niedrigeren Preis. Dieser Artikel beleuchtet die zum Start gemeldeten Benchmark-Ergebnisse, erklärt, was das Muster tatsächlich bedeutet, und zeigt, wo die Zahlen aufhören, nützlich zu sein. Wenn Sie zuerst den vollständigen Modellüberblick wünschen, beginnen Sie mit dem Claude Sonnet 5 Pillar Guide. Die Rohdaten direkt von der Quelle hat Anthropic auf der offiziellen Ankündigungsseite veröffentlicht.

Hier ist die Kurzversion. Bei Aufgaben, bei denen das Modell Tools verwendet, liegt Sonnet 5 nur wenige Punkte hinter Opus 4.8. Bei reinem Denken ohne Unterstützung vergrößert sich der Abstand auf etwa sechs Punkte. Dieses einzelne Muster erklärt die meisten Kaufentscheidungen, und es ist der rote Faden, dem wir unten folgen.

Alle Zahlen in diesem Artikel sind die von Anthropic zum Start veröffentlichten Benchmarks, die durch mehrere Berichte zum Veröffentlichungstag bestätigt wurden. Betrachten Sie sie als gemeldete Zahlen, nicht als unsere eigenen unabhängigen Tests.

Die Benchmark-Tabelle

Drei Benchmarks erzählen die Geschichte. Hier sind die gemeldeten Ergebnisse für Sonnet 5, seinen Vorgänger Sonnet 4.6 und das Flaggschiff Opus 4.8.

Benchmark	Was es misst	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Agentisches Codieren in realen Repositories	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Aufgabenerledigung über die Kommandozeile	80.4%	nicht gemeldet	82.7%
OSWorld-Verified	Computernutzung, GUI-Aufgaben	81.2%	78.5%	83.4%

Einige Dinge fallen auf.

Sonnet 5 übertrifft Sonnet 4.6 in jedem Benchmark, bei dem beide gemeldet wurden. Der Sprung bei SWE-bench Pro von 58,1% auf 63,2% beträgt über fünf Punkte, was ein echter Generationsgewinn für agentisches Codieren ist. OSWorld-Verified verbessert sich von 78,5% auf 81,2%.

Gegenüber Opus 4.8 liegt Sonnet 5 bei SWE-bench Pro um 6,0 Punkte, bei Terminal-Bench 2.1 um 2,3 Punkte und bei OSWorld-Verified um 2,2 Punkte zurück. Der Unterschied ist am geringsten bei den beiden Aufgaben, die am stärksten auf Tools und das Terminal angewiesen sind.

Das entscheidende Muster

Lesen Sie die Tabelle noch einmal mit einer Frage im Hinterkopf: Wie stark kann das Modell Tools verwenden, um das Problem zu lösen?

Bei Terminal-Bench 2.1 und OSWorld-Verified führt das Modell Befehle aus, liest die Ausgabe und passt sich an. Es erhält bei jedem Schritt Feedback aus der Umgebung. Sonnet 5 liegt bei beiden etwa ein bis drei Punkte hinter Opus 4.8.

SWE-bench Pro ist ebenfalls agentisch, betont jedoch tiefere Überlegungen zu großen Codebasen, und dort weitet sich der Abstand auf sechs Punkte aus. Wenn die Aufgabe rohes Denken gegenüber Tool-Schleifen belohnt, zieht Opus davon.

Die eigene Darstellung von Anthropic stützt dies. Sie nennen Sonnet 5 das bisher agentischste Sonnet-Modell und positionieren es bei agentischen und Tool-Nutzungsaufgaben nahe an Opus 4.8, während Opus seine Führung bei reinem Denken behält. Die Benchmarks stimmen hier mit dem Marketing überein, was nicht immer der Fall ist.

Die praktische Schlussfolgerung ist also einfach. Wenn Ihre Arbeitslast Tools einbezieht, Agenten, Code-Assistenten, Computernutzung, bietet Ihnen Sonnet 5 die meisten Funktionen von Opus 4.8. Wenn Ihre Arbeitslast ein einzelner, schwieriger Denkprozess ohne Tools zur Kurskorrektur ist, verdient Opus seinen Premium-Preis. Einen vollständigen Vergleich einschließlich Preis und Kontext finden Sie unter Claude Sonnet 5 vs. Opus 4.8.

Der Preis verändert die Lesart dieser Ergebnisse

Benchmarks isoliert betrachtet schmeicheln dem teuersten Modell. Fügt man den Preis hinzu, verschiebt sich das Bild.

Sonnet 5 wird zu Einführungspreisen von 2 $ pro Million Input-Tokens und 10 $ pro Million Output-Tokens bis zum 31. August 2026 angeboten, danach steigen die Preise auf die Standardpreise von 3 $ / 15 $. Opus 4.8 kostet 5 $ / 25 $. Zu Standardtarifen kostet Sonnet 5 also 60% des Opus-Inputs und 60% des Opus-Outputs, und während des Einführungszeitraums sogar noch weniger.

Bewerten Sie die Tabelle nun neu. Eine Lücke von 2,3 Punkten bei Terminal-Bench 2.1 ist viel kostengünstiger durch die Wahl von Opus zu schließen als eine Lücke von 6 Punkten. Bei agentischen und tool-intensiven Arbeiten lohnt es sich oft nicht, den Opus-Premium zu zahlen, um zwei oder drei Punkte aufzuholen. Das ist das gesamte Wertargument für Sonnet 5, und die Benchmarks machen es glaubwürdig.

Ein Haken, den reine Punktzahlen verbergen: Sonnet 5 verwendet einen neuen Tokenizer, der für denselben Eingabetext etwa 30% mehr Tokens erzeugt. Der Preis pro Token bleibt gegenüber Sonnet 4.6 unverändert, aber die Kosten für eine äquivalente Anfrage können steigen, da mehr Tokens abgerechnet werden. Die Benchmark-Genauigkeit sagt darüber nichts aus. Modellieren Sie Ihre tatsächlichen Kosten mit Token-Zählung, anstatt von einer pauschalen Parität auszugehen. Die vollständige Aufschlüsselung finden Sie im Claude Sonnet 5 Preisleitfaden.

Was Benchmarks übersehen

Öffentliche Benchmarks sind nützlich, um Modelle zu rangieren. Sie sind jedoch schwach darin, vorherzusagen, wie sich ein Modell bei Ihrer spezifischen Arbeit verhält. Drei Lücken stechen hervor.

Ihre Arbeitslast ist nicht SWE-bench. Wenn Sie TypeScript gegen eine private API mit internen Konventionen schreiben, ist ein Repository-Lösungs-Benchmark für öffentliche Python-Projekte bestenfalls ein grober Ersatz. Das relative Ranking bleibt tendenziell bestehen, aber die absolute Zahl wird nicht dem entsprechen, was Sie sehen.

Kosten pro gelöster Aufgabe schlagen die reine Genauigkeit. Ein Modell, das zwei Punkte weniger erzielt, aber 40% weniger kostet, kann mehr Aufgaben für dasselbe Budget lösen. Wenn Sie Agenten in großem Umfang einsetzen, ist die Kosten-pro-Erfolg-Metrik diejenige, die die Rechnungen bezahlt, und kein Leaderboard berichtet dies für Ihre Prompts.

Latenz und Durchsatz werden nicht berücksichtigt. Benchmarks messen, ob die Antwort richtig ist, nicht wie schnell sie ankommt oder wie sich das Modell unter adaptivem Denken verhält, das in Sonnet 5 standardmäßig aktiviert ist. Bei interaktiven Tools kann eine langsamere korrekte Antwort einer schnelleren, ausreichend guten unterliegen.

Die ehrliche Schlussfolgerung ist, diese Ergebnisse als einen Startfilter zu behandeln und dann Ihre eigene Bewertung durchzuführen. Benchmarking für Aufgaben, die Ihnen wirklich wichtig sind, ist der einzige Test, der Ihre Ergebnisse widerspiegelt.

Sicherheit, kurz gesagt

Benchmark-Tabellen enthalten selten Sicherheitsaspekte, aber diese sind Teil dessen, wie diese Zahlen gelesen werden sollten.

Anthropic berichtet, dass Sonnet 5 eine geringere Gesamtrate unerwünschter Verhaltensweisen als Sonnet 4.6 aufweist, mit weniger Halluzinationen und weniger Kriecherei. Es ist das erste Modell der Sonnet-Klasse mit Echtzeit-Cybersicherheitsvorkehrungen. Anfragen, die verbotene oder risikoreiche Cyber-Themen betreffen, können abgelehnt werden, und eine Ablehnung wird als erfolgreiche HTTP 200-Antwort mit stop_reason: "refusal" zurückgegeben, nicht als Fehler, also planen Sie für diesen Fall.

Seien Sie auch ehrlich zu den Einschränkungen. Bei Anthropics automatisiertem Verhaltensaudit zeigte Sonnet 5 höhere Raten an fehlausgerichtetem Verhalten als Opus 4.8. Bei Cyber-Fähigkeiten liegt es unter den Opus-Modellen, und keines der Sonnet-Modelle konnte überhaupt einen funktionierenden Exploit entwickeln, gemeldet als 0,0%. Eine geringere Fähigkeit hier ist ein Feature, kein Mangel. Die vollständigen Details finden Sie im Transparenz-Hub von Anthropic.

Reproduzieren Sie die Zahlen mit Ihren eigenen Aufgaben

Der wertvollste Benchmark ist der, der mit Ihren eigenen Prompts durchgeführt wird. Um dies zuverlässig zu tun, müssen Sie die Sonnet 5 API jedes Mal auf die gleiche Weise aufrufen, die Anfragen speichern und die Antworten über mehrere Durchläufe hinweg vergleichen.

Das ist eine Aufgabe für einen API-Client. Apidog ermöglicht es Ihnen, eine Anfrage an die Anthropic Messages API zu erstellen, diese in einer wiederverwendbaren Sammlung zu speichern, Ihren API-Schlüssel als Umgebungsvariable zu hinterlegen und denselben Aufruf wiederholt mit Zusicherungen (Assertions) auf die Antwort auszuführen. Wenn Sie Sonnet 5 mit Opus 4.8 oder Sonnet 4.6 mit Ihren eigenen Eingaben vergleichen möchten, ändern Sie eine Variable, die Modell-ID, und führen die Sammlung erneut aus.

Hier ist die Form der Anfrage, die Sie speichern würden. Die Modell-ID ist die exakte Zeichenfolge claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Um einen Benchmark-Prompt zwischen Modellen A/B zu testen, halten Sie den Body identisch und tauschen Sie "model" zwischen claude-sonnet-5, claude-opus-4-8 und claude-sonnet-4-6 aus. In Apidog würden Sie das Modell als Umgebungsvariable speichern, sodass eine einzige Bearbeitung jede Anfrage im Durchlauf umschaltet. Fügen Sie eine Testzusicherung hinzu, um stop_reason und die Antwortlänge zu überprüfen, und führen Sie dann die Sammlung in CI aus, damit Ihre Bewertung wiederholbar ist. Wenn Sie API-Tests noch nie auf diese Weise eingerichtet haben, führt der Leitfaden zum Testen ohne Postman durch den Workflow.

Ein Hinweis zur Migration beim Skripten von Vergleichen: Sonnet 5 akzeptiert keine nicht-standardmäßigen Parameter wie temperature, top_p oder top_k, und es lehnt das alte Feld thinking: {type: "enabled", budget_tokens: N} ab. Beide geben einen 400-Fehler zurück. Entfernen Sie diese Parameter, bevor Sie Benchmarks durchführen, da Ihr Lauf sonst fehlschlägt, bevor er überhaupt etwas misst.

Laden Sie Apidog herunter, um die Anfrage einmal zu erstellen und sie für jedes Modell, das Sie bewerten möchten, wiederzuverwenden.

FAQ

Wie hoch ist der SWE-bench Pro Score von Claude Sonnet 5? Die Startzahlen von Anthropic weisen 63,2% für Sonnet 5 aus, verglichen mit 58,1% für Sonnet 4.6 und 69,2% für Opus 4.8. Dies ist ein Generationsgewinn von fünf Punkten beim agentischen Codieren und liegt etwa sechs Punkte hinter dem Flaggschiff.

Ist Sonnet 5 besser als Opus 4.8? Nicht bei den Rohwerten. Opus 4.8 führt jeden gemeldeten Benchmark an. Aber Sonnet 5 liegt bei tool-intensiven Aufgaben innerhalb von ein bis drei Punkten zum Preis von 60%, was es zum besseren Wert für Agenten und Codierungsschleifen macht. Der vollständige Vergleich findet sich in Claude Sonnet 5 vs. Opus 4.8.

Stammen diese Benchmark-Zahlen aus unabhängigen Tests? Nein. Es handelt sich um Anthropics eigene Launch-Benchmarks, die durch mehrere Berichte zum Veröffentlichungstag bestätigt wurden. Behandeln Sie sie als gemeldete Zahlen und validieren Sie sie mit Ihrer eigenen Arbeitslast, bevor Sie sich festlegen.

Warum schneidet Sonnet 5 bei Tool-Aufgaben relativ besser ab als bei Denkaufgaben? Wenn das Modell Befehle ausführen und die Ergebnisse lesen kann, korrigiert es seine eigenen Fehler Schritt für Schritt. Dieses Feedback verringert den Abstand zu Opus. Bei einem einzelnen Denkprozess ohne Tools gibt es nichts, woran man sich korrigieren könnte, sodass Opus' tieferes Denkvermögen als größerer Vorsprung zum Ausdruck kommt.

Wie benchmarke ich Sonnet 5 mit meinen eigenen Prompts? Rufen Sie die Anthropic Messages API mit der Modell-ID claude-sonnet-5 auf, speichern Sie die Anfrage in einem Tool wie Apidog, fügen Sie Zusicherungen hinzu und führen Sie sie für verschiedene Modelle erneut aus, indem Sie die Modell-ID tauschen. Dies liefert Ihnen Kosten pro Aufgabe und Latenz, was öffentliche Leaderboards niemals berichten.