Claude Fable 5 Benchmarks: Was die Zahlen sagen

Als Anthropic Claude Fable 5 am 9. Juni 2026 auf den Markt brachte, bezeichnete es das Modell bei nahezu jedem getesteten Benchmark als hochmodern. Wenn Sie hierher gekommen sind, um saubere Claude Fable 5 Benchmarks mit harten Zahlen neben jeder Bewertung zu finden, gibt es gleich zu Beginn einen ehrlichen Vorbehalt: Anthropics Ankündigung berichtete eher über Benchmark-Platzierungen (wo Fable 5 im Vergleich zu anderen Frontier-Modellen rangiert) als über vollständige numerische Anzeigetafeln in seinem Text, und mehrere der Schlagzeilen-Diagramme wurden als Bilder anstatt als kopierbare Tabellen geliefert. Daher konzentriert sich diese Zusammenfassung darauf, was die Platzierungen tatsächlich bedeuten, wo Fable 5 steht und wie Sie Ihre eigene schnelle Bewertung durchführen können, wenn Sie Zahlen wünschen, die Sie selbst kontrollieren können. Für einen breiteren Vergleich der aktuellen Frontier ist unser Überblick über Opus 4.8 im Vergleich zu GPT-5.5 und Gemini 3.5 ein nützlicher Begleiter.

Fable 5 wird zum Preis von 10 US-Dollar pro Million Eingabetoken und 50 US-Dollar pro Million Ausgabetoken unter der Modell-ID claude-fable-5 ausgeliefert. Es liegt sowohl in Bezug auf Leistungsfähigkeit als auch auf den Preis eine Stufe über Opus 4.8, und Anthropic positioniert es als das stärkste öffentlich verfügbare Claude für Softwareentwicklung, Wissensarbeit, Bildverarbeitung und wissenschaftliche Forschung.

TL;DR

Claude Fable 5 rangiert bei FrontierCode und FrontierBench (beide von Cognition) unter den Frontier-Modellen an erster Stelle, ist bei CursorBench hochmodern und erzielt die höchste Punktzahl beim Finanz-Benchmark von Hebbia. Es zeigt eine klare Stärke bei langfristiger, autonomer Arbeit. Anthropic berichtete diese Ergebnisse als Platzierungen, daher sind exakte öffentliche Punktzahlen begrenzt. Betrachten Sie die Ranglisten als richtungsweisend, nicht als endgültig.

Das Hauptergebnis

Der einzelne Satz, der jede Claude Fable 5 Benchmark-Diskussion einleitet: Anthropic beschreibt das Modell bei nahezu allen von ihm durchgeführten Benchmarks als hochmodern, einschließlich Softwareentwicklung, Wissensarbeit, Bildverarbeitung und wissenschaftlicher Forschung. Es ist eine weitreichende Behauptung, und weitreichende Behauptungen verdienen eine sorgfältige Lektüre.

„Hochmodern bei nahezu allen Benchmarks“ bedeutet, dass Fable 5 entweder die Rangliste anführt oder bei den meisten von Anthropic berichteten Bewertungen zur Spitzengruppe gehört. Es bedeutet nicht, dass Fable 5 jeden Test mit großem Vorsprung gewinnt, und es bedeutet nicht, dass unabhängige Labore jedes Ergebnis reproduziert haben. Was es signalisiert, ist Konsistenz: Ein Modell, das beim Codieren erstklassig ist, aber beim Dokumenten-Reasoning mittelmäßig, würde diese Formulierung nicht verdienen. Fable 5 scheint in Kategorien, die sich normalerweise gegenseitig ausgleichen, den Spitzenplatz zu behaupten.

Diese Breite ist wichtiger als jedes einzelne Diagramm. Viele Modelle erzielen bei einem bevorzugten Benchmark Spitzenwerte und fallen anderswo ab. Ein Modell, das beim Codieren, Finanzwesen, in der Bildverarbeitung und in der Wissenschaft stets nahe an der Spitze bleibt, ist schwerer zu „überlisten“, da man nicht gleichzeitig vier unabhängige Fähigkeiten optimieren kann, ohne eine echte dahinterliegende Leistungsfähigkeit zu besitzen. Wenn Sie entscheiden, ob Fable 5 den Sprung von einer günstigeren Stufe wert ist, ist die Breite der Platzierungen der zu berücksichtigende Faktor. Eine vollständige Einführung in das Modell selbst finden Sie unter Was ist Claude Fable 5.

Ein zweites Thema zieht sich durch die Ergebnisse: Langfristige Arbeit. Anthropic sagt, dass Fable 5 „über Millionen von Tokens bei langwierigen Aufgaben konzentriert bleibt“ und länger autonom arbeitet als jeder frühere Claude. Mehrere der unten genannten Platzierungen sind keine Single-Shot-Genauigkeitstests. Sie belohnen ein Modell, das einen Plan über Tausende von Schritten hinweg zusammenhalten kann, ohne abzuschweifen. Dort ist der gemeldete Vorsprung von Fable 5 am größten, und es ist auch die Fähigkeit, die am schwierigsten in einer einzigen Zahl zu erfassen ist.

Coding-Benchmarks: FrontierCode und CursorBench

Beim Codieren ist die Benchmark-Geschichte von Fable 5 am stärksten und konkretsten.

Bei FrontierCode, einer Coding-Evaluierung von Cognition (dem Team hinter dem Devin Coding Agent), berichtet Anthropic, dass Fable 5 das höchstbewertete Frontier-Modell ist und diesen Vorsprung sogar bei mittlerem Aufwand hält. Der Zusatz „Aufwand“ ist es wert, genauer betrachtet zu werden. Viele Frontier-Modelle können zu höherer Genauigkeit gebracht werden, indem mehr Inferenzrechenleistung (mehr Reasoning-Tokens, mehr Versuche, höhere Aufwandseinstellungen) eingesetzt wird. Ein Modell, das bereits bei mittlerem Aufwand führt, erreicht die Spitze ohne die teuerste Konfiguration, ein besseres Signal für den täglichen Gebrauch als eine Zahl, die nur bei maximalem Aufwand erscheint.

Bei CursorBench beschreibt Anthropic Fable 5 als hochmodern und fasst das Ergebnis eher im Hinblick auf den Umfang als auf eine einzelne Genauigkeitszahl zusammen. Die Formulierung aus der Ankündigung besagt, dass Fable 5 „eine Klasse von Long-Horizon-Problemen erschlossen hat, die zuvor unerreichbar waren“. CursorBench tendiert zu der Arbeit mit mehreren Dateien und mehreren Schritten, die reale Codebasen erfordern. Daher spricht eine hochmoderne Platzierung hier eher für agentische Codierung als für isoliertes Funktionsschreiben.

Beide Ergebnisse weisen in dieselbe Richtung: Fable 5 ist für nachhaltige Softwareentwicklung konzipiert, nicht für die Vervollständigung von Code-Snippets. Wenn Sie Ihren Tag in einem Coding-Agenten verbringen, der plant, Dateien übergreifend bearbeitet, Tests durchführt und iteriert, sind dies die Benchmarks, die Ihrem Workflow entsprechen. Ein Modell, das FrontierCode bei mittlerem Aufwand anführt und CursorBench in neues Terrain vorstößt, sollte auch bei langen Agenten-Sitzungen bestehen, anstatt nach wenigen Durchgängen zu ermüden.

Wissen und Finanzen: Finanz-Benchmark (Hebbia)

Außerhalb des Codes stammt das klarste Ergebnis der Wissensarbeit aus dem Finanz-Benchmark, der von Hebbia entwickelt wurde, einem Unternehmen, das sich auf KI für dokumentenlastige Finanz- und Rechtsarbeit konzentriert.

Anthropic berichtet, dass Fable 5 die höchste Punktzahl aller Modelle bei diesem Benchmark erzielt, wobei die Fortschritte in drei Bereichen konzentriert sind: Dokumenten-Reasoning, Diagramme und Tabellen. Diese Kombination ist aufschlussreich. Finanzanalysen sind selten eine Wissensfrage. Es geht darum, eine lange Einreichung zu lesen, eine Zahl über mehrere Seiten hinweg zu verfolgen, ein Diagramm mit dem Text abzugleichen, der es beschreibt, und die richtige Zelle aus einer dichten Tabelle zu entnehmen, ohne die Spalte falsch zu interpretieren. Das sind genau die Fähigkeiten, die der Finanz-Benchmark betont, und die Modelle scheitern, die zwar gut in Prosa, aber schwach bei strukturierten Daten sind.

Auch der Vision-Aspekt spielt hier eine Rolle. Diagramme und Tabellen sind oft Bilder oder gemischte Layouts, daher ist ein hoher Finanz-Benchmark-Score teilweise ein Vision-Ergebnis. Dies stimmt mit Anthropics allgemeinerer Behauptung überein, dass Fable 5 in der Bildverarbeitung stark ist, und deutet darauf hin, dass das Modell mit den unübersichtlichen, realen Dokumenten umgehen kann, mit denen Wissensarbeiter zu tun haben, anstatt nur mit sauberen Text-Eingaben.

Für Entwickler bedeutet dies, dass Fable 5 ein Kandidat für Dokumentenextraktions-Pipelines, Finanzanalysetools und jeden Workflow ist, bei dem die Eingabe ein PDF voller Zahlen und nicht eine übersichtliche JSON-Nutzlast ist. Wenn Ihr Produkt Verträge, Abrechnungen oder Berichte liest und die Zahlen korrekt sein müssen, ist dies die Platzierung, die Sie beachten sollten. Validieren Sie dies an Ihren eigenen Dokumenten, bevor Sie einem Benchmark vertrauen, um Ihre Ergebnisse vorherzusagen.

Langfristiges Reasoning: FrontierBench (Cognition)

Die zweite Cognition-Evaluierung, FrontierBench, ist der Punkt, an dem sich die Autonomiegeschichte in eine Benchmark-Platzierung verwandelt. Anthropic berichtet, dass Fable 5 das höchstbewertete Modell bei FrontierBench ist und nennt als Grund das langfristige Reasoning.

Langfristiges Reasoning ist die Fähigkeit, ein Ziel und einen Plan über eine lange Aufgabe hinweg kohärent zu halten: viele Schritte, viele Tokens, viele Gelegenheiten, den Faden zu verlieren. Die meisten Benchmarks belohnen eine korrekte Antwort auf eine eingegrenzte Frage. FrontierBench belohnt, nach Anthropics Darstellung, ein Modell, das bei der Aufgabe bleiben kann, während sich das Kontextfenster mit eigener Zwischenarbeit füllt. Das ist ein anderer „Muskel“, und derjenige, auf den Anthropic immer wieder mit Formulierungen wie „bleibt über Millionen von Tokens konzentriert“ verweist.

Dies ist auch die Platzierung, die von außen am schwierigsten zu verifizieren ist, eben weil sie schwer zu messen ist. Eine Langzeitbewertung muss definieren, was „auf Kurs bleiben“ bedeutet, wie Teilerfolge bewertet werden und wie ein Modell daran gehindert wird, die Metrik durch Verzögerungen zu manipulieren. Betrachten Sie die FrontierBench-Platzierung daher als starkes Richtungssignal, dass Fable 5 für autonome, langlaufende Agenten konzipiert ist, und bedenken Sie gleichzeitig, dass die Bewertung langer Zeiträume ein sich entwickelnder Bereich ist, in dem die Methodik zwischen den Laboren noch variiert. Zusammen mit CursorBench ist die Geschichte konsistent: Der Vorteil von Fable 5 liegt weniger darin, eine schwierige Frage zu beantworten, als vielmehr darin, über eine lange Aufgabe hinweg nicht zu versagen.

Praktische Leistung jenseits von Benchmarks

Benchmarks sind ein Proxy. Die beiden Ergebnisse, die Anthropic aus realen Implementierungen hervorhob, sind wohl aussagekräftiger als jede Rangliste, da sie zeigen, wie das Modell eine Aufgabe erledigt, anstatt einen Test zu bestehen.

Die erste ist eine Stripe-Codebasen-Migration. Anthropic berichtet, dass Fable 5 eine 50 Millionen Zeilen umfassende Ruby-Codebasis für Stripe an einem einzigen Tag migriert hat, eine Arbeit, die das Team auf zwei Monate oder mehr geschätzt hätte. Lesen Sie das sorgfältig. Eine 50 Millionen Zeilen umfassende Migration ist kein Coding-Rätsel. Es ist eine ausufernde, repetitive, kontextintensive Plackerei über Tausende von Dateien, bei der kleine Inkonsistenzen zu fehlerhaften Builds führen. Das Signal ist nicht, dass Fable 5 clever ist; es ist, dass es korrekte, konsistente Bearbeitungen in enormem Umfang ohne Abweichung aufrechterhalten kann, die Langzeitfähigkeit, auf die die Benchmarks hinweisen, gezeigt an einem echten Produktionssystem.

Der zweite ist ein Slay the Spire-Test. Slay the Spire ist ein Deck-Building-Roguelike, und Anthropic nutzte es, um das Gedächtnis anstatt des Codierens zu untersuchen. Mit aktivierter persistenter Dateispeicherfunktion zeigte Fable 5 eine 3-fache Verbesserung gegenüber Opus 4.8 im Spiel. Der Mechanismus ist der interessante Teil: Der Gewinn entstand dadurch, dass das Modell Notizen in Dateien schreiben und diese über mehrere Durchläufe hinweg wieder lesen konnte, wodurch es Strategien ansammelte, wie es ein menschlicher Spieler tun würde. Es weist auf ein Modell hin, das sich erheblich verbessert, wenn man ihm einen dauerhaften Speicher gibt, anstatt jede Sitzung von Grund auf neu zu beginnen.

Was sagen Ihnen diese Ergebnisse, was Benchmarks nicht tun? Zwei Dinge. Erstens, Skalierungsdauerhaftigkeit: Eine Benchmark-Frage ist absichtlich klein, und das Stripe-Ergebnis zeigt Verhalten in einem Umfang, den keine Standardbewertung erreicht. Zweitens, Speicher- und Werkzeugnutzung als Multiplikatoren. Das Slay the Spire-Ergebnis geht nicht um die reine Modell-Intelligenz, sondern darum, wie sich das Modell verbessert, wenn es in eine Umgebung mit persistentem Zustand eingebettet ist. Beides sind Eigenschaften, die man nur sieht, wenn ein Modell in einem realen System eingebettet ist, weshalb sie auch schwieriger zwischen Anbietern zu vergleichen sind. Wenn Sie Fable 5 für einen Agenten bewerten, der stundenlang läuft und eigene Notizen führt, sind diese Signale wichtiger als ein einziger Genauigkeitsprozentsatz.

Wie man diese Ergebnisse liest

Eine Benchmark-Zusammenfassung, die nur Beifall klatscht, ist nicht nützlich. Hier sind die Vorbehalte, die neben den Platzierungen zu beachten sind.

Die Benchmark-Besitzer sind Partner. FrontierCode und FrontierBench stammen von Cognition, und der Finanz-Benchmark stammt von Hebbia. Dies sind glaubwürdige Organisationen, die seriöse Bewertungen erstellen, und ihre Beteiligung ist ein Pluspunkt, keine rote Flagge. Aber sie sind auch Partner in der Start-Narrative, und ein Benchmark, der von einer Partei entworfen wurde, neigt dazu, die Fähigkeiten zu belohnen, die dieser Partei wichtig sind. Das macht die Ergebnisse nicht falsch; es bedeutet, dass Sie eine unabhängige Reproduktion wünschen sollten, bevor Sie sie als endgültig betrachten. Vergleichen Sie mit neutralen Vergleichen wie unserem Blick auf MiniMax M3 versus Opus 4.7 versus GPT-5.5, um zu sehen, wie sich Anthropics Modelle im Vergleich zu anderen Darstellungen behaupten.
„Aufwand“-Einstellungen verändern das Bild. Das FrontierCode-Ergebnis wurde bei mittlerem Aufwand gemel, was ermutigend ist. Aber der Aufwand ist eine echte Variable bei diesen Bewertungen. Zwei Modelle, die bei unterschiedlichen Aufwandsstufen verglichen werden, werden nicht fair verglichen, und eine Zahl, die ohne ihre Aufwandseinstellung zitiert wird, ist unvollständig. Wenn Sie online eine Fable 5-Punktzahl sehen, überprüfen Sie, welcher Aufwand und wie viele Versuche sie erzeugt haben, bevor Sie sie mit etwas anderem vergleichen.
Öffentliche Punktzahlen sind begrenzt. Anthropics Ankündigung stützte sich auf Platzierungen, und die detaillierten Diagramme wurden als Bilder geliefert, weshalb dieser Artikel bei den spezifischen Bewertungen qualitativ bleibt. Sekundäre Quellen haben die Lücke mit Zahlen gefüllt, aber diese Zahlen variieren und sind nicht alle auf eine Primärquelle zurückführbar, daher sollten sie noch keine Kaufentscheidung beeinflussen. Wenn Cognition und Hebbia ihre eigenen Ranglisten veröffentlichen, bevorzugen Sie diese.
Platzierung ist nicht Marge. „Höchstbewertet“ gibt Ihnen den Rang an, nicht den Abstand. Ein Modell kann mit einem Punkt oder mit zwanzig Punkten Vorsprung führen, und die beiden bedeuten unterschiedliche Dinge, ob das Upgrade die Preisgestaltung von 10/50 US-Dollar wert ist. Ohne die zugrunde liegenden Punktzahlen behandeln Sie den Vorsprung als real, aber unquantifiziert.

Nichts davon ist ein Grund, die Ergebnisse abzutun. Fable 5, das in den Bereichen Codierung, Finanzen, Bildverarbeitung und langfristiges Reasoning sowie bei den Stripe- und Slay the Spire-Implementierungen führend ist, zeichnet ein starkes und kohärentes Bild. Es ist ein Grund, Ihre eigene Arbeitslast zu überprüfen, bevor Sie sich festlegen, was bei jedem neuen Modell, unabhängig von seinem Hersteller, der richtige Schritt ist. Die Modellübersicht ist der Ort, um aktuelle IDs, Preise und Kontextgrenzen zu bestätigen, bevor Sie etwas einrichten.

Führen Sie Ihren eigenen Benchmark mit Apidog durch

Der zuverlässigste Benchmark ist derjenige, der Ihre Prompts und Ihre Definition von „gut“ verwendet. Sie benötigen keine Forschungsanlage, um eine nützliche Einschätzung zu erhalten. Erstellen Sie eine leichte DIY-Evaluierung, indem Sie einen festen Test-Prompt an die Fable 5 API senden und die Antwort mit Opus 4.8 anhand von drei Achsen vergleichen, die Sie direkt messen können: Ausgabequalität, Latenz und Token-Kosten.

Hier ist eine einfache Möglichkeit, dies mit Apidog zu tun, einer API-Plattform zum Entwerfen, Testen und Dokumentieren von Anfragen. Die Idee ist, eine Anfrage in Apidog zu erstellen, sie auf jedes Modell zu richten und die Antwort, das Timing und die Token-Nutzung nebeneinander zu lesen.

Richten Sie eine POST-Anfrage an den Claude-Nachrichten-Endpunkt ein und speichern Sie sie als wiederverwendbare Anfrage in Apidog, damit Sie sie erneut ausführen können, ohne etwas neu einzugeben.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Geben Sie ihm einen Body mit einer festen Aufgabe. Wählen Sie einen Prompt, der Ihrer tatsächlichen Arbeit ähnelt, nicht einem Spielzeug. Eine Anweisung im Migrationsstil ist ein guter Stresstest für ein Codierungsmodell:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Führen Sie es einmal gegen claude-fable-5 aus. Duplizieren Sie dann die Anfrage, ändern Sie das Feld model in claude-opus-4-8 und führen Sie denselben Prompt aus. Da die Eingabe identisch ist, ist jeder Unterschied in der Ausgabe das Modell, nicht der Prompt.

Lesen Sie nun die drei Signale, die Apidog für jeden Aufruf anzeigt:

Qualität. Überprüfen Sie beide Antworten anhand Ihrer eigenen Kriterien. Hat der Test Randfälle abgedeckt? Blieb das Refactoring korrekt? Bewerten Sie beide, bevor Sie nachsehen, welches Modell welche Antwort erstellt hat.
Latenz. Apidog zeigt die Antwortzeit für jede Anfrage an. Für ein interaktives Tool kann ein Modell, das doppelt so genau, aber viermal langsamer ist, immer noch die falsche Wahl sein.
Token-Kosten. Die Claude-Antwort enthält einen usage-Block mit input_tokens und output_tokens. Multiplizieren Sie mit den veröffentlichten Tarifen (10 US-Dollar und 50 US-Dollar pro Million für Fable 5, 5 US-Dollar und 25 US-Dollar pro Million für Opus 4.8), um die tatsächlichen Kosten jeder Antwort zu erhalten.

Wiederholen Sie dies für fünf oder zehn Prompts, die Ihre tatsächliche Nutzung widerspiegeln, und Sie erhalten einen kleinen, ehrlichen Benchmark, der Ihnen sagt, was die öffentlichen Ranglisten nicht können: ob der Vorteil von Fable 5 bei Ihren Aufgaben zu einem Preis sichtbar wird, den Sie bereit sind zu zahlen. Sie können Apidog herunterladen und dies in wenigen Minuten einrichten. Für eine detailliertere Kostenaufschlüsselung erklärt unser Fable 5 Preisleitfaden die Berechnungen.

Schaltfläche