Claude Fable 5 Ratenlimits erklärt

Wenn Sie auf dem neuesten Modell von Anthropic aufbauen und sich über die Ratenbegrenzungen von Claude Fable 5 wundern, hier ist die ehrliche Antwort im Voraus: Anthropic hat zum Start kein separates, nur für Fable 5 geltendes Ratenbegrenzungssystem eingeführt. Fable 5 (Modell-ID claude-fable-5, Preis: 10 $ pro Million Eingabetoken und 50 $ pro Million Ausgabetoken, gestartet am 9. Juni 2026) verwendet dieselbe standardmäßige Messages API und greift auf die standardmäßigen, stufenbasierten API-Ratenbegrenzungen Ihrer Organisation zurück. Diese Begrenzungen skalieren mit der Nutzung und Ausgabenhistorie Ihres Kontos, sie werden pro Organisation und pro Modellklasse durchgesetzt, und die genauen Zahlen, die Sie erhalten, hängen davon ab, in welcher Nutzungsstufe Sie sich befinden. Diese Einordnung ist wichtig, denn wenn Sie die Kapazität für einen Fable 5-Agenten planen, planen Sie um das Stufensystem von Anthropic herum, nicht um eine magische Zahl, die in der Startankündigung steht. Wenn Sie neu in diesem Modell sind, ist die Übersicht über Claude Fable 5 eine gute ergänzende Lektüre.

button

TL;DR

Claude Fable 5 verwendet die standardmäßigen stufenbasierten Ratenbegrenzungen von Anthropic: Anfragen pro Minute (RPM) plus Eingabetoken pro Minute (ITPM) und Ausgabetoken pro Minute (OTPM), durchgesetzt pro Organisation und pro Modellklasse. Die Begrenzungen steigen, wenn Ihre kumulativen Ausgaben Sie in höhere Nutzungsstufen (1 bis 4) befördern. Bestätigen Sie Ihre tatsächlichen Zahlen immer in der Anthropic Konsole und behandeln Sie eine 429er-Antwort, indem Sie deren retry-after-Header lesen.

Wie die Ratenbegrenzungen von Anthropic funktionieren

Anthropic legt keine einzige globale „API-Begrenzung“ fest. Es verwendet ein Nutzungsstufen-System, und Ihre Stufe entscheidet, wie viel Durchsatz Sie erhalten. Es gibt zwei verwandte Konzepte: Ausgabenlimits (wie viel Ihnen pro Kalendermonat in Rechnung gestellt werden kann) und Ratenbegrenzungen (wie schnell Sie die API aufrufen können). Dieser Artikel handelt vom Zweiten, aber die beiden sind verknüpft, da Ihre Stufe das ist, was beide vorantreibt.

Die Begrenzungstypen

Für die Messages API werden Ratenbegrenzungen in drei Dimensionen gemessen, die jeweils pro Minute und pro Modellklasse durchgesetzt werden:

Anfragen pro Minute (RPM). Wie viele separate API-Aufrufe Sie jede Minute starten können.
Eingabetoken pro Minute (ITPM). Wie viele Eingabetoken Sie jede Minute senden können. Bei den meisten aktuellen Modellen zählen hier nur nicht-gecachte Eingabetoken. Token, die aus einem Prompt-Cache gelesen werden, zählen nicht gegen ITPM, weshalb Caching Ihren effektiven Durchsatz weit über den Rohwert hinaus steigern kann.
Ausgabetoken pro Minute (OTPM). Wie viele Token das Modell pro Minute für Sie generieren kann. Dies wird in Echtzeit bewertet, während Token gestreamt werden, und Ihr max_tokens-Limit wird nicht im Voraus belastet. Das Festlegen eines hohen max_tokens verbraucht an sich keine OTPM; nur die tatsächlich produzierten Token zählen.

Anthropic setzt diese mit einem Token-Bucket-Algorithmus durch. Anstatt Ihr gesamtes Kontingent zu Beginn jeder Minute zurückzusetzen, füllt sich Ihre Kapazität kontinuierlich bis zu Ihrem Maximum auf. Die praktische Konsequenz ist, dass eine Begrenzung wie „50 RPM“ sich wie ungefähr eine Anfrage pro Sekunde verhalten kann, sodass ein dichter Aufruf-Burst eine Begrenzung auslösen kann, selbst wenn Ihr Durchschnitt pro Minute in Ordnung aussieht. Gleichmäßiger, stetiger Traffic holt mehr aus denselben Zahlen heraus als sprunghafter Traffic.

Pro Organisation, pro Modellklasse

Zwei weitere Details prägen, wie die Zahlen für Sie gelten. Erstens werden die Limits auf Organisationsebene festgelegt, nicht pro API-Schlüssel, sodass jeder Schlüssel in Ihrer Organisation aus demselben Pool schöpft (Sie können kleinere Limits pro Arbeitsbereich festlegen, wenn Sie einen Arbeitsbereich vor einem anderen schützen möchten). Zweitens werden die Limits pro Modellklasse angewendet. Das bedeutet, dass der Fable 5-Traffic und beispielsweise der Opus-Traffic gegen ihre eigenen separaten Buckets gemessen werden. Sie können verschiedene Modellklassen gleichzeitig bis zu ihren jeweiligen Limits betreiben, ohne dass die eine die andere blockiert.

Wie Stufen aufsteigen

Die Stufen steigen automatisch, wenn Ihre kumulativen Kreditkäufe Schwellenwerte überschreiten. Gemäß den veröffentlichten Stufen von Anthropic (überprüfen Sie Ihren eigenen Status in der Konsole) sieht die Struktur wie folgt aus: Stufe 1 wird bei einem Kreditkauf von 5 $ freigeschaltet, Stufe 2 bei kumulierten 40 $, Stufe 3 bei kumulierten 200 $ und Stufe 4 bei kumulierten 400 $, wobei die monatlichen Ausgabenobergrenzen bei jedem Schritt steigen. Sie steigen in dem Moment auf, in dem Sie einen Schwellenwert überschreiten; Sie müssen kein Ticket einreichen. Oberhalb von Stufe 4 erfolgen höhere Obergrenzen über den Vertrieb oder die monatliche Abrechnung.

Für einen tieferen Einblick, wie sich diese Käufe in Kosten für dieses spezifische Modell umwandeln, passt die Preisübersicht für Claude Fable 5 gut zu diesem Abschnitt.

Was das speziell für Claude Fable 5 bedeutet

Dies ist der Teil, den die meisten Leute genau wissen wollen. Fable 5 erhält kein exotisches, modellspezifisches Limit-Framework. Es fügt sich als eigene Modellklasse in die Standard-Stufentabelle ein, sodass die Frage „Was sind meine Fable 5-Limits?“ sich in „In welcher Stufe befindet sich meine Organisation, und was sagt die Fable 5-Zeile für diese Stufe aus?“ auflöst.

Gemäß den veröffentlichten Ratenbegrenzungsstufen von Anthropic (bestätigen Sie Ihre eigenen in der Konsole, da sich individuelle und Unternehmensvereinbarungen unterscheiden) skaliert die Fable 5-Zeile ungefähr so:

Stufe 1: 50 RPM, 100.000 ITPM, 20.000 OTPM.
Stufe 2: 1.000 RPM, 500.000 ITPM, 100.000 OTPM.
Stufe 3: 2.000 RPM, 1.500.000 ITPM, 300.000 OTPM.
Stufe 4: 4.000 RPM, 4.000.000 ITPM, 800.000 OTPM.

Betrachten Sie diese als die Form des Systems, nicht als Vertrag. Anthropic aktualisiert die Tabellen, Priority Tier- und Unternehmensangebote ändern das Bild, und Ihre Konsole ist die Quelle der Wahrheit. Wenn eine Zahl hier jemals mit dem übereinstimmt, was Ihr Konto anzeigt, glauben Sie Ihrem Konto.

Die Dimension, die Fable 5 am härtesten trifft, ist OTPM. Fable 5 wurde für Arbeiten mit Millionen von Token und langem Horizont entwickelt, die Art von Ausführung, bei der ein Agent eine große Aufgabe abarbeitet und dabei viel Ausgabe erzeugt. Eine lange Generierung verbraucht nicht zu Beginn einen großen Teil der OTPM; sie reduziert Ihr Ausgabebudget stetig, während sie streamt. Daher kann ein einzelner ehrgeiziger Fable 5-Job für einen längeren Zeitraum nahe an Ihrem OTPM-Limit liegen, und wenn Sie mehrere solcher Jobs gleichzeitig starten, ist OTPM normalerweise die erste Grenze, die Sie erreichen, nicht RPM. Daraus ergeben sich zwei Gewohnheiten: die richtige Größe für max_tokens wählen, damit eine außer Kontrolle geratene Generierung nicht explodieren kann, und lange Ausgaben streamen, damit Sie keine offene Verbindung halten, die auf eine riesige, nicht gestreamte Antwort wartet (was Ihnen auch hilft, Request-Timeouts zu vermeiden). Wenn Sie das Modell zum ersten Mal einbinden, führt der Claude Fable 5 API-Leitfaden durch die Anfragestruktur, für die diese Limits gelten.

Ihre Limits lesen und überprüfen

Raten Sie niemals Ihre Limits aus einem Blog-Beitrag, auch nicht aus diesem. Es gibt zwei zuverlässige Wege, die tatsächlichen Zahlen zu sehen.

Der erste ist die Anthropic Konsole. Die Seite „Limits“ unter den Einstellungen zeigt die aktuelle Stufe Ihrer Organisation und die geltenden Ratenbegrenzungen pro Modell, und die Seite „Usage“ zeigt Ihre tatsächliche Eingabetoken- und Ausgabetokenrate im Zeitverlauf im Vergleich zu Ihrem Limit, einschließlich Ihrer Cache-Trefferquote. Diese Diagramme sind der schnellste Weg, um die Frage „Habe ich noch Spielraum, oder stehe ich kurz davor, an eine Grenze zu stoßen?“ zu beantworten, bevor Sie den Traffic erhöhen.

Der zweite Weg sind die Antwort-Header bei jedem API-Aufruf. Anthropic gibt eine Reihe von anthropic-ratelimit-*-Headern zurück, die Ihnen genau sagen, wo Sie sich in diesem Moment befinden:

anthropic-ratelimit-requests-limit und anthropic-ratelimit-requests-remaining für RPM.
anthropic-ratelimit-input-tokens-limit und anthropic-ratelimit-input-tokens-remaining für ITPM.
anthropic-ratelimit-output-tokens-limit und anthropic-ratelimit-output-tokens-remaining für OTPM.
Ein passender *-reset-Header für jeden, im RFC 3339-Format, der Ihnen sagt, wann dieser Bucket vollständig aufgefüllt wird.

Die verbleibenden Token-Header werden auf das nächste Tausend gerundet, und die kombinierten Token-Header melden das Limit, das im Moment am restriktivsten ist (zum Beispiel eine Obergrenze auf Arbeitsbereichsebene, falls Sie eine festgelegt haben). Das Lesen von *-remaining bei jeder Antwort ermöglicht es Ihrem Client, sich selbst zu drosseln, bevor er eine 429er-Antwort erhält, was den Unterschied zwischen anmutigem Gegendruck und einem Strom von Fehlern ausmacht.

Anmutiges Umgang mit 429er-Antworten

Eine 429er-Antwort bedeutet, dass Sie eine der Begrenzungen erreicht haben. Der Body sagt Ihnen, welche, und, was entscheidend ist, die Antwort enthält einen retry-after-Header mit der Anzahl der Sekunden, die Sie warten müssen, bevor Sie es erneut versuchen. Ein erneuter Versuch, der früher als der in retry-after angegebene Zeitpunkt liegt, wird erneut fehlschlagen, also halten Sie sich daran.

Die gute Nachricht ist, dass die offiziellen SDKs bereits das Richtige tun. Das Anthropic SDK versucht 429er- und 5xx-Antworten automatisch mit exponentiellem Backoff (standardmäßig zwei Wiederholungen) erneut zu senden und liest den retry-after-Header, um jeden Versuch zeitlich zu steuern. Für die meisten Anwendungen ist dieses integrierte Verhalten ausreichend, und Sie sollten keine eigene Wiederholungsschleife implementieren, es sei denn, Sie benötigen etwas, das das SDK Ihnen nicht bietet. Hier ist der Basisaufruf mit Fable 5:

import anthropic

client = anthropic.Anthropic()  # reads ANTHROPIC_API_KEY from the environment

# Raise max_retries above the default of 2 for a 429-prone batch workload.
resilient = client.with_options(max_retries=5)

message = resilient.messages.create(
    model="claude-fable-5",
    max_tokens=4096,
    messages=[
        {"role": "user", "content": "Draft a release summary for our June changelog."}
    ],
)

print(message.content[0].text)

Wenn Sie explizite Kontrolle benötigen, beispielsweise um einen Zustand „Wir sind beschäftigt, versuchen es erneut“ in Ihrer eigenen Benutzeroberfläche anzuzeigen, können Sie die typisierte Ausnahme abfangen und den Header selbst lesen:

import anthropic

client = anthropic.Anthropic()

try:
    message = client.messages.create(
        model="claude-fable-5",
        max_tokens=4096,
        messages=[{"role": "user", "content": "Summarize this incident report."}],
    )
except anthropic.RateLimitError as exc:
    wait_seconds = int(exc.response.headers.get("retry-after", "60"))
    print(f"Rate limited. Backing off for {wait_seconds}s before retry.")

Über Wiederholungen hinaus ist die dauerhafte Lösung für anhaltenden Druck das Queuing. Wenn Ihr Traffic stoßweise auftritt, legen Sie Anfragen in eine Warteschlange und verarbeiten Sie diese mit einer Rate, die Ihre Stufe aufnehmen kann, indem Sie die anthropic-ratelimit-*-remaining-Header verwenden, um den Abfluss zu steuern. Das verwandelt eine Wand von 429er-Antworten in eine reibungslose, etwas langsamere Pipeline, was fast immer das ist, was Sie tatsächlich wollen. Dieselbe Drosselungs- und Warteschlangen-Disziplin zeigt sich, wenn Sie eine ratenbegrenzte API testen, und die Muster beim Testen der ChatGPT API mit Apidog übertragen sich direkt auf die Arbeit mit Claude.

Ihre Limits erhöhen und den Druck reduzieren

Wenn Sie ständig an Limits stoßen, haben Sie zwei Hebel: mehr Spielraum schaffen oder weniger davon benötigen.

Um mehr Spielraum zu erhalten, erhöhen Sie Ihre Stufe. Da sich die Stufen mit kumulativen Kreditkäufen ändern, zieht Sie eine stetige reale Nutzung automatisch in der Tabelle nach oben, und jeder Schritt erhöht RPM, ITPM und OTPM signifikant. Wenn Sie dem automatischen Zeitplan voraus sein müssen oder benutzerdefinierte oder Unternehmenslimits benötigen, kontaktieren Sie den Vertrieb über die Seite „Limits“ in der Konsole; Priority Tier und monatliche Rechnungsstellung existieren genau für engagierte, hohe Arbeitslasten.

Um weniger Spielraum zu benötigen, greifen Sie den Token-Durchsatz selbst an:

Verwenden Sie die Batches API für Arbeiten, die nicht latenzsensibel sind. Sie verarbeitet Messages API-Anfragen asynchron zu etwa 50 Prozent der Standardkosten und verfügt über einen eigenen separaten Ratenbegrenzungspool, sodass Bulk-Jobs nicht mit Ihrem Live-Interaktiv-Traffic konkurrieren.
Aktivieren Sie Prompt-Caching für wiederholte Kontexte. Da gecachte Eingabetoken im Allgemeinen nicht gegen ITPM zählen, kann das Caching eines großen System-Prompts, Toolsets oder Referenzdokuments über einen Fable 5-Batch hinweg Ihren effektiven Eingabedurchsatz vervielfachen, ohne Ihre Stufe zu beeinflussen. Überprüfen Sie Ihre Cache-Trefferquote auf der Seite „Usage“, um zu bestätigen, dass es funktioniert.
Passen Sie max_tokens richtig an. Es gibt keine OTPM-Strafe für ein hohes Limit, aber ein großzügiges max_tokens lässt eine einzelne Antwort lange laufen und reduziert OTPM länger. Setzen Sie es auf das, was die Aufgabe tatsächlich benötigt.
Streamen Sie lange Ausgaben. Streaming schützt Sie vor Request-Timeouts bei großen Generierungen und lässt Sie die Ausgabe in Echtzeit verfolgen, was sich natürlich mit dem Lesen der OTPM-Header verbindet.

Diese Techniken wirken sich gegenseitig verstärkend aus. Eine gecachte, gebatchte, gut gestreamte Fable 5-Pipeline kann innerhalb derselben Stufe weitaus mehr Arbeit leisten als eine naive. Speziell für Agenten-Arbeitslasten zeigt die Claude Fable 5 Agent-Anleitung, wie diese Hebel in einen lang laufenden Zyklus passen. Und wenn Sie Modellklassen für eine durchsatzempfindliche Aufgabe vergleichen, sind der Claude Opus 4.8 API-Leitfaden und die Opus 4.8 Preisnotizen nützliche Referenzpunkte, da jede Modellklasse ihren eigenen separaten Limit-Bucket hat.

Überwachen Sie Ihre Fable 5-Nutzung mit Apidog

Der klarste Weg, Ihre tatsächlichen Limits zu verstehen, besteht darin, sie bei Live-Anfragen zu beobachten, und ein API-Client macht das konkret. Mit Apidog können Sie eine Fable 5-Anfrage an die Messages API erstellen, senden und die vollständige Antwort inspizieren, einschließlich der anthropic-ratelimit-*-Header und des usage-Objekts, das die Anzahl der Eingabe-, Ausgabe- und gecachten Token für diesen Aufruf meldet. Das nebeneinander Sehen dieser Zahlen, Anfrage für Anfrage, sagt Ihnen genau, wie nah Sie an ITPM und OTPM arbeiten und wie viel Caching Sie tatsächlich spart, ohne auf eine 429er-Antwort warten zu müssen, um es herauszufinden.

Eine praktische Schleife während Sie entwickeln: Senden Sie einen repräsentativen Fable 5-Prompt in Apidog, lesen Sie den Wert von anthropic-ratelimit-output-tokens-remaining und usage.output_tokens aus der Antwort und beachten Sie, wie schnell eine lange Generierung den verbleibenden Zähler reduziert. Fügen Sie dann einen gecachten System-Prompt hinzu, senden Sie ihn erneut und bestätigen Sie, dass usage.cache_read_input_tokens steigt, während Ihr ITPM-Verbrauch kaum sinkt. Dieser Zwei-Anfragen-Vergleich verwandelt die abstrakte Stufentabelle in ein Gefühl für Ihren eigenen Spielraum. Sie können die Anfrage auch speichern, max_tokens variieren und beobachten, wie der OTPM-Verbrauch der tatsächlichen Ausgabe und nicht Ihrem Limit folgt, was der schnellste Weg ist, sich davon zu überzeugen, dass ein hohes max_tokens sicher ist. Laden Sie Apidog herunter, wenn Sie dieses Experiment mit Ihrem eigenen Schlüssel durchführen möchten, und behalten Sie die Antwort-Header im Auge, während Sie Ihre Anfragerate anpassen. Teams, die bereits Apidog für das API-Design und -Testen standardisiert haben, können die Fable 5-Überwachung in denselben Arbeitsbereich integrieren, den sie für alles andere verwenden.