GPT API Ratenbegrenzungen: Stufen, Nutzungslimits und Testen mit Apidog

Sie liefern eine Funktion aus, die die GPT API aufruft. In der Staging-Umgebung funktioniert sie einwandfrei. Die ersten hundert Benutzer greifen in der Produktion darauf zu, und Ihre Protokolle füllen sich mit 429 Too Many Requests. Nun raten Sie: Sind es Anfragen pro Minute, Token pro Minute oder Tageslimits? Sind Sie noch in Stufe 1? Hat das Modell, zu dem Sie letzte Woche gewechselt sind, strengere Limits als das alte?

💡

Dieser Artikel beantwortet diese Fragen für jedes aktuelle GPT-Modell und zeigt Ihnen dann, wie Sie Ihre Live-Limits mit ein paar API-Aufrufen und einem kleinen Lasttest in Apidog überprüfen können. Sie werden mit einem wiederholbaren Workflow abschließen, den Sie jederzeit ausführen können, wenn Sie ein Problem mit der Ratenbegrenzung vermuten, sowie mit einer speicherbaren Anfragesammlung, die Ihr Team wiederverwenden kann.

Wenn Sie schon einmal mit OpenAI gearbeitet haben, wissen Sie, dass die Geschichte der Ratenbegrenzung mit jedem neuen Modell komplizierter geworden ist. GPT-5.5 hat andere Limits als GPT-4.1, Bildmodelle zählen anders als Textmodelle, und Ihre Nutzungsstufe ändert sich lautlos, wenn Ihre Ausgaben steigen. Apidog bietet Ihnen einen einzigen Arbeitsbereich, um die Antwort-Header jeder Anfrage zu überprüfen, gleichzeitigen Traffic zu simulieren und genau zu bestätigen, welches Limit Sie erreichen, bevor Sie Code dagegen ausliefern. Laden Sie Apidog herunter, falls Sie es noch nicht haben; der unten beschriebene Workflow funktioniert mit dem kostenlosen Plan.

Herunterladen

Die vier Limits, die wirklich zählen

OpenAI wendet mehrere Ratenbegrenzungen auf jeden GPT API-Schlüssel an. Sie werden alle vier für jede Produktionsanwendung durchgesetzt sehen:

RPM (Anfragen pro Minute): die Anzahl der API-Aufrufe, die Sie pro Minute senden können. Das niedrigste Limit in den meisten Stufen.
TPM (Token pro Minute): die kombinierten Eingabe- und Ausgabe-Token, die Sie pro Minute verarbeiten können. Das Limit, das die meisten Leute vergessen.
RPD (Anfragen pro Tag): eine tägliche Obergrenze für kostenlose Schlüssel und Schlüssel der Stufe 1. Verschwindet in höheren Stufen für die meisten Textmodelle.
IPM / TPD / Batch-Warteschlangenlimits: modellspezifische Obergrenzen für Bildgenerierung, Audio, Embeddings und Batch-Endpunkte. Jede Endpunktfamilie hat ihre eigene Obergrenze.

Wenn Ihre Anfrage abgelehnt wird, gibt die API HTTP 429 und einen JSON-Body wie diesen zurück:

{
 "error": {
 "message": "Rate limit reached for gpt-5.5 in organization org-abc on tokens per min (TPM): Limit 30000, Used 28432, Requested 3120.",
 "type": "tokens",
 "param": null,
 "code": "rate_limit_exceeded"
 }
}

Beachten Sie, dass der Body Ihnen mitteilt, welche Dimension Sie überschritten haben: tokens, requests oder manchmal tokens_usage_based. Das ist das Erste, was Sie lesen, wenn etwas kaputtgeht. Der Fehler bei einer TPM-Überschreitung sieht anders aus als bei einer RPM-Überschreitung, und die Lösung ist ebenfalls anders. Eine 429 ist nicht gleich eine 429 ist nicht gleich eine 429.

Für eine umfassende Referenz darüber, was 429 auf HTTP-Ebene bedeutet, siehe die MDN 429-Dokumentation und die RFC 6585-Spezifikation. Für das OpenAI-spezifische Verhalten bezüglich Retry-Headern und Stufenwechsel pflegt OpenAI eine offizielle Seite zu Ratenbegrenzungen, die Sie bookmarken sollten.

Wie Stufen funktionieren und warum Sie immer wieder befördert werden (oder stecken bleiben)

Ihr GPT API-Schlüssel befindet sich in einer OpenAI-Nutzungsstufe. Stufen bestimmen die tatsächlichen Zahlen hinter Ihren RPM- und TPM-Grenzwerten. Sie steigen in den Stufen auf der Grundlage von zwei Dingen auf: den Gesamtausgaben Ihres Kontos und wie lange es her ist, dass Sie zum ersten Mal bezahlt haben. Es gibt sechs Stufen, von kostenlos bis Stufe 5, und die grobe Form sieht für Textmodelle so aus:

Stufe	Ausgabenschwelle	Wartezeit	Text RPM	Text TPM
Kostenlos	keine	keine	3	40k
1	$5 bezahlt	keine	500	30k–200k je nach Modell
2	$50 bezahlt	7 Tage	5,000	450k
3	$100 bezahlt	7 Tage	5,000	1M
4	$250 bezahlt	14 Tage	10,000	2M
5	$1,000 bezahlt	30 Tage	10,000	2M+

Die oben genannten Zahlen sind illustrativ; die genauen Limits ändern sich im Laufe der Zeit und variieren je nach Modell. Lesen Sie Ihre Live-Limits direkt vom Dashboard ab oder, besser, aus den Antwort-Headern Ihrer eigenen API (unten beschrieben), bevor Sie eine Arbeitslast dimensionieren.

Zwei praktische Implikationen:

Sie steigen automatisch auf, wenn Sie bezahlen. Stufen sind nicht optional. Sobald Ihre Ausgaben eine Stufenschwelle überschreiten und die Wartezeit abgelaufen ist, läuft die nächste Anfrage, die Sie stellen, gegen die neuen Limits. Keine Benachrichtigung, kein Migrationsschritt.
Sie können absteigen. Wenn Ihr Konto über einen längeren Zeitraum inaktiv wird oder Ihre Zahlungsmethode fehlschlägt, können Sie wieder absteigen. Testen Sie in der Produktion nach jeder Abrechnungsänderung.

Für einen Vergleich mit den Stufensystemen anderer Modellanbieter siehe unseren Erklärer zu OpenAI API-Benutzerratenbegrenzungen, den Leitfaden zu Claude API-Ratenbegrenzungen und den Leitfaden zu Grok-3 API-Ratenbegrenzungen. Das mentale Modell ist bei allen Anbietern dasselbe; die spezifischen Zahlen und Dimensionen jedoch nicht.

Lesen Sie Ihre Live-Limits aus den Antwort-Headern

Sie müssen sich nicht durch Dashboards wühlen, um Ihre aktuellen Limits zu finden. Jede GPT API-Antwort enthält sie in den Headern. Suchen Sie nach diesen vier:

x-ratelimit-limit-requests: Ihr RPM-Limit für diesen Endpunkt.
x-ratelimit-remaining-requests: wie viele Ihnen in dieser Minute noch bleiben.
x-ratelimit-limit-tokens: Ihr TPM-Limit.
x-ratelimit-remaining-tokens: wie viele Token Ihnen in dieser Minute noch bleiben.

Normalerweise gibt es auch x-ratelimit-reset-requests und x-ratelimit-reset-tokens, die beide eine menschenlesbare Dauer angeben, bis der Bucket wieder aufgefüllt ist (z. B. 6s, 1m30s).

Der einfachste Weg, diese zu lesen, ist, eine einzelne Chat-Completion-Anfrage abzusenden, die zurückkommenden Header zu beobachten und zu bestätigen, dass Sie sich in der Stufe befinden, in der Sie sich vermuten. Apidog macht das mit einem Klick.

Schritt 1: GPT-Anfrage in Apidog konfigurieren

Öffnen Sie Apidog, erstellen Sie ein neues Projekt und fügen Sie darin eine neue Anfrage hinzu.

Methode: POST URL: https://api.openai.com/v1/chat/completions

Im Reiter "Header":

Schlüssel	Wert
`Authorization`	`Bearer {{OPENAI_API_KEY}}`
`Content-Type`	`application/json`

Die doppelte Klammersyntax zieht aus einer Apidog-Umgebungsvariable, was bedeutet, dass Ihr Schlüssel niemals in der Anfrage selbst enthalten ist. Legen Sie die Variable einmal unter Umgebungen fest, wechseln Sie die Umgebungen, um zwischen persönlichen und Team-Schlüsseln zu wechseln, und der Rest der Sammlung wird automatisch übernommen. Derselbe Trick funktioniert auch für die Organisations- und Projekt-IDs, die OpenAI Ihnen zur Abrechnungszuordnung erlaubt.

Im Reiter "Body" wählen Sie JSON und fügen ein:

{
 "model": "gpt-5.5",
 "messages": [
 {"role": "user", "content": "ping"}
 ],
 "max_tokens": 10
}

Klicken Sie auf Senden. Sie sollten eine normale Vervollständigung zurückerhalten. Klicken Sie nun auf den Reiter "Header" im Antwortfenster und scrollen Sie zu den Zeilen `x-ratelimit-*`. Diese vier Zahlen sind Ihre aktuelle Wahrheit. Machen Sie einen Screenshot davon. Sie sind die Basislinie, gegen die Sie testen werden.

Wenn Sie die Einrichtung der Chat-Completion-Anfrage ausführlicher durchgehen möchten, deckt unser Leitfaden zum Testen der ChatGPT API mit Apidog Authentifizierung, Streaming und Tool-Aufrufe von Anfang bis Ende ab.

Schritt 2: Bestätigen Sie die Limits mit einem gezielten Burst

Das Lesen der Header verrät Ihnen das Limit. Das Senden einer Anfrage beweist nichts über das Verhalten am Limit. Um zu überprüfen, ob die Drosselung tatsächlich dort einsetzt, wo die Header es angeben, möchten Sie einen kleinen Burst-Test durchführen.

Apidog wird mit einem Tests-Runner ausgeliefert, der dieselbe Anfrage N-mal gleichzeitig abfeuern kann. Öffnen Sie Ihre gespeicherte Anfrage, klicken Sie auf das Dropdown-Menü neben Senden und wählen Sie "Im Testszenario ausführen". Stellen Sie ein:

Iterationen: 50 (oder was auch immer bequem über Ihrer angegebenen RPM liegt)
Parallelität: 10
Verzögerung zwischen Iterationen: 0 ms

Führen Sie es aus. Zwei Ergebnisse sind nützlich:

Einige Anfragen geben 429 zurück, bevor der Burst beendet ist. Gut. Das bestätigt, dass das Limit aus dem Antwort-Header und Ihr Kontostatus synchron sind.
Alle 50 sind erfolgreich, und die Header zeigen remaining-requests wie erwartet abnehmend an. Ihre RPM ist höher als Sie dachten; überprüfen Sie das Antwortfenster auf den genauen Wert.

Apidogs Test-Runner zeichnet jede Antwort auf, sodass Sie nach Statuscode sortieren und jede 429 in einer Ansicht zusammenfassen können. Klicken Sie auf eine 429-Zeile und lesen Sie deren Body. Das Feld message teilt Ihnen mit, ob Sie RPM, TPM oder ein Tageslimit überschritten haben. Das ist die Dimension, nach der Sie Ihren Produktionscode bemessen.

Für eine Einführung, was zu tun ist, sobald Sie das Limit erreicht haben, führt der Leitfaden zur Überschreitung der Ratenbegrenzung durch jede Art von 429, die Sie wahrscheinlich sehen werden.

Schritt 3: RPM-Überschreitungen von TPM-Überschreitungen trennen

Der erste Burst oben misst RPM, weil jede Anfrage winzig ist. Um TPM zu untersuchen, müssen Sie weniger Anfragen abfeuern, aber jede einzelne größer. Bearbeiten Sie Ihren Anfrage-Body so, dass messages eine viel größere Nutzlast enthält:

{
 "model": "gpt-5.5",
 "messages": [
 {"role": "system", "content": "<3,000 Token Kontext hier>"},
 {"role": "user", "content": "Fasse das Obige in einem Satz zusammen."}
 ],
 "max_tokens": 200
}

Führen Sie ein weiteres Szenario aus, diesmal mit vielleicht 20 Iterationen bei Parallelität 5. Wenn Sie sich in Stufe 1 mit einem 30k TPM-Limit befinden, werden Sie die Token-Limits lange vor den Anfragen-Limits überschreiten.

Diese Trennung ist wichtig, da die Lösung unterschiedlich ist. Wenn Ihre tatsächliche Arbeitslast viele winzige Anfragen sendet, beheben Sie RPM: warten, stapeln oder staffeln. Wenn sie weniger große sendet, beheben Sie TPM: Systemprompts kürzen, Kontexte mit dem prompt_cache-Mechanismus cachen oder die Anfrage aufteilen.

Schritt 4: Gleichzeitige Benutzer simulieren

Burst-Tests messen Ihre eigene Obergrenze. Der Produktionsverkehr sieht anders aus: viele Benutzer, unterschiedliche Anfragen-Größen, Bursts zusätzlich zu einer stabilen Grundlast.

Erstellen Sie in Apidog ein Testszenario, das drei oder vier Variationen der Anfrage (klein, mittel, groß) mit zufälligen Pausen zwischen den Iterationen durchläuft. Der Runner unterstützt JavaScript Pre- und Post-Request-Skripte, sodass Sie:

Wählen Sie eine zufällige Nachrichtenlänge pro Iteration.
Lesen Sie x-ratelimit-remaining-tokens nach jeder Antwort und brechen Sie das Szenario ab, wenn es unter einen Schwellenwert fällt.
Zeichnen Sie die Latenz separat für 200er- vs. 429er-Antworten auf, damit Sie sehen können, wie die Drosselung den p95 beeinträchtigt.

Wenn das Szenario beendet ist, erhalten Sie im Bericht ein Histogramm der Statuscodes. Dieses Histogramm ist das nützlichste Artefakt, das Sie in einem Runbook festhalten können. In dem Moment, in dem ein Kollege fragt „Sind wir ratenbegrenzt?“, führen Sie es erneut aus und vergleichen.

Was tun, wenn Sie gedrosselt werden

Sobald Sie gemessen haben, wo die Grenze liegt, haben Sie drei ehrliche Optionen.

Zurückweichen. Wickeln Sie jeden GPT-Aufruf in einen exponentiellen Backoff-Wiederholungsversuch ein. Lesen Sie den x-ratelimit-reset-tokens-Header aus der 429-Antwort und verwenden Sie ihn als Ihre erste Wiederholungsverzögerung; dieser Header ist OpenAIs wörtliche Antwort auf „warte so lange“. Ein naiver time.sleep(2 ** attempt) funktioniert auch, aber er verschwendet Sekunden, die Sie nicht hätten warten müssen.

Warteschlange. Wenn Ihr Traffic stoßweise auftritt, legen Sie Anfragen in eine Warteschlange und leeren Sie diese mit einer Rate knapp unter Ihrem Limit. Ein Token-Bucket-Limiter, der leicht unter Ihrem TPM fixiert ist, ist das Standardmuster. Wir gehen auf die Implementierungs-Kompromisse in wie man API-Ratenbegrenzung implementiert und Implementierung von Ratenbegrenzung in APIs ein.

Batch. OpenAIs Batch API läuft mit höheren Limits und zum halben Preis von synchronen Aufrufen. Wenn Ihre Arbeitslast eine 24-Stunden-Bearbeitungszeit toleriert (nächtliche Anreicherung, Dokumentenklassifizierung, Embedding-Neuaufbau), verschieben Sie sie in den Batch-Modus und geben Sie Ihr synchrones Kontingent für benutzerorientierten Traffic frei.

Wenn Sie sich vor einer Entscheidung eingehender mit dem Unterschied zwischen Drosselung und Ratenbegrenzung befassen möchten, ist Drosselung vs. Ratenbegrenzung der kürzeste Weg durch die Terminologie.

Häufige GPT 429 Fehler und ihre Bedeutung

Drei Varianten von 429 decken grob 90% der realen Fälle ab.

Rate limit reached … on requests per min (RPM) bedeutet, dass Ihr Code zu viele Aufrufe pro Minute sendet, unabhängig von der Größe. Fügen Sie eine Parallelitätskontrolle hinzu. Feuern Sie nicht jeden Datensatz in einer parallelen map ab; begrenzen Sie Ihren Worker-Pool auf Ihre RPM geteilt durch einen Sicherheitsfaktor von zwei.

Rate limit reached … on tokens per min (TPM) bedeutet, dass Ihre Aufrufe zu groß sind. Überprüfen Sie den Prompt. Die meisten TPM-Überschreitungen stammen von System-Prompts, die im Laufe der Zeit angewachsen sind, oder von RAG-Pipelines, die ganze Dokumente in den Kontext stopfen. Kürzen, cachen oder aufteilen.

You exceeded your current quota, please check your plan and billing details sieht aus wie eine 429, ist aber eigentlich eine Abrechnungsgrenze, keine Ratenbegrenzung. Ihr Konto hat eine feste monatliche Ausgabenobergrenze erreicht, die hinterlegte Karte ist fehlgeschlagen oder das Prepaid-Guthaben ist auf Null gegangen. Die Lösung liegt im Abrechnungs-Dashboard, nicht in Ihrem Code.

FAQ

Kostet Apidog etwas, um GPT-Ratenbegrenzungen zu testen? Nein. Der kostenlose Plan deckt Einzelanfragen-Tests und kleine gleichzeitige Testläufe ab. Sie benötigen nur einen kostenpflichtigen Plan, wenn Sie größere Testlasten, Team-Arbeitsbereiche oder geplante Läufe wünschen. Details finden Sie unter Apidog Preise.

Kann ich Ratenbegrenzungen testen, ohne echte Token zu verbrauchen? Teilweise. Der günstigste Basis-Check ist eine einmalige Anfrage mit max_tokens: 1 und einer Ein-Zeichen-Nachricht; sie kostet Bruchteile eines Cents und die Header kommen vollständig zurück. Bei Burst-Tests geben Sie zwar echte Token aus, können aber jeden Aufruf winzig halten. Wenn Sie eine vollständig Offline-Probe wünschen, verwenden Sie Apidogs Mock-Server, um die Form der 429-Antwort zu simulieren und zu beweisen, dass Ihre Wiederholungslogik funktioniert, ohne OpenAI überhaupt aufzurufen.

Warum fühlt sich mein Schlüssel der Stufe 1 langsamer an als der eines Kollegen der Stufe 1? Die Stufenlimits sind pro Organisation, nicht pro Schlüssel. Wenn Ihr Schlüssel in einer gemeinsam genutzten Organisation mit anderen Vielnutzern ist, konkurrieren Sie mit deren Traffic. Apidog kann dies klar zeigen: Führen Sie dieselbe Anfrage von beiden Schlüsseln nebeneinander aus und vergleichen Sie den Rückgang von x-ratelimit-remaining-tokens.

Woher weiß ich, welches Modell welches Limit hat? Lesen Sie die Antwort-Header. Vertrauen Sie keinen generischen Tabellen in Blogbeiträgen (einschließlich diesem). Schicken Sie jedem Modell eine günstige Anfrage von Apidog und zeichnen Sie die Header auf. Modelle mit demselben Namen, aber unterschiedlichen Snapshot-Versionen (z. B. gpt-5.5 vs. gpt-5.5-0901) können unterschiedliche Limits haben.

Zählen Streaming-Anfragen anders? Ja, für TPM. Eine Streaming-Anfrage reserviert Token im Voraus basierend auf max_tokens, sodass ein langer max_tokens-Wert Ihr TPM-Budget verbrauchen kann, selbst wenn die tatsächliche Vervollständigung kurz war. Senken Sie max_tokens auf die engste realistische Obergrenze. Das Streaming-Verhalten behandeln wir in wie man die ChatGPT API mit Apidog testet.

Kann ich meinen Apidog Ratenlimit-Test mit meinem Team teilen? Ja. Speichern Sie die Anfrage und das Testszenario in einem gemeinsamen Projekt. Jeder in Ihrem Arbeitsbereich kann denselben Burst mit seinem eigenen Schlüssel ausführen, indem er die Umgebungen wechselt. Das macht die Frage „Ist mein Schlüssel gedrosselt oder ihrer?“ zu einer 10-Sekunden-Frage.

Herunterladen