GPT-5.5 API nutzen: Eine Anleitung

GPT-5.5 wurde am 23. April 2026 eingeführt, und die Entwickler-Schlagzeile ist einfach: OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und versprach die Responses- und Chat Completions-APIs „sehr bald“. Dieser Leitfaden deckt beide Seiten dieser Linie ab: wie man GPT-5.5 aufruft, sobald die Schlüssel funktionieren, und wie frühe Tester es heute über den Codex-Anmeldepfad nutzen.

Sie erhalten Endpunkt-Shapes, Authentifizierung, Python- und Node-Beispiele, die vollständige Parametertabelle, Preisberechnungen für den Denkmodus, Fehlerbehandlung und einen Test-Workflow in Apidog, der bei Iterationen Credits spart.

Button

Für eine Produktübersicht des Modells siehe Was ist GPT-5.5. Für einen reinen Free-Tier-Pfad siehe Wie man die GPT-5.5 API kostenlos nutzt.

TL;DR

GPT-5.5 wird auf den Endpunkten Responses und Chat Completions ausgeliefert; die Modell-ID ist gpt-5.5. Die Pro-Version ist gpt-5.5-pro.
Die API-Preise betragen 5 $ / M Input und 30 $ / M Output; Pro kostet 30 $ / M Input und 180 $ / M Output.
Das Kontextfenster beträgt 1 Mio. Token in der API und 400 K innerhalb der Codex CLI.
Bis zur vollständigen allgemeinen API-Einführung können Entwickler GPT-5.5 über Codex mit einer ChatGPT-Anmeldung nutzen.
Verwenden Sie Apidog, um die Sammlung vorab zu erstellen; die Anforderungsstruktur entspricht GPT-5.4 mit einer neuen Modell-ID und einem erweiterten reasoning-Block.

Voraussetzungen

Bevor Sie die erste Anfrage absenden, stellen Sie vier Dinge bereit:

Ein OpenAI-Entwicklerkonto mit einer abrechenbaren Stufe. Ein ChatGPT Plus- oder Pro-Abonnement ist von der API-Abrechnung getrennt; Sie benötigen beides, wenn Sie UI-Zugriff und programmatischen Zugriff wünschen.
Ein API-Schlüssel mit Zugriff auf die GPT-5-Modellfamilie. Projektbezogene Schlüssel werden gegenüber Benutzer-Schlüsseln für jede Produktionsarbeitslast dringend empfohlen.
Die SDK-Version, die gpt-5.5 unterstützt. Für Python ist das openai>=2.1.0; für Node ist es openai@5.1.0 oder neuer.
Ein API-Client, der Anfragen wiederholen kann, ohne das Terminal zu überfluten. curl funktioniert für einen Aufruf; danach wechseln Sie zu Apidog oder Ähnlichem.

Exportieren Sie Ihren Schlüssel einmal:

export OPENAI_API_KEY="sk-proj-..."

Endpunkt und Authentifizierung

GPT-5.5 befindet sich auf denselben zwei Endpunkten wie der Rest der GPT-5-Familie.

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions

Die Responses API ist die neuere, tool-bewusste Oberfläche von OpenAI und der Ort, an dem Denkmodus, Websuche und Computernutzung sauber integriert werden. Chat Completions funktioniert immer noch und trägt die meisten Legacy-Integrationen.

Die Authentifizierung erfolgt über ein Bearer-Token. Jede Anfrage enthält einen JSON-Body mit der Modell-ID, dem Prompt- oder Nachrichten-Array und allen gewünschten Parametern.

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'

Wenn der Aufruf erfolgreich ist, erhalten Sie ein JSON-Objekt mit einem output-Array von Nachrichten und einem usage-Block, aufgeteilt in Input-, Output- und Reasoning-Token. Fehler geben den Standard-OpenAI-Umschlag mit einem code und einer menschenlesbaren message zurück; die Fehlertabelle am Ende dieses Leitfadens behandelt die Fehler, die Sie zuerst treffen werden.

Anfrageparameter

Jedes Feld im Body beeinflusst entweder Kosten oder Verhalten. Hier ist die vollständige Übersicht für gpt-5.5.

Parameter	Typ	Werte	Anmerkungen
`model`	string	`gpt-5.5`, `gpt-5.5-pro`	Erforderlich. Pro kostet 6× Input und 6× Output.
`input` / `messages`	string oder array	Prompt oder Chat-Array	Erforderlich. `input` für Responses, `messages` für Chat Completions.
`reasoning.effort`	string	`none`, `low`, `medium`, `high`, `xhigh`	Standard ist `low`. `xhigh` schaltet Denkmodus-Tiefe bei Token-Kosten frei.
`max_output_tokens`	integer	1 – 128000	Harte Obergrenze für den Output, exklusive Reasoning-Token.
`tools`	array	Function, web_search, file_search, computer_use, code_interpreter	Tool-Definitionen; das Modell wählt sie aus und verknüpft sie.
`tool_choice`	string oder object	`auto`, `none`, oder ein benanntes Tool	Erzwingt den Aufruf eines bestimmten Tools, wenn Sie wissen, dass Sie es benötigen.
`response_format`	object	`{ "type": "json_schema", "schema": {...} }`	Strukturierte Ausgabe; strenger Modus ist jetzt Standard.
`stream`	boolean	true / false	Server-Sent Events. Reasoning-Token kommen als separate Events an.
`user`	string	Freitext	Wird zur Missbrauchserkennung verwendet; übergeben Sie eine gehashte Benutzer-ID.
`metadata`	object	Bis zu 16 Schlüssel-Wert-Paare	Erscheint im OpenAI-Dashboard und in den Protokollen.
`seed`	integer	Beliebige int32	Weiche Determinismus; derselbe Seed mit demselben Prompt ist ähnlich, nicht identisch.
`temperature`	number	0 – 2	Wird bei `reasoning.effort >= medium` ignoriert.

Die drei Felder, die die Kosten am stärksten beeinflussen, sind reasoning.effort, max_output_tokens und tools. Denkmodus-Läufe bei reasoning.effort: "high" oder "xhigh" können leicht das 3- bis 8-fache der Output-Token-Anzahl eines low-Laufs hinzufügen.

Python-Beispiel

Die SDK-Form für GPT-5.5 folgt der Responses API von 5.4; der einzige Unterschied ist die Modell-ID und der erweiterte reasoning.effort-Bereich.

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())

Zwei Dinge sind erwähnenswert:

response.output_text glättet das output-Array für Sie. Wenn Sie die strukturierten Ereignisse (Tool-Aufrufe, Reasoning-Traces, Zitate) benötigen, lesen Sie response.output direkt.
usage gibt jetzt input_tokens, output_tokens und reasoning_tokens als separate Zähler zurück. Rechnen Sie alle drei ab.

Node-Beispiel

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);

Setzen Sie reasoning.effort auf high, wenn die Aufgabe eine Überprüfung erfordert und die Kosten eines übersehenen Problems größer sind als die Kosten für ein paar zusätzliche Cent an Reasoning-Token.

Denkmodus

GPT-5.5 Thinking ist keine andere Modell-ID; es ist das Standardmodell gpt-5.5, das mit reasoning.effort auf high oder xhigh läuft, gepaart mit einem längeren max_output_tokens-Budget. Die ChatGPT-Benutzeroberfläche von OpenAI bietet dies als Umschalter an; in der API steuern Sie es pro Anfrage.

Zwei Faustregeln:

Verwenden Sie medium als Standard. Es deckt die meisten Agentenarbeiten, Multi-Datei-Debugging und Dokumentengenerierung ab. Die Kosten bleiben im Vergleich zu GPT-5.4 nahezu gleich.
Reservieren Sie high und xhigh für Forschung, Korrektheits-kritische Überprüfungen und lange Tool-Ketten. Planen Sie das 3- bis 8-fache der Output-Token-Anzahl ein und messen Sie die Antwortzeit, anstatt davon auszugehen, dass sie in weniger als 30 Sekunden zurückkommt.

Wenn Ihre Anfrage computer_use oder lange Websuchketten betrifft, lohnt sich der Denkmodus-Aufwand; der von OpenAI im Launch-Post zitierte Rückgang der Halluzinationen zeigt sich hauptsächlich in diesen Workflows.

Strukturierte Ausgabe

Strenge JSON-Ausgabe ist der Standard bei GPT-5.5. Übergeben Sie ein Schema, und das SDK weigert sich, fehlerhaftes JSON zurückzugeben.

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)

Für jede Pipeline, die nachfolgenden Code speist, sollten Sie immer ein Schema festlegen. Es kostet auf Token-Ebene nichts und eliminiert die Wiederholungsschleife, die Sie sonst um fehlerhafte Ausgaben herum schreiben würden.

Tool-Nutzung und Agenten

Die Responses API bietet fünf primäre Tool-Typen:

web_search – Echtzeit-Suche, jetzt mit Quellenangaben pro Ergebnis.
file_search – Vektor-Suche über hochgeladene Dateien.
code_interpreter – sandboxed Python.
computer_use – Maus, Tastatur und Browser über den Operator-Stack.
function – Ihre eigenen Callbacks.

Die Verbesserung von GPT-5.5 gegenüber 5.4 liegt hier nicht in der Tool-Liste; es ist die Bereitschaft des Modells, sie ohne Aufsicht zu verketten. Bei Tests gegen die Reproduktions-Suite von The Decoder schloss GPT-5.5 11 % mehr mehrstufige Tool-Ketten ohne Benutzerintervention ab als 5.4 mit demselben Prompt.

Fehlerbehandlung und Wiederholungsversuche

Erwarten Sie vier Fehlercodes oft genug, um sie namentlich zu behandeln.

Code	Bedeutung	Wiederholen?
`429 rate_limit_exceeded`	Pro-Minute- oder Pro-Tag-Limit erreicht.	Ja, mit exponentiellem Backoff + Jitter.
`400 context_length_exceeded`	Input + Output + Reasoning > 1 Mio. Token.	Nein, den Input kürzen.
`500 server_error`	Vorübergehend auf OpenAIs Seite.	Ja, bis zu 3 Versuche.
`403 policy_violation`	Sicherheitsablehnung.	Nein, den Prompt umschreiben.

Reasoning-Token werden auf das Kontextfenster angerechnet. Ein Aufruf mit reasoning.effort: "xhigh" und einem 900 K-Token-Input wird bei 400 einen Kontextüberlauf erleiden, selbst wenn Ihre Benutzernachricht kurz ist.

Test-Workflow mit Apidog

GPT-5.5-Aufrufe sind teuer genug, dass Sie einen Schema-Bug nicht entdecken möchten, indem Sie den Prompt 20 Mal wiederholen. Der Workflow, der die wenigsten Token verschwendet:

Erstellen Sie die Anfrage einmal in Apidog, speichern Sie sie als Sammlungs-Eintrag und kennzeichnen Sie die Umgebung (Dev-, Staging-, Prod-Schlüssel).
Verwenden Sie den integrierten Mock-Server, um die letzte echte Antwort wiederzugeben, während Sie an Ihrem Downstream-Code iterieren.
Wechseln Sie erst zum Live-Schlüssel, wenn das Schema stabil ist.

Apidog bietet auch eine Claude Code- und Cursor-Integration, sodass dieselbe Sammlung von jedem Editor-Level-Agenten, den Sie verwenden, erreichbar ist. Sehen Sie sich unsere Apidog in VS Code-Anleitung und den Apidog vs. Postman-Vergleich für die vollständige Einrichtung an.

GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist

Bis OpenAI die Einführung der Responses API abgeschlossen hat, ist der praktische Weg für Entwickler, die GPT-5.5 selbst testen möchten, der Codex-Anmeldeprozess. Der kostenlose Codex-Leitfaden erklärt die Installation der CLI, die Authentifizierung mit einem ChatGPT-Konto und die Modellauswahl.

FAQ

Gibt es ein gpt-5.5-mini?Nicht zum Start. OpenAI behielt gpt-5.4-mini als kostenoptimierte SKU bei.

Was ist das Kontextfenster?1 Mio. Token in der API. 400 K innerhalb der Codex CLI. Beide beinhalten Reasoning-Token.

Muss ich meinen GPT-5.4-Code umschreiben?Nein. Tauschen Sie die Modell-ID aus, erweitern Sie max_output_tokens, wenn Sie Denkmodus-Ausgaben wünschen, und passen Sie reasoning.effort für Ihre Arbeitslast neu an.

Wie reduziere ich die Kosten?Drei Hebel: Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Warteschlange) und strenge Schemata zur Eliminierung von Wiederholungsschleifen. Die vollständige Kostenberechnung finden Sie in der GPT-5.5 Preisübersicht.

Wo sehe ich die GA-Ankündigung der API?Die OpenAI Developer Community und die OpenAI API Pricing Page sind die schnellsten öffentlichen Signale.