GPT-5.5 wurde am 23. April 2026 eingeführt, und die Entwickler-Schlagzeile ist einfach: OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und versprach die Responses- und Chat Completions-APIs „sehr bald“. Dieser Leitfaden deckt beide Seiten dieser Linie ab: wie man GPT-5.5 aufruft, sobald die Schlüssel funktionieren, und wie frühe Tester es heute über den Codex-Anmeldepfad nutzen.
Sie erhalten Endpunkt-Shapes, Authentifizierung, Python- und Node-Beispiele, die vollständige Parametertabelle, Preisberechnungen für den Denkmodus, Fehlerbehandlung und einen Test-Workflow in Apidog, der bei Iterationen Credits spart.
Für eine Produktübersicht des Modells siehe Was ist GPT-5.5. Für einen reinen Free-Tier-Pfad siehe Wie man die GPT-5.5 API kostenlos nutzt.
TL;DR
- GPT-5.5 wird auf den Endpunkten Responses und Chat Completions ausgeliefert; die Modell-ID ist
gpt-5.5. Die Pro-Version istgpt-5.5-pro. - Die API-Preise betragen 5 $ / M Input und 30 $ / M Output; Pro kostet 30 $ / M Input und 180 $ / M Output.
- Das Kontextfenster beträgt 1 Mio. Token in der API und 400 K innerhalb der Codex CLI.
- Bis zur vollständigen allgemeinen API-Einführung können Entwickler GPT-5.5 über Codex mit einer ChatGPT-Anmeldung nutzen.
- Verwenden Sie Apidog, um die Sammlung vorab zu erstellen; die Anforderungsstruktur entspricht GPT-5.4 mit einer neuen Modell-ID und einem erweiterten
reasoning-Block.
Voraussetzungen
Bevor Sie die erste Anfrage absenden, stellen Sie vier Dinge bereit:
- Ein OpenAI-Entwicklerkonto mit einer abrechenbaren Stufe. Ein ChatGPT Plus- oder Pro-Abonnement ist von der API-Abrechnung getrennt; Sie benötigen beides, wenn Sie UI-Zugriff und programmatischen Zugriff wünschen.
- Ein API-Schlüssel mit Zugriff auf die GPT-5-Modellfamilie. Projektbezogene Schlüssel werden gegenüber Benutzer-Schlüsseln für jede Produktionsarbeitslast dringend empfohlen.
- Die SDK-Version, die
gpt-5.5unterstützt. Für Python ist dasopenai>=2.1.0; für Node ist esopenai@5.1.0oder neuer. - Ein API-Client, der Anfragen wiederholen kann, ohne das Terminal zu überfluten. curl funktioniert für einen Aufruf; danach wechseln Sie zu Apidog oder Ähnlichem.
Exportieren Sie Ihren Schlüssel einmal:
export OPENAI_API_KEY="sk-proj-..."
Endpunkt und Authentifizierung
GPT-5.5 befindet sich auf denselben zwei Endpunkten wie der Rest der GPT-5-Familie.
POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
Die Responses API ist die neuere, tool-bewusste Oberfläche von OpenAI und der Ort, an dem Denkmodus, Websuche und Computernutzung sauber integriert werden. Chat Completions funktioniert immer noch und trägt die meisten Legacy-Integrationen.
Die Authentifizierung erfolgt über ein Bearer-Token. Jede Anfrage enthält einen JSON-Body mit der Modell-ID, dem Prompt- oder Nachrichten-Array und allen gewünschten Parametern.
curl https://api.openai.com/v1/responses \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-5.5",
"input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
"reasoning": { "effort": "medium" }
}'
Wenn der Aufruf erfolgreich ist, erhalten Sie ein JSON-Objekt mit einem output-Array von Nachrichten und einem usage-Block, aufgeteilt in Input-, Output- und Reasoning-Token. Fehler geben den Standard-OpenAI-Umschlag mit einem code und einer menschenlesbaren message zurück; die Fehlertabelle am Ende dieses Leitfadens behandelt die Fehler, die Sie zuerst treffen werden.
Anfrageparameter
Jedes Feld im Body beeinflusst entweder Kosten oder Verhalten. Hier ist die vollständige Übersicht für gpt-5.5.
| Parameter | Typ | Werte | Anmerkungen |
|---|---|---|---|
model |
string | gpt-5.5, gpt-5.5-pro |
Erforderlich. Pro kostet 6× Input und 6× Output. |
input / messages |
string oder array | Prompt oder Chat-Array | Erforderlich. input für Responses, messages für Chat Completions. |
reasoning.effort |
string | none, low, medium, high, xhigh |
Standard ist low. xhigh schaltet Denkmodus-Tiefe bei Token-Kosten frei. |
max_output_tokens |
integer | 1 – 128000 | Harte Obergrenze für den Output, exklusive Reasoning-Token. |
tools |
array | Function, web_search, file_search, computer_use, code_interpreter | Tool-Definitionen; das Modell wählt sie aus und verknüpft sie. |
tool_choice |
string oder object | auto, none, oder ein benanntes Tool |
Erzwingt den Aufruf eines bestimmten Tools, wenn Sie wissen, dass Sie es benötigen. |
response_format |
object | { "type": "json_schema", "schema": {...} } |
Strukturierte Ausgabe; strenger Modus ist jetzt Standard. |
stream |
boolean | true / false | Server-Sent Events. Reasoning-Token kommen als separate Events an. |
user |
string | Freitext | Wird zur Missbrauchserkennung verwendet; übergeben Sie eine gehashte Benutzer-ID. |
metadata |
object | Bis zu 16 Schlüssel-Wert-Paare | Erscheint im OpenAI-Dashboard und in den Protokollen. |
seed |
integer | Beliebige int32 | Weiche Determinismus; derselbe Seed mit demselben Prompt ist ähnlich, nicht identisch. |
temperature |
number | 0 – 2 | Wird bei reasoning.effort >= medium ignoriert. |
Die drei Felder, die die Kosten am stärksten beeinflussen, sind reasoning.effort, max_output_tokens und tools. Denkmodus-Läufe bei reasoning.effort: "high" oder "xhigh" können leicht das 3- bis 8-fache der Output-Token-Anzahl eines low-Laufs hinzufügen.
Python-Beispiel
Die SDK-Form für GPT-5.5 folgt der Responses API von 5.4; der einzige Unterschied ist die Modell-ID und der erweiterte reasoning.effort-Bereich.
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
input=[
{
"role": "system",
"content": "You are a senior Go engineer. Answer in terse, runnable code.",
},
{
"role": "user",
"content": (
"Write a worker pool with bounded concurrency and a context "
"cancellation path. No third-party deps."
),
},
],
reasoning={"effort": "medium"},
max_output_tokens=4000,
)
print(response.output_text)
print(response.usage.model_dump())
Zwei Dinge sind erwähnenswert:
response.output_textglättet dasoutput-Array für Sie. Wenn Sie die strukturierten Ereignisse (Tool-Aufrufe, Reasoning-Traces, Zitate) benötigen, lesen Sieresponse.outputdirekt.usagegibt jetztinput_tokens,output_tokensundreasoning_tokensals separate Zähler zurück. Rechnen Sie alle drei ab.
Node-Beispiel
import OpenAI from "openai";
const client = new OpenAI();
const response = await client.responses.create({
model: "gpt-5.5",
input: [
{ role: "system", content: "You are a careful reviewer." },
{
role: "user",
content:
"Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
},
],
reasoning: { effort: "high" },
tools: [{ type: "file_search" }],
max_output_tokens: 6000,
});
console.log(response.output_text);
console.log(response.usage);
Setzen Sie reasoning.effort auf high, wenn die Aufgabe eine Überprüfung erfordert und die Kosten eines übersehenen Problems größer sind als die Kosten für ein paar zusätzliche Cent an Reasoning-Token.
Denkmodus
GPT-5.5 Thinking ist keine andere Modell-ID; es ist das Standardmodell gpt-5.5, das mit reasoning.effort auf high oder xhigh läuft, gepaart mit einem längeren max_output_tokens-Budget. Die ChatGPT-Benutzeroberfläche von OpenAI bietet dies als Umschalter an; in der API steuern Sie es pro Anfrage.
Zwei Faustregeln:
- Verwenden Sie
mediumals Standard. Es deckt die meisten Agentenarbeiten, Multi-Datei-Debugging und Dokumentengenerierung ab. Die Kosten bleiben im Vergleich zu GPT-5.4 nahezu gleich. - Reservieren Sie
highundxhighfür Forschung, Korrektheits-kritische Überprüfungen und lange Tool-Ketten. Planen Sie das 3- bis 8-fache der Output-Token-Anzahl ein und messen Sie die Antwortzeit, anstatt davon auszugehen, dass sie in weniger als 30 Sekunden zurückkommt.
Wenn Ihre Anfrage computer_use oder lange Websuchketten betrifft, lohnt sich der Denkmodus-Aufwand; der von OpenAI im Launch-Post zitierte Rückgang der Halluzinationen zeigt sich hauptsächlich in diesen Workflows.
Strukturierte Ausgabe
Strenge JSON-Ausgabe ist der Standard bei GPT-5.5. Übergeben Sie ein Schema, und das SDK weigert sich, fehlerhaftes JSON zurückzugeben.
response = client.responses.create(
model="gpt-5.5",
input="Extract the title, speaker, and start time from this transcript chunk.",
response_format={
"type": "json_schema",
"json_schema": {
"name": "session_extract",
"strict": True,
"schema": {
"type": "object",
"required": ["title", "speaker", "start_time"],
"properties": {
"title": {"type": "string"},
"speaker": {"type": "string"},
"start_time": {"type": "string", "format": "date-time"},
},
},
},
},
)
Für jede Pipeline, die nachfolgenden Code speist, sollten Sie immer ein Schema festlegen. Es kostet auf Token-Ebene nichts und eliminiert die Wiederholungsschleife, die Sie sonst um fehlerhafte Ausgaben herum schreiben würden.
Tool-Nutzung und Agenten
Die Responses API bietet fünf primäre Tool-Typen:
web_search– Echtzeit-Suche, jetzt mit Quellenangaben pro Ergebnis.file_search– Vektor-Suche über hochgeladene Dateien.code_interpreter– sandboxed Python.computer_use– Maus, Tastatur und Browser über den Operator-Stack.function– Ihre eigenen Callbacks.
Die Verbesserung von GPT-5.5 gegenüber 5.4 liegt hier nicht in der Tool-Liste; es ist die Bereitschaft des Modells, sie ohne Aufsicht zu verketten. Bei Tests gegen die Reproduktions-Suite von The Decoder schloss GPT-5.5 11 % mehr mehrstufige Tool-Ketten ohne Benutzerintervention ab als 5.4 mit demselben Prompt.
Fehlerbehandlung und Wiederholungsversuche
Erwarten Sie vier Fehlercodes oft genug, um sie namentlich zu behandeln.
| Code | Bedeutung | Wiederholen? |
|---|---|---|
429 rate_limit_exceeded |
Pro-Minute- oder Pro-Tag-Limit erreicht. | Ja, mit exponentiellem Backoff + Jitter. |
400 context_length_exceeded |
Input + Output + Reasoning > 1 Mio. Token. | Nein, den Input kürzen. |
500 server_error |
Vorübergehend auf OpenAIs Seite. | Ja, bis zu 3 Versuche. |
403 policy_violation |
Sicherheitsablehnung. | Nein, den Prompt umschreiben. |
Reasoning-Token werden auf das Kontextfenster angerechnet. Ein Aufruf mit reasoning.effort: "xhigh" und einem 900 K-Token-Input wird bei 400 einen Kontextüberlauf erleiden, selbst wenn Ihre Benutzernachricht kurz ist.
Test-Workflow mit Apidog
GPT-5.5-Aufrufe sind teuer genug, dass Sie einen Schema-Bug nicht entdecken möchten, indem Sie den Prompt 20 Mal wiederholen. Der Workflow, der die wenigsten Token verschwendet:
- Erstellen Sie die Anfrage einmal in Apidog, speichern Sie sie als Sammlungs-Eintrag und kennzeichnen Sie die Umgebung (Dev-, Staging-, Prod-Schlüssel).
- Verwenden Sie den integrierten Mock-Server, um die letzte echte Antwort wiederzugeben, während Sie an Ihrem Downstream-Code iterieren.
- Wechseln Sie erst zum Live-Schlüssel, wenn das Schema stabil ist.
Apidog bietet auch eine Claude Code- und Cursor-Integration, sodass dieselbe Sammlung von jedem Editor-Level-Agenten, den Sie verwenden, erreichbar ist. Sehen Sie sich unsere Apidog in VS Code-Anleitung und den Apidog vs. Postman-Vergleich für die vollständige Einrichtung an.
GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist
Bis OpenAI die Einführung der Responses API abgeschlossen hat, ist der praktische Weg für Entwickler, die GPT-5.5 selbst testen möchten, der Codex-Anmeldeprozess. Der kostenlose Codex-Leitfaden erklärt die Installation der CLI, die Authentifizierung mit einem ChatGPT-Konto und die Modellauswahl.
FAQ
Gibt es ein gpt-5.5-mini?Nicht zum Start. OpenAI behielt gpt-5.4-mini als kostenoptimierte SKU bei.
Was ist das Kontextfenster?1 Mio. Token in der API. 400 K innerhalb der Codex CLI. Beide beinhalten Reasoning-Token.
Muss ich meinen GPT-5.4-Code umschreiben?Nein. Tauschen Sie die Modell-ID aus, erweitern Sie max_output_tokens, wenn Sie Denkmodus-Ausgaben wünschen, und passen Sie reasoning.effort für Ihre Arbeitslast neu an.
Wie reduziere ich die Kosten?Drei Hebel: Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Warteschlange) und strenge Schemata zur Eliminierung von Wiederholungsschleifen. Die vollständige Kostenberechnung finden Sie in der GPT-5.5 Preisübersicht.
Wo sehe ich die GA-Ankündigung der API?Die OpenAI Developer Community und die OpenAI API Pricing Page sind die schnellsten öffentlichen Signale.
