GPT-5.5 API nutzen: Eine Anleitung

Ashley Innocent

Ashley Innocent

24 April 2026

GPT-5.5 API nutzen: Eine Anleitung

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

GPT-5.5 wurde am 23. April 2026 eingeführt, und die Entwickler-Schlagzeile ist einfach: OpenAI hat das Modell am selben Tag in ChatGPT und Codex integriert und versprach die Responses- und Chat Completions-APIs „sehr bald“. Dieser Leitfaden deckt beide Seiten dieser Linie ab: wie man GPT-5.5 aufruft, sobald die Schlüssel funktionieren, und wie frühe Tester es heute über den Codex-Anmeldepfad nutzen.

Sie erhalten Endpunkt-Shapes, Authentifizierung, Python- und Node-Beispiele, die vollständige Parametertabelle, Preisberechnungen für den Denkmodus, Fehlerbehandlung und einen Test-Workflow in Apidog, der bei Iterationen Credits spart.

Button

Für eine Produktübersicht des Modells siehe Was ist GPT-5.5. Für einen reinen Free-Tier-Pfad siehe Wie man die GPT-5.5 API kostenlos nutzt.

TL;DR

Voraussetzungen

Bevor Sie die erste Anfrage absenden, stellen Sie vier Dinge bereit:

Exportieren Sie Ihren Schlüssel einmal:

export OPENAI_API_KEY="sk-proj-..."

Endpunkt und Authentifizierung

GPT-5.5 befindet sich auf denselben zwei Endpunkten wie der Rest der GPT-5-Familie.

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions

Die Responses API ist die neuere, tool-bewusste Oberfläche von OpenAI und der Ort, an dem Denkmodus, Websuche und Computernutzung sauber integriert werden. Chat Completions funktioniert immer noch und trägt die meisten Legacy-Integrationen.

Die Authentifizierung erfolgt über ein Bearer-Token. Jede Anfrage enthält einen JSON-Body mit der Modell-ID, dem Prompt- oder Nachrichten-Array und allen gewünschten Parametern.

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'

Wenn der Aufruf erfolgreich ist, erhalten Sie ein JSON-Objekt mit einem output-Array von Nachrichten und einem usage-Block, aufgeteilt in Input-, Output- und Reasoning-Token. Fehler geben den Standard-OpenAI-Umschlag mit einem code und einer menschenlesbaren message zurück; die Fehlertabelle am Ende dieses Leitfadens behandelt die Fehler, die Sie zuerst treffen werden.

Anfrageparameter

Jedes Feld im Body beeinflusst entweder Kosten oder Verhalten. Hier ist die vollständige Übersicht für gpt-5.5.

Parameter Typ Werte Anmerkungen
model string gpt-5.5, gpt-5.5-pro Erforderlich. Pro kostet 6× Input und 6× Output.
input / messages string oder array Prompt oder Chat-Array Erforderlich. input für Responses, messages für Chat Completions.
reasoning.effort string none, low, medium, high, xhigh Standard ist low. xhigh schaltet Denkmodus-Tiefe bei Token-Kosten frei.
max_output_tokens integer 1 – 128000 Harte Obergrenze für den Output, exklusive Reasoning-Token.
tools array Function, web_search, file_search, computer_use, code_interpreter Tool-Definitionen; das Modell wählt sie aus und verknüpft sie.
tool_choice string oder object auto, none, oder ein benanntes Tool Erzwingt den Aufruf eines bestimmten Tools, wenn Sie wissen, dass Sie es benötigen.
response_format object { "type": "json_schema", "schema": {...} } Strukturierte Ausgabe; strenger Modus ist jetzt Standard.
stream boolean true / false Server-Sent Events. Reasoning-Token kommen als separate Events an.
user string Freitext Wird zur Missbrauchserkennung verwendet; übergeben Sie eine gehashte Benutzer-ID.
metadata object Bis zu 16 Schlüssel-Wert-Paare Erscheint im OpenAI-Dashboard und in den Protokollen.
seed integer Beliebige int32 Weiche Determinismus; derselbe Seed mit demselben Prompt ist ähnlich, nicht identisch.
temperature number 0 – 2 Wird bei reasoning.effort >= medium ignoriert.

Die drei Felder, die die Kosten am stärksten beeinflussen, sind reasoning.effort, max_output_tokens und tools. Denkmodus-Läufe bei reasoning.effort: "high" oder "xhigh" können leicht das 3- bis 8-fache der Output-Token-Anzahl eines low-Laufs hinzufügen.

Python-Beispiel

Die SDK-Form für GPT-5.5 folgt der Responses API von 5.4; der einzige Unterschied ist die Modell-ID und der erweiterte reasoning.effort-Bereich.

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())

Zwei Dinge sind erwähnenswert:

Node-Beispiel

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);

Setzen Sie reasoning.effort auf high, wenn die Aufgabe eine Überprüfung erfordert und die Kosten eines übersehenen Problems größer sind als die Kosten für ein paar zusätzliche Cent an Reasoning-Token.

Denkmodus

GPT-5.5 Thinking ist keine andere Modell-ID; es ist das Standardmodell gpt-5.5, das mit reasoning.effort auf high oder xhigh läuft, gepaart mit einem längeren max_output_tokens-Budget. Die ChatGPT-Benutzeroberfläche von OpenAI bietet dies als Umschalter an; in der API steuern Sie es pro Anfrage.

Zwei Faustregeln:

Wenn Ihre Anfrage computer_use oder lange Websuchketten betrifft, lohnt sich der Denkmodus-Aufwand; der von OpenAI im Launch-Post zitierte Rückgang der Halluzinationen zeigt sich hauptsächlich in diesen Workflows.

Strukturierte Ausgabe

Strenge JSON-Ausgabe ist der Standard bei GPT-5.5. Übergeben Sie ein Schema, und das SDK weigert sich, fehlerhaftes JSON zurückzugeben.

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)

Für jede Pipeline, die nachfolgenden Code speist, sollten Sie immer ein Schema festlegen. Es kostet auf Token-Ebene nichts und eliminiert die Wiederholungsschleife, die Sie sonst um fehlerhafte Ausgaben herum schreiben würden.

Tool-Nutzung und Agenten

Die Responses API bietet fünf primäre Tool-Typen:

Die Verbesserung von GPT-5.5 gegenüber 5.4 liegt hier nicht in der Tool-Liste; es ist die Bereitschaft des Modells, sie ohne Aufsicht zu verketten. Bei Tests gegen die Reproduktions-Suite von The Decoder schloss GPT-5.5 11 % mehr mehrstufige Tool-Ketten ohne Benutzerintervention ab als 5.4 mit demselben Prompt.

Fehlerbehandlung und Wiederholungsversuche

Erwarten Sie vier Fehlercodes oft genug, um sie namentlich zu behandeln.

Code Bedeutung Wiederholen?
429 rate_limit_exceeded Pro-Minute- oder Pro-Tag-Limit erreicht. Ja, mit exponentiellem Backoff + Jitter.
400 context_length_exceeded Input + Output + Reasoning > 1 Mio. Token. Nein, den Input kürzen.
500 server_error Vorübergehend auf OpenAIs Seite. Ja, bis zu 3 Versuche.
403 policy_violation Sicherheitsablehnung. Nein, den Prompt umschreiben.

Reasoning-Token werden auf das Kontextfenster angerechnet. Ein Aufruf mit reasoning.effort: "xhigh" und einem 900 K-Token-Input wird bei 400 einen Kontextüberlauf erleiden, selbst wenn Ihre Benutzernachricht kurz ist.

Test-Workflow mit Apidog

GPT-5.5-Aufrufe sind teuer genug, dass Sie einen Schema-Bug nicht entdecken möchten, indem Sie den Prompt 20 Mal wiederholen. Der Workflow, der die wenigsten Token verschwendet:

  1. Erstellen Sie die Anfrage einmal in Apidog, speichern Sie sie als Sammlungs-Eintrag und kennzeichnen Sie die Umgebung (Dev-, Staging-, Prod-Schlüssel).
  2. Verwenden Sie den integrierten Mock-Server, um die letzte echte Antwort wiederzugeben, während Sie an Ihrem Downstream-Code iterieren.
  3. Wechseln Sie erst zum Live-Schlüssel, wenn das Schema stabil ist.

Apidog bietet auch eine Claude Code- und Cursor-Integration, sodass dieselbe Sammlung von jedem Editor-Level-Agenten, den Sie verwenden, erreichbar ist. Sehen Sie sich unsere Apidog in VS Code-Anleitung und den Apidog vs. Postman-Vergleich für die vollständige Einrichtung an.

GPT-5.5 aufrufen, bevor die API allgemein verfügbar ist

Bis OpenAI die Einführung der Responses API abgeschlossen hat, ist der praktische Weg für Entwickler, die GPT-5.5 selbst testen möchten, der Codex-Anmeldeprozess. Der kostenlose Codex-Leitfaden erklärt die Installation der CLI, die Authentifizierung mit einem ChatGPT-Konto und die Modellauswahl.

FAQ

Gibt es ein gpt-5.5-mini?Nicht zum Start. OpenAI behielt gpt-5.4-mini als kostenoptimierte SKU bei.

Was ist das Kontextfenster?1 Mio. Token in der API. 400 K innerhalb der Codex CLI. Beide beinhalten Reasoning-Token.

Muss ich meinen GPT-5.4-Code umschreiben?Nein. Tauschen Sie die Modell-ID aus, erweitern Sie max_output_tokens, wenn Sie Denkmodus-Ausgaben wünschen, und passen Sie reasoning.effort für Ihre Arbeitslast neu an.

Wie reduziere ich die Kosten?Drei Hebel: Batch (50 % Rabatt), Flex (50 % Rabatt, langsamere Warteschlange) und strenge Schemata zur Eliminierung von Wiederholungsschleifen. Die vollständige Kostenberechnung finden Sie in der GPT-5.5 Preisübersicht.

Wo sehe ich die GA-Ankündigung der API?Die OpenAI Developer Community und die OpenAI API Pricing Page sind die schnellsten öffentlichen Signale.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen