ChatGPT Bilder 2.0: Die Neuerungen

OpenAI hat ChatGPT Images 2.0 am 21. April 2026 veröffentlicht, angetrieben von einem neuen Modell namens gpt-image-2. Es liest Ihren Prompt, plant das Layout, rendert scharfen mehrsprachigen Text und kann bis zu zehn Bilder auf einmal erzeugen; alles mit bis zu 2.000 Pixeln Breite und in Seitenverhältnissen, die das alte Bildmodell nie unterstützte.

Für Entwickler ist die Schlagzeile nicht die Aktualisierung der ChatGPT-Benutzeroberfläche. Es ist vielmehr, dass gpt-image-2 über die OpenAI API mit einem „Denk“-Modus, der Argumentation berücksichtigt, einer Preisgestaltung pro Token und demselben Endpunktmuster verfügbar ist, das Sie bereits in der Produktion verwenden.

Dieser Leitfaden behandelt, was sich geändert hat, was die API kostet, wie man sie End-to-End aufruft und wie man sie mit Apidog testet, ohne Wegwerfskripte schreiben zu müssen. Wenn Sie frühere Bild-APIs evaluiert und sich abgewendet haben, weil der Text verzerrt herauskam oder die Auflösung bei 1024 begrenzt war, beginnen Sie hier.

Schaltfläche

Was ist gpt-image-2?

gpt-image-2 ist die Modell-ID für OpenAIs Bildgenerator der zweiten Generation, der zusammen mit dem ChatGPT Images 2.0 Produkt am 21. April 2026 veröffentlicht wurde. Es ersetzt die frühere gpt-image-1-Familie auf der API-Seite und ermöglicht die Bilderstellung innerhalb von ChatGPT über Web und Mobilgeräte hinweg.

Drei Dinge machen es einen erneuten Blick wert, wenn Sie die Bilderzeugung von OpenAI zuletzt 2024 oder 2025 getestet haben:

Lesbarer Text über verschiedene Schriftarten hinweg. Kleine UI-Beschriftungen, Logos, Bildunterschriften und nicht-lateinische Schriften (Japanisch, Koreanisch, Chinesisch, Hindi, Bengali) werden jetzt sauber genug gerendert, um ohne manuelles Nachzeichnen veröffentlicht zu werden.
Argumentation vor Pixeln. Ein thinking-Modus wendet zusätzliche Rechenleistung für die Planung der Komposition, das Zählen von Elementen und die Überprüfung von Einschränkungen vor dem Rendern auf. OpenAI beschreibt es so, dass das Modell über die Aufgabenstellung „nachdenkt“; in der Praxis reduziert es die Anzahl der Neuversuch-Prompts, die Sie für falsche Objektzählungen oder falsch beschriftete Diagramme verbrauchen.
Höhere Auflösung, breitere Leinwand. Bis zu 2.000 px an der langen Kante und extreme Seitenverhältnisse wie 3:1 oder 1:3, mit denen Sie Banner, Folien-Cover und vertikale Kurzvideos ohne Hochskalierungsschritt generieren können.

OpenAIs eigene Beschreibung positioniert dies als Sprung vom „kreativen Spielzeug“ zum „visuellen Workflow-Tool“; Magazinlayouts, Infografiken, Folienvorlagen, sogar Manga-Panels. .

Was hat sich gegenüber gpt-image-1 geändert?

Wenn Sie gegen den vorherigen OpenAI Bild-Endpunkt entwickelt haben, ist hier der Unterschied, der auf Code-Ebene wichtig ist.

Fähigkeit	gpt-image-1	gpt-image-2
Max. Auflösung	1024 px	2.000 px an der langen Kante
Seitenverhältnisse	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Bilder pro Anfrage	1	Bis zu 10, mit Stilkonsistenz
Textdarstellung	Nur Englisch, oft verfälscht	Mehrsprachig, einschließlich CJK- und indischer Schriften
Denkmodus	Nein	Ja (`thinking`-Flag)
Websuche während der Generierung	Nein	Ja, im Denkmodus

Der Batch-Modus ist die unscheinbarste, aber nützlichste Änderung. Ein einzelner Prompt kann zehn Variationen zurückgeben, die Komposition und Farbpalette teilen, so wie ein Designer iteriert und ein Produktteam konsistente Hero-Bilder über eine Reihe von Seiten hinweg generiert.

Verfügbarkeit und Preise

Die Einführung erfolgt gestaffelt.

Nutzer von ChatGPT Free erhalten das Standardmodell gpt-image-2.
Abonnenten von ChatGPT Plus, Pro und Business erhalten den Denkmodus, längere Argumentationsläufe und die Websuche innerhalb der Generierung.
API-Entwickler erhalten beide Modi über die gpt-image-2 Modell-ID. Die Verfügbarkeit wurde nach dem ChatGPT-Rollout gestaffelt.

Die Preise, gemäß der OpenAI API-Preisseite, sind tokenisiert: 5 $ pro Million Eingabe-Text-Tokens, 10 $ pro Million Ausgabe-Text-Tokens, 8 $ pro Million Eingabe-Bild-Tokens und 30 $ pro Million Ausgabe-Bild-Tokens. Bei einem Standard-Rendering in hoher Qualität von 1024 × 1024 beträgt dies etwa 0,21 $ pro Bild; das sind ungefähr 60 Prozent mehr als bei der vorherigen Generation, was die Kosten für die größere Leinwand und den Argumentationsschritt darstellt.

Wichtig: Der Denkmodus wird nach den zusätzlichen Argumentations-Tokens abgerechnet, sodass ein Diagramm mit einer strengen Layout-Anweisung mehr kostet als ein lockerer Illustrations-Prompt. Planen Sie dies ein, anstatt eine pauschale Gebühr pro Bild anzunehmen.

Aufruf der API

Der Endpunkt folgt dem gleichen images/generations-Muster wie das vorherige Modell. Eine minimale Anfrage sieht so aus:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Um den Argumentationspfad zu aktivieren, übergeben Sie den thinking-Parameter:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

Die Antwort gibt base64-Bilddaten oder URLs zurück, abhängig von Ihrem response_format; das Schema ist gegenüber gpt-image-1 unverändert, sodass bestehende SDK-Wrapper nach einem Modell-ID-Tausch weiterhin funktionieren.

Eine Python-Version, die das offizielle SDK verwendet:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() in practice

Zwei praktische Hinweise aus den Tests:

Der Denkmodus hat drei Stufen (low, medium, high), die Latenz gegen Layoutgenauigkeit tauschen. Für Diagramme, Tabellen und jedes Bild, das eine Zahl korrekt darstellen muss, ist medium der nützliche Standardwert.
Die Batch-Ausgabe (n > 1) bewahrt die Stilkohärenz innerhalb eines Aufrufs, verliert jedoch die Kohärenz über separate Aufrufe hinweg. Wenn Sie einen passenden Satz von zehn benötigen, fordern Sie zehn in einer Anfrage an.

gpt-image-2 mit Apidog testen

Die Iteration an einem Bildmodell über die Kommandozeile ist mühsam; Sie können Ergebnisse nicht vorschauen, Prompts austauschen oder versionieren. Ein dedizierter API-Client ist das richtige Werkzeug, und wenn Sie bereits Postman oder ein Terminal-REST-Tool verwenden, sollten Sie eine speziell entwickelte Alternative in Betracht ziehen, die Bildantworten nativ verarbeitet.

Apidog behandelt den OpenAI-Bild-Endpunkt wie eine erstklassige Anfrage. Sie importieren die OpenAI OpenAPI-Spezifikation, setzen OPENAI_API_KEY als Umgebungsvariable, fügen Ihren Prompt in den Body ein und klicken auf Senden. Bildantworten werden inline, als base64 oder URL gerendert, und Sie können die Anfrage in Varianten aufteilen, um Seitenverhältnisse, Qualitätsstufen und Denkmodi nebeneinander zu vergleichen.

Erstellen Sie eine gpt-image-2-Anfrage in einer Apidog-Sammlung.
Speichern Sie zwei Umgebungen: eine mit thinking: "off", eine mit thinking: "medium".
Führen Sie den gleichen Prompt durch beide, vergleichen Sie die Ausgaben und behalten Sie den Gewinner in Ihrer Prompt-Bibliothek.
Verzweigen Sie die Sammlung für jeden Asset-Typ (Banner, Folien-Cover, Infografik), damit jeder seine eigene abgestimmte Parametersammlung hat.

Sie können den Aufruf auch verketten: Generieren Sie das Bild und veröffentlichen Sie dann die URL an Ihrem CDN-Upload-Endpunkt innerhalb desselben Apidog-Testlaufs. Das ist der Teil, den Curl-Skripte nicht gut beherrschen.

Wenn Sie Bildgenerierungs-Experimente in einem generischen HTTP-Client durchgeführt haben, zeigt sich hier der Wert einer echten API-Plattform. Laden Sie Apidog herunter und verbinden Sie es mit Ihrem OpenAI-Schlüssel; die Einrichtung dauert weniger als fünf Minuten.

Wo gpt-image-2 noch Schwierigkeiten hat

Die Ankündigung ist stark, aber es gibt ehrliche Grenzen.

Fotorealistische Gesichter bei Nahaufnahmen wirken immer noch ungenau, besonders bei bekannten Persönlichkeiten. OpenAIs Identitätsschutz lehnt viele dieser Prompts direkt ab.
Präzise Marken-Assets (exakte Logogeometrie, markenrechtlich geschützte Zeichen) sind nicht zuverlässig; verwenden Sie es für die Stimmung, nicht für die Auslieferung endgültiger Markenlogos.
Sehr lange Textblöcke (ganze Absätze innerhalb eines Bildes) versagen immer noch nach ein paar hundert Zeichen. Es ist für Bildunterschriften, Überschriften und Beschriftungen konzipiert, nicht für die Wiedergabe eines Artikels als Bild.
Konsistenz über Sitzungen hinweg ist nicht garantiert. Die Batch-Funktion behält den Stil innerhalb eines Aufrufs bei; ein separater Aufruf am nächsten Tag wird abweichen, selbst mit dem gleichen samenartigen Prompt.

Der Decoder und PetaPixel haben beide ähnliche Einschränkungen in ihren praktischen Berichten festgestellt. Eine ausführlichere Aufschlüsselung finden Sie in der Rezension von The Decoder.

Wie es sich im Vergleich zum Rest des Bildgenerierungsfeldes 2026 schlägt

OpenAI ist nicht allein im Bereich der Bildgenerierung mit Argumentation. Googles Nano Banana 2 wurde Wochen zuvor veröffentlicht, und mehrere Open-Weight-Multimodalmodelle haben die Lücke bei der Textdarstellung verkleinert.

Wenn Sie Alternativen auf der API-Seite evaluieren, sind einige verwandte detaillierte Analysen Ihre Zeit wert:

Die Qwen 3.5 Omni Ankündigung behandelt Alibabas multimodalen Vorstoß, einschließlich Bildeingabe und -generierung.
Der GLM 5V Turbo API Leitfaden führt durch Zhipus Vision-Sprach-API, die günstiger ist, aber die Texttreue beeinträchtigt.
Wie man Qwen 3.5 Omni verwendet ist der praktische Begleiter zum Ankündigungsbeitrag.
Die Cursor Composer 2 Analyse zeigt, wie reasoning-first KI-Produkte das Tool-UX neu gestalten; dasselbe Muster, das ChatGPT Images 2.0 antreibt.
Für eine weitere kürzlich erfolgte OpenAI-nahe Veröffentlichung, siehe unseren Microsoft VibeVoice Leitfaden.

Wählen Sie gpt-image-2, wenn Textgenauigkeit, Argumentation über die Komposition und die Integration mit dem Rest des OpenAI-Stacks wichtiger sind als die Kosten. Wählen Sie ein Open-Weight-Multimodalmodell, wenn Sie Self-Hosting, niedrigere Kosten pro Bild oder eine permissive Lizenz für kommerzielle Ausgaben benötigen.

FAQ

Ist gpt-image-2 im kostenlosen ChatGPT-Tarif verfügbar?Ja. Der Standardmodus ist für alle ChatGPT-Nutzer verfügbar. Der Denkmodus, erweiterte Argumentation und die Websuche während der Generierung sind für Plus, Pro und Business vorbehalten. Der API-Zugang ist separat und an Ihr OpenAI-Entwicklerkonto gebunden; es gelten die gleichen Rate-Limit-Stufen, die Sie bereits verwenden.

Unterstützt gpt-image-2 Bildbearbeitung und Inpainting?Der Launch konzentriert sich auf Text-zu-Bild mit Batch- und Denkmodi. Endpunkte im Bearbeitungsstil (Bild + Maske) werden voraussichtlich dem gleichen Muster wie die vorherige Generation folgen, jedoch unter der neuen Modell-ID. Überprüfen Sie die gpt-image-2 Modellseite, bevor Sie um Inpainting herum entwickeln.

Welche Auflösung und Seitenverhältnisse werden unterstützt?Bis zu 2.000 Pixel an der langen Kante, mit Seitenverhältnissen von 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 und 1:3. Das deckt Hero-Banner, vertikale Kurzvideos, quadratische Social-Media-Bilder und breite Zuschnitte im LinkedIn-Stil ohne einen Hochskalierungsschritt ab.

Wie teste ich gpt-image-2 Anfragen schnell?Verwenden Sie einen dedizierten API-Client. Apidog rendert Bildantworten inline, speichert Prompts als Sammlungs-Variablen und ermöglicht Ihnen den direkten Vergleich von Denkmodi. Teams, die von Kommandozeilen-Workflows kommen, kombinieren es oft mit unserem Leitfaden zum API-Testen ohne Postman.

Was kostet ein Bild über die API?Ungefähr 0,21 $ bei 1024 × 1024 hoher Qualität im Standardmodus. Der Denkmodus fügt zusätzlich Argumentations-Tokens hinzu, planen Sie also variable Kosten pro Bild für Prompts mit komplexen Layouts ein. Die genauen Token-Raten finden Sie auf der OpenAI Preisgestaltungsseite.

Kann das Modell während der Generierung im Web suchen?Ja, im Denkmodus. Das Modell kann Referenzbilder und Fakten während der Generierung abrufen, was die Genauigkeit von Diagrammen (Diagramme mit echten Zahlen, Karten mit korrekten Beschriftungen) verbessert. Der Standardmodus durchsucht nicht das Web.