Nouveautés ChatGPT Images 2.0 : Découvrez les améliorations

OpenAI a lancé ChatGPT Images 2.0 le 21 avril 2026, propulsé par un nouveau modèle appelé gpt-image-2. Il lit votre invite, planifie la mise en page, rend un texte multilingue net et peut produire jusqu'à dix images en une seule fois ; le tout jusqu'à 2 000 pixels de large et dans des rapports d'aspect que l'ancien modèle d'image ne prenait pas en charge.

Pour les développeurs, la nouveauté principale n'est pas le rafraîchissement de l'interface utilisateur de ChatGPT. C'est que gpt-image-2 est exposé via l'API OpenAI avec un mode de "réflexion" conscient du raisonnement, une tarification par jeton, et le même schéma de point de terminaison que vous utilisez déjà en production.

Ce guide couvre ce qui a changé, le coût de l'API, comment l'appeler de bout en bout, et comment la tester avec Apidog sans écrire de scripts jetables. Si vous avez évalué des API d'image antérieures et que vous avez abandonné parce que le texte était déformé ou que la résolution était limitée à 1024, commencez ici.

bouton

Qu'est-ce que gpt-image-2 ?

gpt-image-2 est l'ID de modèle du générateur d'images de deuxième génération d'OpenAI, lancé avec le produit ChatGPT Images 2.0 le 21 avril 2026. Il remplace la famille précédente gpt-image-1 côté API et alimente la création d'images au sein de ChatGPT sur le web et les mobiles.

Une interface utilisateur ChatGPT affichant des images générées

Trois choses en font un nouvel examen si vous avez testé la génération d'images d'OpenAI pour la dernière fois en 2024 ou 2025 :

Texte lisible dans tous les scripts. Les petites étiquettes d'interface utilisateur, les logos, les légendes et les scripts non latins (japonais, coréen, chinois, hindi, bengali) sont désormais rendus assez clairement pour être livrés sans retouche manuelle.
Raisonnement avant les pixels. Un mode thinking (réflexion) dépense des ressources de calcul supplémentaires pour planifier la composition, compter les éléments et vérifier les contraintes avant le rendu. OpenAI le décrit comme le modèle "réfléchissant" au brief ; en pratique, cela réduit le nombre d'invites de réitération que vous gaspillez sur des comptages d'objets incorrects ou des diagrammes mal étiquetés.
Résolution plus élevée, canevas plus large. Jusqu'à 2 000 px sur le bord le plus long et des rapports d'aspect aussi extrêmes que 3:1 ou 1:3, ce qui vous permet de générer des bannières, des couvertures de diapositives et des courts métrages verticaux sans étape de mise à l'échelle.

La propre description d'OpenAI positionne cela comme un saut du "jouet créatif" à l'"outil de flux de travail visuel" ; des doubles pages de magazines, des infographies, des modèles de diapositives, et même des planches de manga.

Ce qui a changé par rapport à gpt-image-1

Si vous avez développé en utilisant le précédent point de terminaison d'images d'OpenAI, voici la différence qui compte au niveau du code.

Capacité	gpt-image-1	gpt-image-2
Résolution maximale	1024 px	2 000 px sur le bord le plus long
Rapports d'aspect	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Images par requête	1	Jusqu'à 10, avec cohérence de style
Rendu de texte	Anglais uniquement, souvent brouillé	Multilingue, y compris les scripts CJK et indiens
Mode de raisonnement	Non	Oui (flag `thinking`)
Recherche web pendant la génération	Non	Oui, en mode de réflexion

Le mode de traitement par lots est le changement le plus discret mais le plus utile. Une seule invite peut renvoyer dix variations qui partagent la composition et la palette, ce qui correspond à la façon dont un designer itère et à la façon dont une équipe produit génère des images de héros cohérentes sur un ensemble de pages.

Une grille d'images d'une conception de salle de bain générées par gpt-image-2 avec une composition et un style cohérents.

Disponibilité et tarifs

Le déploiement est échelonné.

Les utilisateurs de ChatGPT Gratuit bénéficient du modèle standard gpt-image-2.
Les abonnés ChatGPT Plus, Pro et Business bénéficient du mode de réflexion, de cycles de raisonnement plus longs et de la recherche web pendant la génération.
Les développeurs API ont accès aux deux modes via l'ID de modèle gpt-image-2. La disponibilité a été échelonnée après le lancement de ChatGPT.

Les tarifs, selon la page de tarification de l'API OpenAI, sont tokenisés : 5 $ par million de jetons de texte d'entrée, 10 $ par million de jetons de texte de sortie, 8 $ par million de jetons d'image d'entrée et 30 $ par million de jetons d'image de sortie. Pour un rendu de haute qualité standard de 1024 × 1024, cela coûte environ 0,21 $ par image ; soit environ 60 % de plus que la génération précédente, ce qui est le coût du canevas plus grand et de l'étape de raisonnement.

À noter : le mode de réflexion est facturé sur les jetons de raisonnement supplémentaires, donc un diagramme avec un brief de mise en page strict coûte plus cher qu'une invite d'illustration lâche. Prévoyez-le plutôt que de supposer un tarif forfaitaire par image.

Appeler l'API

Le point de terminaison suit le même modèle images/generations que le modèle précédent. Une requête minimale ressemble à ceci :

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "Un héros de produit clair pour une plateforme de test d'API, fond sombre, éclairage cyan doux, un ordinateur portable affichant une réponse JSON, des étiquettes d'interface utilisateur nettes en petits caractères lisibles",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Pour activer le chemin de raisonnement, passez le paramètre thinking :

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "Une infographie à quatre panneaux expliquant le flux de code d'autorisation OAuth 2.1 avec PKCE. Étiquetez chaque flèche en anglais et en japonais.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

La réponse renvoie des données d'image base64 ou des URL selon votre response_format ; le schéma est inchangé par rapport à gpt-image-1, de sorte que les wrappers SDK existants continuent de fonctionner après un échange d'ID de modèle.

Une version Python utilisant le SDK officiel :

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Maquette d'interface utilisateur de tableau de bord minimaliste pour un client REST, étiquettes en minuscules, un graphique de latence dans le coin.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() en pratique

Deux notes pratiques issues des tests :

Le mode de réflexion a trois niveaux (low, medium, high) qui échangent la latence contre la précision de la mise en page. Pour les graphiques, les tableaux et toute image qui doit avoir un nombre exact, medium est la valeur par défaut utile.
La sortie par lots (n > 1) maintient la cohérence de style au sein d'un même appel, mais perd de la cohérence entre des appels séparés. Si vous avez besoin d'un ensemble de dix éléments assortis, demandez dix éléments en une seule requête.

Tester gpt-image-2 avec Apidog

Itérer sur un modèle d'image depuis la ligne de commande est pénible ; vous ne pouvez pas prévisualiser les résultats, échanger les invites ou les versionner. Un client API dédié est le bon outil, et si vous utilisez déjà Postman ou un outil REST en terminal, envisagez une alternative spécialement conçue qui gère nativement les réponses d'image.

Capture d'écran de l'interface utilisateur d'Apidog montrant une requête d'API gpt-image-2 et la réponse d'image affichée

Apidog traite le point de terminaison d'image d'OpenAI comme une requête de première classe. Vous importez la spécification OpenAPI d'OpenAI, définissez OPENAI_API_KEY comme variable d'environnement, collez votre invite dans le corps et appuyez sur Envoyer. Les réponses d'image sont rendues en ligne, en base64 ou en URL, et vous pouvez dupliquer la requête en variantes pour comparer les rapports d'aspect, les niveaux de qualité et les modes de réflexion côte à côte.

Un flux de travail utile :

Créez une requête gpt-image-2 dans une collection Apidog.
Enregistrez deux environnements : un avec thinking: "off", un autre avec thinking: "medium".
Exécutez la même invite dans les deux, comparez les sorties et conservez le gagnant dans votre bibliothèque d'invites.
Dupliquez la collection pour chaque type d'actif (bannière, couverture de diapositive, infographie) afin que chacun ait son propre ensemble de paramètres ajustés.

Vous pouvez également chaîner l'appel : générer l'image, puis poster l'URL vers votre point de terminaison de téléchargement CDN au sein du même test Apidog. C'est la partie que les scripts curl ne gèrent pas bien.

Si vous avez effectué des expériences de génération d'images dans un client HTTP générique, c'est là qu'une véritable plateforme API prend tout son sens. Téléchargez Apidog et pointez-le vers votre clé OpenAI ; la configuration prend moins de cinq minutes.

Où gpt-image-2 rencontre encore des difficultés

L'annonce est forte, mais des limites honnêtes existent.

Les visages photoréalistes en gros plan continuent de dériver, surtout pour les personnalités publiques nommées. Les garde-fous d'identité d'OpenAI rejettent bon nombre de ces invites purement et simplement.
Les actifs de marque précis (géométrie exacte du logo, caractères sous marque déposée) ne sont pas fiables ; utilisez-les pour l'ambiance, pas pour livrer des marques finales.
Les blocs de texte très longs (paragraphes entiers dans une image) se dégradent encore au-delà de quelques centaines de caractères. Il est conçu pour les légendes, les titres et les étiquettes, pas pour rendre un article sous forme d'image.
La cohérence entre les sessions n'est pas garantie. La fonction de lot maintient la cohérence de style au sein d'un même appel ; un appel distinct le lendemain dérivera même avec la même invite de type "seed".

The Decoder et PetaPixel ont tous deux signalé des limites similaires dans leurs compte-rendus pratiques. Consultez l'avis de The Decoder pour une analyse plus détaillée.

Comment il se compare au reste du marché de la génération d'images en 2026

OpenAI n'est pas seul dans l'espace de l'image plus raisonnement. Nano Banana 2 de Google a été lancé quelques semaines plus tôt, et plusieurs modèles multimodaux open-weight ont réduit l'écart en matière de rendu de texte.

Si vous évaluez des alternatives côté API, quelques analyses approfondies connexes valent la peine d'être consultées :

L'annonce de Qwen 3.5 Omni couvre l'effort multimodal d'Alibaba, incluant l'entrée et la génération d'images.
Le guide de l'API GLM 5V Turbo explique l'API vision-langage de Zhipu, qui est moins chère mais sacrifie la fidélité du texte.
Comment utiliser Qwen 3.5 Omni est le compagnon pratique de l'annonce.
L'analyse de Cursor Composer 2 explique comment les produits IA axés sur le raisonnement redéfinissent l'UX des outils ; le même schéma qui motive ChatGPT Images 2.0.
Pour un autre lancement récent lié à OpenAI, consultez notre guide Microsoft VibeVoice.

Choisissez gpt-image-2 lorsque la précision du texte, le raisonnement sur la composition et l'intégration avec le reste de la pile OpenAI importent plus que le coût. Choisissez un modèle multimodal open-weight lorsque vous avez besoin d'un auto-hébergement, d'un coût par image plus faible ou d'une licence permissive pour la production commerciale.

FAQ

gpt-image-2 est-il disponible dans le niveau gratuit de ChatGPT ? Oui. Le mode standard est disponible pour tous les utilisateurs de ChatGPT. Le mode de réflexion, les raisonnements étendus et la recherche web pendant la génération sont réservés aux abonnés Plus, Pro et Business. L'accès à l'API est distinct et lié à votre compte développeur OpenAI ; les mêmes niveaux de limite de débit que vous utilisez déjà s'appliquent.

gpt-image-2 prend-il en charge l'édition d'images et l'inpainting ? Le lancement se concentre sur le texte-vers-image avec les modes de traitement par lots et de réflexion. Les points de terminaison de style édition (image + masque) devraient suivre le même modèle que la génération précédente mais sous le nouvel ID de modèle. Vérifiez la page du modèle gpt-image-2 avant de développer autour de l'inpainting.

Quelles résolutions et rapports d'aspect prend-il en charge ? Jusqu'à 2 000 pixels sur le bord le plus long, avec des rapports 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 et 1:3. Cela couvre les bannières héro, les courtes vidéos verticales, les carrés sociaux et les recadrages larges de type LinkedIn sans étape de mise à l'échelle.

Comment tester rapidement les requêtes gpt-image-2 ? Utilisez un client API dédié. Apidog rend les réponses d'image en ligne, stocke les invites comme variables de collection et vous permet de comparer les modes de réflexion côte à côte. Les équipes venant de flux de travail en ligne de commande l'associent souvent à notre guide de test d'API sans Postman.

Combien coûte une image via l'API ? Environ 0,21 $ pour un rendu de haute qualité de 1024 × 1024 en mode standard. Le mode de réflexion ajoute des jetons de raisonnement supplémentaires, il faut donc prévoir un coût par image variable pour les invites à forte mise en page. Consultez la page de tarification d'OpenAI pour les tarifs exacts des jetons.

Le modèle peut-il rechercher sur le web pendant la génération ? Oui, en mode de réflexion. Le modèle peut récupérer des images de référence et des faits en cours de génération, ce qui aide à la précision des diagrammes (graphiques avec des chiffres réels, cartes avec des étiquettes correctes). Le mode standard ne recherche pas.