OpenAIは2026年4月21日に、新しいモデル**gpt-image-2**を搭載したChatGPT Images 2.0を出荷しました。これはプロンプトを読み取り、レイアウトを計画し、鮮明な多言語テキストをレンダリングし、最大10枚の画像を一度に生成できます。これらはすべて、最大2,000ピクセル幅で、古い画像モデルではサポートされていなかったアスペクト比に対応しています。
開発者にとっての目玉は、ChatGPT UIのリフレッシュではありません。それは、gpt-image-2がOpenAI APIを通じて、推論を考慮した「思考」モード、トークンごとの課金、そして既に本番環境に組み込んでいるものと同じエンドポイントパターンで公開されていることです。
このガイドでは、何が変わったのか、APIの費用、エンドツーエンドでの呼び出し方法、そして使い捨てスクリプトを書かずにApidogでテストする方法について説明します。以前の画像APIを評価し、テキストが歪んでいたり解像度が1024に制限されていたために諦めた方は、ここから始めてください。
gpt-image-2とは?
gpt-image-2は、2026年4月21日にChatGPT Images 2.0製品と同時にリリースされた、OpenAIの第2世代画像生成モデルのIDです。API側では以前のgpt-image-1ファミリーを置き換え、ウェブおよびモバイルのChatGPT内で画像生成を担います。

2024年または2025年にOpenAIの画像生成を最後にテストした方にとって、再検討する価値がある3つの点があります。
- 様々なスクリプトでの判読可能なテキスト。 小さなUIラベル、ロゴ、キャプション、そして非ラテン文字(日本語、韓国語、中国語、ヒンディー語、ベンガル語)も、手作業での再描画なしに出荷できるほど鮮明にレンダリングされます。
- ピクセル生成前の推論。
thinkingモードは、レンダリング前に構成の計画、アイテムの計数、制約の確認に追加の計算資源を費やします。OpenAIはこれをモデルがブリーフについて「考えている」と説明しており、実際にはオブジェクト数の間違いや図の誤ったラベル付けによる再生成プロンプトの消費を削減します。 - 高解像度、より広いキャンバス。 長辺最大2,000ピクセル、アスペクト比は3:1または1:3まで対応し、アップスケーリングなしでバナー、スライドカバー、縦型ショート動画などを生成できます。
OpenAI自身の説明では、これを「クリエイティブなおもちゃ」から「視覚的なワークフローツール」への飛躍と位置付けています。雑誌のレイアウト、インフォグラフィックス、スライドテンプレート、さらには漫画のコマまで対応します。
gpt-image-1からの変更点
以前のOpenAI画像エンドポイントを基に開発していた場合、コードレベルで重要な違いは以下の通りです。
| 機能 | gpt-image-1 | gpt-image-2 |
|---|---|---|
| 最大解像度 | 1024ピクセル | 長辺2,000ピクセル |
| アスペクト比 | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| リクエストあたりの画像数 | 1 | スタイルの一貫性を保ちつつ最大10枚 |
| テキストレンダリング | 英語のみ、しばしば文字化け | CJKおよびインド系スクリプトを含む多言語対応 |
| 推論モード | なし | あり(thinkingフラグ) |
| 生成中のウェブ検索 | なし | あり(思考モード時) |
バッチモードは最も目立たないものの、最も有用な変更点です。単一のプロンプトから、構図と配色を共有する10種類のバリエーションを返すことができ、これはデザイナーが反復作業を行う方法であり、製品チームがページセット全体で一貫したヒーロー画像を生成する方法でもあります。

提供状況と料金
ロールアウトは段階的に行われます。
- ChatGPT Freeユーザーは、標準の
gpt-image-2モデルを利用できます。 - ChatGPT Plus、Pro、およびBusinessの加入者は、思考モード、より長い推論実行、生成中のウェブ検索を利用できます。
- API開発者は、
gpt-image-2モデルIDを通じて両方のモードを利用できます。提供開始はChatGPTのロールアウト後に段階的に行われました。
料金は、OpenAI APIの料金ページによると、トークンベースです。入力テキストトークン100万あたり5ドル、出力テキストトークン100万あたり10ドル、入力画像トークン100万あたり8ドル、出力画像トークン100万あたり30ドルです。標準的な1024×1024の高品質レンダリングでは、1枚あたり約0.21ドルになります。これは前世代よりも約60%高く、より大きなキャンバスと推論ステップのコストに相当します。
特筆すべき点として、思考モードは追加の推論トークンに対して課金されるため、厳密なレイアウト指示を含む図の生成は、大まかなイラストのプロンプトよりも費用がかかります。画像あたりの一律料金を想定するのではなく、この点も予算に含めてください。
APIの呼び出し
エンドポイントは、以前のモデルと同じimages/generationsパターンに従います。最小限のリクエストは次のようになります。
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
推論パスを有効にするには、thinkingパラメータを渡します。
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
応答は、response_formatに応じてbase64画像データまたはURLを返します。スキーマはgpt-image-1から変更されていないため、モデルIDを交換した後も既存のSDKラッパーは引き続き機能します。
公式SDKを使用したPython版:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() in practice
テストからの2つの実用的な注意点:
- 思考モードには3つの段階(
low、medium、high)があり、レイテンシとレイアウトの正確性のバランスを取ります。チャート、表、そして数値が正確である必要がある画像の場合、mediumが便利なデフォルトです。 - バッチ出力(
n > 1)は1回の呼び出し内でスタイルの一貫性を保ちますが、個別の呼び出し間では一貫性が失われます。一致する10枚のセットが必要な場合は、1つのリクエストで10枚を要求してください。
Apidogでgpt-image-2をテストする
コマンドラインから画像モデルを反復処理するのは苦痛です。結果をプレビューしたり、プロンプトを交換したり、バージョン管理したりすることはできません。専用のAPIクライアントが適切なツールであり、すでにPostmanやターミナルのRESTツールを使用している場合は、画像応答をネイティブに処理できる専用の代替ツールを検討してください。

Apidogは、OpenAI画像エンドポイントをファーストクラスのリクエストとして扱います。OpenAI OpenAPI仕様をインポートし、OPENAI_API_KEYを環境変数として設定し、プロンプトを本文に貼り付けて送信を押します。画像応答はbase64またはURL形式でインラインにレンダリングされ、リクエストをバリアントにフォークして、アスペクト比、品質ティア、思考モードを並べて比較できます。
便利なワークフロー:
- Apidogコレクションに
gpt-image-2リクエストを作成します。 - 2つの環境を保存します。1つは
thinking: "off"、もう1つはthinking: "medium"に設定します。 - 同じプロンプトを両方で実行し、出力を比較し、最適なものをプロンプトライブラリに保存します。
- 各アセットタイプ(バナー、スライドカバー、インフォグラフィック)ごとにコレクションをフォークし、それぞれが独自の調整されたパラメータセットを持つようにします。
呼び出しを連鎖させることもできます。画像を生成した後、同じApidogテスト実行内でそのURLをCDNアップロードエンドポイントに投稿します。これはcurlスクリプトではうまくできない部分です。
汎用HTTPクライアントで画像生成の実験を行ってきたのであれば、ここで真のAPIプラットフォームがその価値を発揮します。Apidogをダウンロードし、OpenAIキーを指し示してください。セットアップは5分もかかりません。
gpt-image-2が依然として苦手とする点
発表は力強いものですが、正直なところ限界も存在します。
- クローズアップされた写真のような顔は、特に著名な公人においては、依然として不安定です。OpenAIの身元保護策により、そのようなプロンプトの多くは完全に拒否されます。
- 正確なブランドアセット(正確なロゴの形状、商標登録されたキャラクター)は信頼できません。最終的なブランドマークを出荷するためではなく、雰囲気作りのために使用してください。
- 非常に長い形式のテキストブロック(画像内の完全な段落)は、数百文字を超えると依然として崩壊します。これはキャプション、見出し、ラベル向けに設計されており、記事を画像としてレンダリングするためではありません。
- セッション間の一貫性は保証されません。バッチ機能は1回の呼び出し内ではスタイルの一貫性を保ちますが、翌日の個別の呼び出しでは、同じシードのようなプロンプトであってもずれが生じます。
The DecoderとPetaPixelはどちらも、実践的な記事で同様の限界を指摘しています。より詳細な分析については、The Decoderのレビューをご覧ください。
2026年の他の画像生成分野との比較
OpenAIは、推論と画像を組み合わせた分野で唯一ではありません。GoogleのNano Banana 2は数週間前にリリースされ、いくつかのオープンウェイトマルチモーダルモデルがテキストレンダリングのギャップを縮めています。
API側で代替案を評価しているのであれば、以下の関連する詳細記事が参考になります。
- Qwen 3.5 Omniの発表は、画像入力と生成を含むAlibabaのマルチモーダル推進について説明しています。
- GLM 5V Turbo APIガイドは、Zhipuのビジョン-言語APIについて解説しており、これは安価ですがテキストの忠実度を犠牲にしています。
- Qwen 3.5 Omniの使用方法は、発表記事の実践者向け補足です。
- Cursor Composer 2の分析は、推論優先のAI製品がツールのUXをどのように再構築するかを説明しています。これはChatGPT Images 2.0を推進するのと同じパターンです。
- 最近のOpenAI関連の別の発表については、Microsoft VibeVoiceガイドをご覧ください。
テキストの正確性、構図に対する推論、およびOpenAIスタックの他の部分との統合がコストよりも重要である場合は、gpt-image-2を選択してください。自己ホスティング、画像あたりのコスト削減、または商用出力向けの寛容なライセンスが必要な場合は、オープンウェイトのマルチモーダルモデルを選択してください。
よくある質問
gpt-image-2はChatGPTの無料ティアで利用できますか?はい。標準モードはすべてのChatGPTユーザーが利用できます。思考モード、拡張された推論、生成中のウェブ検索は、Plus、Pro、Businessに限定されています。APIアクセスは別個のもので、OpenAI開発者アカウントに紐付けられます。すでに使用しているレート制限ティアが適用されます。
gpt-image-2は画像編集やインペインティングをサポートしていますか?このリリースは、バッチおよび思考モードによるテキストから画像への生成に焦点を当てています。編集スタイルのエンドポイント(画像 + マスク)は、前世代と同じパターンに従いつつ、新しいモデルIDの下で提供されると予想されます。インペインティングを前提に開発する前に、gpt-image-2モデルページを確認してください。
どの解像度とアスペクト比をサポートしていますか?長辺最大2,000ピクセルで、1:1、3:2、2:3、16:9、9:16、3:1、1:3のアスペクト比に対応しています。これにより、アップスケーリングなしでヒーローバナー、縦型ショート動画、スクエアソーシャル、LinkedInスタイルの横長クロップがカバーされます。
gpt-image-2のリクエストを迅速にテストする方法は?専用のAPIクライアントを使用してください。Apidogは、画像応答をインラインでレンダリングし、プロンプトをコレクション変数として保存し、思考モードを並べて比較できます。コマンドラインワークフローから移行するチームは、しばしば当社のPostmanなしでのAPIテストガイドと組み合わせて利用します。
APIを通じて画像を1枚生成するのにどのくらい費用がかかりますか?標準モードの1024×1024高品質で、およそ0.21ドルです。思考モードでは追加の推論トークンが加算されるため、レイアウトが複雑なプロンプトでは画像あたりの費用が変動することを考慮に入れてください。正確なトークン料金については、OpenAI料金ページをご覧ください。
モデルは生成中にウェブ検索できますか?はい、思考モードで可能です。モデルは生成中に参照画像や事実を引き出すことができ、これにより図の正確性(正しい数値を含むチャート、正しいラベルを含む地図)が向上します。標準モードでは検索しません。
