要点まとめ / 簡易回答
GPT-5.4は、2026年3月5日にリリースされたOpenAIのプロフェッショナルワーク向け最先端フロンティアモデルです。GPT-5.3-Codexの業界をリードするコーディング能力と、強化された推論、コンピューター利用、ツール統合を組み合わせています。このモデルは、知識労働タスクで83%の勝率、コンピューター利用ベンチマークで75%を達成し、GPT-5.2よりも大幅に少ないトークンを使用します。API経由で利用可能で、入力トークンは$2.50/M、出力トークンは$15/Mです。複雑なタスク向けにはPro版($30/$180)があります。
はじめに
OpenAIは、AIを活用したプロフェッショナルワークの基準をさらに引き上げました。2026年3月5日、彼らはGPT-5.4をリリースしました。このモデルは、実世界の知識労働タスクにおいて、業界の専門家に対して83%の勝率を達成し、その一方で前モデルよりも大幅に少ないトークンを使用します。
事実を幻覚したり、複雑なワークフローに苦戦したり、単純なタスクでトークンを大量消費したりするAIモデルにうんざりしていたなら、GPT-5.4はこれらの問題点を直接解決します。事実誤認を起こす可能性が33%低く、コンピューター利用タスクを以前のモデルよりも3倍速く完了します。
このガイドでは、GPT-5.4が実際に何をするのか、以前のバージョンと比較してどうなのか、そしてパフォーマンスの向上が高いトークンコストに見合うものなのかを詳しく解説します。具体的なベンチマークデータ、実際のパフォーマンス比較、そしてどのGPT-5.4バリアントがあなたのユースケースに適しているかについての明確なガイダンスが得られます。
学習できること:
- GPT-5.2およびGPT-5.3-Codexに対する正確なパフォーマンス改善
- コーディング、コンピューター利用、知識労働におけるベンチマークスコア
- 実際の例を用いた新しいコンピューター利用および視覚能力
- 料金の内訳と、Pro版と標準版の使い分け
- API開発者向けの統合に関する考慮事項
GPT-5.4とは?
GPT-5.4は、OpenAI初のネイティブなコンピューター利用機能を備えた汎用モデルです。GPT-5.3-Codexの優れたコーディング能力と、強化された推論、視覚認識、ツール統合を単一のフロンティアモデルに統合しています。

このモデルは、3つの主要なプロフェッショナルシナリオを対象としています。
知識労働 - 44の職種にわたるスプレッドシート、プレゼンテーション、ドキュメント、分析の作成。GDPvalの比較において、GPT-5.4は業界の専門家と同等またはそれを上回る結果を83%で示し、GPT-5.2の70.9%から向上しています。
コンピューター利用とエージェント - マウス/キーボードコマンド、ブラウザ自動化、アプリケーションをまたがる多段階ワークフローを通じてコンピューターを操作します。OSWorld-Verifiedで75%の成功率を達成し、人間のパフォーマンス72.4%を上回っています。
コーディングと開発 - SWE-Bench Proで最先端のパフォーマンス(57.7%)を発揮し、複雑なコードベース向けに最大1Mトークンのコンテキストウィンドウをサポートしながら、コードの記述、デバッグ、反復を行います。
GPT-5.4には2つのバリアントがあります。
- GPT-5.4 - ほとんどのプロフェッショナルタスク向けの標準モデル
- GPT-5.4 Pro - 複雑な推論タスクで最高のパフォーマンスを発揮(入力$30/M、出力$180/M)
GPT-5.2からの主な改善点
GPT-5.4は漸進的なアップデートではありません。OpenAIは、4つの重要な領域で大幅な進歩を遂げました。
1. 事実の正確性と幻覚の削減
個々の主張レベルでの誤った記述が33%減少しました。全体の応答には18%少ないエラーが含まれています。これは、たった一つの誤った事実がプロジェクト全体を台無しにする可能性がある法律文書、財務モデル、または技術文書を作成する際に重要です。
2. トークン効率
GPT-5.4は、GPT-5.2と比較して問題を解決するために大幅に少ないトークンを使用します。MCP Atlasベンチマークを用いたツールを多用するワークフローでは、精度を維持しつつトークン使用量が47%減少しました。大量のAPI利用者にとって、この効率の向上は、トークンあたりの価格が高くなった分を相殺します。
3. コンピューター利用能力
以前のモデルでは、コンピューター利用のために別途専門のモデルが必要でした。GPT-5.4はこれをネイティブで処理します。
- スクリーンショットからマウスとキーボードのコマンドを発行
- Playwrightを介してブラウザを自動化
- 座標ベースのインタラクションを通じてデスクトップ環境をナビゲート
- カスタムの安全ポリシーと確認要件をサポート
4. ツール検索と統合
ツール検索により、何千ものツール定義をすべてのリクエストに事前にロードする必要がなくなります。モデルは必要に応じてツール定義をオンデマンドで検索し、初期のトークンコストを削減し、数万のツールを含むエコシステムでの作業を可能にします。
Toolathlonベンチマークでは、GPT-5.4はGPT-5.2の45.7%と比較して54.6%の精度を達成し、より少ないツールイールド(レイテンシの代理指標)で済みました。
GPT-5.4 パフォーマンスベンチマーク
ベンチマークデータは、GPT-5.4が優れている点と、以前のモデルが依然として競争力を持つ点を示しています。
知識労働 (GDPval)
モデル | プロフェッショナルに対する勝率 |
|---|---|
GPT-5.4 | 83.0% |
GPT-5.4 Pro | 82.0% |
GPT-5.2 Pro | 74.1% |
GPT-5.2 | 70.9% |
GDPvalは、米国のGDPに貢献する上位9産業の44の職種にわたる明確に定義された知識労働をテストします。タスクには、営業プレゼンテーション、会計スプレッドシート、緊急ケアスケジュール、製造図面、短い動画などが含まれます。
スプレッドシートとドキュメントの作成
社内の投資銀行モデリングタスクにおいて:
- GPT-5.4: 平均スコア87.3%
- GPT-5.2: 平均スコア68.4%
プレゼンテーション評価では、人間の評価者は、GPT-5.4の出力がより強力な美学、より多様な視覚表現、より効果的な画像生成の使用により、68%の確率でGPT-5.4の出力を好みました。
コーディングパフォーマンス (SWE-Bench Pro)
モデル | 精度 | 推定レイテンシ |
|---|---|---|
GPT-5.4 | 57.7% | 約1000秒 |
GPT-5.3-Codex | 56.8% | 約1200秒 |
GPT-5.2 | 55.6% | 約1500秒 |

GPT-5.4は、SWE-Bench ProにおいてGPT-5.3-Codexと同等またはそれ以上の性能を発揮し、推論処理におけるレイテンシを低減しています。Codexの/fastモードでは、GPT-5.4により最大1.5倍高速なトークン速度を実現します。
コンピューター利用 (OSWorld-Verified)
OSWorld-Verifiedは、スクリーンショットとキーボード/マウス操作を通じてデスクトップ環境をナビゲートする成功率を測定します。
- GPT-5.4: 75.0%
- GPT-5.3-Codex: 74.0% (元の画像解像度を保持するAPIパラメータ使用時)
- GPT-5.2: 47.3%
- 人間のパフォーマンス: 72.4%
このベンチマークは、電子メールとカレンダー管理、一括データ入力、ファイル操作、アプリケーション間タスクなど、実際のデスクトップワークフローをテストします。
ウェブブラウジング (BrowseComp)
BrowseCompは、見つけにくい情報を探すための永続的なウェブ調査をテストします。
- GPT-5.4 Pro: 89.3%
- GPT-5.4: 82.7%
- GPT-5.2 Pro: 77.9%
- GPT-5.2: 65.8%
GPT-5.2からの絶対的な17%の改善は、複数ソースの情報合成の向上と、より持続的な検索戦略を反映しています。
視覚理解
MMMU Pro (ツールなし) - 視覚理解と推論をテストします。
- GPT-5.4: 81.2%
- GPT-5.2: 79.5%
OmniDocBench - ドキュメント解析精度 (エラーが低いほど良い):
- GPT-5.4: 0.109 正規化編集距離
- GPT-5.2: 0.140 正規化編集距離
コンピューター利用および視覚能力
GPT-5.4のコンピューター利用能力は詳細な検討に値します。これは、コンピューターをネイティブに操作できるOpenAI初の汎用モデルです。
コンピューター利用の仕組み
このモデルは、ブラウザまたはデスクトップインターフェースのスクリーンショットを解釈し、以下のように応答します。
- UI要素への座標ベースのクリック
- テキスト入力のためのキーボード入力
- ブラウザ自動化のためのPlaywrightコマンド
- マウスの動きとドラッグ操作
開発者は、システムメッセージを通じて動作を設定し、リスク許容度に基づいて安全ポリシーと確認要件を調整します。
実際のコンピューター利用例
Mainstayは、約30,000のHOAおよび不動産税ポータルでGPT-5.4をテストしました。
- GPT-5.4: 初回試行で95%成功、3回以内で100%成功
- 以前のCUAモデル: 73-79%の成功率
- セッション完了: GPT-5.4で3倍高速
- トークン使用量: セッションあたり70%少ないトークン
このモデルは、ポータルインターフェースをナビゲートし、多様なUIレイアウトからデータを抽出し、認証フローを処理し、キャプチャや多段階フォームなどのエッジケースを管理します。
強化された視覚認識
GPT-5.4は、以下の機能をサポートするオリジナル画像入力の詳細レベルを導入しました。
- 最大10.24Mの総ピクセル数
- 最大寸法6000ピクセル
- 高密度で高解像度画像向けのフル忠実度認識
高詳細レベルは、最大2.56Mの総ピクセル数または2048ピクセルの最大寸法をサポートします。初期のAPIユーザーテストでは、オリジナルまたは高詳細設定でのローカリゼーション能力、画像理解、クリック精度の強力な向上が示されました。
ドキュメント解析の改善
より良い視覚認識は、ドキュメント処理に変換されます。GPT-5.4は以下を解析します。
- テーブルと図を含む複数ページのPDF
- 多様なレイアウトのスキャンされたドキュメント
- テキストとUI要素を含むスクリーンショット
- 技術図面とチャート
OmniDocBenchにおける22%の改善(エラー率が0.140から0.109へ)は、この能力を反映しています。
コーディングと開発機能
GPT-5.4は、GPT-5.3-Codexの優れたコーディング能力を受け継ぎながら、統合開発ワークフローのためにコンピューター利用を追加しています。
フロントエンド開発
内部評価により、GPT-5.4は複雑なフロントエンドタスクにおいて、以前のモデルよりも著しく美的で機能的な結果を出すことが分かりました。Codexの実験的なPlaywrightインタラクティブスキルがこれを示しています。
例:テーマパークシミュレーション 単一のプロンプトで、以下の機能を持つアイソメトリックテーマパークシミュレーションが生成されました。
- タイルベースのパス配置
- 乗り物と景観の建設
- ゲストの経路探索とキューイング
- パークの指標(お金、ゲスト、幸福度、清潔度)
- Playwright自動化によるブラウザプレイテスト
- アイソメトリックアセットの画像生成
モデルはゲームを構築し、その後Playwrightを使用してプレイテストを自動化し、複数ラウンドにわたって配置、ナビゲーション、ゲストの反応、UIの安定性を検証しました。
開発者向け高速モード
CodexのGPT-5.4は、最大1.5倍高速なトークン速度を提供する/fastモードをサポートしています。API開発者は、優先処理を通じて同等の速度にアクセスします。これにより、デバッグおよび開発中の反復時間を短縮しながら、同じインテリジェンスを維持します。
コンテキストウィンドウのサポート
GPT-5.4 Codexには、実験的な1Mトークンコンテキストウィンドウのサポートが含まれています。以下を通じて設定します。
model_context_windowパラメータmodel_auto_compact_token_limitパラメータ
標準の272Kコンテキストを超えるリクエストは、通常レートの2倍の使用制限としてカウントされます。これにより、単一のリクエストでコードベース全体、大規模なドキュメントセット、または複数ファイルプロジェクトの分析が可能になります。
ApidogによるAPIドキュメント:

ツール統合と検索
ツール検索は、モデルが外部ツールやMCPサーバーとやり取りする方法における根本的な変化を意味します。
ツール検索の仕組み
以前のアプローチ:すべてのツール定義が各リクエストに事前にロードされていました。多くのツールを持つシステムでは、これにより数千から数万のトークンが追加され、コストが増加し、応答が遅くなっていました。
ツール検索アプローチ:モデルは利用可能なツールの軽量なリストを受け取ります。必要に応じて、特定のツール定義を検索し、その時点で会話に追加します。
トークン節約の例
ScaleのMCP Atlasベンチマークでは、36すべてのMCPサーバーを有効にして250のタスクをテストしました。

ツール検索なしでのトークン内訳:
- 65,320の事前入力トークン(ツール定義)
- ツール出力からの追加トークン
- 出力トークン
ツール検索は、キャッシュ効率を維持しながら事前コストを排除します。
MCP Atlas パフォーマンス
MCP Atlasベンチマーク(250タスク、36 MCPサーバー)において:
- GPT-5.4: 67.2%の精度
- GPT-5.2: 60.6%の精度
このモデルは、精度を犠牲にしたり、コンテキストウィンドウを圧倒したりすることなく、より大きなツールエコシステムで機能します。
エージェント的ツール呼び出し
Toolathlonベンチマークは、多段階のツールワークフロー(電子メールの読み取り、添付ファイルの抽出、ファイルのアップロード、採点、結果の記録)をテストします。

ツールイールド(ツール応答待機)は、並列化の利点を取り込むため、ツール呼び出し回数よりもレイテンシをよりよく反映します。GPT-5.4は、より少ないラウンドでタスクを完了します。
GPT-5.4 vs GPT-5.3-Codex vs GPT-5.2
モデルの選択は、あなたの特定の要件に依存します。
GPT-5.4を使用する場合
- コンピューター利用が必要な場合 - ネイティブなコンピューター操作、ブラウザ自動化
- 知識労働 - スプレッドシート、プレゼンテーション、ドキュメント
- ツールを多用するワークフロー - MCPサーバー、外部API、多段階自動化
- 大規模でコストに敏感な場合 - トークン効率により、トークンあたりの価格が高くても総コストが削減される
- 長文コンテキストの必要性 - 複雑なコードベース向けに最大1Mトークン
GPT-5.3-Codexが依然として競争力を持つ場合
- 純粋なコーディングタスク - SWE-Bench Proで同様のパフォーマンス(56.8% vs 57.7%)
- 確立されたCodexワークフロー - 既存の統合ではコンピューター利用が必要ない場合
- コスト最適化 - GPT-5.3-Codexの価格が低いままの場合
GPT-5.2で十分な場合
- 単純なクエリ - 基本的なQ&A、要約、簡単な生成
- 予算の制約 - トークンあたりのコストが低い場合($1.75/$14 vs $2.50/$15)
- 非エージェント的ワークフロー - ツール使用のない単一ターンリクエスト
価格比較
モデル | 入力価格 | キャッシュ済み入力 | 出力価格 |
|---|---|---|---|
GPT-5.2 | $1.75/M | $0.175/M | $14/M |
GPT-5.4 | $2.50/M | $0.25/M | $15/M |
GPT-5.2 Pro | $21/M | - | $168/M |
GPT-5.4 Pro | $30/M | - | $180/M |
バッチおよびフレックス価格は標準料金の50%で利用可能です。優先処理は標準料金の200%です。
利用可能性とアクセスオプション
GPT-5.4は、2026年3月5日からChatGPT、Codex、API全体で段階的に展開されました。
ChatGPTアクセス
GPT-5.4 Thinkingは以下で利用可能:
- ChatGPT Plus加入者
- ChatGPT Team加入者
- ChatGPT Pro加入者
GPT-5.4 Proは以下で利用可能:
- ChatGPT Pro加入者
- ChatGPT Enterprise加入者
レガシーアクセス:GPT-5.2 Thinkingは、2026年6月5日の廃止まで、レガシーモデルセクションで3ヶ月間利用可能です。
エンタープライズおよび教育機関:管理者設定を通じて早期アクセスが可能です。
Codexアクセス
GPT-5.4は、以下の機能を備えたCodexのデフォルトモデルです。
- 実験的な1Mコンテキストウィンドウサポート
- ブラウザプレイテスト用のPlaywrightインタラクティブスキル
- 1.5倍のトークン速度を実現する/fastモード
APIアクセス
モデル名:
gpt-5.4- 標準モデルgpt-5.4-pro- 複雑なタスク向けのProモデル
コンテキストウィンドウ:
- 標準: 272Kトークン
- 拡張: 最大1Mトークン(実験的、使用率2倍)
価格設定:
- 標準: 入力$2.50/M、キャッシュ済み入力$0.25/M、出力$15/M
- Pro: 入力$30/M、出力$180/M
- バッチ/フレックス: 50%割引
- 優先: 標準レートの2倍
非推奨化のタイムライン
GPT-5.2 Thinkingは2026年6月5日に廃止されます。混乱を避けるため、この日までにワークフローを移行してください。
結論
GPT-5.4は、知識労働、コンピューター利用、コーディングタスク全体で測定可能な改善をもたらします。GDPvalでの83%の勝率、OSWorld-Verifiedでの75%のスコア、SWE-Bench Proでの57.7%の精度は、プロフェッショナルなAIワークフローにおける新たな最先端としての地位を確立しました。
GPT-5.4をアプリケーションに統合する開発者にとって、堅牢なAPIテストおよびデバッグツールを持つことは不可欠です。Apidogは、統一されたAPI設計、デバッグ、テスト、ドキュメント作成機能により、統合プロセスを効率化します。AIエージェントを構築する場合でも、ワークフローを自動化する場合でも、GPT-5.4を活用した顧客向け機能を開発する場合でも、ApidogはAPI統合が最初から正しく機能することを保証します。
主要なポイント:
- 誤った記述が33%減少し、応答エラーが18%減少
- ツールを多用するワークフローでトークン使用量が47%削減
- コンピューター利用の成功率が75%に達し、人間のベースラインを超える
- マウス/キーボードコマンドによるネイティブなコンピューター操作
- ツール検索により、数万のツールとの連携が可能
- 複雑なコードベース向けの1Mトークンコンテキストウィンドウ
- 100万トークンあたり$2.50/$15で利用可能(標準バリアント)
導入すべき時期:
- コンピューター利用またはブラウザ自動化が必要な場合
- 大量のワークフローでトークン効率が重要な場合
- 事実の正確性が極めて重要な場合(法律、財務、技術)
- 大規模なツールエコシステムまたはMCPサーバーを扱う場合
- コードベースまたはドキュメントの長文コンテキスト分析
待つべき時期:
- 単純なQ&Aワークフローでは、新しい機能の恩恵を受けない
- 予算の制約により、トークンあたりの最低コストが優先される
- 既存のGPT-5.2またはGPT-5.3-Codexワークフローで十分に機能している
GPT-5.4は、OpenAIのこれまでのモデルの中で最も効率的な推論モデルです。幻覚の削減、トークン効率の向上、ネイティブなコンピューター利用能力の組み合わせは、プロフェッショナルアプリケーションにおけるトークンあたりの高い価格設定を正当化します。
よくある質問
GPT-5.4とGPT-5.2の違いは何ですか?
GPT-5.4は、知識労働で83%の勝率を達成する一方、GPT-5.2は70.9%であり、大幅に少ないトークンを使用し、ネイティブなコンピューター利用能力を備え、事実誤認を33%削減します。価格は高めですが($2.50/$15 vs $1.75/$14)、効率の向上により総コストは低くなる可能性があります。
GPT-5.4 APIの費用はいくらですか?
GPT-5.4の費用は、入力トークン100万あたり$2.50、キャッシュ済み入力トークン100万あたり$0.25、出力トークン100万あたり$15です。GPT-5.4 Proは、入力$30/M、出力$180/Mです。バッチおよびフレックス価格では50%割引が提供されます。
GPT-5.4にはコンテキストウィンドウの制限がありますか?
標準のコンテキストウィンドウは272Kトークンです。実験的な1Mトークンコンテキストウィンドウサポートは、model_context_windowおよびmodel_auto_compact_token_limitパラメータを設定することでCodexで利用できます。272Kを超えるリクエストは、2倍の使用率でカウントされます。
GPT-5.4 Proは何のために使われますか?
GPT-5.4 Proは、複雑な推論タスクで最高のパフォーマンスを目標としています。BrowseComp(89.3% vs 82.7%)やGDPval(82.0% vs 83.0%標準版)などのベンチマークでより高いスコアを記録しますが、費用は12倍かかります($30/$180 vs $2.50/$15)。
GPT-5.4はいつリリースされましたか?
GPT-5.4は2026年3月5日にリリースされ、ChatGPT、Codex、API全体で段階的に展開されました。GPT-5.2 Thinkingは、移行のために2026年6月5日まで利用可能です。
GPT-5.4はコンピューターやブラウザを使用できますか?
はい。GPT-5.4は、OpenAI初のネイティブなコンピューター利用機能を備えた汎用モデルです。マウス/キーボードコマンドを発行し、Playwrightを介してブラウザを自動化し、スクリーンショットの解釈を通じてデスクトップ環境をナビゲートします。
GPT-5.4のツール検索とは何ですか?
ツール検索により、モデルはすべての定義を事前にロードする代わりに、必要に応じてツール定義をオンデマンドで検索できます。これにより、ツールを多用するワークフローでのトークン使用量が47%削減され、数万のツールを含むエコシステムでの作業が可能になります。
コーディングにおいて、GPT-5.4はGPT-5.3-Codexとどのように比較されますか?
GPT-5.4は、SWE-Bench ProにおいてGPT-5.3-Codexと同等またはそれ以上の性能を発揮し(57.7% vs 56.8%)、レイテンシを低減し、コンピューター利用能力を追加しています。新しい開発ワークフローには推奨される選択肢です。
GPT-5.4はChatGPTで利用できますか?
はい。GPT-5.4 Thinkingは、Plus、Team、Proの加入者が利用できます。GPT-5.4 Proは、ProおよびEnterpriseプランで利用可能です。GPT-5.2 Thinkingは、2026年6月5日までレガシーモデルとして利用可能です。
GPT-5.4の安全に関する考慮事項は何ですか?
GPT-5.4は、OpenAIのPreparedness Frameworkにおいて「高サイバー能力」として扱われます。保護対策には、拡張されたサイバー安全スタック、監視システム、信頼されたアクセス制御、およびゼロデータ保持の表面での高リスクリクエストに対する非同期ブロッキングが含まれます。分類器の改善に伴い、一部の誤検知が発生する可能性があります。
