GPT-5.4とは?OpenAIの最新モデルを徹底解説

Ashley Innocent

Ashley Innocent

6 3月 2026

GPT-5.4とは?OpenAIの最新モデルを徹底解説

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

要点まとめ / 簡易回答

GPT-5.4は、2026年3月5日にリリースされたOpenAIのプロフェッショナルワーク向け最先端フロンティアモデルです。GPT-5.3-Codexの業界をリードするコーディング能力と、強化された推論、コンピューター利用、ツール統合を組み合わせています。このモデルは、知識労働タスクで83%の勝率、コンピューター利用ベンチマークで75%を達成し、GPT-5.2よりも大幅に少ないトークンを使用します。API経由で利用可能で、入力トークンは$2.50/M、出力トークンは$15/Mです。複雑なタスク向けにはPro版($30/$180)があります。

はじめに

OpenAIは、AIを活用したプロフェッショナルワークの基準をさらに引き上げました。2026年3月5日、彼らはGPT-5.4をリリースしました。このモデルは、実世界の知識労働タスクにおいて、業界の専門家に対して83%の勝率を達成し、その一方で前モデルよりも大幅に少ないトークンを使用します。

事実を幻覚したり、複雑なワークフローに苦戦したり、単純なタスクでトークンを大量消費したりするAIモデルにうんざりしていたなら、GPT-5.4はこれらの問題点を直接解決します。事実誤認を起こす可能性が33%低く、コンピューター利用タスクを以前のモデルよりも3倍速く完了します。

💡
AIを活用したアプリケーションを構築する開発者にとって、API統合のテストと検証は極めて重要です。Apidogのようなツールは、GPT-5.4を統合する場合でも、独自のサービスを構築する場合でも、APIエンドポイントの設計、デバッグ、テストを支援します。Apidogの統合プラットフォームは、API設計、デバッグ、テスト、モックを単一のインターフェースにまとめ、AIモデルをアプリケーションに統合するチームの開発ワークフローを効率化します。
button

このガイドでは、GPT-5.4が実際に何をするのか、以前のバージョンと比較してどうなのか、そしてパフォーマンスの向上が高いトークンコストに見合うものなのかを詳しく解説します。具体的なベンチマークデータ、実際のパフォーマンス比較、そしてどのGPT-5.4バリアントがあなたのユースケースに適しているかについての明確なガイダンスが得られます。

学習できること:

GPT-5.4とは?

GPT-5.4は、OpenAI初のネイティブなコンピューター利用機能を備えた汎用モデルです。GPT-5.3-Codexの優れたコーディング能力と、強化された推論、視覚認識、ツール統合を単一のフロンティアモデルに統合しています。

このモデルは、3つの主要なプロフェッショナルシナリオを対象としています。

知識労働 - 44の職種にわたるスプレッドシート、プレゼンテーション、ドキュメント、分析の作成。GDPvalの比較において、GPT-5.4は業界の専門家と同等またはそれを上回る結果を83%で示し、GPT-5.2の70.9%から向上しています。

コンピューター利用とエージェント - マウス/キーボードコマンド、ブラウザ自動化、アプリケーションをまたがる多段階ワークフローを通じてコンピューターを操作します。OSWorld-Verifiedで75%の成功率を達成し、人間のパフォーマンス72.4%を上回っています。

コーディングと開発 - SWE-Bench Proで最先端のパフォーマンス(57.7%)を発揮し、複雑なコードベース向けに最大1Mトークンのコンテキストウィンドウをサポートしながら、コードの記述、デバッグ、反復を行います。

GPT-5.4には2つのバリアントがあります。

GPT-5.2からの主な改善点

GPT-5.4は漸進的なアップデートではありません。OpenAIは、4つの重要な領域で大幅な進歩を遂げました。

1. 事実の正確性と幻覚の削減

個々の主張レベルでの誤った記述が33%減少しました。全体の応答には18%少ないエラーが含まれています。これは、たった一つの誤った事実がプロジェクト全体を台無しにする可能性がある法律文書、財務モデル、または技術文書を作成する際に重要です。

2. トークン効率

GPT-5.4は、GPT-5.2と比較して問題を解決するために大幅に少ないトークンを使用します。MCP Atlasベンチマークを用いたツールを多用するワークフローでは、精度を維持しつつトークン使用量が47%減少しました。大量のAPI利用者にとって、この効率の向上は、トークンあたりの価格が高くなった分を相殺します。

3. コンピューター利用能力

以前のモデルでは、コンピューター利用のために別途専門のモデルが必要でした。GPT-5.4はこれをネイティブで処理します。

4. ツール検索と統合

ツール検索により、何千ものツール定義をすべてのリクエストに事前にロードする必要がなくなります。モデルは必要に応じてツール定義をオンデマンドで検索し、初期のトークンコストを削減し、数万のツールを含むエコシステムでの作業を可能にします。

Toolathlonベンチマークでは、GPT-5.4はGPT-5.2の45.7%と比較して54.6%の精度を達成し、より少ないツールイールド(レイテンシの代理指標)で済みました。

GPT-5.4 パフォーマンスベンチマーク

ベンチマークデータは、GPT-5.4が優れている点と、以前のモデルが依然として競争力を持つ点を示しています。

知識労働 (GDPval)

モデル

プロフェッショナルに対する勝率

GPT-5.4

83.0%

GPT-5.4 Pro

82.0%

GPT-5.2 Pro

74.1%

GPT-5.2

70.9%

GDPvalは、米国のGDPに貢献する上位9産業の44の職種にわたる明確に定義された知識労働をテストします。タスクには、営業プレゼンテーション、会計スプレッドシート、緊急ケアスケジュール、製造図面、短い動画などが含まれます。

スプレッドシートとドキュメントの作成

社内の投資銀行モデリングタスクにおいて:

プレゼンテーション評価では、人間の評価者は、GPT-5.4の出力がより強力な美学、より多様な視覚表現、より効果的な画像生成の使用により、68%の確率でGPT-5.4の出力を好みました。

コーディングパフォーマンス (SWE-Bench Pro)

モデル

精度

推定レイテンシ

GPT-5.4

57.7%

約1000秒

GPT-5.3-Codex

56.8%

約1200秒

GPT-5.2

55.6%

約1500秒

GPT-5.4は、SWE-Bench ProにおいてGPT-5.3-Codexと同等またはそれ以上の性能を発揮し、推論処理におけるレイテンシを低減しています。Codexの/fastモードでは、GPT-5.4により最大1.5倍高速なトークン速度を実現します。

コンピューター利用 (OSWorld-Verified)

OSWorld-Verifiedは、スクリーンショットとキーボード/マウス操作を通じてデスクトップ環境をナビゲートする成功率を測定します。

このベンチマークは、電子メールとカレンダー管理、一括データ入力、ファイル操作、アプリケーション間タスクなど、実際のデスクトップワークフローをテストします。

ウェブブラウジング (BrowseComp)

BrowseCompは、見つけにくい情報を探すための永続的なウェブ調査をテストします。

GPT-5.2からの絶対的な17%の改善は、複数ソースの情報合成の向上と、より持続的な検索戦略を反映しています。

視覚理解

MMMU Pro (ツールなし) - 視覚理解と推論をテストします。

OmniDocBench - ドキュメント解析精度 (エラーが低いほど良い):

コンピューター利用および視覚能力

GPT-5.4のコンピューター利用能力は詳細な検討に値します。これは、コンピューターをネイティブに操作できるOpenAI初の汎用モデルです。

コンピューター利用の仕組み

このモデルは、ブラウザまたはデスクトップインターフェースのスクリーンショットを解釈し、以下のように応答します。

  1. UI要素への座標ベースのクリック
  2. テキスト入力のためのキーボード入力
  3. ブラウザ自動化のためのPlaywrightコマンド
  4. マウスの動きとドラッグ操作

開発者は、システムメッセージを通じて動作を設定し、リスク許容度に基づいて安全ポリシーと確認要件を調整します。

実際のコンピューター利用例

Mainstayは、約30,000のHOAおよび不動産税ポータルでGPT-5.4をテストしました。

このモデルは、ポータルインターフェースをナビゲートし、多様なUIレイアウトからデータを抽出し、認証フローを処理し、キャプチャや多段階フォームなどのエッジケースを管理します。

強化された視覚認識

GPT-5.4は、以下の機能をサポートするオリジナル画像入力の詳細レベルを導入しました。

高詳細レベルは、最大2.56Mの総ピクセル数または2048ピクセルの最大寸法をサポートします。初期のAPIユーザーテストでは、オリジナルまたは高詳細設定でのローカリゼーション能力、画像理解、クリック精度の強力な向上が示されました。

ドキュメント解析の改善

より良い視覚認識は、ドキュメント処理に変換されます。GPT-5.4は以下を解析します。

OmniDocBenchにおける22%の改善(エラー率が0.140から0.109へ)は、この能力を反映しています。

コーディングと開発機能

GPT-5.4は、GPT-5.3-Codexの優れたコーディング能力を受け継ぎながら、統合開発ワークフローのためにコンピューター利用を追加しています。

フロントエンド開発

内部評価により、GPT-5.4は複雑なフロントエンドタスクにおいて、以前のモデルよりも著しく美的で機能的な結果を出すことが分かりました。Codexの実験的なPlaywrightインタラクティブスキルがこれを示しています。

例:テーマパークシミュレーション 単一のプロンプトで、以下の機能を持つアイソメトリックテーマパークシミュレーションが生成されました。

モデルはゲームを構築し、その後Playwrightを使用してプレイテストを自動化し、複数ラウンドにわたって配置、ナビゲーション、ゲストの反応、UIの安定性を検証しました。

開発者向け高速モード

CodexのGPT-5.4は、最大1.5倍高速なトークン速度を提供する/fastモードをサポートしています。API開発者は、優先処理を通じて同等の速度にアクセスします。これにより、デバッグおよび開発中の反復時間を短縮しながら、同じインテリジェンスを維持します。

コンテキストウィンドウのサポート

GPT-5.4 Codexには、実験的な1Mトークンコンテキストウィンドウのサポートが含まれています。以下を通じて設定します。

標準の272Kコンテキストを超えるリクエストは、通常レートの2倍の使用制限としてカウントされます。これにより、単一のリクエストでコードベース全体、大規模なドキュメントセット、または複数ファイルプロジェクトの分析が可能になります。

ApidogによるAPIドキュメント:

ツール統合と検索

ツール検索は、モデルが外部ツールやMCPサーバーとやり取りする方法における根本的な変化を意味します。

ツール検索の仕組み

以前のアプローチ:すべてのツール定義が各リクエストに事前にロードされていました。多くのツールを持つシステムでは、これにより数千から数万のトークンが追加され、コストが増加し、応答が遅くなっていました。

ツール検索アプローチ:モデルは利用可能なツールの軽量なリストを受け取ります。必要に応じて、特定のツール定義を検索し、その時点で会話に追加します。

トークン節約の例

ScaleのMCP Atlasベンチマークでは、36すべてのMCPサーバーを有効にして250のタスクをテストしました。

ツール検索なしでのトークン内訳:

ツール検索は、キャッシュ効率を維持しながら事前コストを排除します。

MCP Atlas パフォーマンス

MCP Atlasベンチマーク(250タスク、36 MCPサーバー)において:

このモデルは、精度を犠牲にしたり、コンテキストウィンドウを圧倒したりすることなく、より大きなツールエコシステムで機能します。

エージェント的ツール呼び出し

Toolathlonベンチマークは、多段階のツールワークフロー(電子メールの読み取り、添付ファイルの抽出、ファイルのアップロード、採点、結果の記録)をテストします。

ツールイールド(ツール応答待機)は、並列化の利点を取り込むため、ツール呼び出し回数よりもレイテンシをよりよく反映します。GPT-5.4は、より少ないラウンドでタスクを完了します。

GPT-5.4 vs GPT-5.3-Codex vs GPT-5.2

モデルの選択は、あなたの特定の要件に依存します。

GPT-5.4を使用する場合

GPT-5.3-Codexが依然として競争力を持つ場合

GPT-5.2で十分な場合

価格比較

モデル

入力価格

キャッシュ済み入力

出力価格

GPT-5.2

$1.75/M

$0.175/M

$14/M

GPT-5.4

$2.50/M

$0.25/M

$15/M

GPT-5.2 Pro

$21/M

-

$168/M

GPT-5.4 Pro

$30/M

-

$180/M

バッチおよびフレックス価格は標準料金の50%で利用可能です。優先処理は標準料金の200%です。

利用可能性とアクセスオプション

GPT-5.4は、2026年3月5日からChatGPT、Codex、API全体で段階的に展開されました。

ChatGPTアクセス

GPT-5.4 Thinkingは以下で利用可能:

GPT-5.4 Proは以下で利用可能:

レガシーアクセス:GPT-5.2 Thinkingは、2026年6月5日の廃止まで、レガシーモデルセクションで3ヶ月間利用可能です。

エンタープライズおよび教育機関:管理者設定を通じて早期アクセスが可能です。

Codexアクセス

GPT-5.4は、以下の機能を備えたCodexのデフォルトモデルです。

APIアクセス

モデル名:

コンテキストウィンドウ:

価格設定:

非推奨化のタイムライン

GPT-5.2 Thinkingは2026年6月5日に廃止されます。混乱を避けるため、この日までにワークフローを移行してください。

結論

GPT-5.4は、知識労働、コンピューター利用、コーディングタスク全体で測定可能な改善をもたらします。GDPvalでの83%の勝率、OSWorld-Verifiedでの75%のスコア、SWE-Bench Proでの57.7%の精度は、プロフェッショナルなAIワークフローにおける新たな最先端としての地位を確立しました。

GPT-5.4をアプリケーションに統合する開発者にとって、堅牢なAPIテストおよびデバッグツールを持つことは不可欠です。Apidogは、統一されたAPI設計、デバッグ、テスト、ドキュメント作成機能により、統合プロセスを効率化します。AIエージェントを構築する場合でも、ワークフローを自動化する場合でも、GPT-5.4を活用した顧客向け機能を開発する場合でも、ApidogはAPI統合が最初から正しく機能することを保証します。

button

主要なポイント:

導入すべき時期:

待つべき時期:

GPT-5.4は、OpenAIのこれまでのモデルの中で最も効率的な推論モデルです。幻覚の削減、トークン効率の向上、ネイティブなコンピューター利用能力の組み合わせは、プロフェッショナルアプリケーションにおけるトークンあたりの高い価格設定を正当化します。

よくある質問

GPT-5.4とGPT-5.2の違いは何ですか?

GPT-5.4は、知識労働で83%の勝率を達成する一方、GPT-5.2は70.9%であり、大幅に少ないトークンを使用し、ネイティブなコンピューター利用能力を備え、事実誤認を33%削減します。価格は高めですが($2.50/$15 vs $1.75/$14)、効率の向上により総コストは低くなる可能性があります。

GPT-5.4 APIの費用はいくらですか?

GPT-5.4の費用は、入力トークン100万あたり$2.50、キャッシュ済み入力トークン100万あたり$0.25、出力トークン100万あたり$15です。GPT-5.4 Proは、入力$30/M、出力$180/Mです。バッチおよびフレックス価格では50%割引が提供されます。

GPT-5.4にはコンテキストウィンドウの制限がありますか?

標準のコンテキストウィンドウは272Kトークンです。実験的な1Mトークンコンテキストウィンドウサポートは、model_context_windowおよびmodel_auto_compact_token_limitパラメータを設定することでCodexで利用できます。272Kを超えるリクエストは、2倍の使用率でカウントされます。

GPT-5.4 Proは何のために使われますか?

GPT-5.4 Proは、複雑な推論タスクで最高のパフォーマンスを目標としています。BrowseComp(89.3% vs 82.7%)やGDPval(82.0% vs 83.0%標準版)などのベンチマークでより高いスコアを記録しますが、費用は12倍かかります($30/$180 vs $2.50/$15)。

GPT-5.4はいつリリースされましたか?

GPT-5.4は2026年3月5日にリリースされ、ChatGPT、Codex、API全体で段階的に展開されました。GPT-5.2 Thinkingは、移行のために2026年6月5日まで利用可能です。

GPT-5.4はコンピューターやブラウザを使用できますか?

はい。GPT-5.4は、OpenAI初のネイティブなコンピューター利用機能を備えた汎用モデルです。マウス/キーボードコマンドを発行し、Playwrightを介してブラウザを自動化し、スクリーンショットの解釈を通じてデスクトップ環境をナビゲートします。

GPT-5.4のツール検索とは何ですか?

ツール検索により、モデルはすべての定義を事前にロードする代わりに、必要に応じてツール定義をオンデマンドで検索できます。これにより、ツールを多用するワークフローでのトークン使用量が47%削減され、数万のツールを含むエコシステムでの作業が可能になります。

コーディングにおいて、GPT-5.4はGPT-5.3-Codexとどのように比較されますか?

GPT-5.4は、SWE-Bench ProにおいてGPT-5.3-Codexと同等またはそれ以上の性能を発揮し(57.7% vs 56.8%)、レイテンシを低減し、コンピューター利用能力を追加しています。新しい開発ワークフローには推奨される選択肢です。

GPT-5.4はChatGPTで利用できますか?

はい。GPT-5.4 Thinkingは、Plus、Team、Proの加入者が利用できます。GPT-5.4 Proは、ProおよびEnterpriseプランで利用可能です。GPT-5.2 Thinkingは、2026年6月5日までレガシーモデルとして利用可能です。

GPT-5.4の安全に関する考慮事項は何ですか?

GPT-5.4は、OpenAIのPreparedness Frameworkにおいて「高サイバー能力」として扱われます。保護対策には、拡張されたサイバー安全スタック、監視システム、信頼されたアクセス制御、およびゼロデータ保持の表面での高リスクリクエストに対する非同期ブロッキングが含まれます。分類器の改善に伴い、一部の誤検知が発生する可能性があります。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる