GPT-5.6 Solベンチマーク：本当に待つ価値はあるのか？

OpenAIは2026年6月26日、クリーンな記録に見える一連のベンチマーク数値を伴い、GPT-5.6 Solを発表しました。Terminal-Benchの最先端であり、Agent's Last Examのコードモードで50%を超えた唯一のモデルであり、トークンの3分の1でトップ競合に匹敵するサイバー評価を達成しています。最初に読んでおくべき注意点があります。それは、このモデルを一切実行できないということです。Solは、米国政府が個別に承認した約20のパートナーに限定され、OpenAI APIとCodexを通じてのみ政府承認の限定プレビューとして提供されます。ChatGPTには含まれておらず、現時点でサインアップできるものもありません。

したがって、これらのベンチマークは購入の助言ではありません。それらはただ一つの質問に答えます。それは、GPT-5.6 Solは待つ価値があるのか、それともすでに利用可能なモデルに移行すべきなのか、ということです。この記事はそれを整理します。私たちは各主要ベンチマークが何を測定しているのかを詳しく説明し、GPT-5.5およびClaude Mythos 5という既存のベースラインとすべての数値を比較し、最後に正直な「待つか、移行するか」の判断を下します。ここに示すすべての数値は、OpenAI自身の説明と初期の二次報道から得られたものであり、私たちが実行したテストによるものではありません。

button

要約

GPT-5.6 Solは限定プレビュー中：OpenAI APIとCodexのみ、ChatGPTにはなし、約20の政府承認パートナーに限定。OpenAIによると一般提供は「数週間以内」。
報告されているスコアは強力ですが、二次情報源に基づいています。モデルが公開されるまでは、これらを測定された結果ではなく、OpenAIの主張として扱ってください。
主要な数値（OpenAI / 初期報道より）：Terminal-Bench 2.1 SOTA、Agent's Last Examコードモードで50%超、ExploitBenchでは出力トークンの約3分の1で同等。
あなたの作業がエージェント的なコーディング、長時間のターミナルタスク、または防御的なセキュリティであり、数週間待つことができるなら、待つべきです。
今すぐ本番環境でモデルが必要な場合は、待つ必要はありません。今日テストできる代替モデルは、ほとんどのギャップを埋めています。

スコアを読む前にこれを読んでください

ベンチマークはモデルが何ができるかを示しますが、あなたがそれを使えるかどうかは示しません。GPT-5.6 Solの場合、これらは2つの異なる事実であり、現時点では後者が支配的です。

このリリースは、新しいAIモデルのベンチマークと評価を確立する2026年6月2日の大統領令に基づき、米国政府によって制限されています。OpenAIは一時的な措置としてこれに同意しました。MacRumorsが引用したOpenAIの言葉によると、「数週間以内のより広範な提供に向けて、これが最も強力な道であると信じているため、この短期的な措置をとっています。」OpenAIは、ChatGPT、Codex、およびAPIでの一般提供が数週間以内に予定されていると述べています。それまでは、これらのスコアはあなたが購入できないもののプレビューに過ぎません。

そのような枠組みが、この記事の残りの部分をどう読むかに影響します。もしデプロイできるのであれば、Terminal-Benchでの4ポイントのリードは意味があります。しかし、それができないのであれば、ロードマップを中断する理由ではなく、引き続き注目し続ける理由になります。Solが何であるか、なぜロックされているのかの全体像を知りたい場合は、当社のGPT-5.6 Sol解説で、そのファミリーとゲートについて説明しています。正確なAPIモデル識別子はまだ公開されていないため、たとえ望んだとしても、何も接続することはできません。

Terminal-Bench 2.1: 主要な数値

Terminal-Benchは、モデルがターミナルで現実のタスクをどれだけうまく完了できるかを測定します。ファイルの編集、コマンドの実行、ツールの連結、エラーからの回復などです。これは、単一のプロンプトに答えるのではなく、「このモデルがエンドツーエンドでエージェント的なコーディング作業を実行できるか」を測る最も近い公開指標です。OpenAIがこれをリードベンチマークとしたのはそのためです。

OpenAIおよび初期報道によると、Terminal-Bench 2.1の新しい「ウルトラ」構成であるSol Ultraは約91.91%をスコアし、標準のSolは約88.8%です。参考としてすでに手元にあるベースラインは、Claude Mythos 5が約88%、GPT-5.5が約83.4%です。これらが正しければ、Solの標準モードはMythos 5とほぼ同等であり、Sol Ultraは他を数ポイント上回っています。

「ウルトラ」の部分が、そのトップスコアで真の働きをしています。OpenAIの発表によると、ウルトラモードは「サブエージェントを活用して複雑な作業を加速させることで、単一のエージェントを超越する」とのことです。したがって、91.91%は一つのモデルがより懸命に考えているのではなく、一つのモデルがヘルパーを生み出している結果です。これは真の能力シフトであり、この主要な数値が単一のGPT-5.5呼び出しにきれいに対応するわけではないことも意味します。Solがロックされている間、今日実行できるモデルの直接比較については、当社のClaude Opus 4.8 vs GPT-5.5 vs Gemini 3.5比較がより良い参考になります。

Agent’s Last Exam: 「50%を超えた唯一のモデル」という主張

Agent's Last Examは、飽和に抵抗するように構築された、難しいエージェント的ベンチマークです。これは、モデルが人間からの介入なしに計画を立て、ツールを使用し、タスクを最後まで実行しなければならない多段階のタスクです。コードモードは、特にソフトウェア作業に重点を置いた部分です。

初期報道によると、GPT-5.6 Solはコードモードで約50.9%をスコアし、50%を超えた唯一のモデルであるとされています。この表現がポイントです。ほとんどのフロンティアモデルが40%台にとどまるベンチマークにおいて、半分を超えることは、OpenAIが発表の目玉としたい種類の飛躍です。

Terminal-Benchの数値と同じ注意を払ってこれを読んでください。50.9%は二次報道からの主張であり、私たちが測定した数値ではありません。また、「50%を超えた唯一のモデル」というのも、数週間以内に他の研究機関がこれを追い越そうとする一時的なスナップショットです。正直な読み方としては、もしあなたの仕事が本当にエージェント的で、モデルがタスクを完了まで導く必要があるような長期間のコーディングであれば、これは待つべきであると主張するベンチマークです。もしあなたの仕事がより短い要求応答型のコーディングであれば、すでに実行しているモデルとのギャップは、見出しが示唆するよりも小さいでしょう。

ExploitBench: 生のスコアよりも効率性

3つ目のベンチマークは、「待つか、移行するか」の判断において最も興味深いものです。なぜなら、これは実際にはより大きなスコアに関するものではないからです。ExploitBench（および関連するExploitGym）は、サイバーセキュリティ能力を測定します。Solは、ソフトウェアの脆弱性を発見し、修正を記述するように調整されており、完全なエクスプロイトチェーンを構築する試みに抵抗します。これは攻撃的なハッキングモデルではなく、防御的な姿勢であり、OpenAIはこれを「これまでの最も堅牢なセーフティスタック」と呼んでいます。

初期報道によると、ExploitBenchにおいてSolは、出力トークンの約3分の1を使用しながら、AnthropicのMythos Previewと同等の競争力を持つとされています。同じパターンは科学分野でも見られ、GeneBench v1では、OpenAIはGPT-5.5よりも少ないトークンで改善を報告しています。

トークンの話は、実際の予算に影響を与えるものです。もしSolが出力トークンの3分の1で同等の品質基準を達成できるなら、解決済みタスクあたりの実質的なコストは、100万トークンあたり入力5ドル/出力30ドルという料金表が示すものよりもはるかに低くなります。これが待つことの効率性に関する議論です。つまり、Solがあらゆるプロンプトに対して賢いということではなく、調整されたワークロードにおいては、より安価に同じ答えに到達できる可能性があるということです。OpenAIデプロイメント安全システムカードには、安全性とサイバーフレームワークが文書化されており、サイバー関連の数値を信頼する前に読む価値があります。

これらのスコアをあなたのベースラインと照らし合わせてどう読むか

3つのベンチマークをまとめると、ある傾向が見えてきます。Solは、長時間のエージェント的な作業、ツールを多用する作業、つまりターミナルタスク、多段階コーディング、防御的なセキュリティスキャンにおいて最も強力です。これらのタスクにおいて、SolはMythos 5に対して数ポイントの優位性を主張し、GPT-5.5に対してはさらに大きな差をつけ、加えてトークン効率の優位性も持っています。

ベンチマークが示さないことも同様に重要です。最大出力トークン制限、知識のカットオフ日、確認されたモダリティリストは公開されていません。コンテキストウィンドウについては、ある情報源が約150万トークンと報じ、別の情報源は「未指定」としているため、未確認として扱ってください。

評決: 待つか、移行するか

正直な結論です。

待つべき場合：あなたの主要なワークロードがエージェント的なコーディング、長時間のターミナルセッション、または防御的なセキュリティであり、数週間待つことができるなら。Terminal-Benchでのリード、Agent's Last Examの結果、およびExploitBenchのトークン効率はすべて、この正確なプロファイルを示しています。これらのタスクで数パーセントの向上があなたの経済状況を変えるのであれば、Solは綿密に注目する価値があります。一般提供と、より重要なことには、発表された数値を裏付けるか、あるいは弱める独立したベンチマークを待ちましょう。
待つ必要がない場合：今すぐ本番環境でモデルが必要な場合、またはあなたの作業が短い要求応答型コーディング、チャット、要約、分類である場合。いずれにせよ、Solは今日入手できず、モデルIDすら公開されていません。そして、今すぐ実行できる代替モデルは、日常業務におけるほとんどのギャップを埋めてくれます。今日抱えている問題を解決する前に、ロックされたモデルのリリースを待つのは誤った選択です。より賢い動きは、実際に使用できるフロンティアモデルを選択することです。Solが注目されている仕事に合わせた、今日利用できるフロンティアモデルのまとめをご覧ください。

もう一つ正直なこと：一般提供が開始されても、最初の波はSolだけでなく、TerraやLunaを含むすべての階層ラインナップにわたるGPT-5.6になるでしょう。TerraはGPT-5.5とほぼ同等のパフォーマンスで約2倍安価な位置づけであり、ほとんどのチームが最終的に使用することになる階層です。したがって、「Solを待つ」ということは、実際には適切な階層を選択するために待つことであり、それはベンチマークの見出しが示唆するよりも落ち着いた決断です。

待っている間にApidogがどのように役立つか

Solはまだテストできません。しかし、その間に他に利用可能なものはすべてテストできます。Mythos 5、GPT-5.5、Gemini、その他すべてはOpenAI互換または標準のHTTP APIを公開しており、今日Apidogでそれらを駆動し、応答をアサートし、動作を比較することができます。リクエストを設定し、各モデルのエンドポイントに向けて送信すれば、この記事が扱っている決定のための再現可能なハーネスが手に入ります。

そのハーネスは、Solに対する初日からの準備にもなります。プレビューアクセスが開始された日、あるいは一般提供が開始された日に、エンドポイントとモデルIDを入れ替え、すでに構築したのと同じシナリオを実行できます。新しいツールは不要で、慌てる必要もありません。Apidogをダウンロードして、今すぐ使えるモデルに対してテストを構築し、アクセスが制限されているモデルが公開された瞬間に備えましょう。

結論

GPT-5.6 Solのベンチマークは強力であり、特に調整されたエージェント的な作業やセキュリティ作業においては優れていますが、現時点ではあなたが通過できない政府のゲートの下での単なる主張に過ぎません。もしそのフロンティア的なプロファイルがあなたの仕事であり、数週間待つことができるなら、待ちましょう。そうでなければ、今すぐ出荷できるモデルに進み、Solが独立した数値と公開エンドポイントを得たときに再検討してください。

今すぐ使えるモデルに対してApidogで評価ハーネスを構築し、アクセスが可能になったその日にSolをテストできるよう準備しましょう。

button