過去33日間で、3つのフロンティアクラスのリリースが出荷されました。AnthropicのClaude Opus 4.7は4月16日に登場。OpenAIのGPT-5.5が4月23日に続き、GoogleのGemini 3.5 Flashは5月19日に出荷され、Pro版は6月に登場予定です。
まず最初に申し上げておきたいのは、これはティアが異なる比較であるということです。Opus 4.7とGPT-5.5は、フラッグシップの価格設定を持つフラッグシップモデルです。FlashはGoogleの高速・低コスト版で、これらと比較してはるかに安価です。興味深い疑問は、トークンあたり5~10倍高価なモデルと比較した場合、Flashがどこまで通用するかという点です。
簡潔に言えば、Flashはそのティアをはるかに超える性能を発揮します。コスト、速度、そしていくつかのエージェント関連ベンチマークで優位に立ちます。最も困難なコーディングタスクや文章作成の質では劣ります。重要なのは、ワークロードに合ったモデルを選択することです。
30秒でわかる回答
| 質問 | 最適解 |
|---|---|
| 最も安価な本番エージェントループ | Gemini 3.5 Flash |
| SWE-Bench Verifiedバグ修正で最高スコア | Opus 4.7 |
| 大規模利用で最もトークン効率が良い | GPT-5.5 |
| 最高の長文コンテキスト検索 (1Mトークン) | Gemini 3.5 Flash |
| 最高のグラフとドキュメント理解 | Gemini 3.5 Flash |
| 最高の長期的CLIエージェント | GPT-5.5 (Terminal-Bench 2.0) |
| 最高の複数ステップ指示追従 | Opus 4.7 |
| 最速のトークン出力 | Gemini 3.5 Flash (他モデルの約4倍) |
| 最高のレポジトリ全体コードリファクタリング | Opus 4.7 |
単一の勝者はいません。ワークロードごとの内訳を続けてお読みください。
リリーススケジュール
各モデルは同時期に出荷されましたが、それぞれ異なる位置付けがあります:
- Opus 4.7、2026年4月16日。Anthropicのフラッグシップ推論モデルで、コードと拡張された複数ステップの作業に最適化されています。フラッグシップティア。
- GPT-5.5、2026年4月23日。GPT-4.5以来、OpenAI初の完全再学習されたベースモデル。焦点は、エージェント効率とトークンコスト削減。フラッグシップティア。
- Gemini 3.5 Flash、2026年5月19日。Googleの3.5ファミリーの高速バリアント。低コスト・高速でのエージェント実行に焦点を当てています。ミッドティア。Gemini 3.5 Pro(フラッグシップティア)は2026年6月に出荷予定です。
それぞれのリリースは、本番規模のエージェント作業におけるギャップを完全に埋められなかった前世代からの進歩です。コーディングツールという観点からは、以前の「Cursor Composer 2.5 vs Opus 4.7 vs GPT-5.5」の記事を、また前世代の比較については「Gemini 3.1 Pro vs Opus 4.6 vs GPT-5.3」の記事をご覧ください。
価格比較
ティアの不一致が最も顕著なのがここです:
| モデル | 入力 ($/1M) | 出力 ($/1M) | 備考 |
|---|---|---|---|
| Gemini 3.5 Flash | 約$1.50 | 約$9.00 | 無料ティアあり |
| GPT-5.5 | 約$10 | 約$30 | キャッシュされた入力はより安価 |
| Claude Opus 4.7 | 約$15 | 約$75 | 最高価格 |
トークンあたりでは、Flashは入力で6~10倍、出力で3~8倍安価です。バッチモードやVertex AIを含む完全な価格計算については、「Gemini 3.5 Flashの価格詳細」をご覧ください。GPT-5.5の詳細については、「GPT-5.5の価格」をご覧ください。
モデルがタスクごとに数百回実行されるようなエージェントワークロードの場合、コスト差はさらに拡大します。Googleが主張する「他のフロンティアモデルの半額以下」という表現は、フラッグシップ同士の比較です。Flashは、具体的にはその半額を大きく下回ります。
トークン効率は、この計算を逆転させます。GPT-5.5は同じタスクに対して明らかに少ない出力トークンを生成し、時にはOpus 4.7よりも72%も少ないことがあります。これにより、トークンあたりのレートが高くても、タスクあたりのコスト差が部分的に縮まります。
コーディングベンチマーク
コーディングは、これら3つのモデルの性能差が最も顕著に現れる分野です。

SWE-Bench Verified (単一の問題のバグ修正)
| モデル | スコア |
|---|---|
| Opus 4.7 | 87.6% |
| GPT-5.5 | 約85% |
| Gemini 3.5 Flash | 個別報告なし |
Opus 4.7は、単一のバグ修正ベンチマークで依然としてリードしています。GPT-5.5との差は数パーセントポイントであり、ほとんどのワンショットコーディングタスクでは両者とも競争力があると感じられます。Flashは比較可能な数値を公表していませんが、非公式のテストでは、純粋なSWE-Bench Verifiedでは両フラッグシップを下回る結果となっており、高速ティアモデルとしては予想通りです。
SWE-Bench Pro (複数ファイルにわたる複雑な修正)
| モデル | スコア |
|---|---|
| Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| Gemini 3.5 Flash | 個別報告なし |
複数ファイルのリファクタリングは、Opus 4.7の最も得意とする分野です。日常的にCursor ComposerやClaude Codeのワークフローでリポジトリ全体にわたる実際のリファクタリングを行っているのであれば、Opusがより安全な選択肢となります。Flashは、日常的な変更であれば、はるかに低いコストでほとんどの作業をこなせるでしょう。
Terminal-Bench 2.0/2.1 (CLIエージェントループ)
| モデル | スコア | ベンチマーク |
|---|---|---|
| GPT-5.5 | 82.7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76.2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69.4% | Terminal-Bench 2.0 |
2.0と2.1は異なるタスクミックスを使用する2つの異なるスコアボードです。結論として、FlashとGPT-5.5はどちらも長時間のCLIエージェント実行においてOpusを上回っています。GPT-5.5が依然としてリードしていますが、Flashははるかに低いコストでその差のほとんどを縮めました。
MCP Atlas (マルチツール連携)
Gemini 3.5 Flash: 83.6%。これはGoogleのエージェント的なツール使用における主要な指標です。OpenAIとAnthropicは同じベンチマークで比較可能な数値を公開しておらず、直接比較は困難です。伝え聞くところでは、2026年にはこれら3つすべてがツール呼び出しワークロードにおいて信頼できるとされています。
エージェント的および長期的な作業
監視なしで数十分から数時間実行されるタスクの場合:
- Gemini 3.5 Flash: タスクあたりの価格と出力速度で優位に立ちます。MCP Atlasスコア (83.6%) とTerminal-Bench 2.1 (76.2%) は、一貫したツール使用挙動を示しています。サブエージェントのディスパッチは最高レベルです。
- GPT-5.5: Terminal-Bench 2.0 (82.7%) とトークン効率で優位に立ちます。タスクあたりの出力トークンが少ないことは、ばらつきの低減とコスト超過の削減を意味します。
- Opus 4.7: 複数ステップの指示追従とコード品質で優位に立ちます。冗長で物語調の出力のため、非常に長い実行における速度と価格では劣ります。
CodexとClaude Codeによる/goalコマンドパターンのように、継続的にエージェントを実行する場合、経済性が重要になります。Flashはコストで優位に立ち、Opusはターンあたりの出力品質で優位に立ち、GPT-5.5はトークン規律で優位に立ちます。
コンテキストウィンドウと長文コンテキスト検索
| モデル | 最大入力 | 最大出力 |
|---|---|---|
| Gemini 3.5 Flash | 1Mトークン | 64Kトークン |
| GPT-5.5 | 400Kトークン | 128Kトークン |
| Opus 4.7 | 1Mトークン (ベータ版) | 64Kトークン |
Flashは、Googleが公開している1MトークンのMRCR v2検索ベンチマークでリードしています。これは、チャンキング戦略なしで「200ページPDFの中から正しい答えを見つける」タスクにおいて、特にその価格帯を考慮すると、Flashを最も明確な選択肢とします。
Opus 4.7は生のウィンドウサイズでは同等ですが、高負荷時の検索の一貫性では劣ります。GPT-5.5の400Kは十分な量ですが、純粋な規模ではFlashに劣ります。
ドキュメントを多用するワークフロー、長文レポート、完全なコードベース、複数ドキュメント分析においては、Flashが実用的なデフォルトとなります。
マルチモーダル
Flashはグラフとドキュメントの推論で優位に立ちます:
- CharXiv Reasoning: 84.2% (Gemini 3.5 Flash)
- MMMU-Pro: 83.6% (Gemini 3.5 Flash)
OpenAIとAnthropicはどちらもフラッグシップモデルで画像入力をサポートしていますが、ローンチ時点でのFlashのグラフ推論スコアには及んでいません。ビジュアル分析、PDF抽出、テキストとスクリーンショットを組み合わせたワークフローには、Flashが明確な選択肢となります。
パイプラインの一部として画像生成をルーティングする場合、そちらのモデル選択については「Gemini 3 Pro Image vs Seedream」に関する私たちの見解をご覧ください。
出力速度
ユーザーがストリーミング出力を待つ場合、1秒あたりのトークン数は重要です。
| モデル | 相対出力速度 |
|---|---|
| Gemini 3.5 Flash | ベースラインの約4倍 |
| GPT-5.5 | ベースライン |
| Opus 4.7 | ベースラインの約0.7倍 |
数値は地域や負荷によって異なります。傾向は一貫しており、Flashは両フラッグシップよりも明らかに速くストリーミングします。チャットUIやライブコーディングアシスタントにとって、インスタントストリーミングによる知覚される品質向上は本物です。
推論、数学、科学
| ベンチマーク | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | 強力 (Googleの表より) | 高 | 高 |
| 数学的推論 | 強力 | 強力 | 強力 |
| 長文執筆 | 良い | 良い | 最高 |
この行はリーダーボードの上位で拮抗していますが、ただし書きがあります。Flashは高速ティアモデルであるにもかかわらず、ここでは十分な性能を発揮しています。Opusは依然として最も強力な物語調の文章作成能力を持っています。他の2つは、生の推論能力においては追いついてきました。
ツールエコシステムと統合
- Opus 4.7: Claude Code、MCP、Anthropic API、成熟したツールエコシステム、Bitwarden Agentおよび幅広いIDEサポート
- GPT-5.5: OpenAI Codex、Responses API、ChatGPTアプリ統合。関数呼び出しは最も長い実績があります。
- Gemini 3.5 Flash: Antigravity、Gemini Enterprise Agent Platform、Gemini CLI、Android Studio統合、急速に成長中
Anthropicは最も深いサードパーティアダプターエコシステムを持っています。OpenAIは最も幅広い開発者採用実績があります。GoogleはAntigravityとAgent Platformで急速に追いついていますが、サードパーティ基盤はまだ小さいところからスタートしています。
どのモデルを選択すべきか
少しベンチマークを脇に置き、ワークロードを見てみましょう。
Gemini 3.5 Flashを選択する場合:
- タスクごとの予算が厳しい場合
- ストリーミングUIでの出力速度が重要な場合
- 長文ドキュメント (1Mトークン) を処理する場合
- タスクにグラフ、PDF、スクリーンショットが含まれる場合
- 最低価格帯で信頼性の高いエージェントループを求める場合
- すでにGoogle CloudまたはWorkspaceエコシステムを利用している場合
- ワークロードが大量で、「完璧」よりも「十分な品質」が重視される場合
GPT-5.5を選択する場合:
- トークン効率が最優先事項である場合 (100万トークンあたりで支払うため)
- タスクがCLI駆動のエージェント作業である場合 (Terminal-Benchのリーダー)
- 最も幅広いサードパーティツールアダプターライブラリを求める場合
- すでにチームのワークフローにChatGPTが組み込まれている場合
- 完全なセットアップについては「GPT-5.5 APIの利用方法」を参照してください。
Opus 4.7を選択する場合:
- タスクが複数ファイルのコードリファクタリングやリポジトリ全体にわたる変更である場合 (SWE-Bench Proのリーダー)
- 複数ステップの指示追従の品質が速度よりも重要である場合
- 長文執筆や慎重な物語調の出力が成果物である場合
- すでにClaudeプランでClaude Codeを利用している場合
- タスクあたりのコストが制約ではない場合
ブレンドして選択する場合:
ほとんどの本番環境スタックでは、これらの中から2つを組み合わせて使用することになります。一般的なパターン:
- 検索と準備にFlash、最終的なコミットにOpus: 安価なコンテキスト重視の作業で、高価なモデルに適切な入力を供給します。
- CLIエージェントループにGPT-5.5、グラフ/ドキュメント分析にFlash: それぞれが得意なことを行います。
- トラフィックの80%にFlash、残りの難しい20%にOpusまたはGPT-5.5: タスクの複雑性に応じてルーティングします。
- タスクタイプに基づいて選択する安価なルーターの背後に3つすべてを配置します。
無料ティアの比較
3つすべてに無料利用の道があります:
- Gemini 3.5 Flash: AI Studio APIキー、1日あたり約1,500リクエスト。私たちの「Flash無料ガイド」をご覧ください。
- GPT-5.5: ChatGPTでの無料クエリは制限付き。さらに「GPT-5.5無料ガイド」で紹介されているゲートウェイも利用できます。
- Opus 4.7: Claude.aiのデイリー制限、さらに私たちの「Opus 4.7無料ガイド」で紹介されている無料の利用方法があります。
3つの中で、Flashの無料API利用経路が最も開発者フレンドリーです。AI Studioでは、クレジットカードなしで動作するキーと、便利なデイリークォータが提供されます。
自分のワークロードに対してこれらのモデルを実際にテストする方法
ベンチマークは、モデルが平均的に何ができるかを示します。重要なのはあなたのワークロードです。小さな評価ハーネスを構築しましょう:
- 実際のユースケースから代表的なタスクを20個選択します。
- 各タスクに対して3つのモデルすべてを実行します。
- 3つの側面で評価します: タスクの成功、総コスト、レイテンシ。
- ワークロードに固有の失敗モード、拒否、スキーマドリフト、ツール呼び出しの形状変化に注意します。
ここでApidogが役立ちます。3つのAPIエンドポイント (Gemini、OpenAI、Anthropic) をパラメータ化されたリクエストとして保存し、キーを環境変数として保存し、ワンクリックで3つすべてに同じプロンプトを実行できます。応答はApidogのテストフレームワークに戻され、そこで並べて比較できます。
具体的な設定方法:
- Apidogをダウンロード
- 「Frontier Model Eval」という名前のワークスペースを作成します。

- プロバイダーごとに1つずつ、3つのリクエストを保存します (Flash、GPT-5.5、Opus 4.7)。
- 同じプロンプトを3つすべてに対して実行するテストシナリオを構築します。
- 応答アサーション (JSON形式、必須文字列、レイテンシ閾値) を追加します。
- モデルのドリフトを検出するために、シナリオを毎週実行します。
どちらのモデルが「良い感じか」を3ヶ月議論するよりも、2日間のセットアップの方が勝ります。
次に何が変わるか
今後90日間で注目すべき3つの点:
- Gemini 3.5 Pro GA。6月にPro版が登場すれば、比較は変わります。Flashは依然としてコスト/速度の面で優位を保ちますが、ProはOpusとGPT-5.5にとって直接的なフラッグシップ競合となります。
- OpenAIの反応。GPT-5.5は4月のリリースでした。Gemini 3.5 Proが強力に登場すれば、中間サイクルのアップデートまたは新しいバリアントが登場する可能性があります。
- Anthropicの次の動き。Opus 4.7は現在のAnthropicのフラッグシップです。次四半期にSonnetの更新またはOpus 4.8が登場すれば、サイクルに沿った動きとなるでしょう。
この分野は現在、毎月変化しています。賢明なのは、評価ハーネスを稼働させ続け、数値が動いたら切り替え、決して単一プロバイダーのツールに縛られないことです。
FAQ
Gemini 3.5 Flashは本当にOpus 4.7やGPT-5.5と競争力がありますか? はい、そのティアの中では。Flashはエージェントベンチマークでそのクラスをはるかに超える性能を発揮し、コスト面で優位に立ちます。ただし、絶対的に最も難しいタスク(複雑な複数ファイルのリファクタリング、慎重な長文執筆)では、フラッグシップモデルが依然としてリードしています。
なぜ高速ティアモデルをフラッグシップと比較するのですか? コスト差が非常に大きいため、フラッグシップモデルがわずかにタスクをより良くこなせたとしても、多くの本番ワークロードではFlashを使用すべきだからです。正直な疑問は、「Flashはこのワークロードにとって十分な性能があるか?」であって、「Flashがすべての点で最高か?」ではありません。
Opus 4.7はより高い価格に見合う価値がありますか? コードや文章のターンごとの品質が最も重要なワークロードであれば、はい。数千ターンを実行するような大量のエージェントループでは、タスクあたりの計算ではFlashに軍配が上がります。
3つのモデルすべてを1つのAPIを通じて使用できますか? 直接的にはできません。各プロバイダーは独自のエンドポイントを持っています。OpenAIのOpenAI互換モードはGoogle(シム)によってサポートされていますが、それでも3つの認証情報を管理する必要があります。最もクリーンなパターンは、モデル呼び出しを独自の薄いラッパーの背後に抽象化することです。
Gemini 3.5 Proはいつ出荷されますか? 2026年6月です。それがOpusおよびGPT-5.5のフラッグシップティアでの競合となります。それまでは、Flashが3.5ファミリーの唯一の選択肢です。
3つのプロバイダーを実行している場合、コストはどのように監視すればよいですか? Apidogのリクエスト履歴でモデルごとの支出を追跡するか、各プロバイダーのダッシュボードを集計してください。テスト中の予期せぬ事態を避けるため、モデルごとに予算アラートを設定してください。
結論
3つの信頼できるモデル、それぞれに異なる得意分野があります。
- Gemini 3.5 Flashは、安価、高速、マルチモーダル、長文コンテキストの作業、そしてかつてフラッグシップを必要としたエージェントワークロードの驚くべき量をこなします。
- GPT-5.5は、トークン効率の高い、CLIを多用するエージェント自動化に適しています。
- Opus 4.7は、高品質なコードリファクタリングと長文執筆に適しています。
独自の評価システムを構築しましょう。実際のワークロードに対してテストしてください。数値が変動したら切り替えます。これが、リーダーが毎月変わる市場における唯一正直な答えです。そして6月に注目してください。Gemini 3.5 Proがこの対決図を再構築するでしょう。
