低価格AIコーディングモデル、Composer 2 Opus 4.6とGPT-5.4を打ち破る

Cursorは2026年3月19日、驚くべき発表をしました。彼らの新しいComposer 2モデルは、コーディングベンチマークにおいてClaude Opus 4.6やGPT-5.4と肩を並べるだけでなく、それらを上回る性能を見せています。

その数字は驚くべき物語を語ります：Terminal-Bench 2.0で61.7、SWE-bench Multilingualで73.7。これは以前のバージョンから17ポイントの飛躍です。そして、競合他社の約3分の1という価格設定となっています。

もしこれらの主張が独立した精査に耐えうるものであれば、AIコーディングの状況は私たちの足元で一変したことになります。

ここでは、Composer 2について知っておくべきこと、なぜベンチマークが重要なのか、そしてこれがあなたの開発スタックに何を意味するのかをすべて解説します。

話題を呼んでいるベンチマーク

Cursorの発表は、3つの独自および業界標準ベンチマークに焦点を当てています。その結果は、Composer 2が以前のバージョンと競合する最先端モデルの両方を上回っていることを示しています。

*Cursorのインフラテストに基づいたおおよその比較スコア

Composer 1.5からComposer 2への飛躍は、Cursorがこれまで実現した中で最大の単一世代の改善です。CursorBenchで17ポイント。SWE-benchで約8ポイント。これらは段階的な向上ではなく、数年に一度見られるような大きな進歩であり、マイナーバージョンアップデート間で起こるようなものではありません。

Cursorは、この改善を初の継続事前学習（continued pretraining）実行によるものとしています。これにより、その後に続く強化学習の基盤がより強固になり、数百の連続するアクションを必要とするコーディングタスクを、コンテキストを見失うことなくモデルが処理できるようになります。

すべてを変える価格戦略

ベンチマークの性能は注目を集めます。しかし、市場を制するのは価格です。

Composer 2の価格体系：

スタンダード版：入力トークン100万個あたり$0.50、出力トークン100万個あたり$2.50
高速版：入力トークン100万個あたり$1.50、出力トークン100万個あたり$7.50

高速版は、同等のインテリジェンスをより低いレイテンシで提供します。Cursorは、競合する「高速」モデルよりも安価でありながら、同等のパフォーマンスレベルを維持していると明言しています。

参考までに、月に1000万個の出力トークンを生成するチームの場合、以下のようになります。

モデル	月額費用
Composer 2	~$25
Claude Opus 4.6	~$75-150
GPT-5.4	~$60-120

これらはAnthropicとOpenAIの公開価格に基づいたおおよその比較です。実際の費用は使用パターンやエンタープライズ契約によって異なります。しかし、方向性は明確です。Cursorは競合他社を大幅に下回る価格設定をしています。

Terminal-Bench 2.0を掘り下げる

Terminal-Bench 2.0は、単なる別のコーディングベンチマークではありません。AIが現実世界のターミナルおよびコーディングタスクを自律的に完了できるかどうかをテストするものです。つまり、手助けや段階的なガイダンスなしで実行できるかを試します。

このベンチマークはLaude Instituteによって維持されており、異なるモデルファミリーに対して異なる評価ハーネスを使用しています。

Anthropicモデル：Claude Codeハーネスを使用して評価
OpenAIモデル：Simple Codexハーネスを使用して評価
Cursorモデル：Harbor評価フレームワーク（Terminal-Bench 2.0の公式指定ハーネス）を使用して評価

Cursorは、モデルエージェントペアごとに5回のイテレーションを実行し、平均スコアを報告しました。このベンチマークはエージェントの行動に焦点を当てています。AIは見慣れないコードベースを操作し、ターミナルコマンドを実行し、障害をデバッグし、人間の介入なしに多段階のタスクを完了できるでしょうか？

61.7というスコアは、Composer 2が試みたタスクの約62%を成功裏に完了したことを意味します。この数字は、競合他社やComposerの以前のバージョンと比較するまでは、それほど圧倒的ではないかもしれません。

SWE-bench Multilingual：実世界でのテスト

SWE-benchは、AIが複数のプログラミング言語にわたる実際のGitHubの問題を解決する能力を評価します。これは合成テストデータではありません。これらは現実のバグ、現実の機能要求、そして現実のコードベースです。

73.7というスコアは、Composer 2が試みた問題の約74%を成功裏に解決したことを意味します。比較として、Composer 1は同じベンチマークで56.9%でした。これは、モデルが現実世界のコード変更を理解し、修正し、検証する能力において17ポイントの改善です。

このベンチマークが重要なのは、単なるコード補完ではなく、問題解決能力をテストするからです。AIは以下のことを行う必要があります。

問題の説明（しばしば曖昧または不完全）を解析する
コードベース全体から関連ファイルを特定する
既存のコード構造を理解する
他の機能を壊すことなく的を絞った修正を行う
変更が意図どおりに機能することを確認する

ほとんどのコーディングアシスタントはステップ4、つまりコードスニペットの生成に優れています。Composer 2のスコアは、ステップ1、2、3、および5において大幅に改善されたことを示唆しています。

Cursorがベンチマークを打ち破るモデルを構築した方法

Composer 2の技術的背景には、2つの主要なフェーズがあります。

フェーズ1：継続事前学習（Continued Pretraining）

Cursorは、ベースモデルにさらにコードデータを追加して継続的に学習させました。これは、ベースモデルを作成した最初の事前学習とは異なります。むしろ、コードパターン、API、開発ワークフローに対するモデルの理解を強化するための、的を絞った洗練プロセスです。

これを医学研修医のレジデンシー制度に例えてみてください。モデルはすでにMD（基本の事前学習）を取得しています。継続事前学習は、特定の分野の専門家にするための専門研修です。

フェーズ2：長期的タスクにおける強化学習（Reinforcement Learning）

強化されたベースから、Cursorは特に長期的コーディングタスクに強化学習を適用しています。これらは、大規模なモジュールのリファクタリング、コードベース全体を新しいAPIへの移行、複雑な統合問題のデバッグなど、数百の連続するアクションを必要とするタスクです。

強化学習のプロセスは次のとおりです。

モデルが長期的タスクを試みる
タスクが成功したかどうかに関するフィードバックを受け取る
何千ものイテレーションを通じて、どの行動シーケンスが成功につながるかを学習する

このアプローチは、AnthropicやOpenAIが自社のモデル開発について議論している方法を反映しています。違いは、Cursorが一般的な推論やチャットのやり取りではなく、拡張されたアクションシーケンスを伴うコーディングタスクに特化して学習している点です。

ボタン

これが開発チームに意味すること

もしComposer 2がこれらのベンチマークの主張を日常的な使用で実現するならば、業界全体でいくつかの変化が起こる可能性があります。

1. AIコーディングツールの統合

多くのチームは現在、コード補完、リファクタリング、デバッグ、コードレビューなど、複数のAIツールを使用しています。Composer 2のベンチマーク性能は、これらすべてのタスクを最先端のレベルで処理できることを示唆しています。

チームはより少ないツールに統合されると予想されます。異なるAIアシスタント間でコンテキストを切り替える際の認知的オーバーヘッドは蓄積されます。すべてのタスクで優れたパフォーマンスを発揮する単一のモデルは、その摩擦を軽減します。

2. コストが主要な決定要因となる

入力トークン100万個あたり$0.50という価格で、Composer 2はほとんどのエンタープライズAIコーディングソリューションよりも低価格です。毎日数百万のトークンを生成するような大量使用のチームにとって、この価格設定は既存のソリューションから意思決定を転換させる可能性があります。

高速版はさらに別の側面を追加します。低レイテンシの応答が必要なチーム（ペアプログラミング、リアルタイムコードレビュー）は、速度のためにより多くの費用を支払うことができます。レイテンシよりもコストを優先するチームは、標準版を使用できます。どちらも同じ基盤となるインテリジェンスを得られます。

3. ベンチマークに対する健全な懐疑心は残る

Cursorのベンチマーク手法には重要な詳細が含まれています。彼らは非Composerモデルに対して「公式リーダーボードスコアと自社のインフラストラクチャで記録されたスコアのうち、高い方のスコア」を採用したと述べています。

このアプローチには合理的な根拠があります。インフラの違いはスコアに影響を与える可能性があるためです。しかし、これはCursorの比較が独立して検証されていないことも意味します。チームは全社的な決定を下す前に、実際のコードベースでComposer 2をテストすべきです。

ベンチマークは意思決定を導きます。実世界でのテストがそれを裏付けます。

誰も語らない競合他社の反応

あるプレイヤーが市場を動かせば、他のプレイヤーも反応します。Cursorの発表は、次の3つのグループにプレッシャーを与えています。

Anthropicは、Claudeのコーディング能力によって開発者の評判を築きました。Composer 2がコーディングベンチマークでOpus 4.6を上回ったことは、そのポジショニングに挑戦しています。Anthropicは、更新されたベンチマークを公開するか、独自のコーディングに特化した改善を発表すると予想されます。

OpenAIは、GPT-5.4のコーディング性能が以前のバージョンと比較して批判されてきました。Composer 2の優位性は、そのプレッシャーをさらに拡大させます。OpenAIは、独自のコーディングモデル開発を加速させるか、競争力を維持するために価格調整を行う可能性があります。

GitHub Copilotや他のIDE統合ツールは、別の課題に直面しています。Cursorは単なるモデルではなく、AIアシスタントが緊密に統合されたIDEです。モデルの性能とIDE統合の組み合わせは、純粋なAPIプロバイダーが簡単に乗り越えられない堀を作り出しています。

AIコーディング革命におけるApidogの位置づけ

CursorのようなAIコーディングツールは、コードの生成と修正に優れています。関数の記述、モジュールのリファクタリング、失敗したテストのデバッグなど、Composer 2はこれらのタスクをうまく処理します。

しかし、API開発にはコード生成以上のものが必要です。AIアシスタントが提供する範囲を超えた、テスト、デバッグ、モック、ドキュメント作成のワークフローが求められます。

ApidogはAPIのライフサイクル全体を管理します。

API設計：OpenAPI対応のビジュアルデザイナーとブランチベースのバージョン管理。実装コードを記述する前にAPIを設計します。
テスト：ビジュアルアサーションとCI/CD統合による自動テストシナリオ。本番環境に到達する前にリグレッションを検出します。
デバッグ：リクエストとレスポンスの流れをリアルタイムで表示するビジュアルデバッグツール。API呼び出し全体で何が起こっているかを正確に把握できます。
モック：動的な応答を持つスマートモックサーバー。コードは不要です。バックエンドが準備できる前にフロントエンド開発のブロックを解除します。
ドキュメント：カスタムドメイン対応の自動生成可能でカスタマイズ可能なドキュメント。実際のAPIの動作とドキュメントを同期させます。

コード生成にCursorを使用するチームは、APIワークフロー管理のためにApidogと組み合わせることができます。AIがコードを記述し、ApidogはAPIが意図どおりに機能し、テストされ、文書化されることを保証します。

結論

Cursor Composer 2は、AIコーディング能力における意義深い飛躍を意味します。ベンチマークの改善は実質的です。価格設定は非常に攻撃的です。そして、開発チームへの影響は現実的なものです。

しかし、ベンチマークがコードを出荷するわけではありません。チームは決定を下す前に、実際のワークフローで、実際のコードベースでComposer 2をテストすべきです。理論上で勝利するモデルが、常に実践で勝利するとは限りません。

要するに

Composer 2はTerminal-Bench 2.0で61.7、SWE-bench Multilingualで73.7を記録し、Cursorの評価ではClaude Opus 4.6とGPT-5.4の両方を上回りました。
価格は入力トークン100万個あたり$0.50からで、競合する最先端モデルの約3分の1です。
改善は、継続事前学習（continued pretraining）と長期的コーディングタスクにおける強化学習によるものです。
高速版は、入力トークン100万個あたり$1.50で提供され、同等のインテリジェンスで低レイテンシを実現します。
独立した検証が重要です。エンタープライズ導入の前に、自社のコードベースでテストしてください。
Apidogは、APIのテスト、デバッグ、モック、ドキュメント作成を処理することで、AIコーディングツールを補完します。

よくある質問

Composer 2は本当にコーディングでClaude Opus 4.6より優れているのでしょうか？

Cursorのベンチマークによると、Composer 2はTerminal-Bench 2.0とSWE-bench MultilingualでOpus 4.6を上回っています。その差は、各ベンチマークで約2〜3ポイントです。これらは意味のある違いですが、圧倒的というほどではありません。

実際の性能は、あなたの特定のユースケースに依存します。コード補完、リファクタリング、デバッグ、アーキテクチャの決定はすべて異なる能力をテストします。ベンチマークで勝利するモデルが、必ずしもあなたのコードベースで勝利するとは限りません。

決定を下す前に、実際の作業で両方のツールをテストしてください。

Composer 2のスタンダード版と高速版の違いは何ですか？

両方のバリアントは、同じインテリジェンスとベンチマークスコアを持っています。高速版は、より低いレイテンシ、すなわち1秒あたりのトークン数が増え、応答が速くなる代わりに、より高いコストがかかります。

Cursorは、2026年3月18日のトラフィックのスナップショットから速度メトリクスを報告しており、プロバイダー間のトークンサイズの差を考慮して正規化されています。Anthropicのトークンは約15パーセント小さいため、Cursorはそれに応じて比較を調整しました。

リアルタイムのインタラクション（ペアプログラミング、ライブコードレビュー）を優先するチームは高速版を検討すべきです。コストを優先するチームは標準版のComposer 2を使用すべきです。

Composer 2の価格設定は競合他社と比較してどうですか？

入力トークン100万個あたり$0.50、出力トークン100万個あたり$2.50という価格で、Composer 2はほとんどのエンタープライズAIコーディングソリューションよりも低価格です。

おおよその比較として：

Anthropic Claude Opus 4.6：入力トークン100万個あたり約$1.50-3.00、出力トークン100万個あたり約$7.50-15.00（ティアによって異なる）
OpenAI GPT-5.4：入力トークン100万個あたり約$1.00-2.00、出力トークン100万個あたり約$5.00-10.00（ティアによって異なる）

利用量の多いチームは、特定のトークン消費パターンに基づいて総コストを計算すべきです。入力負荷の高いワークロード（大規模なコードベース分析）はComposer 2の入力価格からより大きな恩恵を受けます。出力負荷の高いワークロード（コード生成）は、入力と出力の両方の価格から恩恵を受けます。

現在のAIコーディングツールから切り替えるべきですか？

もしあなたがすでに他のツールで生産的に作業しているのであれば、ベンチマークの改善だけでは切り替えの正当化にはならないかもしれません。考慮すべき点は次のとおりです。

現在のワークフローへの統合：既存のツールはあなたのワークフローにどれほど深く組み込まれていますか？
チームの慣れ：あなたのチームは現在のツールに関してどれくらいのノウハウを蓄積していますか？
特定の性能ギャップ：現在のツールが常に不十分なタスクはありますか？
利用量に応じた総コスト：実際の月額支出にどれくらいの差がありますか？

Composer 2をあなたの実際のコードベースで1週間試してみてください。毎日行うタスクで現在のツールと直接比較し、実際の性能に基づいて意思決定を行ってください。

CursorとApidogは一緒に使えますか？

はい、できます。CursorはAIアシストによるコード生成と修正を処理します。ApidogはAPI開発ライフサイクル（設計、テスト、デバッグ、モック、ドキュメント作成）を管理します。

一般的なワークフロー：

Cursorを使用してAPIエンドポイントコードを生成する
API定義をApidogにインポートする
Apidogを使用してテストシナリオを設計し、自動テストを実行する
Apidogのビジュアルデバッグツールを使用して問題をデバッグする
Apidogからドキュメントを生成および公開する

チームはコード作成にAIツールを使用し、その結果生成されたAPIの検証、テスト、ドキュメント作成にはApidogに頼ることがよくあります。

落とし穴は？なぜComposer 2はこんなに安いのですか？

明らかな落とし穴はありません。Cursorは、技術的優位性を保ちつつ、積極的な価格設定を通じて市場シェアを獲得するという、市場獲得戦略を追求しているようです。

この戦略にはいくつかの理由から合理性があります。

垂直統合：CursorはIDEとモデルの両方を制御しており、サードパーティAPIへの依存を軽減しています。
利用データ：ユーザーが増えれば、将来のモデルを改善するためのデータが増えます。
ロックインの可能性：Cursorを中心にワークフローを構築したチームは、競合他社が反応しても乗り換えにくくなります。

この価格設定が永遠に続くわけではありません。競合他社は反応するでしょう。しかし今のところ、アーリーアダプターはかなりのコスト削減を実現できます。

Cursorのベンチマーク主張を独立して検証するにはどうすればよいですか？

Terminal-Bench 2.0は、公式ウェブサイトで公開リーダーボードを維持しています。Cursorの報告スコアを他のモデルと比較することができます。

独立した検証のために：

Terminal-Bench 2.0のリーダーボードで公式スコアを確認する
Laude Instituteの方法論ドキュメントを確認する
あなた自身の評価基準で、Composer 2をあなたのコードベースでテストする

ベンチマークは意思決定を導きます。実世界でのテストがそれを裏付けます。