カーソルコンポーザー2.5：機能、使い方、アクセス方法

Cursorは2026年5月18日にComposer 2.5を出荷しました。その見出しは無視できないものです。Opus 4.7およびGPT-5.5と実際のソフトウェアベンチマークで匹敵し、タスクあたりのコストは1ドル未満のコーディングモデルです。もしあなたがコードを書くことで生計を立てているなら、この価格対品質比はあなたの1日の計画の立て方を変えるでしょう。

このガイドでは、開発者が探し続けている3つのこと、すなわちComposer 2.5が実際に何であるか、Cursor内でそれにアクセスする方法、そして本番作業でそれをうまく使う方法について説明します。ベンチマークの数値、価格計算、そしてモデルとApidogを組み合わせて、作成されたAPIコードが初回実行で正しく動作する実用的なワークフローが得られます。

Cursor Composer 2.5とは？

Composer 2.5は、Cursor独自のエージェント型コーディングモデルで、Cursorエディタ内で計画を立て、ファイルを編集し、ターミナルコマンドを実行し、自身の作業を検証するように構築されています。Composer 2の後継であり、モデルを「高速な自動補完パートナー」から「スレッドを失うことなく長いタスクを完了させるエージェント」へと進化させました。

いくつかの事実がそれを定義しています。

オープンソースのMoonshot Kimi K2.5チェックポイントに基づいて構築されており、おおよそ1兆パラメータの基盤を持っています。
Cursorは、トレーニング計算予算の約85%を、単なるベースモデルではなく、ポストトレーニングと強化学習に費やしました。
Composer 2よりも25倍多くの合成タスクでトレーニングされており、Cursorが機能を削除し、モデルがテストに合格するまでそれを再構築する演習も含まれています。

その実用的な結果は、長時間のセッションでコンテキストを保持するモデルです。Composer 2は高速でしたが、マルチステップの作業では時々漂流することがありました。Composer 2.5は、長いタスク全体で努力を維持し、複雑な指示をより確実に実行し、要求が実際に必要とする作業量を過剰または過少に行うのではなく、調整します。

モデルファミリーのより深い背景を知りたい場合は、Composer 2ガイドが2.5が構築されているアーキテクチャを説明しています。

内部で何が変わったのか

3つのトレーニングのアイデアが飛躍を牽引しています。

テキストフィードバックによるターゲットRL。タスクの終わりに1つの報酬を与えるのではなく、Cursorは修正を記述する短いヒントを書き込み、そのヒントをローカルコンテキストにドロップし、その動作をモデルに蒸留します。これにより、利用できないツールを呼び出すのをやめることを学習しました。
大規模な合成データ。合成タスクが25倍に増加したことで、モデルは、感覚ではなくテストによって検証された、現実的なリポジトリ作業について、はるかに多くの練習を積むことができました。
デュアルメッシュHSDPを備えたシャードMuonオプティマイザ。これはトレーニングインフラであり、あなたが触れる機能ではありませんが、Cursorが0.2秒のオプティマイザステップで1兆パラメータのモデルをトレーニングできた理由です。より高速なトレーニングループは、品質に関するより多くの反復を意味します。

モデルを使用するために、これらをすべて記憶する必要はありません。これが重要なのは、Composer 2.5が、以前のエージェントを破綻させたような長く複雑なタスクに対して、なぜより安定していると感じられるのかを説明するからです。

Composer 2.5のベンチマーク：実際どのくらい優れているのか？

Cursorは3つのスイートでスコアを報告し、それらをOpus 4.7およびGPT-5.5と比較しています。全体像は以下の通りです。

ベンチマーク	Composer 2.5	Opus 4.7	GPT-5.5
SWE-bench Multilingual	79.8%	80.5%	77.8%
Terminal-Bench 2.0	69.3%	69.4%	82.7%
CursorBench v3.1	63.2%	64.8% (最大) / 61.6% (デフォルト)	59.2% (デフォルト)

注意深く読むと、ストーリーは一貫しています。複数の言語にわたる実際のGitHubイシューを修正する標準テストであるSWE-bench Multilingualでは、Composer 2.5は79.8%で、Opus 4.7と1ポイント差、GPT-5.5を上回っています。これはComposer 2の73.7%から大きな進歩です。Cursor独自のタスクスイートであるCursorBenchでは、Opus 4.7のデフォルト設定をわずかに上回っています。

唯一後れを取っているのはTerminal-Bench 2.0で、GPT-5.5が82.7%でリードしています。もしあなたの仕事が長いターミナルシーケンスに重きを置いているなら、その点を覚えておいてください。

すべてを再定義する数字は、タスクあたりのコストです。Cursorは、CursorBenchで約63%のスコアを出し、タスクあたりの平均コストは1ドル未満であると報告しています。一方、Opus 4.7とGPT-5.5は、同等かそれ以下の結果でタスクあたり数ドルかかります。一部の比較では、競合他社のコストが最高11ドルに達するとされています。The Decoderによる独立した報道も同じ結論に達しました。つまり、最先端に近い品質をはるかに低い価格で提供しているのです。

つまり、Composer 2.5は、すべてのチャートで単一の最高のモデルではありません。しかし、最先端の品質の95%を約10分の1のコストで提供するモデルであり、ほとんどのチームが望むトレードオフです。

Composer 2.5のコストはいくらですか？

Cursorは、2つの価格ポイントで2つのバリアントを提供しています。

バリアント	入力	出力	使用するタイミング
スタンダード	$0.50 / 100万トークン	$2.50 / 100万トークン	ほとんどのエージェント作業のデフォルト。最高の費用対効果。
高速	$3.00 / 100万トークン	$15.00 / 100万トークン	レイテンシが重要な作業。同等のインテリジェンスで待ち時間が短い。

高速バリアントは、同じモデル品質をより低いレイテンシで提供し、製品のデフォルトです。それでも、他の最先端モデルの高速ティアよりも安価です。

請求方法はプランによって異なります。

個人プラン（Proなど）には、十分な使用量が含まれるスタンドアロンのComposer使用量プールがあり、ほとんどのソロ開発者は日々のトークンレートに触れることはありません。
チームおよびエンタープライズプランは、APIレートで直接課金されます。
ローンチプロモーション：Cursorはリリース後最初の1週間、Composer 2.5の使用量を2倍にしたため、早期導入者はテストのための追加の期間を得られます。

Cursorがモデルの使用量をどのように測定するかの詳細については、Cursor Composer価格ガイドを参照してください。費用をかけずに実行しようとしている場合は、Composer無料利用のチュートリアルで、含まれる使用量の範囲について説明しています。

Cursor Composer 2.5へのアクセス方法

モデルにアクセスするのに約1分かかります。

Cursorをアップデートします。Composer 2.5には最近のビルドが必要です。Cursorを開き、アップデートを確認し（macOSではCursorメニュー、その他ではヘルプメニュー）、アップデートがインストールされた場合は再起動します。
それを含むプランにサインインします。ProおよびBusinessプランにはComposerの使用量が含まれます。無料アカウントでも含まれる使用量で試すことができますが、大量に使用するには有料プランが必要です。
モデルピッカーを開きます。チャットまたはエージェントセッションを開始し、モデルのドロップダウンを開きます。composer-2.5を選択します。通常、高速バリアントがデフォルトで選択されています。
エージェントモードを確認します。Composerはエージェント作業用に構築されているため、ファイル編集、ターミナルアクセス、ツール使用を得るには、プレーンチャットではなくエージェントモードを使用してください。

これがセットアップのすべてです。モデルは、ファイルの読み取りと編集、ターミナルコマンドの実行、ツールの呼び出しなど、Cursorが公開するすべてのエージェントツールにアクセスできます。Cursorがそれらを変更した場合の現在のデフォルトは、公式のComposer 2.5モデルドキュメントに記載されています。

以前Cursorを使用したことがあるが、そのエージェントを使ったことがない場合は、Cursor 2.0の概要が、エージェントインターフェースの仕組みの良い入門書となります。

Composer 2.5を効果的に使用する方法

アクセスは簡単です。強力な出力を得るには、少しのテクニックが必要です。

長いタスクを実行させましょう。Composer 2.5の主なアップグレードは、持続的なパフォーマンスです。1行ずつマイクロマネジメントするのではなく、「注文エンドポイントにページネーションを追加し、テストを更新する」といった明確な終了状態を持つ実際のタスクを与えましょう。テストに合格するまで作業を続けるようにトレーニングされています。

プロンプトに成功条件を書き込みましょう。このモデルはテスト検証に対してトレーニングされています。もしあなたが「すべての既存のテストはグリーンを保ち、新しいエンドポイントは無効な入力に対して422を返す」と、どのように完了を判断するかを伝えれば、それはその目標に向かって自己修正します。

適切なバリアントを選びましょう。コストに敏感なバッチ作業には標準バリアントを、ライブで反復作業を行い、各応答を待っている場合は高速バリアントを使用します。品質は同じです。レイテンシとコストを交換しているだけです。

コンテキストを正直に保ちましょう。エージェントモデルは強力ですが、APIの実際の形状を知らない場合は推測します。これは、エンジニアリングで回避すべき失敗モードであり、APIツールが重要になる点です。

Composer 2.5とあなたのAPIワークフロー

ほとんどの実際のコーディングタスクはAPIに触れます。Composer 2.5に「支払いサービスのクライアントを作成する」ように依頼すると、きれいなコードが生成されます。ただし、エンドポイント、フィールド、認証が、モデルが仮定するものと、サービスが実際に公開するものと一致しないリスクがあります。間違っているが自信満々なコードは、コードがないよりも時間がかかります。

これには2つの実践で対処できます。

まず、モデルに推測させるのではなく、実際のAPI仕様を与えます。Apidog MCPサーバーは、Apidog API仕様を直接Cursorに接続するため、Composer 2.5は実際のスキーマに基づいてリクエストコード、型、およびテストを生成します。他のエージェントも実行している場合、Cursor向けの最高のMCPサーバーのまとめは、補完的なオプションをカバーしています。

次に、生成された呼び出しがチームメイトのブランチに到達する前に検証します。Composer 2.5が書いたエンドポイントをApidogにドロップし、実際のリクエストを送信し、ステータスコードと応答形状を確認し、動作する呼び出しを自動テストとモックサーバーに変換します。モデルは最初のドラフトを作成し、Apidogがその動作を確認します。このループ、つまり実際の仕様に対して生成し、実際のサーバーに対してテストするという流れが、エージェントの速度がデバッグ負債に変わるのを防ぎます。

Composer 2.5 vs 競合製品

日々のメインツールを選ぶ際の簡単な比較です。

vs Opus 4.7：SWE-bench MultilingualとCursorBenchでほぼ同等、タスクあたりのコストははるかに安い。OpusはCursorBenchの最大設定では依然としてトップを維持しています。
vs GPT-5.5：Composer 2.5はSWE-bench MultilingualとCursorBenchで勝利。GPT-5.5はTerminal-Bench 2.0で明確にリードしています。
vs Claude Code：ツールとしての形状が異なります。Composer 2.5はCursorエディタ内で動作し、Claude Codeはターミナルエージェントです。Claude Code vs Cursorの比較は、どちらがどのワークフローに適しているかを分解しています。
vs GitHub Copilot：Copilotはインライン補完として最も強力です。Composer 2.5は複数ファイルにわたるエージェントタスク用に構築されています。Cursor vs GitHub Copilotガイドでさらに詳しく説明しています。

Cursorはまた、xAIと協力して約10倍の計算量を使ってはるかに大きなモデルをトレーニングしていると述べており、2.5はより急なカーブ上のチェックポイントであり、天井ではないことを示唆しています。

よくある質問

Composer 2.5は無料ですか？完全に無料のティアはありませんが、個人プランには通常の日常業務をカバーするComposer使用量プールが含まれており、Cursorはローンチ週に使用量を2倍にしました。Composer無料利用ガイドは、含まれる使用量がどれだけ利用できるかを説明しています。

Composer 2.5はComposer 2より優れていますか？はい、測定可能に優れています。SWE-bench Multilingualは73.7%から79.8%に上昇し、モデルは長いタスクでコンテキストをはるかに良く保持します。Composer 2ガイドは、それが改善されたベースラインです。

Composer 2.5は何のモデルに基づいていますか？MoonshotのオープンソースKimi K2.5チェックポイントに基づいて構築され、その後Cursorによって強化学習と合成タスクで集中的に後処理トレーニングされています。

どのバリアントを選ぶべきですか、標準と高速？知能は同じですが、レイテンシと価格が異なります。費用効率の良いバッチ作業には標準を、ライブで反復作業を行う場合は高速を使用してください。

Composer 2.5はAPI仕様とMCPで動作しますか？はい。Cursorのすべてのエージェントツールセットをサポートしており、MCPも含まれます。Apidog MCPサーバーを通じてAPI仕様を接続することで、実際のスキーマに基づいてコーディングできます。

結論

Composer 2.5は、「最先端品質のコーディング」と「高価」が切り離されつつあるという最も明確な兆候です。エージェント作業のために構築されたエディタ内で、実際のソフトウェアタスクでOpus 4.7レベルの結果を、タスクあたり1ドルをはるかに下回る価格で得ることができます。Cursorをアップデートし、モデルドロップダウンでcomposer-2.5を選択し、ワンライナーではなく、実際のマルチステップタスクを与えてみてください。

それを厳密な検証ループと組み合わせることで、速度が実際に複合的に作用します。実際の仕様に基づいてAPIコードを生成し、その後Apidogをダウンロードしてライブリクエストを送信し、応答を確認し、動作する呼び出しを自動テストとモックに固定します。検証済みの高速コードは、デバッグが必要な高速コードよりも優れています。

button