要約
MiniMax M2.5は、2026年2月12日にリリースされた最先端のAIモデルで、コーディング(SWE-Bench Verifiedで80.2%)、エージェントツール利用、およびオフィス生産性タスクにおいて、最先端のパフォーマンスを達成しています。50トークン/秒のスループットで1時間あたりわずか0.30ドルの料金は、Claude Opus 4.6やGPT-5のような競合他社の10分の1から20分の1に相当し、初の「メーターを気にしないほど安い知能」の最先端モデルとなっています。このモデルは、複雑なコーディングタスクを前モデルよりも37%速く完了し、Claude Opus 4.6と同等の速度で、タスクあたりのコストは90%削減されます。
はじめに
MiniMaxは、大規模言語モデルにおける費用対効果の常識を覆す最先端モデル、M2.5を発表しました。公式発表では、詳細な技術情報が提供されています。コーディング能力のゴールドスタンダードであるSWE-Bench Verifiedで80.2%というスコアを達成したM2.5は、Claude Opus 4.6やGPT-5といったトップティアモデルと競合するだけでなく、多くの指標でそれらを上回っています。
しかし、この発表を真に破壊的なものにしているのは、その価格設定です。MiniMaxは、M2.5が50トークン/秒で継続的に実行する場合、1時間あたりわずか0.30ドル、あるいは100トークン/秒で1時間あたり1ドルで「メーターを気にしないほど安い知能」を提供すると主張しています。これにより、開発者や企業にとって、高度なAIエージェントを導入する際の障壁が崩れ去りました。
MiniMax M2.5とは?
MiniMax M2.5は、中国のAI企業MiniMaxの最新フラッグシップモデルで、わずか3ヶ月半の間にリリースされた同社のM2シリーズの第3弾(M2は10月下旬、M2.1は2025年下旬、M2.5は2026年2月)です。

M2.5を特徴づけるのは、ベンチマーク性能だけでなく、実世界の生産性に焦点を当てている点です。何十万もの複雑な実世界環境で強化学習を広範囲にわたって行い、M2.5は開発者や知識労働者が日常的に直面する経済的に価値のあるタスクを処理するように設計されています。

このモデルには2つのバリアントがあります。
- M2.5: 50トークン/秒のスループット、Lightningの半分のコスト
- M2.5-Lightning: 100トークン/秒、速度に最適化
両バージョンともコンテキストキャッシングをサポートしており、機能的には同一であり、速度と価格のみが異なります。
主な仕様の概要
| 仕様 | 値 |
|---|---|
| リリース日 | 2026年2月12日 |
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
| スループット (標準) | 50 TPS |
| スループット (Lightning) | 100 TPS |
| 入力料金 | 100万トークンあたり$0.30 |
| 出力料金 | 100万トークンあたり$2.40 |
コーディング能力
MiniMax M2.5が最も劇的にその力を発揮する分野があるとすれば、それはコーディングです。このモデルは、実世界のGitHub問題を解決する能力をテストするベンチマークであるSWE-Bench Verifiedで80.2%を達成し、最先端の領域にしっかりと位置づけられています。

しかし、生のベンチマークスコアだけでは全体像はわかりません。M2.5を開発者にとって特に興味深いものにしているのは、そのアーキテクチャ思考能力です。トレーニング中、このモデルはMiniMaxが「仕様書作成傾向」と呼ぶものを開発しました。M2.5は、コードを記述する前に、経験豊富なソフトウェアアーキテクトの視点から機能、構造、UIデザインを積極的に分解し、計画します。
多言語プログラミングの卓越性
M2.5は、20万以上の実環境で、10以上のプログラミング言語でトレーニングされました。
- Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、およびRuby
これは単なるバグ修正にとどまりません。このモデルは、開発ライフサイクル全体を処理します。
- 0から1へ: システム設計と環境設定
- 1から10へ: システム開発
- 10から90へ: 機能の反復
- 90から100へ: 包括的なコードレビューとシステムテスト
クロスプラットフォーム・フルスタック開発
フロントエンドのデモに主に焦点を当てる多くのコーディングアシスタントとは異なり、M2.5はWeb、Android、iOS、Windowsといった複数のプラットフォームにわたるフルスタックプロジェクトに取り組みます。ウェブページコンポーネントだけでなく、サーバーサイドAPI、ビジネスロジック、データベース、複雑なシステムアーキテクチャを処理します。
競合に対するベンチマーク性能
MiniMaxは、M2.5をさまざまなコーディングエージェントハーネスでテストし、分布外環境における汎化能力を評価しました。
| スキャフォールド | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79.7% | 78.9% |
| OpenCode | 76.1% | 75.9% |
M2.5は、両方の人気エージェントスキャフォールドでClaude Opus 4.6をわずかに上回り、強力な汎化能力を示唆しています。
M2.5でAI搭載アプリケーションを構築する際には、アプリとモデルを接続するAPIをテストする必要があります。Apidogを使用すると、リクエスト/レスポンス処理、認証フロー、エラー処理を検証するテストシナリオを作成できます。これらは、本番のAIアプリケーションにとって不可欠です。
エージェントによるツール利用と検索
現代のAIは質問に答えるだけでなく、行動を起こすものです。M2.5は、特にツール呼び出しと自律的検索において強力なエージェント能力を発揮します。
BrowseComp と Wide Search
BrowseCompやWide Searchのようなベンチマークにおいて、M2.5は業界をリードするパフォーマンスを達成しています。しかし、さらに重要なのは、MiniMaxがRISE(Realistic Interactive Search Evaluation)を構築し、単純な検索クエリだけでなく、情報密度の高いウェブページ全体での深い探索を必要とする実世界のプロフェッショナルな検索タスクをテストしている点です。
効率的な意思決定
M2.5のエージェント能力における最も印象的な点は、その効率性かもしれません。BrowseComp、Wide Search、RISEを含む複数のエージェントタスクにおいて、M2.5はM2.1と比較して約20%少ない推論ラウンドでより良い結果を達成しました。これは、モデルが正しい答えを見つけるだけでなく、そこに到達するための効率的な経路を見つけることを示しています。
これは、M2.5を自律エージェントとして展開する際に、API呼び出しの削減、コストの低減、タスク完了の高速化という実用的な意味を持ちます。
オフィス生産性機能
M2.5が優れているのはコーディングだけではありません。MiniMaxは、実世界のオフィス生産性のためにこのモデルを特別に設計し、金融、法律、社会科学のベテラン専門家と協力して、実際に納品可能な成果物についてモデルをトレーニングしました。
Word、PowerPoint、Excelの習熟
M2.5は、高価値のワークスペースシナリオで大幅な能力向上を示しています。
- Word: ドキュメント作成、書式設定、プロフェッショナルな文章作成
- PowerPoint: プレゼンテーションデザインとスライド生成
- Excel: 金融モデリングと複雑なスプレッドシート操作
MiniMaxは、出力品質とエージェントのワークフロー全体のプロフェッショナリズムの両方を評価する内部評価フレームワークGDPval-MMを構築しました。他の主流モデルとの直接比較において、M2.5は平均59.0%の勝率を達成しました。
金融モデリングの専門化
このモデルは、業界の専門家が構築した金融モデリング問題について特別にトレーニングされました。これらには、Excelツールを介して実行されるエンドツーエンドの調査および分析タスクが含まれ、専門家が設計した評価基準を使用して採点されます。金融の専門家にとって、これは生産性の大幅な向上を意味する可能性があります。
パフォーマンスと速度
実世界の展開では速度が重要です。より賢いが遅いモデルは、少し能力が劣るが速い代替モデルよりも悪いユーザー体験を提供することがよくあります。
トークン生成速度
M2.5は、Lightningバリアントでネイティブに100トークン/秒で提供され、他の最先端モデルのほぼ2倍の速さです。このネイティブスループットの優位性は、長時間実行されるエージェントタスクを処理する際に大幅に向上します。
SWE-Bench実行時間の比較
| 指標 | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| タスクあたりの平均トークン数 | 3.72M | 3.52M | - |
| 平均実行時間 | 31.3分 | 22.8分 | 22.9分 |
| 速度改善 | - | -37% | - |

M2.5は、SWE-Bench Verified評価をM2.1より37%高速に完了し、Claude Opus 4.6の実行時間と同等でありながら、タスクあたり352万トークンしか使用していません(M2.1の372万トークンと比較)。
価格とコスト効率
M2.5が真に破壊的となるのはここです。MiniMaxは、このモデルをユーザーが「コストを心配する必要がない」初の最先端AIとして位置づけています。
価格体系
| モデル | スループット | 入力価格 | 出力価格 |
|---|---|---|---|
| M2.5 | 50 TPS | 100万トークンあたり$0.30 | 100万トークンあたり$2.40 |
| M2.5-Lightning | 100 TPS | 100万トークンあたり$0.60 | 100万トークンあたり$4.80 |
コスト比較
最大出力スループットの場合:
- 100 TPS (Lightning) で1時間あたり$1
- 50 TPS (標準) で1時間あたり$0.30
これは、出力価格に基づいて、Opus、Gemini 3 Pro、およびGPT-5の約10分の1から20分の1のコストに相当します。
実世界のコスト例
M2.5をフルスピードで1時間連続稼働させても、たったの1ドルです。50 TPSの場合、これは0.30ドルに下がります。参考までに、M2.5のインスタンスを4つ、年間を通して継続的に稼働させても10,000ドルで済みます。
AIエージェントを大規模に導入する企業にとって、この価格設定は経済性を根本的に変えます。費用が高すぎて不可能だったタスクが実現可能になり、予算の制約で断念されていた実験的なプロジェクトが手頃な探求となります。
技術アーキテクチャ
大規模な強化学習
M2.5の能力の主な原動力は、強化学習の規模拡大です。MiniMaxは、ほとんどの社内タスクとワークスペースをトレーニング環境に変え、何十万もの実世界のシナリオでモデルが試行錯誤を通じて学習できるようにしました。
Forge:エージェントネイティブRLフレームワーク
MiniMaxは、基盤となるトレーニング・推論エンジンをエージェントから完全に分離する中間レイヤーを導入した、社内エージェントネイティブRLフレームワークForgeを開発しました。これにより、任意のMエージェントの統合がサポートされ、さまざまなエージェントスキャフォールドやツール全体での最適化が可能になります。

主な最適化は次のとおりです。
- スループットとオフポリシーサンプルのバランスをとる非同期スケジューリング戦略
- トレーニングサンプルのツリー構造マージ戦略
- 約40倍のトレーニング速度向上を達成
CISPOアルゴリズム
大規模MoE(Mixture of Experts)トレーニング中のアルゴリズムの安定性のために、M2.5はMiniMaxが2025年初頭に提案したCISPOアルゴリズムを引き続き使用しています。長いコンテキストにおけるクレジット割り当ての課題に対処するため、生成品質のエンドツーエンド監視のためのプロセス報酬メカニズムを導入しました。
トレーニング環境の規模
数値で見る:
- 何十万もの実世界トレーニング環境
- 10以上のプログラミング言語
- 20万以上のコード環境
- Web、Android、iOS、Windows開発にまたがるタスク
MiniMax Agentとの統合
M2.5は単なるAPIではなく、すでにMiniMax自身の製品に活用されています。
Officeスキル統合
MiniMaxは、コアとなる情報処理能力をMiniMax Agentに深く統合された標準化されたOfficeスキルに凝縮しました。MAXモードでは、Wordの書式設定、PowerPointの編集、Excelの計算を処理する際に、Agentはファイルタイプに基づいて対応するOfficeスキルを自動的に読み込みます。
エキスパート作成
ユーザーは、Officeスキルとドメイン固有の業界専門知識を組み合わせて、特定のタスクシナリオ向けに再利用可能なエキスパートを作成できます。例えば:
- 業界調査: 調査フレームワークのSOPとWordスキルを結合し、データを自動的に取得し、ロジックを整理し、書式設定されたレポートを出力します。
- 財務モデリング: 独自のモデリング標準とExcelスキルを組み合わせて、特定のリスク管理ロジックと計算標準に従います。
導入指標
- MiniMax Agentで作成された10,000以上のエキスパート
- MiniMax全体のタスクの30%がM2.5によって自律的に完了
- MiniMaxの新しくコミットされたコードの80%がM2.5によって生成
これは理論的な能力ではなく、実運用で鍛えられた技術です。
M2.5が競合他社と比較してどうか
Claude Opus 4.6との比較
| 指標 | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80.2% | 約77% |
| Droid スキャフォールド | 79.7% | 78.9% |
| OpenCode スキャフォールド | 76.1% | 75.9% |
| SWE-Benchでの実行時間 | 22.8分 | 22.9分 |
| タスクあたりのコスト | 約$1.50 | 約$15以上 |
M2.5は、コーディングベンチマークでOpus 4.6に匹敵するかそれを上回り、タスクあたりのコストは約10分の1です。
GPT-5との比較
- 大幅に低いコスト(価格は10分の1から20分の1)
- 競合するコーディングベンチマーク
- ネイティブのオフィス生産性機能
- より高速な推論速度(100 TPS vs 一般的な30~50 TPS)
Gemini 3 Proとの比較
- はるかに低い価格設定
- より高いSWE-Benchスコア
- より優れたオフィス生産性統合
- より積極的なRLスケーリングアプローチ
結論
MiniMax M2.5は、AIランドスケープにおける真のパラダイムシフトを表しています。史上初めて、最先端の機能と無制限の展開を可能にする価格設定を兼ね備えたフロンティアモデルが登場しました。
主なポイント:
- トップクラスのコーディング性能(SWE-Benchで80.2%、Opus 4.6を複数のスキャフォールドで上回る)
- エージェント効率(推論ラウンドが20%少なく、M2.1より37%高速)
- オフィス生産性(実世界のオフィス業務で競合他社に対して59%の勝率)
- 比類のない価格設定(1時間あたり0.30ドル~1ドル、競合他社の10分の1から20分の1)
- 本番環境対応(すでにMiniMax自身の製品を動かし、社内コードの80%を生成)
M2.5を試す価値があるかどうかではなく、試さない余裕があるかどうかが問題です。
AIを搭載したAPIを構築しテストする準備はできていますか?Apidogを無料でダウンロードして、MiniMax統合のための包括的なテストスイートを作成しましょう。既存のPostmanコレクションをワンクリックでインポートし、数分でテストを開始できます。
よくある質問 (FAQ)
MiniMax M2.5とは何ですか?
MiniMax M2.5は、2026年2月にリリースされた最先端のAIモデルで、コーディング、エージェントタスク、オフィス生産性において最先端のパフォーマンスを達成しています。トップクラスのベンチマークと極めて低い価格設定の組み合わせが特筆されます。
MiniMax M2.5はClaude Opus 4.6とどう比較されますか?
M2.5は、ほとんどのコーディングベンチマーク(SWE-Bench Verifiedで80.2% vs 約77%)でClaude Opus 4.6に匹敵するかそれを上回り、タスクあたりのコストは約90%低いです。Opus 4.6の実行速度(SWE-Benchで22.8分 vs 22.9分)と同等です。
MiniMax M2.5の価格設定はどうなっていますか?
M2.5の価格は、入力トークン100万あたり0.30ドル、出力トークン100万あたり2.40ドルです(50 TPSの場合)。最大スループットでM2.5を1時間継続して実行する場合、バリアントに応じてわずか0.30ドルから1.00ドルかかります。
M2.5はどのようなプログラミング言語をサポートしていますか?
M2.5は、Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JavaScript、PHP、Lua、Dart、Rubyを含む10以上の言語で、20万以上の実環境においてトレーニングされました。
MiniMax M2.5はオフィス業務に適していますか?
はい。M2.5は、Word、PowerPoint、Excelの金融モデリングを含むオフィス生産性タスクのために特別にトレーニングされました。MiniMaxの社内評価では、オフィス業務において他の主流モデルに対して59%の勝率を達成しました。
MiniMax M2.5をAPI経由で利用できますか?
はい。MiniMaxは、同社のプラットフォームminimax.ioを通じてAPIアクセスを提供しています。APIは、標準のM2.5(50 TPS)とM2.5-Lightning(100 TPS)の両方のバリアントをサポートしています。
MiniMax M2.5の特別な点とは何ですか?
M2.5は、ユーザーがコストを心配する必要がないほど価格が低い初の「フロンティアモデル」です。同社はこれを「メーターを気にしないほど安い知能」と称しています。トップクラスのコーディングベンチマークとエージェント能力を兼ね備えているため、大規模なエージェント展開に適しています。
MiniMax M2.5はどれくらい速いですか?
M2.5-Lightningは100トークン/秒で生成され、他のフロンティアモデルのほぼ2倍の速さです。標準のM2.5でさえ50 TPSで動作します。SWE-Benchタスクでは、M2.1よりも37%高速に評価を完了します。
