過去2年間ほどのほとんどの期間、「最高のコーディングモデルは何か?」という問いには、西洋的な答えがありました。GPT、Claude、またはGeminiを選び、トークンあたりの料金を支払い、重みが他社のデータセンターにロックされたままであることを受け入れていました。しかし、もはやそれが唯一の道ではありません。現在、中国のいくつかの研究所が、コーディングにおいて最先端の性能に匹敵するモデルを出荷しており、その重みを公開するか、API価格を非常に低く設定することで、あなたが実行するすべてのエージェントの計算を根本から変えています。
MiniMax M3は2026年6月1日に登場し、これまでのところ最も明確な兆候です。これはオープンウェイトで、コーディングおよびエージェント作業のために構築されており、1,000,000トークンのコンテキストウィンドウを持ち、さらにネイティブなマルチモーダリティを追加しています。DeepSeekのV4ファミリーやAlibabaのQwen 3.7に加えて、数週間のうちに登場した3番目の本格的なオープンウェイトの競争相手です。もしオープンウェイト、低コスト、そしてベンダーロックインを望まないなら、単一の選択肢ではなく、真の候補リストを手に入れることができます。
3つの候補
MiniMax M3は、新たに登場したモデルです。MiniMaxはこれを、1Mトークンのコンテキストウィンドウとネイティブなマルチモーダリティ(画像や動画入力に対応し、テキストだけでなくコンピュータ使用タスクも実行できることを意味します)を備えた最先端のコーディングモデルとして位置付けています。新しいMSAアーキテクチャ上で動作します。MiniMaxは、オープンウェイトと技術レポートがリリース後約10日以内に公開されると述べており、パラメータ数は開示していません。詳細な内訳は、MiniMax M3とは何かで確認できます。
DeepSeek V4-Proは、推論とコーディングの主力モデルです。これは思考モデルであり、最終的な回答の前にreasoning_contentという思考プロセスを返します。これにより、フラットな補完モデルでは見落としがちな複数ファイルの依存関係を捉えることができます。DeepSeekは、R1およびV3シリーズ全体でオープンウェイトを公開してきた長い実績があり、V4-Proには、より安価な非思考型V4-Flashバリアントも用意されています。特筆すべきはその価格であり、これについては後述します。DeepSeekの公式サイトとAPIはdeepseek.comで運用されています。
Qwen 3.7はAlibabaのフラッグシップモデルであり、Qwen3.7-Max-Previewがそれをリードしています。これは1Mトークンのコンテキストウィンドウを持つ推論モデルで、長期間にわたるエージェント作業に強く訴えかけています。この比較の中心にある正直な注意点は、2026年5月中旬のリリース時点では、Qwen3.7-Maxのフラッグシップはプロプライエタリでクローズドウェイトであるということです。Alibabaは、フラッグシップの下位層をオープンソース化してきた確かな実績があるため、後日3.7のオープンウェイトが登場する可能性はありますが、今のところ出荷されていません。詳細はQwen 3.7とは何かで確認できます。Alibabaのオープンソースリポジトリはgithub.com/QwenLMにあります。
仕様表
| 仕様 | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| ベンダー | MiniMax | DeepSeek | Alibaba (Qwen) |
| リリース | 2026年6月1日 | 2026年 | 2026年5月 (プレビュー) |
| オープンウェイト | はい (ウェイトは〜10日以内) | はい (DeepSeekのR1/V3における実績) | まだ (フラッグシップはクローズドウェイト) |
| コンテキストウィンドウ | 1,000,000トークン | ここでは未記載 | 1,000,000トークン |
| マルチモーダル | はい (画像+動画、コンピューター使用) | いいえ (テキスト+推論) | テキスト中心の推論 |
| 推論 / 思考モード | はい | はい (reasoning_content) |
はい (拡張された思考) |
| パラメータ数 | 未開示 | ここでは未開示 | ここでは未開示 |
| アーキテクチャ | MSA | ここでは未記載 | ここでは未記載 |
この比較の核心である「オープンウェイト」の行について補足します。M3は、リリース後約10日以内にウェイトと技術レポートを公開することを約束しています。DeepSeekは繰り返しオープンウェイトを出荷してきました。Qwen 3.7のフラッグシップは現時点ではクローズドです。もし今すぐオープンウェイトが必須要件であるならば、ベンチマークを見る前にあなたの選択肢は絞られます。
コーディングとエージェントの能力
ここからはデータにばらつきがあるので、検証済みのものから始め、そうでないものは定性的に扱います。
MiniMax M3は、ベンダー報告によるコーディングおよびエージェントのベンチマーク一式とともにリリースされました。これらはMiniMax自身の数値であるため、第三者が再現するまではリリース日のベンダーによる主張として扱ってください。
| ベンチマーク (ベンダー報告、MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal-Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
| PostTrainBench | 0.37 |
| SVG-Bench | Opus 4.7を上回ると報告 |
| OmniDocBench | Gemini 3.1 Proを上回ると報告 |
| Claw-Eval | そのセット内で最高と報告 |
SWE-Bench ProとTerminal-Benchは、GitHubの問題解決やターミナルでの作業など、実際のソフトウェアエンジニアリングタスクを測定します。MCP Atlasはツール使用とエージェントオーケストレーションを測定します。これらを合わせると、単なるオートコンプリートではなく、エージェント的なコーディング作業を行うために構築されたモデルであることを示しています。SWE-BenchリーダーボードでSWE-Benchの分野を検証できます。
DeepSeek V4-ProとQwen 3.7については、同等のエージェントコーディングの数値が同じ形式で公開されていないため、直接的なセルごとの比較は捏造となり、それは行いません。文書化されている内容は以下の通りです。
- DeepSeek V4-Proのコーディング能力は、第三者による比較によると、GPT-5.5から数ベンチマークポイントの範囲にありながら、価格はその数分の一です。その推論チェーンが実用的な優位点であり、複雑な複数ファイルのリファクタリング、リネーム、シグネチャ変更において、思考パスが一度で依存関係を捉えることで、フラットモデルが3回のラウンドを要する作業を処理できます。設定の詳細とコスト計算は、CursorでDeepSeek V4-Proを使用する方法で確認できます。
- Qwen 3.7は、推論、知識、数学、コーディングを組み合わせた複合指標であるArtificial Analysis Intelligence Indexで57点を獲得し、リリース時にはそのリーダーボードで1位の結果として報告されました。また、LM Arenaでは約1,475 Eloを記録し、コーディングカテゴリでトップ10入りを果たしました。Alibabaが売り込むのは、長期間にわたるエージェント作業、つまり多数のステップにわたる持続的な自律実行と高度なツール使用です。
正直なところ:M3は、タスクレベルの数値を公開したため、現時点で最も透明性の高いエージェントコーディングの証拠を提供しています。DeepSeekの強みは、低価格での推論主導のコード品質です。Qwenの強みは、複合的な知能と長いエージェントチェーンにおける耐久性です。DeepSeekとQwenが同じSWE-Bench ProおよびTerminal-Benchタスクで報告するまでは、あなた自身のワークロードをこれら3つすべてで実行してください。これについては最後に説明します。Qwenのより広範な最先端モデルとの比較は、Qwen 3.7 vs GPT-5.5 vs Opus 4.7にあります。
コンテキストウィンドウと長文コンテキストのコスト
3つのうち2つは1,000,000トークンのコンテキストウィンドウを宣伝しています。MiniMax M3とQwen3.7-Maxです。DeepSeekのV4-Proのコンテキストはここでは記載されていないため、その数値は示しません。
100万トークンは、およそ70万から75万語に相当します。これは、中規模のリポジトリ、長文のPDFの山、あるいは数ヶ月分の会話を1つのリクエストに収めるのに十分な量で、手動でのチャンキングや検索層の維持は不要です。リポジトリ全体の推論においては、多くのパイプライン作業を削減します。
この点を正直に保つために2つの注意点があります。第一に、大きなウィンドウは上限であり、保証ではありません。ウィンドウが埋まるにつれて、モデルの検索や推論の信頼性が低下することがよくあり、これらの新リリースモデルに対する独立した長文コンテキストテストはまだ少ないです。第二に、大きなコンテキストは費用がかかります。送信するすべてのトークンが課金されるため、100万トークンのプロンプトは高価なプロンプトになります。
ここにM3のMSAアーキテクチャが重要とされる理由があります。MiniMaxはこれを長文コンテキストの効率性のために構築されたと売り込んでおり、512K入力トークンまでの標準API料金と、その閾値を超える場合の個別の長文コンテキスト料金を設定しています。この分割は、経済的な現実を明確に示しています。つまり、長文コンテキストは、それを備えるすべてのモデルにおいてプレミアムティアであるということです。どのモデルを選んだとしても、実用的な対策は同じです。タスクが必要とする場合にのみフルウィンドウを使用し、必要ない場合は積極的にトリミングしてください。エージェントコンテキストをスリムに保つための具体的な戦術は、エージェントトークンコストを削減する方法にあります。
価格とアクセス
価格は、この比較が存在する理由です。西洋の主要モデルで多額の費用がかかる同じワークロードが、ここではごくわずかなコストで実行でき、この差が2026年の中国LLM価格戦争の原動力となっています。
DeepSeek V4-Proは、3つの中で最も明確なトークンあたりの数値を公開しています。2026年5月時点の標準料金は以下の通りです。
| トークンタイプ | DeepSeek V4-Pro 100万トークンあたりの料金 |
|---|---|
| 入力 (キャッシュミス) | $0.435 |
| 入力 (キャッシュヒット) | $0.003625 |
| 出力 | $0.87 |
この出力料金は、GPT-5.5の出力コストの約1/34に相当します。非思考型のV4-Flashバリアントはさらに安く、入力/出力100万トークンあたり$0.14/$0.28です。コーディングアシスタントを一日中 intensively 使用しても、おおよそ$1程度になります。この数字が、大量のエージェントトラフィックにとってDeepSeekを無視できない存在にしています。
MiniMax M3は、単一のトークンあたりの公開価格ではなく、トークンプランを販売しています。Plusが$20、Maxが$50、Ultraが$120です。そのAPIは、512Kトークンまでの入力に標準料金を適用し、その閾値を超える場合には長文コンテキスト料金を適用します。MiniMaxは正確なトークンあたりの数値を公開していないため、ここでは引用しません。このプラン構造は、従量課金よりも予測可能な月額費用を望むチームに適しています。接続の詳細は、MiniMax M3 APIの使用方法にあります。
Qwen 3.7はAlibaba Cloudを通じてトークンごとに課金され、Maxプレビューは2026年5月に公開されました。Alibabaは、同じ価格競争の一環として最近のQwenリリースを積極的に価格設定していますが、プレビューモデルの正確な料金は変更される可能性があるため、Alibaba Cloudの現在のモデルドキュメントで最新の数値を確認してください。
アクセスに関しては、オープンウェイトであるという点がコスト上限を完全に変えます。M3が公開するウェイトとDeepSeekのオープンリリースは、あなたが自己ホストしてハードウェア費用のみを支払い、トークンごとの課金を全く回避できることを意味します。Qwen3.7-Maxは、そのフラッグシップのウェイトが公開されていないため、現時点では自己ホストできません。そのため、これにアクセスするすべての方法はAlibabaのAPIを経由します。もしベンダーロックインの回避が目標であるならば、これは真の差別化要因となります。
どれを選ぶか
最適なモデルは、あなたが何を最適化したいかによって異なります。あなたの優先順位を以下の列と照らし合わせてください。
| あなたの優先順位 | 最適なモデル | 理由 |
|---|---|---|
| 公開されたベンチマークを持つエージェントコーディング | MiniMax M3 | リリース時における透明性の高いSWE-Bench Pro / Terminal-Bench / MCP Atlasの数値 (ベンダー報告) |
| マルチモーダル入力 (画像、動画、コンピューター使用) | MiniMax M3 | ネイティブなマルチモーダリティを持つ3つの中で唯一のモデル |
| 大量APIトラフィックにおける最低コスト | DeepSeek V4-Pro | 出力100万トークンあたり約$0.87、より安価なFlashバリアントとキャッシュヒット価格あり |
| 困難なリファクタリングにおける推論主導のコード品質 | DeepSeek V4-Pro | 思考チェーンが複数ファイルの依存関係を一度に捉える |
| 公開リーダーボードでの複合知能スコアトップ | Qwen3.7-Max | AA Intelligence Index 57、リリース時に1位と報告 |
| 長期間にわたる自律エージェントの実行 | Qwen3.7-Max または MiniMax M3 | 両者ともに耐久性と高度なツール使用を訴求。M3はMCP Atlasも公開 |
| 自己ホスト / 今すぐベンダーロックインなし | MiniMax M3 または DeepSeek V4-Pro | 両者ともにオープンウェイトを公開。Qwenのフラッグシップはクローズド |
いくつかの分かりやすいポイント。もしオープンウェイトとエージェントコーディングの実証があなたの最優先事項であれば、M3が現状で最も明確な選択肢です。ただし、リリース時点ではウェイトと技術レポートの公開まで数日を要し、ベンチマークはベンダー報告であるという注意点があります。もし大量のAPI利用があり、最低限の費用を望むなら、DeepSeek V4-Proの価格が注目されます。もし最高の公開複合スコアを求め、ホスト型APIの利用に問題がないのであれば、自己ホストを必要としない限り、Qwen3.7-Maxが適しています。
自分でテストしてみる
リーダーボードは、他の人のタスクに対してモデルがどう動作するかを示しますが、あなたのタスクに対してどう動作するかは教えてくれません。これら3つのモデルはすべてAPIを公開しており、選択を決定する最も速い方法は、それぞれに同じプロンプトを実行し、応答を並べて比較することです。
それはApidogの仕事です。各モデルAPIごとに1つずつ、3つの環境を持つApidogプロジェクトを設定し、それぞれが使用するOpenAI互換のチャット補完スキーマをインポートします。そうすれば、次のことができます。
- M3、V4-Pro、Qwen3.7-Maxに同じプロンプトバッチを送信し、出力の差分を1か所で比較します。
- ゴールデンレスポンスを記録し、プロンプトが変更されるたびにリプレイして、出力のずれを検出します。
- JSON Schemaアサーションを使用して
tool_callsとreasoning_contentの形式を検証し、誤ったシステムプロンプトの編集によってエージェントが静かに壊れるのを防ぎます。
Apidogをダウンロードし、3つの環境を3つのモデルエンドポイントに向けます。そうすれば、数分で機能する比較ベンチが手に入ります。最新モデルのAPI設定の詳細は、MiniMax M3 APIの使用方法にあります。
よくある質問
2026年現在、最高のオープンウェイトコーディングモデルはどれですか?
リリース時点での検証可能なエージェントコーディングの実績では、MiniMax M3がリードしています。SWE-Bench Pro 59.0%やTerminal-Bench 2.1 66.0%のようなタスクレベルのベンチマークを公開しているからです(ベンダー報告)。DeepSeek V4-Proはコストパフォーマンスに優れた選択肢で、GPT-5.5から数ポイント以内のコーディング性能を持ちながら、出力価格は約34分の1です。Qwen3.7-Maxは複合リーダーボードでトップですが、まだオープンウェイトではありません。正直な答えとしては、3つすべてのコーディング数値は直接比較できないため、決定する前にあなた自身のワークロードで実行してみてください。
これら3つはすべて本当にオープンウェイトですか?
まだです。MiniMax M3はオープンウェイトで、2026年6月1日のリリース後約10日以内にウェイトと技術レポートが公開される予定です。DeepSeekは、R1およびV3ファミリー全体でオープンウェイトを公開してきた長い実績があります。「Qwen 3.7」として多くの人が指すフラッグシップであるQwen3.7-Max-Previewは、2026年5月中旬の時点ではプロプライエタリでクローズドウェイトです。Alibabaは後でその下位層をオープンソース化する可能性がありますが、それは可能性として扱い、確定したものではありません。詳細はQwen 3.7とは何かで確認できます。
最も大きなコンテキストウィンドウを持つのはどれですか?
MiniMax M3とQwen3.7-Maxは両方とも1,000,000トークンのウィンドウを宣伝しており、これはおよそ70万から75万語に相当します。DeepSeek V4-Proのコンテキストはここでは記載されていません。大きなウィンドウは上限であり、完璧なリコールの保証ではないこと、そしてその中のすべてのトークンが課金されることを覚えておいてください。
実行コストが最も安いのはどれですか?
公開されているトークンあたりの料金では、DeepSeek V4-Proが圧倒的なリーダーです。出力100万トークンあたり約$0.87で、より安価な非思考型V4-Flashバリアントは$0.14/$0.28です。MiniMax M3は、トークンあたりの公開価格ではなく、月額トークンプラン($20 / $50 / $120)を販売しています。Qwen3.7-MaxはAlibaba Cloudでトークンごとに課金されます。自己ホストできる場合、オープンウェイトモデルは限界費用をハードウェアのみに下げます。より広範な価格動向は、2026年の中国LLM価格戦争で確認できます。
MiniMax M3はDeepSeek V4-Proよりも実際にコーディング性能が優れていますか?
ベンチマークの数値はまだ直接比較できません。M3はリリース時にSWE-Bench ProとTerminal-Benchの結果を公開しましたが、DeepSeekは同じ形式でこれらのタスクについて報告していません。M3の今日の優位性は、公開された実証とマルチモーダリティです。DeepSeekの優位性は、価格と複数ファイルのリファクタリングに強い推論チェーンです。3つすべてがOpenAI互換APIを話すため、公平なテストは、決定する前にあなた自身のレポでそれぞれに同一のプロンプトを実行することです。
まとめ
3つのオープンウェイト候補がコーディングの最先端に達しており、選択はあなたが何を最適化したいかによります。公開されたエージェントコーディングのベンチマーク、1Mコンテキスト、およびマルチモーダリティを望み、ウェイトの公開まで数日待てるなら、MiniMax M3を選びましょう。低コストと推論主導のコード品質が最も重要なら、DeepSeek V4-Proを選びましょう。トークンあたりの価格が3つの中で最も低く、ウェイトも利用可能です。最高の公開複合スコアを求め、ホスト型APIで問題ないなら、Qwen3.7-Maxを検討してください。ただし、そのフラッグシップは現状オープンウェイトではないことに留意してください。
ベンチマークの数値は常に変動し、M3のいくつかの数値は依然としてベンダー報告です。不変のアドバイスは変わりません。1つのApidogプロジェクトで3つのAPIすべてに対して同じプロンプトを実行し、出力と費用を観察し、あなた自身のワークロードで勝者を決定してください。
