Qwen 3.7 PlusとMax、どちらのQwen 3.7モデルを選ぶべき？

Alibabaは2週間以内に、Qwen 3.7シリーズの2つのフラッグシップを発表しました。テキスト専用推論モデルであるQwen3.7-Maxと、ビジョン機能を追加し、価格も大幅に抑えられたマルチモーダル版のQwen3.7-Plusです。これらは同じ1Mトークンのコンテキストと35時間の自律稼働上限を共有しているため、スペックシートだけではどちらを選ぶべきか明確ではありません。

このガイドでは、ベンチマーク、価格、速度、そして日常的な利用の判断基準に基づいて両モデルを比較します。各モデルの背景について先に知りたい場合は、当社のQwen 3.7 Plus概要と、より広範なQwen 3.7とは何かのガイドをご覧ください。どちらを選んだとしても、API経由で呼び出し、その応答をテストする必要があります。そこで役立つのがApidogであり、その詳細は最後に説明します。

結論から言うと

基本的にはPlusを選びましょう。ツール利用ではMaxと同等、ターミナルタスクではMaxをわずかに上回り、画像や動画の入力も可能で、コストは約6分の1です。ほとんどのワークロードでは、価格だけでこの決定がなされます。

Maxは、純粋にテキストに最適化する場合にのみ選びましょう。純粋なテキストのリーダーボードではわずかに優位を保ち、テキストのみのコールドスタートでは若干高速に動作します。スクリーンショットやドキュメント画像を一切扱わない作業であれば、その優位性が重要になることもあります。それ以外のすべてにおいて、Plusが優位です。

核となる違い

Maxは純粋なテキスト専用のフラッグシップモデルです。テキスト入力のみで推論、コーディング、および長大なエージェントチェーンの実行が可能です。Plusは同じ基盤を持ちながら、視覚機能を追加しました。画像や動画を受け入れ、スクリーンショットから正確なクリック座標を返すのに十分なほどGUIを認識します。そして、価格面ではMaxを大きく下回ります。

そのため、選択肢は限られています。わずかなテキスト品質とレイテンシの優位性を手放す代わりに、視覚機能と大幅に安価なコストを得られます。

ベンチマーク

これらの数値は一貫した結果を示しています。Plusは純粋なテキストではMaxにわずかに劣り、ツール利用では同等ですが、視覚機能が加わると一気に優位に立ちます。

ベンチマーク	Qwen 3.7 Plus	Qwen 3.7 Max
LMアリーナ (テキスト)	#15	#13
LMアリーナ (コーディング)	#12	#10
ビジョンアリーナ	#16	該当なし
SWE-Bench Pro	約60%	60.6%
ターミナルベンチ (2.0 Terminus)	70.3	69.7
ScreenSpot Pro (GUIグラウンディング)	79.0	なし
MCP-Atlas (ツール利用)	76.4	76.4

以下の3点が際立っています。

SWE-Bench Proでは実質的に同点です。 PlusはMaxの60.6%に対し約60%を記録しました。実際のソフトウェアタスクにおいて、視覚機能のパラメータがPlusのコーディング能力を著しく低下させることはありません。当社のQwen 3.7 vs GPT-5.5 vs Opus 4.7比較では、これらのモデルが欧米のフラッグシップモデルと比べてどの位置にあるかを示しています。

Plusはターミナルベンチで実際に勝利しました（70.3対69.7）。シェルを多用するエージェント作業では、安価なモデルの方がわずかに強力です。

GUIグラウンディングが本当の差別化要因です。ScreenSpot Pro 79.0は最先端レベルであり、Maxはこれを全く実行できません。エージェントが画面を見る必要がある場合、これらのモデルのうち、Plusだけが条件を満たします。いつものことですが、ベンダーのベンチマーク数値は指針として扱い、絶対的なものとは見なさないでください。SWE-benchサイトでは、各スイートが何を測定しているかについて説明しています。

価格

ここで大きな差が生まれます。

	Qwen 3.7 Plus	Qwen 3.7 Max
入力 / 100万トークン	$0.40	$2.50
出力 / 100万トークン	$1.60	$7.50
キャッシュされた入力 / 100万トークン	$0.08	$0.25

Plusは入力で約6倍、出力で約5倍安価です。大量の処理や長時間稼働するエージェントの場合、この比率が予算を左右します。より安価なモデルは画像も読み取れるため、Maxのテキスト優位性が特に必要でない限り、Maxを勧めるのは難しいでしょう。

Plusの注意点として、画像と動画はトークン化され、1Mのコンテキスト予算を共有するため、スクリーンショットを多用するワークロードや動画のワークロードでは、トークンあたりの料金が示唆するよりも1回の呼び出しあたりのコストが高くなります。画像は縮小し、動画は控えめにサンプリングしてください。当社のエージェントのトークンコスト削減方法に関するメモと、2026年の中国LLM価格競争では、より広範なコスト状況について解説しています。公式料金はModel Studioの料金ページで確認できます。

スペックと速度

	Qwen 3.7 Plus	Qwen 3.7 Max
入力モダリティ	テキスト、画像、動画	テキストのみ
コンテキストウィンドウ	1M (視覚機能と共有)	1M
自律実行上限	35時間	35時間
テキスト専用レイテンシ	基準	コールドパスで約7～15%高速
重み	プロプライエタリ、APIのみ	プロプライエタリ、APIのみ

レイテンシはMaxの隠れた強みです。テキストのみのコールドスタートでは著しく高速に応答し、これはユーザーが「最初のトークンまでの時間」を視覚的に認識するチャット形式の製品で重要になります。独立した分析では、速度と知能のトレードオフを詳細に追跡しています。どちらのモデルもクローズドウェイトであり、Alibaba Cloud Model Studio経由でのみ動作するため、セルフホストが必要な場合は選択肢になりません。

どちらを選ぶべきか

Qwen 3.7 Plusを選ぶべきケース：

作業で画像、スクリーンショット、PDF、または動画を扱う場合。
画面を読み取るコンピューター利用エージェントやGUIエージェントを構築している場合。
コストが重要である場合（これらの数値からすると、ほとんどの場合に当てはまります）。

Qwen 3.7 Maxを選ぶべきケース：

テキスト専用のSWE-Bench Proスコアを純粋に最適化している場合。
レイテンシに敏感な製品で最速のテキスト応答が必要な場合。
視覚入力を一切送信せず、テキスト品質のあらゆる点を追求したい場合。

ほとんどのチームにとって、Plusが賢明なデフォルトであり、Maxはスペシャリスト向けです。コストの差は非常に大きいため、テキスト専用モデルに6倍もの費用を支払うには具体的な理由が必要となるでしょう。

具体的に示すために、一般的なワークロードがどのように分類されるかを見てみましょう。

ワークロード	選択	理由
スクリーンショットQAまたは視覚回帰エージェント	Plus	GUIグラウンディングが必要；画面を見ることができるのはPlusのみ
請求書、領収書、またはスキャンされたPDFからの情報抽出	Plus	ドキュメント画像には視覚入力が必要
大量テキスト分類	Plus	同じテキスト品質で、コストはわずか
低レイテンシ顧客サポートチャットボット	Max	テキスト専用コールドスタートの高速性はユーザーにとって重要
長時間の自律コーディング実行	どちらでも	SWE-Bench Proで同点のため、コストで決定

このパターンが繰り返されます。ワークロードがテキスト専用でレイテンシに敏感でない限り、安価なマルチモーダルモデルがより安全なデフォルト選択となります。

Apidogで両方をテストする

両モデルは同じOpenAI互換のModel Studioエンドポイントを共有しているため、モデル間の切り替えはモデルIDを1行変更するだけで済みます。これにより、直接比較が容易になります。同じプロンプトをqwen3.7-plusとqwen3.7-maxに送信し、応答を並べて、その価格差があなたのタスクに見合うかどうかを確認できます。

Apidogはこのループのために作られています。両モデルにリクエストを送信し、生のJSONを並べて検査し、環境ごとにModel Studioキーを保存し、エンドポイントをモックすることで、アプリの構築を継続できます。マルチモーダルなPlusリクエストについては、当社のQwen 3.7 Plus APIガイドで画像と動画のペイロード形式を示しており、基本のQwen 3.7 APIガイドではテキストパスを説明しています。いずれかのモデルがエージェント実行中にツール呼び出しを連鎖させている場合、ApidogのAIエージェントデバッガーがその一連の流れをすべて表示します。

いずれかのモデルを本番環境に組み込む前に、Apidogをダウンロードして両方のQwen 3.7モデルをテストし比較してください。

よくある質問

Qwen 3.7 PlusはMaxより優れていますか？ ほとんどのワークロードでは、はい、そうです。なぜなら、視覚機能を追加し、コーディングとツール利用ではMaxと同等でありながら、コストが大幅に安いためです。Maxは純粋なテキストのリーダーボードとテキスト専用のレイテンシでわずかな優位性を保っています。

Plusはどれくらい安価ですか？ 入力で約6倍（100万トークンあたり$0.40対$2.50）、出力で約5倍（$1.60対$7.50）安価です。

同じコンテキストウィンドウを共有していますか？ はい、両方とも1Mトークンのウィンドウを持っています。Plusの場合、画像と動画はその同じ予算からトークンを消費します。

Maxは画像を処理できますか？ いいえ。Maxはテキスト専用です。画像または動画入力が必要な場合はPlusが必要です。

どちらもオープンソースですか？ いいえ。両方ともプロプライエタリであり、Alibaba Cloud Model Studio経由でのみ動作します。重みをダウンロードしたり、セルフホストしたりすることはできません。

どちらが速いですか？ Maxはテキスト専用のコールドパスで約7～15%高速です。混合ワークロードや視覚機能が必要な作業では、いずれにせよPlusが唯一の選択肢です。

まとめ

Qwen 3.7 MaxとPlusは、実際には同じ用途で競合しているわけではありません。Maxは速度と品質の面でわずかな優位性を持つテキスト純粋主義者であり、Plusはより安価でマルチモーダルな汎用モデルであり、価格や視覚機能が重要となるほとんどの場面で勝利します。まずPlusから始め、テキスト専用のワークロードがプレミアムを正当化する場合にのみMaxを検討してください。いずれにしても、リリースする製品がベンチマークが約束する通りに動作するよう、ApidogでAPIをテストしてください。

button