Qwen 3.7 Plus: アリババのマルチモーダルエージェントモデル、ベンチマークと価格

AlibabaはQwen 3.7-Maxのわずか数日後にQwen 3.7 Plusをリリースしました。簡潔に言えば、Plusは視覚を持つMaxです。同じ1Mトークンのコンテキストとエージェント的なバックボーンを維持しつつ、画像と動画の入力を追加し、価格はMaxの約6分の1に抑えられています。Qwenシリーズを追っている方なら、弊社のQwen 3.7とは何かについてのガイドがテキストフラッグシップについて解説しています。この記事では、新しいPlusバリアントが追加する機能について説明します。

最初に注意すべき点があります。それは、Qwen 3.7 PlusがAPI専用であり、プロプライエタリであるという点です。これはQwenのオープンソースの習慣とは異なり、オープンウェイトは提供されません。これが何を意味するのかは後述します。PlusはAPIとしてのみ提供されるため、その呼び出しとデバッグに時間を費やすことになります。そこで、最後に紹介するApidogが役立ちます。

ボタン

手短な回答

Qwen 3.7 Plusは、Qwen 3.7-Maxのマルチモーダルで手頃な価格の兄弟モデルです。スクリーンショット、デザインモックアップ、または動画を与えると、それらを第一級の入力として推論します。グラフィカルインターフェースを操作するエージェント向けに構築されており、アプリのスクリーンショットを見て、クリックすべき正確なピクセル座標を返すことができます。

純粋なテキストにおいては、Maxがわずかに優位に立っています。視覚的な信号を伴うものに関しては、Plusが望ましい選択肢であり、いずれにしてもMaxのごく一部のコストで利用できます。唯一の本当の欠点は、クローズドなウェイトであることです。

Qwen 3.7 Maxとの違い

重要な変更点が3つあります。

視覚を持つ。 Maxはテキストのみですが、Plusはテキスト、画像、動画を受け入れます。これにより、スクリーンショットの認識、ドキュメントやPDFの読み取り、単一モデルによる動画理解が可能になります。

GUIを理解する。 Plusは、ブラウザ自動化、GUIナビゲーション、GUIとCLIのハイブリッドワークフローを処理するマルチモーダルな対話型エージェントとして位置付けられています。「(x=487, y=232)をクリックする」といった構造化されたアクションプランを生成し、これによりコンピュータ利用エージェントが実際に機能します。

低価格である。 PlusはMaxよりもはるかに低い予算層で動作します。

	Qwen 3.7 Plus	Qwen 3.7 Max
入力モダリティ	テキスト、画像、動画	テキストのみ
コンテキストウィンドウ	1Mトークン (視覚と共有)	1Mトークン
1Mトークンあたりの入出力	$0.40 / $1.60	$2.50 / $7.50
1Mトークンあたりのキャッシュ入力	$0.08	$0.25
GUIグラウンディング (ScreenSpot Pro)	79.0	なし
Terminal-Bench	70.3	69.7
自律実行上限	35時間	35時間

ベンチマーク

初期のハンズオンレビューで裏付けられた発表時の数値は、一貫したストーリーを語っています。テキストにおいてはPlusはMaxと同等かわずかに劣るものの、視覚が関わる瞬間に優位に立ちます。

ScreenSpot Pro: 79.0。 これはGUIグラウンディングテストで、スクリーンショットを見て正確なピクセル座標を生成するモデルの能力を示します。79.0は最先端のレベルであり、Maxでは全く実行できません。
Terminal-Bench: 70.3。 視覚パラメータが追加されているにもかかわらず、Maxの69.7をわずかに上回っています。
SWE-Bench Pro: 約60%。 Maxの60.6%とほぼ同レベルです。
MCP-Atlas: 76.4。 ツール使用のオーケストレーションにおいてMaxと同点です。
LM Arena: Plusはテキスト（#15 vs #13）およびコーディング（#12 vs #10）においてMaxにやや劣ります。純粋なテキスト作業では、Maxがわずかな優位性を保っています。

パターンは明らかです。スクリーンショット、モックアップ、チャートなど、視覚的な信号を伴うタスクの場合はPlusを選択してください。テキスト側の直接比較については、弊社のQwen 3.7 vs GPT-5.5 vs Opus 4.7の比較記事で、このシリーズが欧米のフラッグシップモデルと比べてどの位置にあるかを解説しています。いつものことですが、ベンチマークの数値はベンダーおよび初期のレビューアからのものであるため、絶対的な真実としてではなく、方向性を示すものとして扱ってください。

価格設定：予算重視のマルチモーダル層

ここからがPlusの興味深い点です。100万トークンあたり入力$0.40、出力$1.60という価格は、Maxと比較して入力で約6倍、出力で約5倍安価です。キャッシュされた入力は$0.08に下がります。ほとんどのテキストのみのモデルよりも低価格で、視覚と1Mのコンテキストを得られます。

コストモデルに組み込む価値のある注意点が1つあります。画像と動画は1Mトークンの予算を共有します。高解像度のスクリーンショットは何千ものトークンを消費する可能性があり、動画フレームも急速に増加するため、視覚ペイロードが増加するにつれて、実質的なテキストの余裕は縮小します。そのための予算を考慮してください。中国の研究機関がなぜ価格競争を続けているのかというより広い文脈については、2026年中国LLM価格戦争の分析をご覧ください。

注意点：プロプライエタリでAPIのみ

Qwenはオープンウェイトによって企業での牽引力を築き上げてきました。以前のQwenシリーズの多くはApache 2.0またはオープンユースライセンスの下で提供されており、チームはエアギャップのあるデータセンター内でモデルをダウンロード、ファインチューニング、実行することができました。Qwen 3.7 Plusはそのようなことはできません。

Plusは、Alibaba Cloud Model Studioを介して、管理された商用APIとしてのみ提供されます。ウェイトをダウンロードしたり、自己ホストしたり、オフラインで実行したりすることはできません。規制された環境やエアギャップのある環境では、これは大きな障壁となります。2026年第3四半期にオープンウェイトのPlusバリアントが検討されているという話もありますが、確認されておらず、プロプライエタリな層は閉鎖されたままになる可能性があります。もしオープンウェイトが必須条件である場合、現時点ではこのモデルは選択肢になりません。Step 3.7 Flashのような競合モデルはApache 2.0の下で提供され、価格もPlusを下回っています。

Qwen 3.7 Plusへのアクセス方法

2つの方法があります。

API: Alibaba Cloud Model Studioを介して呼び出します。エンドポイントはOpenAI互換であるため、ベースモデルからのリクエストパターンが引き継がれます。Qwen 3.7 APIの使用ガイドでは、認証と最初の呼び出しについて説明しており、マルチモーダルリクエストのためにメッセージペイロードに画像または動画部分を追加します。
チャット: コードを記述する前に、ブラウザでchat.qwen.aiで試してみてください。費用をかけずにこのシリーズを試したい場合は、弊社のQwen 3.7を無料で利用するガイドで無料ルートを紹介しています。

最小限のマルチモーダル呼び出しは、標準のOpenAIメッセージ形式を使用し、テキストに加えて画像部分を追加します。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "このフォームを送信するボタンはどれですか？ピクセル座標を教えてください。"},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

国際エンドポイントと中国エンドポイントではモデル識別子と地域ベースURLが異なるため、正確な情報についてはModel Studioのドキュメントを確認してください。

利用すべきユーザー

Qwen 3.7 Plusは、以下のような作業を行う場合に適しています。

スクリーンショットから実際のインターフェースをクリック操作するコンピュータ利用およびGUIエージェント。
モデルがデザインを読み取り、フロントエンドを記述するスクリーンショットからコード、モックアップからUIへの変換。
トークンあたりのコストが低いドキュメント、PDF、動画の理解。
数千もの連続ツール呼び出しを伴う、35時間の上限までの長時間の自動エージェント実行。

純粋にSWE-Bench Proのテキストスコアを最適化している場合や、最速のテキストのみのレイテンシが必要な場合は、Maxを使用してください。Maxはコールドパスで若干高速に動作します。ほとんどの混合ワークロードでは、より安価なマルチモーダルオプションが賢明なデフォルトです。Plusを他のオープンモデルや低価格モデルと比較検討している場合は、弊社のMiniMax M3 vs DeepSeek V4 vs Qwen 3.7の比較記事が役立つでしょう。

Apidogを使ったQwen 3.7 Plusのテスト

PlusはAPI専用であるため、API内で作業することになります。マルチモーダルリクエストは複雑です。画像をエンコードし、動画を添付し、構造化されたアクションプランを読み戻す必要があり、これは数分から数時間続くツール呼び出しループ内で頻繁に行われます。各リクエストが何を送信し、何が返ってくるかを正確に確認する必要があります。

Apidogはそのために作られています。画像や動画のペイロードを含むQwen 3.7 Plusリクエストを送信し、生のレスポンスを検査し、複数の環境でModel Studioキーを管理し、エンドポイントをモックすることで、プロンプトを調整しながらアプリの構築を続けることができます。PlusがGUIとCLIのワークフローにわたってツール呼び出しを連鎖させるエージェント的な側面では、ApidogのAIエージェントデバッガーが完全な呼び出しシーケンスを表示し、実行がどこでうまくいかなかったのかを見つけるのに役立ちます。

本番環境に移行する前に、Qwen 3.7 Plus APIをテスト、デバッグ、モックするためにApidogをダウンロードしてください。

よくある質問

Qwen 3.7 Plusはオープンソースですか？ いいえ。プロプライエタリであり、Alibaba Cloud Model Studioを介したマネージドAPIとしてのみ利用可能です。ウェイトをダウンロードしたり、自己ホストしたりすることはできません。2026年第3四半期にオープンウェイト版が提案されていますが、確認されていません。
Qwen 3.7 PlusとMax、どちらを使うべきですか？ 視覚（スクリーンショット、PDF、動画）が必要な場合や、より低い価格を求める場合はPlusを使用してください。これはほとんどのワークロードをカバーします。純粋なテキストのSWE-Bench Proスコアを最適化する場合や、最速のテキストのみのレイテンシが必要な場合はMaxを使用してください。
Qwen 3.7 Plusの費用はいくらですか？ 入力100万トークンあたり$0.40、出力100万トークンあたり$1.60、キャッシュ入力で$0.08です。これはQwen 3.7-Maxの約6倍安価です。
Qwen 3.7 Plusは動画を処理できますか？ はい。テキスト、画像、動画を入力として受け入れます。視覚トークンは1Mトークンのコンテキスト予算を共有するため、大きなメディアペイロードはテキストの余裕を減らすことに注意してください。
コンテキストウィンドウはどれくらいですか？ Maxのバックボーンから継承された1Mトークンで、テキスト、画像、動画トークン間で共有されます。
Qwen 3.7 Plusにはどうやってアクセスしますか？ Alibaba Cloud Model Studio APIを介するか、ブラウザでchat.qwen.aiで試すことができます。

結論

Qwen 3.7 Plusは、Alibabaのエージェント型フラッグシップモデルに視覚機能を搭載し、価格を予算層にまで引き下げました。コンピュータ利用エージェント、スクリーンショット駆動型コーディング、または動画理解を開発するビルダーにとって、これは利用可能な最安の最先端マルチモーダルオプションの1つです。受け入れるべきトレードオフは、クローズドなウェイトとAlibabaクラウドへの強い依存です。

そのトレードオフがあなたにとって許容できるものであれば、次のステップはAPIそのものです。実際に運用されるトラフィックに耐えうるように、Apidogでテストし、マルチモーダルな呼び出しをデバッグし、レスポンスをモックしてください。

ボタン