Qwen 3.7 Plus: アリババのマルチモーダルエージェントモデル、ベンチマークと価格

Qwen 3.7 Plusは、AlibabaのQwen3.7-Maxのマルチモーダルな兄弟モデルです。テキスト、画像、動画の入力、100万トークンのコンテキスト、GUIエージェントのグラウンディング、そして100万トークンあたり$0.40/$1.60という手頃な価格が特徴です。ベン

Ashley Innocent

Ashley Innocent

3 6月 2026

Qwen 3.7 Plus: アリババのマルチモーダルエージェントモデル、ベンチマークと価格

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

AlibabaはQwen 3.7-Maxのわずか数日後にQwen 3.7 Plusをリリースしました。簡潔に言えば、Plusは視覚を持つMaxです。同じ1Mトークンのコンテキストとエージェント的なバックボーンを維持しつつ、画像と動画の入力を追加し、価格はMaxの約6分の1に抑えられています。Qwenシリーズを追っている方なら、弊社のQwen 3.7とは何かについてのガイドがテキストフラッグシップについて解説しています。この記事では、新しいPlusバリアントが追加する機能について説明します。

最初に注意すべき点があります。それは、Qwen 3.7 PlusがAPI専用であり、プロプライエタリであるという点です。これはQwenのオープンソースの習慣とは異なり、オープンウェイトは提供されません。これが何を意味するのかは後述します。PlusはAPIとしてのみ提供されるため、その呼び出しとデバッグに時間を費やすことになります。そこで、最後に紹介するApidogが役立ちます。

ボタン

手短な回答

Qwen 3.7 Plusは、Qwen 3.7-Maxのマルチモーダルで手頃な価格の兄弟モデルです。スクリーンショット、デザインモックアップ、または動画を与えると、それらを第一級の入力として推論します。グラフィカルインターフェースを操作するエージェント向けに構築されており、アプリのスクリーンショットを見て、クリックすべき正確なピクセル座標を返すことができます。

純粋なテキストにおいては、Maxがわずかに優位に立っています。視覚的な信号を伴うものに関しては、Plusが望ましい選択肢であり、いずれにしてもMaxのごく一部のコストで利用できます。唯一の本当の欠点は、クローズドなウェイトであることです。

Qwen 3.7 Maxとの違い

重要な変更点が3つあります。

視覚を持つ。 Maxはテキストのみですが、Plusはテキスト、画像、動画を受け入れます。これにより、スクリーンショットの認識、ドキュメントやPDFの読み取り、単一モデルによる動画理解が可能になります。

GUIを理解する。 Plusは、ブラウザ自動化、GUIナビゲーション、GUIとCLIのハイブリッドワークフローを処理するマルチモーダルな対話型エージェントとして位置付けられています。「(x=487, y=232)をクリックする」といった構造化されたアクションプランを生成し、これによりコンピュータ利用エージェントが実際に機能します。

低価格である。 PlusはMaxよりもはるかに低い予算層で動作します。

Qwen 3.7 Plus Qwen 3.7 Max
入力モダリティ テキスト、画像、動画 テキストのみ
コンテキストウィンドウ 1Mトークン (視覚と共有) 1Mトークン
1Mトークンあたりの入出力 $0.40 / $1.60 $2.50 / $7.50
1Mトークンあたりのキャッシュ入力 $0.08 $0.25
GUIグラウンディング (ScreenSpot Pro) 79.0 なし
Terminal-Bench 70.3 69.7
自律実行上限 35時間 35時間

ベンチマーク

初期のハンズオンレビューで裏付けられた発表時の数値は、一貫したストーリーを語っています。テキストにおいてはPlusはMaxと同等かわずかに劣るものの、視覚が関わる瞬間に優位に立ちます。

パターンは明らかです。スクリーンショット、モックアップ、チャートなど、視覚的な信号を伴うタスクの場合はPlusを選択してください。テキスト側の直接比較については、弊社のQwen 3.7 vs GPT-5.5 vs Opus 4.7の比較記事で、このシリーズが欧米のフラッグシップモデルと比べてどの位置にあるかを解説しています。いつものことですが、ベンチマークの数値はベンダーおよび初期のレビューアからのものであるため、絶対的な真実としてではなく、方向性を示すものとして扱ってください。

価格設定:予算重視のマルチモーダル層

ここからがPlusの興味深い点です。100万トークンあたり入力$0.40、出力$1.60という価格は、Maxと比較して入力で約6倍、出力で約5倍安価です。キャッシュされた入力は$0.08に下がります。ほとんどのテキストのみのモデルよりも低価格で、視覚と1Mのコンテキストを得られます。

コストモデルに組み込む価値のある注意点が1つあります。画像と動画は1Mトークンの予算を共有します。高解像度のスクリーンショットは何千ものトークンを消費する可能性があり、動画フレームも急速に増加するため、視覚ペイロードが増加するにつれて、実質的なテキストの余裕は縮小します。そのための予算を考慮してください。中国の研究機関がなぜ価格競争を続けているのかというより広い文脈については、2026年中国LLM価格戦争の分析をご覧ください。

注意点:プロプライエタリでAPIのみ

Qwenはオープンウェイトによって企業での牽引力を築き上げてきました。以前のQwenシリーズの多くはApache 2.0またはオープンユースライセンスの下で提供されており、チームはエアギャップのあるデータセンター内でモデルをダウンロード、ファインチューニング、実行することができました。Qwen 3.7 Plusはそのようなことはできません。

Plusは、Alibaba Cloud Model Studioを介して、管理された商用APIとしてのみ提供されます。ウェイトをダウンロードしたり、自己ホストしたり、オフラインで実行したりすることはできません。規制された環境やエアギャップのある環境では、これは大きな障壁となります。2026年第3四半期にオープンウェイトのPlusバリアントが検討されているという話もありますが、確認されておらず、プロプライエタリな層は閉鎖されたままになる可能性があります。もしオープンウェイトが必須条件である場合、現時点ではこのモデルは選択肢になりません。Step 3.7 Flashのような競合モデルはApache 2.0の下で提供され、価格もPlusを下回っています。

Qwen 3.7 Plusへのアクセス方法

2つの方法があります。

最小限のマルチモーダル呼び出しは、標準のOpenAIメッセージ形式を使用し、テキストに加えて画像部分を追加します。

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "このフォームを送信するボタンはどれですか?ピクセル座標を教えてください。"},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

国際エンドポイントと中国エンドポイントではモデル識別子と地域ベースURLが異なるため、正確な情報についてはModel Studioのドキュメントを確認してください。

利用すべきユーザー

Qwen 3.7 Plusは、以下のような作業を行う場合に適しています。

純粋にSWE-Bench Proのテキストスコアを最適化している場合や、最速のテキストのみのレイテンシが必要な場合は、Maxを使用してください。Maxはコールドパスで若干高速に動作します。ほとんどの混合ワークロードでは、より安価なマルチモーダルオプションが賢明なデフォルトです。Plusを他のオープンモデルや低価格モデルと比較検討している場合は、弊社のMiniMax M3 vs DeepSeek V4 vs Qwen 3.7の比較記事が役立つでしょう。

Apidogを使ったQwen 3.7 Plusのテスト

PlusはAPI専用であるため、API内で作業することになります。マルチモーダルリクエストは複雑です。画像をエンコードし、動画を添付し、構造化されたアクションプランを読み戻す必要があり、これは数分から数時間続くツール呼び出しループ内で頻繁に行われます。各リクエストが何を送信し、何が返ってくるかを正確に確認する必要があります。

Apidogはそのために作られています。画像や動画のペイロードを含むQwen 3.7 Plusリクエストを送信し、生のレスポンスを検査し、複数の環境でModel Studioキーを管理し、エンドポイントをモックすることで、プロンプトを調整しながらアプリの構築を続けることができます。PlusがGUIとCLIのワークフローにわたってツール呼び出しを連鎖させるエージェント的な側面では、ApidogのAIエージェントデバッガーが完全な呼び出しシーケンスを表示し、実行がどこでうまくいかなかったのかを見つけるのに役立ちます。

本番環境に移行する前に、Qwen 3.7 Plus APIをテスト、デバッグ、モックするためにApidogをダウンロードしてください。

よくある質問

結論

Qwen 3.7 Plusは、Alibabaのエージェント型フラッグシップモデルに視覚機能を搭載し、価格を予算層にまで引き下げました。コンピュータ利用エージェント、スクリーンショット駆動型コーディング、または動画理解を開発するビルダーにとって、これは利用可能な最安の最先端マルチモーダルオプションの1つです。受け入れるべきトレードオフは、クローズドなウェイトとAlibabaクラウドへの強い依存です。

そのトレードオフがあなたにとって許容できるものであれば、次のステップはAPIそのものです。実際に運用されるトラフィックに耐えうるように、Apidogでテストし、マルチモーダルな呼び出しをデバッグし、レスポンスをモックしてください。

ボタン

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる