Qwen3.6-Plus API: ターミナルベンチマークでClaudeを凌駕

Ashley Innocent

Ashley Innocent

2 4月 2026

Qwen3.6-Plus API: ターミナルベンチマークでClaudeを凌駕

要約 (TL;DR)

Qwen3.6-Plus が正式リリースされました。SWE-bench Verified で 78.8%、Terminal-Bench 2.0 で 61.6% を記録し、Claude Opus 4.5 を凌駕しています。1M トークンのコンテキストウィンドウ、エージェントループ用の新しい `preserve_thinking` パラメータを備え、OpenAI互換APIを介してClaude Code、OpenClaw、Qwen Codeと直接連携します。

プレビューからリリースへ

OpenRouterでのQwen 3.6 Plusプレビューに関する以前のガイドをご覧になった方は、このモデルの性能をすでにご存知でしょう。プレビューは2026年3月30日にひっそりと公開され、待機リストなしでOpenRouter経由で無料でアクセスできました。最初の2日間で、約40万件のリクエストに対して4億以上の完了トークンを処理しました。

今回の正式リリースにより、完全な製品版が提供されます。もはやプレビュー専用ではありません。このモデルは、Alibaba Cloud Model Studioを通じて、安定したAPI、SLAに裏打ちされた稼働時間、そしてマルチステップのエージェントタスクにおいてその能力を大幅に向上させる新しいAPIパラメータと共に利用可能になりました。

このガイドでは、変更点、APIの正しい呼び出し方、デプロイ前にApidogで統合をテストする方法について説明します。

button

Qwen3.6-Plusとは

Qwen3.6-Plusは、AlibabaのQwenチームがホストするエキスパート混合モデルです。Qwen3.5シリーズと同様に、スパースアクティベーションを使用しており、トークンごとにパラメータのごく一部のみが発火します。その結果、同等の能力を持つ密なモデルよりも低い計算コストで高いパフォーマンスを実現します。

リリース時の主要なスペック:

オープンソースの小規模バリアントは数日以内にリリースされます。セルフホスト用に重みが必要な場合は、近日中に提供される予定です。

ベンチマーク結果

コーディングエージェント

Qwen3.6-Plusは、ほとんどのSWE-benchタスクでClaude Opus 4.5に僅差で続いていますが、端末操作では比較対象のすべてのモデルを上回っています。

SWE-benchとTerminal-Bench 2.0のスコアをQwen3.6-Plusと他のLLMで比較した棒グラフ。Qwen3.6-PlusはTerminal-Benchでわずかに優位に立っている。

Terminal-Bench 2.0は、ファイル管理、プロセス制御、3時間以内に32CPUコアと48GB RAMを使用して複数のステップで構成される端末ワークフローといった実際のシェル操作をテストします。Qwen3.6-Plusが61.6%を記録し、Claude Opus 4.5の59.3%を上回っているのは、開発者が実行するようなタスクにおいて重要な差です。

汎用エージェントとツール使用

ベンチマーク Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMarkはGitHub MCP v0.30.3のツール呼び出しをテストし、Playwrightの応答は32Kトークンに切り詰められます。48.2%でトップを走ることは、MCPベースのツールを構築するすべての人にとって重要です。DeepPlanningでは、Claudeの33.9%に対し41.5%と、長期間の計画タスクにおいて顕著な差を示しています。

推論と知識

ベンチマーク Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQAは大学院レベルの科学推論ベンチマークです。IFEval strictは、モデルが正確な書式設定と制約指示にどれだけ従うかを測定します。Qwen3.6-Plusは両方でリードしており、構造化された出力や、モデルが複雑な指示にずれなく従わなければならないエージェントタスクにとって重要です。

マルチモーダル

Qwen3.6-Plusはネイティブのマルチモーダルモデルです。いくつかのドキュメント、空間、物体検出ベンチマークでリードしています。

ベンチマーク Qwen3.6-Plus 備考
OmniDocBench 1.5 91.2% テーブル内でトップ
RefCOCO avg 93.5% テーブル内でトップ
We-Math 89.0% テーブル内でトップ
CountBench 97.6% テーブル内でトップ
OSWorld-Verified 62.5% Claude (66.3%)に次ぐ

デスクトップコンピューター使用のベンチマークであるOSWorld-Verifiedでは、Claude Opus 4.5が66.3%でリードしており、Qwen3.6-Plusは62.5%です。ドキュメント理解と空間接地タスクでは、Qwen3.6-Plusがリードしています。

APIの呼び出し方

Qwen3.6-PlusはAlibaba Cloud Model Studioで提供されています。APIキーはmodelstudio.alibabacloud.comで取得できます。

3つの地域別ベースURL:

ストリーミングでの基本呼び出し

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

preserve_thinking パラメータ

プレビュー版では現在のターンからの推論のみを保持していました。正式リリースでは`preserve_thinking`が追加されました。

`preserve_thinking: true`を設定すると、モデルは会話の以前のすべてのターンからの思考の連鎖を保持します。Alibabaはこれを特にエージェントシナリオで推奨しています。その理由は、マルチステップタスクに取り組むエージェントは、自身の以前の思考を見ることができると有利だからです。ステップ2でなぜそのような選択をしたのかを見ることができれば、ステップ5でより良い決定を下すことができます。

トークン使用量を制御するため、デフォルトでは無効になっています。エージェントループで使用する場合は有効にしてください。

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # すべてのターンで推論を保持する
 },
 stream=True
)

Claude CodeでQwen3.6-Plusを使用する

Qwen APIはAnthropicプロトコルをサポートしています。環境変数以外のClaude Code設定を変更することなく、Qwen3.6-Plusに対してClaude Codeを実行できます。

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

OpenClawでQwen3.6-Plusを使用する

OpenClaw(旧 Moltbot / Clawdbot)は、オープンソースのセルフホスト型コーディングエージェントです。これをインストールし、Model Studioを指すように設定します。

# インストール (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

~/.openclaw/openclaw.jsonを編集し、これらのフィールドをマージします(ファイル全体を上書きしないでください)。

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Qwen CodeでQwen3.6-Plusを使用する

Qwen Codeは、Alibaba独自のオープンソースのターミナルエージェントで、Qwenシリーズのために特別に構築されています。Qwen Code OAuthでサインインすると、1日あたり1,000回の無料API呼び出しが可能です。

npm install -g @qwen-code/qwen-code@latest
qwen
# /auth と入力してサインインし、無料枠をアクティブにする

preserve_thinkingがエージェントの動作を変える理由

ほとんどのLLM APIは、各ターンを独立して扱います。モデルは回答を生成し、推論は破棄され、次のターンは新しく始まります。単純なQ&Aでは問題ありませんが、10〜20ステップのタスクを実行するエージェントにとっては問題が生じます。モデルは以前の決定を下した理由を見ることができないため、逸脱してしまうのです。

`preserve_thinking`パラメータは、次の応答を生成する際に、以前のすべてのターンからの完全な推論の連鎖を可視的に保持します。その実用的な効果は、ステップ8で複雑なリポジトリレベルのタスクに取り組むエージェントが、ステップ2、4、6での分析を見ることができることです。これにより、より一貫性のある決定を下し、矛盾を減らすことができます。

Alibabaのベンチマークによると、これは冗長な推論も削減します。モデルがすでに確立されたコンテキストを再導出する必要がない場合、複雑なマルチステップワークフローにおいて、ターンあたりのトークン使用量が平均して少なくなります。

エージェントループにはこのパターンを使用してください:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# 例: マルチステップコードレビューエージェント
result = agent_step("認証モジュールを分析し、セキュリティ上の問題を検出してください。")
result = agent_step("見つかった上位3つの問題について修正案を提案してください。")
result = agent_step("それぞれの修正を検証するテストを書いてください。")

`preserve_thinking`がない場合、ステップ3のモデルはステップ1でどの3つの問題を特定したかを知りません。これを使用すると、推論の連鎖がそのまま保持されます。

最適な用途

リポジトリレベルのバグ修正。SWE-bench Verifiedで78.8%、SWE-bench Proで56.6%は、現在利用可能なものと競争力があります。自動コード修復またはレビューパイプラインを実行している場合、Qwen3.6-Plusを既存のセットアップと比較してベンチマークすることをお勧めします。

ターミナル自動化。Terminal-Bench 2.0でのリーダーシップは、シェルを多用するワークフローに最適なモデルであることを示しています。マルチステップのファイル操作、プロセス管理、ビルドパイプラインなどです。

MCPツール呼び出し。MCPMarkで48.2%(トップの結果)は、MCPベースのツール統合において現時点で最良の選択肢となっています。

長文コンテキストドキュメント分析。強力なLongBench v2スコアを持つ100万トークンのウィンドウは、完全なコードベースレビュー、大規模な仕様書、複数のファイルにわたる分析を単一の呼び出しで処理できます。

フロントエンドコード生成。Qwenチームの社内QwenWebBench(Eloレーティング、7カテゴリー:Webデザイン、Webアプリ、ゲーム、SVG、データ可視化、アニメーション、3D)では、Qwen3.6-Plusが1501.7点、Claude Opus 4.5が1517.9点と、フロントエンド生成品質で実質的に同点です。

多言語対応。WMT24++で84.3%(トップ)、23言語設定でMAXIFEが88.2%と、英語以外のユースケースでも高い性能を示しています。

ApidogでQwen3.6-Plus APIコールをテストする

エンドポイントはOpenAI互換なので、Apidogに直接インポートして他のAPIと同様にテストできます。

ApidogのUIで、Qwen3.6-Plus APIをテストするために設定されたPOSTリクエストが表示されています。

https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completionsへのPOSTリクエストを設定します。APIキーを環境変数として追加します:Authorization: Bearer {{DASHSCOPE_API_KEY}}

構造とコンテンツを検証するための応答アサーションを記述します:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

開発中はApidogのスマートモックを使用してテスト応答を生成します。これにより、ライブAPIを毎回呼び出すことなくエージェントオーケストレーションコードをテストでき、トークンを節約し、テストサイクルを高速に保つことができます。

マルチターンエージェントを構築している場合は、複数のリクエストを連結するテストシナリオをApidogで作成します。本番環境で完全なループを実行する前に、各ステップで応答構造をチェックして、`preserve_thinking`がターン間で推論を保持していることを検証します。

Apidogを無料でダウンロードして、これらのテストを設定してください。

今後の展開

Qwenチームは、数日以内に小規模なオープンソースバリアントをリリースすることを確認しました。これらはQwen3.5のパターンに倣い、公開されたApache 2.0の重みを持つスパースMoEモデルとなります。

ロードマップには以下も含まれています:

Qwen3.5のオープンソースバリアントは、リリースから数週間で最もデプロイされたセルフホスト型モデルの一部となりました。Qwen3.6も同じパターンをたどるなら、小規模バリアントはリリース後まもなくセルフホスト型コーディングエージェントのデフォルトの選択肢となるでしょう。

結論

Qwen3.6-Plusは、コーディングタスクにおいてClaude Opus 4.5との差を縮め、ターミナル操作、MCPツール呼び出し、長期的な計画において明確なリードを築いています。100万トークンのコンテキスト、Anthropicプロトコル互換性、エージェントループ用の`preserve_thinking`は、現在のところ本番環境のエージェントシステムにとって実用的な選択肢となります。

OpenRouterでの無料プレビュー期間は、モデルを評価するための有用な方法でした。正式なAPIは、安定性、SLAカバレッジ、そしてマルチターンワークフローをより信頼性の高いものにする新しいエージェント中心のパラメータをもたらします。

Apidogはテスト面をサポートします。OpenAI互換のエンドポイントをインポートし、応答アサーションを記述し、開発中にモックを使用し、モデルを更新したりAPIバージョンを上げたりするたびに回帰テストを実行できます。

button

よくある質問

Qwen3.6-Plusとプレビュー版の違いは何ですか?プレビュー版(qwen/qwen3.6-plus-preview)は2026年3月30日にOpenRouterでリリースされました。正式リリース版では、`preserve_thinking`パラメータの追加、SLAに裏打ちされた稼働時間、およびModel Studioの完全なサポートが含まれています。小規模なオープンソースバリアントも今後リリースされる予定です。

`preserve_thinking`とは何ですか?いつ使用すべきですか?デフォルトでは、現在のターンからの推論のみが保持されます。`preserve_thinking: true`を設定すると、モデルは以前の会話ターンからの思考の連鎖をすべて保持します。モデルの過去の推論が次のアクションに影響を与えるべきマルチステップのエージェントループで使用します。

Qwen3.6-PlusはClaude Opus 4.5と比較してどうですか?Claude Opus 4.5はSWE-bench Verified(80.9% vs 78.8%)とOSWorld-Verified(66.3% vs 62.5%)でリードしています。Qwen3.6-PlusはTerminal-Bench 2.0(61.6% vs 59.3%)、MCPMark(48.2% vs 42.3%)、DeepPlanning(41.5% vs 33.9%)、GPQA(90.4% vs 87.0%)でリードしています。

Qwen3.6-PlusをClaude Codeで使用できますか?はい。`ANTHROPIC_BASE_URL`をDashscope Anthropic互換エンドポイントに、`ANTHROPIC_MODEL`を`qwen3.6-plus`に、`ANTHROPIC_AUTH_TOKEN`をDashscope APIキーに設定してください。

Qwen3.6-Plusはオープンソースですか?ホストされているAPIモデルはオープンウェイトではありません。公開されたウェイトを持つ小規模バリアントが数日以内にリリースされることが確認されています。

無料でアクセスするにはどうすればよいですか?Qwen Codeをインストールし(`npm install -g @qwen-code/qwen-code@latest`)、`qwen`を実行した後、`/auth`と入力します。Qwen Code OAuthでサインインすると、Qwen3.6-Plusに対して1日あたり1,000回の無料API呼び出しが可能です。

どのコンテキストウィンドウをサポートしていますか?デフォルトで100万トークンです。公式レポートの一部のベンチマークでは、標準化された比較のために256Kが使用されていますが、APIのデフォルトは1Mです。

デプロイ前にAPI統合をテストするにはどうすればよいですか?Apidogにエンドポイントをインポートし、APIキーを環境変数として追加し、応答アサーションを記述し、オフライン開発にはSmart Mockを使用します。複数のリクエストをテストシナリオに連結して、マルチターンエージェントの動作をエンドツーエンドで検証します。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる