API Qwen3.6-Plus: Vượt Trội Claude Trên Benchmarks

TÓM TẮT

Qwen3.6-Plus đã chính thức ra mắt. Nó đạt 78,8% trên SWE-bench Verified và 61,6% trên Terminal-Bench 2.0, vượt qua Claude Opus 4.5. Nó có cửa sổ ngữ cảnh 1 triệu token, một tham số preserve_thinking mới cho các vòng lặp tác nhân (agent loops), và hoạt động trực tiếp với Claude Code, OpenClaw, và Qwen Code thông qua API tương thích OpenAI.

Từ bản xem trước đến bản phát hành

Nếu bạn đã đọc hướng dẫn trước đó của chúng tôi về Qwen 3.6 Plus Preview trên OpenRouter, bạn đã biết mô hình này có khả năng gì. Bản xem trước đã được phát hành âm thầm vào ngày 30 tháng 3 mà không cần danh sách chờ và truy cập miễn phí qua OpenRouter. Trong hai ngày đầu tiên, nó đã xử lý hơn 400 triệu token hoàn chỉnh qua khoảng 400.000 yêu cầu.

Bản phát hành chính thức mang đến phiên bản sản xuất hoàn chỉnh. Nó không còn chỉ là bản xem trước nữa. Mô hình hiện đã có sẵn thông qua Alibaba Cloud Model Studio với API ổn định, thời gian hoạt động được đảm bảo bởi SLA, và một tham số API mới giúp nó có khả năng hơn đáng kể cho các tác vụ tác nhân đa bước.

Hướng dẫn này bao gồm những thay đổi, cách gọi API chính xác và cách kiểm tra tích hợp của bạn với Apidog trước khi triển khai.

button

Qwen3.6-Plus là gì

Qwen3.6-Plus là một mô hình hỗn hợp chuyên gia (mixture-of-experts) được lưu trữ từ nhóm Qwen của Alibaba. Giống như dòng Qwen3.5, nó sử dụng kích hoạt thưa (sparse activation), có nghĩa là chỉ một phần nhỏ các tham số được kích hoạt trên mỗi token. Kết quả là hiệu suất mạnh mẽ với chi phí tính toán thấp hơn so với một mô hình dày đặc (dense model) có khả năng tương tự.

Thông số kỹ thuật chính khi ra mắt:

Cửa sổ ngữ cảnh 1 triệu token theo mặc định
Suy luận theo chuỗi tư duy (chain-of-thought) bắt buộc (giống như bản xem trước)
Tham số preserve_thinking mới cho các tác vụ tác nhân (agentic tasks)
Hỗ trợ đa phương thức gốc (thị giác, video, hiểu tài liệu)
API tương thích OpenAI, API tương thích Anthropic và API phản hồi OpenAI

Các biến thể mã nguồn mở nhỏ hơn sẽ ra mắt trong vài ngày tới. Nếu bạn cần các trọng số để tự lưu trữ (self-host), chúng đang được phát triển.

Kết quả đánh giá hiệu suất (Benchmark)

Tác nhân mã hóa

Qwen3.6-Plus chỉ xếp sau Claude Opus 4.5 một chút trong hầu hết các tác vụ SWE-bench, trong khi vượt trội hơn mọi mô hình khác trong so sánh về các hoạt động trên terminal.

Terminal-Bench 2.0 kiểm tra các hoạt động shell thực tế: quản lý tệp, kiểm soát tiến trình, quy trình làm việc trên terminal đa bước trong thời gian chờ 3 giờ với 32 lõi CPU và 48GB RAM. Qwen3.6-Plus đạt 61,6% so với 59,3% của Claude Opus 4.5 là một khoảng cách đáng kể đối với chính xác loại tác vụ mà các nhà phát triển thực hiện.

Tác nhân chung và sử dụng công cụ

Chỉ số đánh giá	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

MCPMark kiểm tra các lệnh gọi công cụ GitHub MCP v0.30.3, với các phản hồi Playwright được cắt ngắn ở 32K token. Dẫn đầu với 48,2% là điều quan trọng đối với bất kỳ ai xây dựng trên các công cụ dựa trên MCP. DeepPlanning ở mức 41,5% so với 33,9% của Claude cho thấy một khoảng cách đáng kể trong các tác vụ lập kế hoạch dài hạn.

Khả năng suy luận và kiến thức

Chỉ số đánh giá	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

GPQA là một bài kiểm tra suy luận khoa học cấp độ sau đại học. IFEval strict đo lường mức độ tuân thủ của mô hình đối với các hướng dẫn định dạng và ràng buộc chính xác. Qwen3.6-Plus dẫn đầu cả hai, điều này quan trọng đối với đầu ra có cấu trúc và các tác vụ tác nhân nơi mô hình phải tuân thủ các hướng dẫn phức tạp mà không bị lạc hướng.

Đa phương thức

Qwen3.6-Plus là một mô hình đa phương thức gốc. Nó dẫn đầu nhiều bài kiểm tra hiệu suất về tài liệu, không gian và phát hiện đối tượng.

Chỉ số đánh giá	Qwen3.6-Plus	Ghi chú
OmniDocBench 1.5	91.2%	Hàng đầu trong bảng
RefCOCO avg	93.5%	Hàng đầu trong bảng
We-Math	89.0%	Hàng đầu trong bảng
CountBench	97.6%	Hàng đầu trong bảng
OSWorld-Verified	62.5%	Xếp sau Claude (66.3%)

OSWorld-Verified, chỉ số đánh giá sử dụng máy tính để bàn, cho thấy Claude Opus 4.5 dẫn trước ở mức 66,3% so với Qwen3.6-Plus ở mức 62,5%. Đối với các tác vụ hiểu tài liệu và định vị không gian, Qwen3.6-Plus dẫn đầu.

Cách gọi API

Qwen3.6-Plus có mặt trên Alibaba Cloud Model Studio. Lấy khóa API của bạn tại modelstudio.alibabacloud.com.

Ba URL cơ sở theo khu vực:

Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
Bắc Kinh: https://dashscope.aliyuncs.com/compatible-mode/v1
Virginia, Hoa Kỳ: https://dashscope-us.aliyuncs.com/compatible-mode/v1

Gọi cơ bản với streaming

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

Tham số preserve_thinking

Phiên bản xem trước chỉ giữ lại suy luận từ lượt hiện tại. Bản phát hành chính thức bổ sung preserve_thinking.

Khi bạn đặt preserve_thinking: true, mô hình sẽ giữ lại chuỗi tư duy (chain-of-thought) từ tất cả các lượt trước đó trong cuộc trò chuyện. Alibaba đặc biệt khuyến nghị điều này cho các kịch bản tác nhân (agent scenarios). Lý do là: một tác nhân làm việc qua một tác vụ đa bước sẽ hưởng lợi từ việc nhìn thấy suy nghĩ trước đó của chính nó. Nó đưa ra các quyết định tốt hơn ở bước 5 khi nó có thể thấy lý do tại sao nó đã đưa ra lựa chọn ở bước 2.

Nó bị tắt theo mặc định để kiểm soát việc sử dụng token. Hãy bật nó cho các vòng lặp tác nhân.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # keep reasoning across all turns
 },
 stream=True
)

Sử dụng Qwen3.6-Plus với Claude Code

API của Qwen hỗ trợ giao thức Anthropic. Bạn có thể chạy Claude Code với Qwen3.6-Plus mà không cần thay đổi bất kỳ cấu hình Claude Code nào ngoài các biến môi trường.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Sử dụng Qwen3.6-Plus với OpenClaw

OpenClaw (trước đây là Moltbot / Clawdbot) là một tác nhân mã hóa mã nguồn mở tự lưu trữ. Cài đặt nó và trỏ nó đến Model Studio:

# Cài đặt (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

Chỉnh sửa ~/.openclaw/openclaw.json và hợp nhất các trường này (không ghi đè toàn bộ tệp):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Sử dụng Qwen3.6-Plus với Qwen Code

Qwen Code là tác nhân terminal mã nguồn mở của riêng Alibaba, được xây dựng đặc biệt cho dòng Qwen. Nó cung cấp cho bạn 1.000 lệnh gọi API miễn phí mỗi ngày khi bạn đăng nhập bằng Qwen Code OAuth.

npm install -g @qwen-code/qwen-code@latest
qwen
# Gõ /auth để đăng nhập và kích hoạt gói miễn phí

Tại sao preserve_thinking thay đổi hành vi tác nhân

Hầu hết các API LLM coi mỗi lượt độc lập. Mô hình tạo ra câu trả lời, suy luận bị loại bỏ, và lượt tiếp theo bắt đầu mới. Đối với Hỏi & Đáp (Q&A) đơn giản, điều đó ổn. Đối với các tác nhân chạy các tác vụ 10-20 bước, nó tạo ra vấn đề: mô hình không thể thấy lý do tại sao nó đưa ra các quyết định trước đó, vì vậy nó bị lệch hướng.

Tham số preserve_thinking giữ cho toàn bộ chuỗi suy luận từ tất cả các lượt trước đó hiển thị khi tạo phản hồi tiếp theo. Hiệu quả thực tế: một tác nhân làm việc qua một tác vụ cấp độ kho lưu trữ phức tạp ở bước 8 có thể thấy phân tích của nó từ các bước 2, 4 và 6. Nó đưa ra các quyết định nhất quán hơn và tạo ra ít mâu thuẫn hơn.

Các bài kiểm tra hiệu suất của Alibaba cho thấy điều này cũng làm giảm suy luận dư thừa. Khi mô hình không phải suy luận lại ngữ cảnh mà nó đã thiết lập, nó sử dụng ít token hơn mỗi lượt trung bình cho các quy trình làm việc đa bước phức tạp.

Sử dụng mẫu này cho các vòng lặp tác nhân:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Ví dụ: tác nhân đánh giá mã đa bước
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")

Nếu không có preserve_thinking, mô hình ở bước 3 không biết 3 vấn đề nào nó đã xác định ở bước 1. Với nó, chuỗi suy luận được giữ nguyên.

Nó tốt nhất cho những gì

Sửa lỗi cấp độ kho lưu trữ. SWE-bench Verified ở mức 78,8% và SWE-bench Pro ở mức 56,6% cạnh tranh với bất kỳ giải pháp nào có sẵn hiện nay. Nếu bạn đang chạy các quy trình sửa lỗi hoặc đánh giá mã tự động, Qwen3.6-Plus đáng để so sánh với thiết lập hiện tại của bạn.

Tự động hóa terminal. Khả năng dẫn đầu của Terminal-Bench 2.0 khiến nó trở thành mô hình mạnh nhất hiện có cho các quy trình làm việc nặng về shell. Các hoạt động tệp đa bước, quản lý tiến trình, quy trình xây dựng.

Gọi công cụ MCP. MCPMark ở mức 48,2% (kết quả hàng đầu) khiến nó trở thành lựa chọn tốt nhất hiện tại cho các tích hợp công cụ dựa trên MCP.

Phân tích tài liệu ngữ cảnh dài. Cửa sổ 1 triệu token với điểm LongBench v2 cao xử lý việc đánh giá toàn bộ cơ sở mã, các tài liệu đặc tả lớn và phân tích đa tệp trong một lệnh gọi duy nhất.

Tạo mã frontend. QwenWebBench nội bộ của nhóm Qwen (xếp hạng Elo, 7 danh mục: Thiết kế Web, Ứng dụng Web, Trò chơi, SVG, Trực quan hóa dữ liệu, Hoạt ảnh, 3D) cho Qwen3.6-Plus điểm 1501,7 so với 1517,9 của Claude Opus 4.5. Thực tế là ngang bằng về chất lượng tạo frontend.

Đa ngôn ngữ. WMT24++ ở mức 84,3% (hàng đầu), MAXIFE ở mức 88,2% trên 23 cài đặt ngôn ngữ. Mạnh mẽ trên các trường hợp sử dụng không phải tiếng Anh.

Kiểm tra lệnh gọi API của Qwen3.6-Plus với Apidog

Điểm cuối (endpoint) tương thích với OpenAI, vì vậy bạn có thể nhập nó trực tiếp vào Apidog và kiểm tra nó như bất kỳ API nào khác.

Thiết lập yêu cầu POST đến https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions. Thêm khóa API của bạn dưới dạng biến môi trường: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

Viết các xác nhận phản hồi để xác thực cấu trúc và nội dung:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

Sử dụng Smart Mock của Apidog để tạo phản hồi kiểm thử trong quá trình phát triển. Điều này có nghĩa là mã điều phối tác nhân của bạn có thể được kiểm thử mà không cần gọi API trực tiếp trong mỗi lần chạy, tiết kiệm token và giữ cho chu kỳ kiểm thử nhanh chóng.

Nếu bạn đang xây dựng một tác nhân đa lượt, hãy tạo một Kịch bản kiểm thử (Test Scenario) trong Apidog để xâu chuỗi nhiều yêu cầu lại với nhau. Xác thực rằng preserve_thinking mang suy luận qua các lượt bằng cách kiểm tra cấu trúc phản hồi ở mỗi bước trước khi bạn chạy toàn bộ vòng lặp trong môi trường sản xuất.

Tải Apidog miễn phí để thiết lập các bài kiểm thử này.

button

Những gì sắp tới

Nhóm Qwen đã xác nhận rằng các biến thể mã nguồn mở nhỏ hơn sẽ được phát hành trong vài ngày tới. Chúng sẽ tuân theo mô hình của Qwen3.5: các mô hình MoE thưa (sparse MoE models) với trọng số Apache 2.0 công khai.

Lộ trình cũng bao gồm:

Các tác vụ cấp độ kho lưu trữ dài hạn hơn, nhắm đến việc giải quyết vấn đề đa tệp ngày càng phức tạp
Tiếp tục phát triển tác nhân đa phương thức, với tác nhân GUI (GUI agents) và mã hóa trực quan (visual coding) là các khả năng hàng đầu, không phải tính năng phụ

Các biến thể mã nguồn mở của Qwen3.5 đã trở thành một trong những mô hình tự lưu trữ được triển khai nhiều nhất trong vòng vài tuần sau khi phát hành. Nếu Qwen3.6 tuân theo cùng một mô hình, các biến thể nhỏ hơn có thể sẽ trở thành lựa chọn mặc định cho các tác nhân mã hóa tự lưu trữ ngay sau khi chúng ra mắt.

Kết luận

Qwen3.6-Plus thu hẹp khoảng cách với Claude Opus 4.5 trong các tác vụ mã hóa và tạo ra một lợi thế rõ ràng trong các hoạt động trên terminal, gọi công cụ MCP và lập kế hoạch dài hạn. Ngữ cảnh 1 triệu token, khả năng tương thích giao thức Anthropic và preserve_thinking cho các vòng lặp tác nhân làm cho nó trở thành một lựa chọn thực tế cho các hệ thống tác nhân sản xuất ngay bây giờ.

Giai đoạn xem trước miễn phí trên OpenRouter là một cách hữu ích để đánh giá mô hình. API chính thức mang lại sự ổn định, phạm vi bảo hiểm SLA và tham số mới tập trung vào tác nhân giúp các quy trình làm việc đa lượt trở nên đáng tin cậy hơn.

Apidog xử lý phía kiểm thử: nhập điểm cuối tương thích OpenAI, viết các xác nhận phản hồi, mock trong quá trình phát triển và chạy các bài kiểm thử hồi quy bất cứ khi nào bạn cập nhật mô hình hoặc tăng phiên bản API.

button

Câu hỏi thường gặp

Qwen3.6-Plus và bản xem trước có gì khác nhau?Bản xem trước (qwen/qwen3.6-plus-preview) ra mắt trên OpenRouter vào ngày 30 tháng 3 năm 2026. Bản phát hành chính thức bổ sung tham số preserve_thinking, thời gian hoạt động được đảm bảo bởi SLA và hỗ trợ đầy đủ Model Studio. Các biến thể mã nguồn mở nhỏ hơn cũng sắp ra mắt.

preserve_thinking là gì và khi nào tôi nên sử dụng nó?Theo mặc định, chỉ suy luận từ lượt hiện tại được giữ lại. Khi preserve_thinking: true được đặt, mô hình sẽ giữ lại chuỗi tư duy (chain-of-thought) từ tất cả các lượt trò chuyện trước đó. Sử dụng nó cho các vòng lặp tác nhân đa bước, nơi suy luận trước đây của mô hình nên thông báo cho hành động tiếp theo của nó.

Qwen3.6-Plus so sánh thế nào với Claude Opus 4.5?Claude Opus 4.5 dẫn đầu về SWE-bench Verified (80,9% so với 78,8%) và OSWorld-Verified (66,3% so với 62,5%). Qwen3.6-Plus dẫn đầu về Terminal-Bench 2.0 (61,6% so với 59,3%), MCPMark (48,2% so với 42,3%), DeepPlanning (41,5% so với 33,9%) và GPQA (90,4% so với 87,0%).

Tôi có thể sử dụng Qwen3.6-Plus với Claude Code không?Có. Đặt ANTHROPIC_BASE_URL thành điểm cuối tương thích Anthropic của Dashscope, ANTHROPIC_MODEL thành qwen3.6-plus, và ANTHROPIC_AUTH_TOKEN thành khóa API Dashscope của bạn.

Qwen3.6-Plus có phải mã nguồn mở không?Mô hình API được lưu trữ không phải là mã nguồn mở. Các biến thể nhỏ hơn với trọng số công khai được xác nhận sẽ phát hành trong vài ngày tới.

Làm thế nào để có quyền truy cập miễn phí?Cài đặt Qwen Code (`npm install -g @qwen-code/qwen-code@latest`), chạy `qwen`, sau đó `/auth`. Đăng nhập bằng Qwen Code OAuth để nhận 1.000 lệnh gọi API miễn phí mỗi ngày với Qwen3.6-Plus.

Nó hỗ trợ cửa sổ ngữ cảnh bao nhiêu?1 triệu token theo mặc định. Một số bài kiểm tra hiệu suất trong báo cáo chính thức đã sử dụng 256K để so sánh tiêu chuẩn hóa, nhưng mặc định của API là 1M.

Làm thế nào để kiểm tra tích hợp API trước khi triển khai?Nhập điểm cuối vào Apidog, thêm khóa API của bạn làm biến môi trường, viết các xác nhận phản hồi và sử dụng Smart Mock để phát triển ngoại tuyến. Xâu chuỗi các yêu cầu thành một Kịch bản kiểm thử (Test Scenario) để xác thực hành vi tác nhân đa lượt từ đầu đến cuối.