Tóm tắt nhanh
Bản xem trước Qwen 3.6 Plus được ra mắt vào ngày 30 tháng 3 năm 2026, với cửa sổ ngữ cảnh 1 triệu token, tính năng suy luận chuỗi suy nghĩ bắt buộc và hỗ trợ sử dụng công cụ. Hiện tại, nó hoàn toàn miễn phí trên OpenRouter. Sử dụng ID mô hình qwen/qwen3.6-plus-preview:free với bất kỳ ứng dụng khách tương thích OpenAI nào để bắt đầu gửi yêu cầu ngay hôm nay.
Mô hình xuất hiện lặng lẽ
Alibaba Cloud đã ra mắt bản xem trước Qwen 3.6 Plus vào ngày 30 tháng 3 năm 2026. Không có thông báo rầm rộ. Không có danh sách chờ. Chỉ đơn giản là một mô hình mới có sẵn trên OpenRouter với giá 0 đô la cho mỗi triệu token.

Trong hai ngày đầu tiên, nó đã xử lý hơn 400 triệu token hoàn thành thông qua khoảng 400.000 yêu cầu. Các nhà phát triển nhận thấy nó nhanh.
Bài viết này sẽ hướng dẫn bạn mọi thứ cần thiết để bắt đầu: thiết lập tài khoản, khóa API, các ví dụ mã hoạt động trong cURL, Python và Node.js, cùng với lời khuyên cụ thể về nơi mô hình này hoạt động tốt nhất.
Đến cuối hướng dẫn này, bạn sẽ biết chính xác cách gọi Qwen 3.6 miễn phí, khả năng của nó và những hạn chế của nó.
Những gì Qwen 3.6 bổ sung so với dòng 3.5
Bước nhảy từ 3.5 lên 3.6 không phải là gia tăng. Ba điều đã thay đổi theo những cách có ý nghĩa.
1. Cửa sổ ngữ cảnh tăng lên 1 triệu token
Qwen 3.5 có cửa sổ ngữ cảnh từ 32K đến 128K tùy thuộc vào biến thể. Qwen 3.6 hỗ trợ đầu vào 1 triệu token.
Nói một cách thực tế: 1 triệu token xấp xỉ 750.000 từ. Con số đó đủ để cung cấp cho mô hình toàn bộ cơ sở mã, một năm nhật ký Slack, một thư viện tài liệu pháp lý đầy đủ hoặc một kho tài liệu nghiên cứu lớn trong một yêu cầu.
Hầu hết các mô hình miễn phí chỉ đạt tối đa từ 8K đến 32K. Việc nhận được 1M token miễn phí là điều không phổ biến.
2. Suy luận được tích hợp sẵn, không phải tùy chọn
Qwen 3.6 sử dụng các token suy luận bắt buộc. Trước khi mô hình đưa ra câu trả lời cuối cùng, nó sẽ tạo ra một chuỗi suy nghĩ nội bộ. Bạn không cần phải nhắc nó bằng "suy nghĩ từng bước" hay bất kỳ hướng dẫn đặc biệt nào.
Đây là cùng một mô hình mà DeepSeek R1 đã phổ biến. Điểm khác biệt là Qwen 3.6 áp dụng nó trong các tác vụ mã hóa, front-end và giải quyết vấn đề chung, chứ không chỉ riêng toán học.
3. Hành vi tác nhân đáng tin cậy hơn
Việc gọi công cụ trong dòng 3.5 không nhất quán. Các hàm có thể được gọi với các kiểu đối số sai, hoặc mô hình có thể tạo ra một cuộc gọi hàm không tồn tại.
Qwen 3.6 trực tiếp giải quyết vấn đề này. Theo mô tả của Alibaba Cloud, nó "mang lại khả năng suy luận mạnh mẽ hơn và hành vi tác nhân đáng tin cậy hơn so với dòng 3.5." Trong thực tế, điều này có nghĩa là ít cuộc gọi công cụ bị lỗi hơn trong các quy trình làm việc nhiều bước.
Mô hình được điều chỉnh đặc biệt cho ba nhiệm vụ:
- Mã hóa tác nhân (tạo mã nhiều bước với việc sử dụng công cụ)
- Phát triển giao diện người dùng (tạo thành phần HTML, CSS, JavaScript)
- Giải quyết vấn đề phức tạp (nghiên cứu, phân tích, tóm tắt ngữ cảnh dài)
Cách truy cập Qwen 3.6 miễn phí
Bạn cần hai thứ: một tài khoản OpenRouter và một khóa API. Không cần thẻ tín dụng cho các mô hình miễn phí.
Bước 1: Tạo tài khoản OpenRouter của bạn
Truy cập openrouter.ai và đăng ký bằng email hoặc tài khoản Google. Toàn bộ quá trình chỉ mất chưa đầy hai phút.
Các mô hình miễn phí không yêu cầu bạn thêm phương thức thanh toán. Bạn có quyền truy cập ngay lập tức sau khi xác minh email.
Bước 2: Tạo khóa API
- Nhấp vào hình đại diện hồ sơ của bạn ở góc trên bên phải
- Chọn API Keys từ menu thả xuống
- Nhấp vào Create Key
- Đặt tên cho nó (ví dụ:
qwen-test) và nhấp vào Create - Sao chép khóa. Nó bắt đầu bằng
sk-or-v1-...

Lưu trữ khóa này ở nơi an toàn. OpenRouter sẽ không hiển thị lại cho bạn.
Bước 3: Gửi yêu cầu đầu tiên của bạn
ID mô hình là qwen/qwen3.6-plus-preview:free.
OpenRouter sử dụng cùng định dạng yêu cầu như OpenAI API, vì vậy bất kỳ ứng dụng khách tương thích OpenAI nào cũng hoạt động mà không cần sửa đổi.
cURL:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer sk-or-v1-YOUR_KEY_HERE" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [
{
"role": "user",
"content": "Write a Python function that parses a JWT token and returns the payload as a dictionary."
}
]
}'
Python (thư viện requests):
import requests
def call_qwen(prompt: str, api_key: str) -> str:
response = requests.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [{"role": "user", "content": prompt}],
},
timeout=60,
)
response.raise_for_status()
return response.json()["choices"][0]["message"]["content"]
result = call_qwen(
"Write a Python function that parses a JWT token and returns the payload.",
api_key="sk-or-v1-YOUR_KEY_HERE"
)
print(result)
Node.js (fetch):
async function callQwen(prompt, apiKey) {
const response = await fetch("https://openrouter.ai/api/v1/chat/completions", {
method: "POST",
headers: {
"Authorization": `Bearer ${apiKey}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "qwen/qwen3.6-plus-preview:free",
messages: [{ role: "user", content: prompt }],
}),
});
if (!response.ok) {
throw new Error(`OpenRouter error: ${response.status} ${await response.text()}`);
}
const data = await response.json();
return data.choices[0].message.content;
}
callQwen(
"Write a JavaScript function that validates an email address.",
"sk-or-v1-YOUR_KEY_HERE"
).then(console.log);
Python với OpenAI SDK:
Nếu bạn đã sử dụng OpenAI Python SDK, bạn có thể trỏ nó đến OpenRouter mà không cần thay đổi nào khác:
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "system",
"content": "You are a senior backend engineer. Write clean, production-ready code."
},
{
"role": "user",
"content": "Write a Python function that retries a failed HTTP request up to 3 times with exponential backoff."
}
],
)
print(response.choices[0].message.content)
Sử dụng công cụ và quy trình làm việc tác nhân
Sử dụng công cụ là điểm nổi bật của Qwen 3.6 ở cấp độ miễn phí. Đây là một ví dụ hoạt động:
from openai import OpenAI
import json
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
# Define the tools available to the model
tools = [
{
"type": "function",
"function": {
"name": "search_api_docs",
"description": "Search the API documentation for a specific endpoint or parameter",
"parameters": {
"type": "object",
"properties": {
"query": {
"type": "string",
"description": "The search query"
},
"version": {
"type": "string",
"enum": ["v1", "v2", "v3"],
"description": "API version to search"
}
},
"required": ["query"]
}
}
},
{
"type": "function",
"function": {
"name": "run_api_test",
"description": "Execute a test request against an API endpoint",
"parameters": {
"type": "object",
"properties": {
"endpoint": {"type": "string"},
"method": {"type": "string", "enum": ["GET", "POST", "PUT", "DELETE"]},
"body": {"type": "object"}
},
"required": ["endpoint", "method"]
}
}
}
]
messages = [
{
"role": "user",
"content": "Find documentation for the /users endpoint and run a test GET request against it."
}
]
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=messages,
tools=tools,
tool_choice="auto",
)
message = response.choices[0].message
# Check whether the model wants to call a tool
if message.tool_calls:
for tool_call in message.tool_calls:
print(f"Tool: {tool_call.function.name}")
args = json.loads(tool_call.function.arguments)
print(f"Arguments: {json.dumps(args, indent=2)}")
else:
print(message.content)
Mô hình sẽ tạo ra một cuộc gọi hàm có cấu trúc thay vì tạo ra một phản hồi dạng tự do. Sau đó, bạn thực thi hàm trong mã của riêng mình và đưa kết quả trở lại trong lượt tiếp theo.
Đây là cách xây dựng các quy trình làm việc tác nhân nhiều bước: mô hình gọi các công cụ, mã của bạn chạy chúng và bạn lặp lại cho đến khi tác vụ hoàn tất.
Sử dụng cửa sổ ngữ cảnh 1 triệu token
Ngữ cảnh 1M token không hữu ích cho các câu hỏi đơn giản. Nó được thiết kế cho các tác vụ mà bạn cần cung cấp cho mô hình một lượng lớn ngữ cảnh cùng một lúc.
Dưới đây là ba kiểu mà điều này thực sự quan trọng:
Đánh giá toàn bộ cơ sở mã
Cung cấp cho mô hình toàn bộ cơ sở mã của bạn (trong giới hạn token) và yêu cầu nó xác định các vấn đề bảo mật, các mẫu không nhất quán hoặc các hàm không được ghi lại.
import os
from pathlib import Path
from openai import OpenAI
client = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key="sk-or-v1-YOUR_KEY_HERE",
)
def load_codebase(directory: str, extensions: list[str]) -> str:
"""Load all source files from a directory into a single string."""
content_parts = []
for path in Path(directory).rglob("*"):
if path.suffix in extensions and path.is_file():
try:
text = path.read_text(encoding="utf-8", errors="ignore")
content_parts.append(f"--- FILE: {path} ---\n{text}\n")
except Exception:
continue
return "\n".join(content_parts)
codebase = load_codebase("./src", [".py", ".js", ".ts"])
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "user",
"content": f"Review this codebase and identify:\n1. Security vulnerabilities\n2. Functions with no error handling\n3. Inconsistent naming conventions\n\nCodebase:\n{codebase}"
}
],
)
print(response.choices[0].message.content)
Phân tích tài liệu lớn
Truyền vào một tài liệu pháp lý dài, báo cáo tài chính hoặc bài nghiên cứu và đặt các câu hỏi cụ thể về nó.
with open("annual_report_2025.txt", "r") as f:
document = f.read()
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=[
{
"role": "user",
"content": f"Extract all mentions of API rate limits and pricing changes from this document:\n\n{document}"
}
],
)
Cuộc trò chuyện nhiều lượt với lịch sử đầy đủ
Giữ toàn bộ lịch sử cuộc trò chuyện trong ngữ cảnh mà không bị cắt bớt, hữu ích cho các phiên gỡ lỗi dài hoặc phỏng vấn kỹ thuật.
conversation = []
def chat(user_message: str) -> str:
conversation.append({"role": "user", "content": user_message})
response = client.chat.completions.create(
model="qwen/qwen3.6-plus-preview:free",
messages=conversation,
)
assistant_message = response.choices[0].message.content
conversation.append({"role": "assistant", "content": assistant_message})
return assistant_message
# Long back-and-forth debugging session
print(chat("I'm getting a 401 error from the GitHub API. Here's my code..."))
print(chat("I added the token but now I get a 403. The token has repo scope."))
print(chat("The repo is private. What scopes do I actually need?"))
Kiểm tra các yêu cầu API OpenRouter bằng Apidog
Khi bạn đang xây dựng trên API OpenRouter, việc gỡ lỗi các yêu cầu không thành công sẽ nhanh chóng trở nên tẻ nhạt. Bạn đang thực hiện các yêu cầu HTTP, kiểm tra phản hồi JSON và lặp lại các nhắc lệnh của mình. Thực hiện điều này từ dòng lệnh hoặc Postman rất chậm.

Apidog rất đáng để thử ở đây. Nó là một ứng dụng khách API miễn phí xử lý việc xây dựng yêu cầu, kiểm tra phản hồi và tự động hóa kiểm thử tại một nơi.
Để kiểm tra điểm cuối Qwen 3.6 trong Apidog:
- Tạo một yêu cầu POST mới đến
https://openrouter.ai/api/v1/chat/completions - Thêm tiêu đề
Authorization: Bearer sk-or-v1-...của bạn - Đặt nội dung là JSON với các trường
modelvàmessagescủa bạn - Gửi yêu cầu và kiểm tra phản hồi
Bạn có thể lưu điều này dưới dạng một bộ sưu tập, chuyển đổi giữa các ID mô hình để so sánh kết quả đầu ra và viết các kiểm thử tự động để kiểm tra cấu trúc phản hồi, xác minh rằng choices[0].message.content không trống hoặc khẳng định rằng các cuộc gọi công cụ chứa tên hàm mong muốn.
Nếu bạn đang xây dựng một ứng dụng gọi OpenRouter, việc viết một vài kiểm thử yêu cầu trong Apidog ngay từ đầu sẽ tiết kiệm thời gian khi mô hình hoạt động không như mong đợi.
Giới hạn cấp miễn phí cần biết trước khi bạn xây dựng dựa trên mô hình này
Qwen 3.6 hiện đang miễn phí. Điều đó sẽ không kéo dài vô thời hạn, và có những hạn chế thực tế cần lên kế hoạch.
Giới hạn tốc độ được chia sẻ. Các mô hình miễn phí trên OpenRouter chia sẻ dung lượng giữa tất cả người dùng. Trong giờ cao điểm (thường là buổi tối ở Mỹ), bạn sẽ thấy độ trễ cao hơn và thỉnh thoảng có lỗi giới hạn tốc độ. Xây dựng logic thử lại vào bất kỳ mã sản xuất nào.
import time
import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
session = requests.Session()
retry_strategy = Retry(
total=3,
backoff_factor=2,
status_forcelist=[429, 500, 502, 503, 504],
)
adapter = HTTPAdapter(max_retries=retry_strategy)
session.mount("https://", adapter)
response = session.post(
"https://openrouter.ai/api/v1/chat/completions",
headers={"Authorization": "Bearer sk-or-v1-YOUR_KEY_HERE"},
json={
"model": "qwen/qwen3.6-plus-preview:free",
"messages": [{"role": "user", "content": "Hello"}],
},
timeout=30,
)
Dữ liệu được ghi nhật ký. Trang mô hình của OpenRouter nêu rõ rằng "mô hình thu thập dữ liệu nhắc lệnh và hoàn thành có thể được sử dụng để cải thiện mô hình." Không gửi khóa API, mật khẩu hoặc thông tin nhận dạng cá nhân qua điểm cuối này.
Trạng thái xem trước. Đây là bản phát hành xem trước. Hành vi của mô hình có thể thay đổi. Nếu bạn đang sử dụng nó để suy luận sản xuất, hãy ghim các kiểm thử tích hợp của bạn vào ID mô hình hiện tại và theo dõi các lỗi hồi quy.
Chỉ văn bản. Qwen 3.6 nhận đầu vào văn bản và tạo ra đầu ra văn bản. Không có hình ảnh, không có âm thanh, không có tải lên tệp.
Các trường hợp sử dụng trong thế giới thực
Xây dựng một tác nhân đánh giá mã. Một nhóm xây dựng công cụ đánh giá PR nội bộ đã đưa toàn bộ khác biệt của yêu cầu kéo của họ (đôi khi hơn 10K dòng) vào Qwen 3.6 và nhận được phản hồi chi tiết về lỗi logic, các kiểm thử bị thiếu và các vấn đề bảo mật. Cửa sổ 1M token đã giúp điều này có thể thực hiện được mà không cần phân đoạn.
Tạo thành phần giao diện người dùng. Một nhà phát triển độc lập xây dựng bảng điều khiển SaaS đã sử dụng Qwen 3.6 để tạo các thành phần React từ các thông số kỹ thuật thiết kế. Mô hình đã tạo ra mã TypeScript sạch với các kiểu thuộc tính phù hợp và CSS phản hồi mà không cần nhiều lần sửa lỗi.
Tóm tắt tài liệu API. Một nhóm di chuyển giữa các API thanh toán của bên thứ ba đã chuyển toàn bộ tài liệu cho cả hai API (mỗi API khoảng 100K token) trong một yêu cầu và yêu cầu so sánh song song các phương thức xác thực, định dạng webhook và giới hạn tốc độ. Mô hình đã trả về một bảng có cấu trúc trong vòng chưa đầy 30 giây.
Đăng ký tại openrouter.ai, lấy khóa của bạn và thay thế qwen/qwen3.6-plus-preview:free cho bất kỳ mô hình nào bạn hiện đang phải trả tiền.
Câu hỏi thường gặp
Qwen 3.6 có thực sự miễn phí để sử dụng không?
Có. Kể từ tháng 3 năm 2026, mô hình được niêm yết với giá 0 đô la cho mỗi triệu token đầu vào và 0 đô la cho mỗi triệu token đầu ra trên OpenRouter. Trạng thái miễn phí có thể thay đổi khi giai đoạn xem trước kết thúc, vì vậy hãy kiểm tra trang giá của OpenRouter trước khi xây dựng bất kỳ thứ gì phụ thuộc vào chi phí vẫn ở mức không.
Giới hạn tốc độ cho cấp miễn phí là bao nhiêu?
OpenRouter không công bố giới hạn tốc độ chính xác cho các mô hình cấp miễn phí. Trong thực tế, các mô hình miễn phí chia sẻ dung lượng và có thể bị điều tiết trong thời gian lưu lượng truy cập cao. Bắt đầu với một yêu cầu tại một thời điểm và thêm logic thử lại trước khi tăng tính đồng thời.
Tôi có thể sử dụng Qwen 3.6 cho các dự án thương mại không?
Có, OpenRouter cho phép sử dụng thương mại. Hãy kiểm tra giấy phép mô hình Qwen của Alibaba Cloud để biết bất kỳ hạn chế nào đối với bản thân mô hình cơ bản, đặc biệt nếu bạn đang phân phối kết quả đầu ra.
Tại sao Qwen 3.6 mất nhiều thời gian hơn để phản hồi so với các mô hình khác?
Các token suy luận bắt buộc làm tăng độ trễ. Trước khi tạo phản hồi, mô hình hoạt động thông qua một chuỗi suy nghĩ nội bộ. Đối với các nhắc lệnh đơn giản, điều này có thể thêm vài giây. Đối với các tác vụ suy luận phức tạp, độ trễ tăng thêm là xứng đáng. Sử dụng streaming nếu bạn muốn hiển thị kết quả đầu ra từng phần khi nó đang được tạo.
Có cách nào để tắt các token suy luận không?
Kể từ bản xem trước hiện tại, suy luận là bắt buộc và không thể tắt. Nếu bạn cần phản hồi nhanh hơn mà không cần chuỗi suy nghĩ, hãy thử một biến thể mô hình khác khi có sẵn, hoặc sử dụng một mô hình miễn phí nhỏ hơn như LLaMA 3.1 8B cho các tác vụ nhạy cảm về độ trễ.
Cửa sổ ngữ cảnh 1M token ảnh hưởng đến chi phí như thế nào?
Ở cấp miễn phí, nó không ảnh hưởng. Bạn trả 0 đô la bất kể bạn gửi bao nhiêu token. Hãy nhớ rằng các yêu cầu rất lớn sẽ mất nhiều thời gian hơn để xử lý và có thể hết thời gian chờ ở cấp miễn phí. Bắt đầu với thời gian chờ 30-60 giây và tăng nó cho các yêu cầu trên 100K token.
