TÓM LƯỢC
Qwen3.5 là mô hình ngôn ngữ thị giác với 397 tỷ tham số đột phá của Alibaba, sử dụng kiến trúc Mixture of Experts (MoE). Bạn có thể truy cập nó miễn phí thông qua các điểm cuối tăng tốc GPU của NVIDIA bằng cách đăng ký Chương trình Phát triển NVIDIA. Hướng dẫn này sẽ chỉ cho bạn cách lấy khóa API, thực hiện các lệnh gọi đầu tiên và tích hợp khả năng đa phương thức của Qwen3.5 vào ứng dụng của bạn.
Giới thiệu
Qwen3.5 của Alibaba đại diện cho một bước tiến đáng kể trong AI đa phương thức. Mô hình 397 tỷ tham số này kết hợp kiến trúc Mixture of Experts (MoE) với Gated Delta Networks, mang lại khả năng suy luận mạnh mẽ trong khi chỉ giữ các tham số hoạt động ở mức 17 tỷ. Kết quả là một mô hình có thể hiểu hình ảnh, điều hướng giao diện người dùng và xử lý các tác vụ đa phương thức phức tạp, tất cả đều có thể truy cập thông qua API miễn phí.
Phần tốt nhất? Bạn có thể bắt đầu sử dụng Qwen3.5 miễn phí ngay bây giờ thông qua nền tảng dành cho nhà phát triển của NVIDIA. Cho dù bạn đang xây dựng các tác nhân AI, phát triển các ứng dụng suy luận thị giác hay khám phá AI đa phương thức, hướng dẫn này sẽ chỉ cho bạn từng bước.
Qwen3.5 VLM là gì?
Qwen3.5 là mô hình ngôn ngữ thị giác tự nhiên đầu tiên của Alibaba trong dòng Qwen3.5, được thiết kế đặc biệt để xây dựng các tác nhân tự động. Không giống như các VLM trước đây được điều chỉnh từ các mô hình chỉ dựa trên văn bản, Qwen3.5 được xây dựng từ đầu cho suy luận đa phương thức và điều hướng giao diện người dùng.

Thông số kỹ thuật chính
| Thông số kỹ thuật | Giá trị |
|---|---|
| Tổng số tham số | 397 tỷ |
| Tham số hoạt động | 17 tỷ |
| Tỷ lệ kích hoạt | 4.28% |
| Số chuyên gia | 512 chuyên gia |
| Số chuyên gia trên mỗi Token | 11 (10 được định tuyến + 1 được chia sẻ) |
| Ngữ cảnh đầu vào | 256K (có thể mở rộng lên 1M) |
| Ngôn ngữ được hỗ trợ | Hơn 200 |
| Kiến trúc | MoE + Gated Delta Networks |

Điều gì làm nên sự đặc biệt của Qwen3.5
Kiến trúc Mixture of Experts (MoE) có nghĩa là chỉ một tập hợp con các tham số của mô hình được hoạt động cho bất kỳ đầu vào nào. Điều này làm cho mô hình hiệu quả về mặt tính toán trong khi vẫn duy trì khả năng suy luận phức tạp trên tất cả 397 tỷ tham số.
Khả năng tác nhân đa phương thức gốc khiến Qwen3.5 khác biệt so với các VLM khác:
- Hiểu và điều hướng giao diện người dùng
- Thực hiện suy luận thị giác trên giao diện di động và web
- Xử lý các tác vụ mã hóa phức tạp
- Cung cấp sức mạnh cho các ứng dụng trò chuyện với khả năng hiểu đa phương thức
Các trường hợp sử dụng lý tưởng
- Lập trình và Phát triển Web: Viết và gỡ lỗi mã với ngữ cảnh trực quan
- Suy luận thị giác: Phân tích ảnh chụp màn hình, ảnh và các yếu tố giao diện người dùng
- Ứng dụng trò chuyện: Xây dựng AI đàm thoại với khả năng hiểu đa phương thức
- Tìm kiếm phức tạp: Tìm kiếm đồng thời trên hình ảnh và văn bản
- Tự động hóa giao diện người dùng: Tự động điều hướng và tương tác với giao diện
Chương trình Nhà phát triển NVIDIA: Lấy khóa API miễn phí của bạn
NVIDIA cung cấp quyền truy cập miễn phí vào Qwen3.5 thông qua các điểm cuối tăng tốc GPU của họ. Dưới đây là cách bắt đầu:
Bước 1: Tham gia Chương trình Nhà phát triển NVIDIA
- Truy cập build.nvidia.com
- Nhấp vào Đăng nhập hoặc Tạo tài khoản
- Đăng ký Chương trình Nhà phát triển NVIDIA (miễn phí)
- Xác minh địa chỉ email của bạn

Bước 2: Lấy khóa API của bạn
- Sau khi đăng nhập, điều hướng đến cài đặt tài khoản của bạn
- Tìm Khóa API hoặc Khóa API NVIDIA
- Sao chép khóa API của bạn (bắt đầu bằng
nvapi-) - Lưu trữ nó an toàn (bạn sẽ cần nó để xác thực)

Quan trọng
Bước 3: Kiểm tra quyền truy cập của bạn
Bạn có thể kiểm thử Qwen3.5 trực tiếp trong trình duyệt tại build.nvidia.com/qwen/qwen3.5-397b-a17b. Điều này cho phép bạn thử nghiệm với các lời nhắc (prompts) và đánh giá mô hình với dữ liệu của riêng bạn trước khi viết bất kỳ mã nào.

Lệnh gọi API Qwen3.5 đầu tiên của bạn
Bây giờ, hãy thực hiện lệnh gọi API đầu tiên của bạn tới Qwen3.5. API tương thích với định dạng của OpenAI, giúp dễ dàng tích hợp vào các ứng dụng hiện có.
Lệnh gọi API cơ bản
import requests
# Cấu hình
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY" # Thay thế bằng khóa API của bạn
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Payload - yêu cầu chỉ văn bản đơn giản
payload = {
"messages": [
{
"role": "user",
"content": "What are the key features of Qwen3.5 VLM?"
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
"temperature": 0.7,
}
# Thực hiện yêu cầu
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
# In phản hồi
result = response.json()
print(result['choices'][0]['message']['content'])
Thực hiện yêu cầu đa phương thức (Với hình ảnh)
Để sử dụng khả năng thị giác của Qwen3.5, hãy bao gồm dữ liệu hình ảnh trong yêu cầu của bạn:
import requests
import base64
# Hàm mã hóa hình ảnh sang base64
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
# Mã hóa hình ảnh của bạn
image_base64 = encode_image("screenshot.png")
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
api_key = "YOUR_NVIDIA_API_KEY"
headers = {
"Authorization": f"Bearer {api_key}",
"Accept": "application/json",
}
# Yêu cầu đa phương thức với hình ảnh
payload = {
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/png;base64,{image_base64}"}
},
{
"type": "text",
"text": "What do you see in this image? Describe the UI elements."
}
]
}
],
"model": "qwen/qwen3.5-397b-a17b",
"max_tokens": 1024,
}
response = requests.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Ví dụ mã trong Python và JavaScript
Python: Ví dụ tích hợp hoàn chỉnh
import os
import requests
from requests.exceptions import RequestException
class QwenClient:
"""Python client for Qwen3.5 API"""
def __init__(self, api_key=None):
self.api_key = api_key or os.getenv("NVIDIA_API_KEY")
self.endpoint = "https://integrate.api.nvidia.com/v1/chat/completions"
self.model = "qwen/qwen3.5-397b-a17b"
def chat(self, message, system_prompt=None, **kwargs):
"""Send a chat message to Qwen3.5"""
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
messages = []
if system_prompt:
messages.append({"role": "system", "content": system_prompt})
messages.append({"role": "user", "content": message})
payload = {
"messages": messages,
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
"top_p": kwargs.get("top_p", 0.9),
}
# Enable thinking mode if requested
if kwargs.get("thinking", False):
payload["chat_template_kwargs"] = {"thinking": True}
try:
response = requests.post(
self.endpoint,
headers=headers,
json=payload,
timeout=kwargs.get("timeout", 60)
)
response.raise_for_status()
return response.json()
except RequestException as e:
return {"error": str(e)}
def chat_with_image(self, message, image_path, **kwargs):
"""Send a chat message with image to Qwen3.5"""
import base64
with open(image_path, "rb") as f:
image_base64 = base64.b64encode(f.read()).decode("utf-8")
headers = {
"Authorization": f"Bearer {self.api_key}",
"Content-Type": "application/json"
}
payload = {
"messages": [{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
{"type": "text", "text": message}
]
}],
"model": self.model,
"max_tokens": kwargs.get("max_tokens", 2048),
"temperature": kwargs.get("temperature", 0.7),
}
response = requests.post(self.endpoint, headers=headers, json=payload)
response.raise_for_status()
return response.json()
# Ví dụ sử dụng
client = QwenClient(api_key="YOUR_NVIDIA_API_KEY")
# Trò chuyện chỉ văn bản
result = client.chat("Giải thích kiến trúc Mixture of Experts bằng các thuật ngữ đơn giản")
print(result['choices'][0]['message']['content'])
# Trò chuyện đa phương thức
result = client.chat_with_image(
"Những yếu tố giao diện người dùng nào có trong ảnh chụp màn hình này?",
"screenshot.png"
)
print(result['choices'][0]['message']['content'])
JavaScript/Node.js: Ví dụ tích hợp hoàn chỉnh
const axios = require('axios');
class QwenClient {
constructor(apiKey) {
this.apiKey = apiKey;
this.endpoint = 'https://integrate.api.nvidia.com/v1/chat/completions';
this.model = 'qwen/qwen3.5-397b-a17b';
}
async chat(message, options = {}) {
const { systemPrompt, temperature = 0.7, maxTokens = 2048, thinking = false } = options;
const messages = [];
if (systemPrompt) {
messages.push({ role: 'system', content: systemPrompt });
}
messages.push({ role: 'user', content: message });
const payload = {
messages,
model: this.model,
temperature,
max_tokens: maxTokens,
...(thinking && { chat_template_kwargs: { thinking: true } })
};
try {
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
},
timeout: 60000
});
return response.data;
} catch (error) {
console.error('API Error:', error.response?.data || error.message);
throw error;
}
}
async chatWithImage(message, imageBase64, options = {}) {
const { temperature = 0.7, maxTokens = 2048 } = options;
const payload = {
messages: [{
role: 'user',
content: [
{ type: 'image_url', image_url: { url: `data:image/png;base64,${imageBase64}` } },
{ type: 'text', text: message }
]
}],
model: this.model,
temperature,
max_tokens: maxTokens
};
const response = await axios.post(this.endpoint, payload, {
headers: {
'Authorization': `Bearer ${this.apiKey}`,
'Content-Type': 'application/json'
}
});
return response.data;
}
}
// Sử dụng
const client = new QwenClient(process.env.NVIDIA_API_KEY);
// Trò chuyện văn bản
const result = await client.chat('Lợi ích của kiến trúc MoE là gì?');
console.log(result.choices[0].message.content);
// Với chế độ suy nghĩ được bật
const deepResult = await client.chat('Giải thích cách suy luận hoạt động trong các LLM', {
thinking: true
});
console.log(deepResult.choices[0].message.content);
Tính năng nâng cao: Chế độ tư duy và gọi công cụ
Chế độ tư duy
Qwen3.5 hỗ trợ chế độ "tư duy" nâng cao cho phép mô hình hiển thị quá trình suy luận của nó. Điều này đặc biệt hữu ích cho các tác vụ giải quyết vấn đề phức tạp.
payload = {
"messages": [{"role": "user", "content": "Giải quyết từng bước: Nếu một chuyến tàu đi 120km trong 2 giờ, tốc độ của nó là bao nhiêu?"}],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {"thinking": True},
"max_tokens": 4096,
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
print(result['choices'][0]['message']['content'])
Gọi công cụ
Qwen3.5 hỗ trợ gọi hàm thông qua các công cụ tương thích với OpenAI. Điều này cho phép bạn xây dựng các ứng dụng tác nhân có thể thực hiện các hành động thực tế.
import json
# Định nghĩa các công cụ để mô hình sử dụng
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Lấy thời tiết hiện tại cho một địa điểm",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "Tên thành phố"}
},
"required": ["location"]
}
}
}
]
payload = {
"messages": [
{"role": "user", "content": "Thời tiết ở Tokyo như thế nào?"}
],
"model": "qwen/qwen3.5-397b-a17b",
"tools": tools,
"tool_choice": "auto"
}
response = session.post(invoke_url, headers=headers, json=payload)
result = response.json()
# Kiểm tra xem mô hình có muốn gọi một công cụ hay không
if 'tool_calls' in result['choices'][0]['message']:
tool_call = result['choices'][0]['message']['tool_calls'][0]
print(f"Mô hình muốn gọi: {tool_call['function']['name']}")
print(f"Đối số: {tool_call['function']['arguments']}")
Tìm hiểu về giới hạn tốc độ và giá cả
Bậc miễn phí hiện tại (Chương trình Nhà phát triển NVIDIA)
| Tính năng | Giới hạn |
|---|---|
| Truy cập API | Miễn phí khi đăng ký |
| Điểm cuối tăng tốc GPU | Bao gồm |
| Kiểm thử trình duyệt | Không giới hạn |
| Giới hạn tốc độ | Kiểm tra bảng điều khiển dành cho nhà phát triển |
Điều này có ý nghĩa gì đối với bạn
- Không yêu cầu thẻ tín dụng: Chỉ cần đăng ký Chương trình Nhà phát triển NVIDIA miễn phí
- Tăng tốc bằng GPU: Các yêu cầu chạy trên GPU NVIDIA Blackwell
- Sẵn sàng cho sản xuất: Các điểm cuối tương tự được sử dụng cho các tác vụ sản xuất
Mở rộng quy mô sản xuất
Khi bạn sẵn sàng vượt ra ngoài bậc miễn phí:
- NVIDIA NIM: Triển khai các mô hình container hóa ở bất cứ đâu (đám mây, tại chỗ, hỗn hợp)
- NeMo: Tùy chỉnh mô hình cho lĩnh vực cụ thể của bạn
- Hỗ trợ doanh nghiệp: Liên hệ với NVIDIA để có cơ sở hạ tầng chuyên dụng
Triển khai sản xuất với NVIDIA NIM
NVIDIA NIM (NVIDIA Inference Microservices) giúp bạn dễ dàng đưa Qwen3.5 từ phát triển sang sản xuất.

NIM là gì?
NIM cung cấp các container được tối ưu hóa, được xây dựng sẵn để suy luận AI. Mỗi microservice NIM đóng gói:
- Mô hình với các tối ưu hóa hiệu suất
- API tiêu chuẩn hóa (tương thích OpenAI)
- Tính linh hoạt triển khai (đám mây, tại chỗ, biên)
Triển khai Qwen3.5 với NIM
# Kéo container Qwen3.5 NIM
docker pull nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
# Chạy container
docker run --gpus all --rm -p 8000:8000 \
-e NVIDIA_API_KEY=$NVIDIA_API_KEY \
nvcr.io/nim/qwen/qwen3.5-397b-a17b:latest
Giờ đây, mô hình của bạn đang chạy cục bộ tại http://localhost:8000/v1/chat/completions.
Lợi ích của NIM
- Triển khai mọi nơi: Chạy tại chỗ, trên đám mây hoặc kết hợp
- Hiệu suất tối ưu: Được điều chỉnh cho suy luận trên GPU NVIDIA
- API nhất quán: Giao diện tương thích OpenAI
- Khả năng mở rộng: Mở rộng từ phát triển đến sản xuất một cách liền mạch
Tùy chỉnh với NVIDIA NeMo
Đối với các ứng dụng chuyên biệt, bạn có thể tinh chỉnh Qwen3.5 bằng cách sử dụng NVIDIA NeMo.
Khả năng của Framework NeMo
- Tinh chỉnh thông lượng cao: Huấn luyện gốc PyTorch
- Hỗ trợ LoRA: Tùy chỉnh hiệu quả bộ nhớ
- Huấn luyện đa nút: Hỗ trợ Slurm và Kubernetes
- Tích hợp Hugging Face: Huấn luyện trực tiếp trên các điểm kiểm tra hiện có
Ví dụ: Tinh chỉnh cho VQA y tế
NVIDIA cung cấp hướng dẫn kỹ thuật để tinh chỉnh Qwen3.5 trên các tập dữ liệu X quang cho Hỏi đáp trực quan y tế (Medical Visual Question Answering). Điều này chứng tỏ cách điều chỉnh mô hình cho các lĩnh vực chuyên biệt như chăm sóc sức khỏe.
Kết luận
Qwen3.5 đại diện cho một cơ hội thú vị để sử dụng mô hình AI đa phương thức tiên tiến miễn phí thông qua nền tảng dành cho nhà phát triển của NVIDIA. Với kiến trúc MoE 397 tỷ tham số, khả năng thị giác gốc và quyền truy cập API miễn phí, đây là lựa chọn tuyệt vời cho:
- Xây dựng các tác nhân AI đa phương thức
- Phát triển các ứng dụng suy luận thị giác
- Tạo trợ lý lập trình với ngữ cảnh trực quan
- Tự động hóa các tác vụ điều hướng giao diện người dùng
Bắt đầu thật đơn giản: đăng ký Chương trình Nhà phát triển NVIDIA, lấy khóa API của bạn và bắt đầu xây dựng.
Nếu bạn đang xây dựng các ứng dụng tích hợp với Qwen3.5 hoặc các API AI khác, Apidog cung cấp cơ sở hạ tầng kiểm thử mà bạn cần. Kiểm thử các tích hợp API của bạn, xác thực phản hồi, quản lý biến môi trường và tự động hóa quy trình kiểm thử của bạn với nền tảng toàn diện của Apidog.
Câu hỏi thường gặp
Qwen3.5 có thực sự miễn phí để sử dụng không?
Có, NVIDIA cung cấp quyền truy cập miễn phí vào các điểm cuối tăng tốc GPU của Qwen3.5 thông qua Chương trình Nhà phát triển của họ. Không yêu cầu thẻ tín dụng. Chỉ cần đăng ký tại build.nvidia.com để lấy khóa API của bạn.
Điều gì làm cho Qwen3.5 khác biệt so với các VLM khác?
Qwen3.5 được xây dựng đặc biệt cho các tác nhân tự động, không được điều chỉnh từ một mô hình chỉ dựa trên văn bản. Kiến trúc Mixture of Experts của nó (tổng cộng 397 tỷ, 17 tỷ hoạt động) cung cấp khả năng suy luận mạnh mẽ trong khi vẫn hiệu quả về mặt tính toán. Nó đặc biệt tốt trong các tác vụ điều hướng giao diện người dùng và suy luận thị giác.
Tôi có thể sử dụng Qwen3.5 cho các dự án thương mại không?
Kiểm tra các điều khoản cấp phép hiện tại trên nền tảng của NVIDIA. Để sử dụng trong sản xuất, hãy cân nhắc NVIDIA NIM để triển khai hoặc liên hệ với NVIDIA về các tùy chọn dành cho doanh nghiệp.
Sự khác biệt giữa bậc miễn phí và NIM là gì?
Bậc miễn phí (Chương trình Nhà phát triển) sử dụng các điểm cuối được NVIDIA lưu trữ. NIM cho phép bạn tự triển khai mô hình bằng cách sử dụng các container, dù là tại chỗ, trong đám mây của bạn hay môi trường kết hợp. NIM được thiết kế cho các triển khai quy mô sản xuất.
Làm cách nào để xử lý giới hạn tốc độ?
Bậc miễn phí có giới hạn tốc độ nhất định. Để có giới hạn cao hơn, hãy cân nhắc nâng cấp lên quyền truy cập sản xuất thông qua NVIDIA NIM hoặc liên hệ với NVIDIA về các tùy chọn dành cho doanh nghiệp.
Tôi có thể tinh chỉnh Qwen3.5 không?
Có! Framework NVIDIA NeMo cung cấp các công cụ để tinh chỉnh Qwen3.5 trên dữ liệu chuyên biệt của bạn. Điều này bao gồm LoRA để tùy chỉnh hiệu quả bộ nhớ và hỗ trợ đa nút để huấn luyện quy mô lớn.
