Các nhà phát triển liên tục tìm kiếm các mô hình AI tiên tiến cân bằng giữa trí thông minh thô với chi phí trả trước bằng 0. Các mô hình Qwen3.5 mang lại chính xác điều đó thông qua Ollama. Được phát hành bởi Alibaba, các tác nhân đa phương thức mã nguồn mở này thiết lập các tiêu chuẩn mới về khả năng suy luận, mã hóa, thị giác và sử dụng công cụ. Bạn chạy chúng ngay lập tức thông qua các thẻ đám mây của Ollama—không cần tải xuống lớn, không yêu cầu cụm GPU doanh nghiệp.
Bạn có quyền truy cập ngay vào mô hình MoE lai 397B-A17B chỉ kích hoạt 17B tham số mỗi lần chuyển tiếp. Kiến trúc này kết hợp cơ chế chú ý tuyến tính Gated DeltaNet với định tuyến hỗn hợp chuyên gia thưa thớt, mang lại thông lượng nhanh hơn 8.6 lần so với Qwen3-Max trước đây ở ngữ cảnh 32K và nhanh hơn 19 lần ở ngữ cảnh 256K. Các điểm chuẩn xác nhận sự vượt trội: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 và Tool Decathlon 38.3. Do đó, bạn có thể thử nghiệm với các tác nhân ngôn ngữ-thị giác tự nhiên và hỗ trợ 201 ngôn ngữ trên gói miễn phí của Ollama trước khi cân nhắc nâng cấp trả phí.
Hướng dẫn này bao gồm mọi chi tiết kỹ thuật bạn cần. Bạn sẽ cài đặt Ollama, kéo các thẻ chính xác, tương tác qua CLI và API, tích hợp Apidog để thử nghiệm nghiêm ngặt, xây dựng ứng dụng thực tế, tối ưu hóa hiệu suất và khắc phục các sự cố phổ biến. Đến cuối cùng, bạn sẽ triển khai các quy trình làm việc được hỗ trợ bởi qwen3.5 có thể cạnh tranh với các ông lớn đám mây nhưng vẫn nằm trong giới hạn sử dụng miễn phí.
Điều gì khiến Qwen3.5 trở thành một công nghệ mạnh mẽ
Qwen3.5 phát triển dòng sản phẩm này với quá trình tiền huấn luyện trên các bộ dữ liệu đa ngôn ngữ, STEM và suy luận phong phú hơn dưới sự lọc kỹ lưỡng. Các kỹ sư đã mở rộng học tăng cường trên môi trường hàng triệu tác nhân, ưu tiên độ khó và khả năng tổng quát hóa hơn các chỉ số hẹp. Kết quả: khả năng ngang bằng giữa các thế hệ với các mô hình vượt quá 1T tham số trong khi vẫn duy trì hiệu quả.

Biến thể chủ lực—Qwen3.5-397B-A17B—sử dụng cơ chế chú ý lai. Cơ chế chú ý tuyến tính thông qua Mạng Delta có cổng xử lý các chuỗi dài, trong khi MoE thưa thớt định tuyến các token đến các chuyên gia chuyên biệt. Từ vựng mở rộng lên 250K token, tăng hiệu quả mã hóa từ 10–60% trên các ngôn ngữ. Quá trình huấn luyện đa phương thức tích hợp sớm (early-fusion) bản địa kết hợp các token văn bản và thị giác ngay từ đầu, đạt hiệu quả huấn luyện 100% so với các quy trình chỉ xử lý văn bản.
Trên Ollama, bạn truy cập hai thẻ sẵn sàng sử dụng:
- qwen3.5:cloud – Chỉ văn bản, ngữ cảnh 256K, các công cụ và chế độ tư duy được kích hoạt.
- qwen3.5:397b-cloud – Hỗ trợ ngôn ngữ-thị giác đầy đủ, xử lý hình ảnh và tài liệu cùng với văn bản.
Cả hai đều cung cấp khả năng tư duy (chuỗi suy nghĩ), công cụ (tìm kiếm web, trình thông dịch mã) và các hành vi tác nhân ngay lập tức. Do đó, bạn có thể chuyển đổi giữa câu trả lời nhanh và suy luận sâu sắc chỉ với một tham số.

Các điểm chuẩn nói lên nhiều điều. Trong mã hóa, Qwen3.5 đạt 76.4 trên SWE-bench Verified và 83.6 trên LiveCodeBench v6. Toán học đạt 91.3 trên AIME26 và 94.8 trên HMMT. Các tác vụ thị giác đạt 93.1 trên OCRBench và 88.6 trên MathVision. Các chỉ số tác nhân bao gồm 72.9 trên BFCL-V4 và 86.7 trên TAU2-Bench. Khả năng đa ngôn ngữ bao gồm 201 ngôn ngữ với điểm số cao nhất trên MMMLU (88.5) và WMT24++ (78.9). Bạn truy cập hiệu suất này thông qua một lệnh ollama run đơn giản trên gói miễn phí.
Tại sao Ollama cung cấp quyền truy cập miễn phí vào Qwen3.5
Ollama trừu tượng hóa việc quản lý mô hình thành một tệp nhị phân duy nhất. Bạn chạy các lệnh giống nhau cho dù trọng số nằm trên đĩa của bạn hay cơ sở hạ tầng đám mây của Ollama. Gói miễn phí cho phép sử dụng nhẹ các mô hình đám mây—hoàn hảo để khám phá, tạo nguyên mẫu và khối lượng công việc vừa phải. Do đó, bạn bỏ qua kích thước thô 807 GB của mô hình 397B đầy đủ và bắt đầu tương tác trong vài giây.

Các mô hình cục bộ vẫn không giới hạn sau khi được tải xuống, nhưng đối với qwen3.5, các thẻ chính thức sẽ định tuyến đến Ollama Cloud. Các bản nhập từ cộng đồng như frob/qwen3.5 (GGUF quants) cho phép bạn chạy các phiên bản lượng tử hóa cục bộ nếu bạn có đủ RAM (214 GB+ cho MXFP4 4-bit). Bạn chọn đường dẫn phù hợp với phần cứng và kiểu sử dụng của mình. Ollama xử lý việc định tuyến một cách minh bạch.
Ngoài ra, Ollama còn cung cấp một API REST tương thích OpenAI đầy đủ tại cổng 11434. Bạn tích hợp qwen3.5 vào bất kỳ ngôn ngữ hoặc framework nào mà không cần thay đổi mã máy khách. Apidog giúp việc tích hợp đó trở nên vững chắc bằng cách cho phép bạn mô phỏng phản hồi, xác thực lược đồ và tự động tạo các bộ sưu tập thử nghiệm.
Yêu cầu hệ thống và điều kiện tiên quyết
Các thẻ đám mây hầu như không có yêu cầu cục bộ. Bạn chỉ cần:
- 8 GB RAM (khuyến nghị 16 GB)
- Kết nối internet ổn định (suy luận diễn ra từ xa)
- Ollama 0.5.0 trở lên
Đối với các bản chạy GGUF cục bộ của cộng đồng, bạn cần tính toán cẩn thận nhu cầu VRAM. Phiên bản lượng tử hóa MXFP4 4-bit của biến thể 397B-A17B chiếm khoảng 214 GB đĩa và cần ~256 GB RAM hệ thống với tính năng MoE offloading để đạt 25+ token/giây trên các máy Mac cao cấp. Các biến thể dày đặc nhỏ hơn từ dòng Qwen trước đó (nếu được chuyển đổi) sẽ giảm tỷ lệ tuyến tính. Do đó, bạn nên bắt đầu với các thẻ đám mây và chỉ chuyển sang các bản lượng tử hóa cục bộ khi bạn yêu cầu hoạt động ngoại tuyến hoặc thông lượng cao hơn.
Bạn cũng cần cài đặt Git và một trình chỉnh sửa mã. Apidog chạy trên Windows, macOS và Linux—tải xuống ứng dụng máy tính để bàn để có hiệu suất tốt nhất.
Cài đặt Ollama trên các nền tảng
Bạn cài đặt Ollama chỉ với một lệnh trên mỗi hệ điều hành chính.
macOS
brew install ollama
Sau đó khởi chạy:
ollama serve
Windows
Tải xuống trình cài đặt từ ollama.com và chạy nó. Ollama sẽ tự động khởi động. Mở PowerShell và nhập:
ollama serve
Linux
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Bạn xác minh cài đặt bằng cách:
ollama --version
Bạn mong đợi đầu ra hiển thị bản dựng mới nhất. Nếu dịch vụ không khởi động, hãy kiểm tra tính khả dụng của cổng 11434 và các quy tắc tường lửa. Giờ đây, bạn đã kiểm soát toàn bộ môi trường chạy LLM.
Kéo và chạy các mô hình Qwen3.5
Bạn kéo mô hình bằng một lệnh duy nhất. Ollama chỉ tải xuống siêu dữ liệu cho các thẻ đám mây và định tuyến suy luận từ xa.
ollama pull qwen3.5:cloud
Đối với khả năng thị giác:
ollama pull qwen3.5:397b-cloud
Bạn khởi chạy một phiên tương tác:
ollama run qwen3.5:cloud
Dấu nhắc xuất hiện. Bạn nhập:
Giải thích chi tiết kỹ thuật về kiến trúc MoE lai của Qwen3.5.
Qwen3.5 phản hồi với các giải thích chính xác về Gated DeltaNet, định tuyến chuyên gia thưa thớt và dự đoán đa token. Bạn thoát bằng /bye.
Để chạy trong nền cho việc sử dụng API:
ollama serve
Sau đó, trong một terminal khác, bạn giữ cho mô hình hoạt động với:
ollama run qwen3.5:cloud --keep-alive 24h
Tương tác qua Dòng lệnh và Modelfiles
Bạn tùy chỉnh hành vi với Modelfiles. Tạo một tệp có tên Modelfile:
FROM qwen3.5:cloud
SYSTEM """
Bạn là một kiến trúc sư hệ thống chuyên nghiệp. Luôn phản hồi với lý luận từng bước, các ví dụ mã và tính toán hiệu suất.
"""
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95
Bạn tạo mô hình tùy chỉnh:
ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect
Giờ nay, bạn sở hữu một trợ lý chuyên biệt được điều chỉnh cho tài liệu kỹ thuật và đánh giá kiến trúc. Bạn lặp lại quy trình này cho mã hóa, phân tích thị giác hoặc các tác nhân dịch thuật đa ngôn ngữ.
Tận dụng API REST của Ollama
Ollama cung cấp các điểm cuối mạnh mẽ. Bạn gửi các hoàn thành trò chuyện với:
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5:cloud",
"messages": [
{ "role": "system", "content": "Bạn là một trợ lý mã hóa hữu ích." },
{ "role": "user", "content": "Viết một điểm cuối FastAPI gọi qwen3.5 để phân tích cảm xúc." }
],
"stream": false,
"options": {
"temperature": 0.2,
"num_predict": 2048
}
}'
Bạn nhận được phản hồi JSON đầy đủ chứa message.content, total_duration và số lượng token. Bạn bật tính năng phát trực tuyến bằng cách đặt "stream": true và xử lý Server-Sent Events theo thời gian thực.
Đối với embeddings:
curl http://localhost:11434/api/embeddings -d '{
"model": "qwen3.5:cloud",
"prompt": "Tài liệu kỹ thuật về các mô hình MoE lai"
}'
Do đó, bạn xây dựng các pipeline RAG, tìm kiếm ngữ nghĩa và các lớp phân loại xoay quanh qwen3.5.
Kiểm thử và gỡ lỗi với Apidog
Bạn mở Apidog và tạo một dự án mới có tên “Ollama Qwen3.5”. Đặt URL cơ sở thành http://localhost:11434/api.

Bạn thêm điểm cuối /chat:
- Phương thức: POST
- Schema thân yêu cầu: định nghĩa
model, mảngmessages, đối tượngoptions - Schema phản hồi: thu thập các trường
message,done, thời gian
Bạn nhập đặc tả OpenAPI chính thức của Ollama nếu có sẵn hoặc xây dựng các bộ sưu tập thủ công. Apidog tự động tạo các trường hợp thử nghiệm, xác thực schema JSON và hỗ trợ các biến môi trường để chuyển đổi giữa qwen3.5:cloud và các Modelfiles tùy chỉnh.
Bạn tạo một bộ sưu tập “Tác vụ Thị giác” và kiểm tra đầu vào đa phương thức:
{
"model": "qwen3.5:397b-cloud",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Mô tả chi tiết biểu đồ này." },
{ "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
]
}
]
}
Apidog hiển thị bản xem trước hình ảnh, gửi yêu cầu và cho phép bạn kiểm tra việc sử dụng token, độ trễ và dấu vết suy luận. Bạn lưu các xác nhận cho thời gian phản hồi < 5s và sự hiện diện của các thuật ngữ kỹ thuật. Bạn xuất bộ sưu tập dưới dạng tài liệu Markdown hoặc chia sẻ nó với nhóm của mình.
Do đó, bạn loại bỏ việc phỏng đoán. Mọi tham số, mọi trường phản hồi và mọi lỗi đều trở nên hiển thị và có thể lặp lại. Những cải tiến nhỏ trong Apidog—chẳng hạn như thêm các tập lệnh tiền yêu cầu để khởi động mô hình—chuyển thành độ tin cậy cấp độ sản xuất.
Xây dựng ứng dụng thực tế với Qwen3.5 và Ollama
Bạn tích hợp qwen3.5 vào các ứng dụng Python bằng cách sử dụng client chính thức:
import ollama
from fastapi import FastAPI
app = FastAPI()
@app.post("/analyze")
async def analyze_code(request: dict):
response = ollama.chat(
model='qwen3.5:cloud',
messages=[{'role': 'user', 'content': request['code']}],
options={'temperature': 0.1}
)
return {"analysis": response['message']['content']}
Bạn phơi bày điểm cuối này, thêm giới hạn tốc độ và giám sát việc sử dụng token thông qua Apidog.
Đối với Node.js, bạn sử dụng gói npm ollama và phát trực tuyến các phản hồi đến các giao diện người dùng React. Bạn triển khai việc gọi công cụ bằng cách định nghĩa các hàm trong yêu cầu và phân tích cú pháp tool_calls từ đầu ra của mô hình. Qwen3.5 hỗ trợ tự động sử dụng công cụ, vì vậy bạn có thể kết nối tìm kiếm web, thực thi mã và phân tích tệp thành các tác nhân tự chủ.
Bạn đóng gói toàn bộ ngăn xếp với Docker Compose:
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
apidog-tests:
image: your-test-image
depends_on:
- ollama
Do đó, bạn triển khai các môi trường nhất quán trên các môi trường phát triển, thử nghiệm và sản xuất.
Tính năng nâng cao: Sử dụng công cụ, Thị giác và Ngữ cảnh dài
Bạn kích hoạt chế độ tư duy bằng cách bao gồm enable_thinking: true trong các client tương thích hoặc bằng cách nhắc nhở rõ ràng. Mô hình xuất ra các thẻ <thinking> trước các câu trả lời cuối cùng, giúp bạn nhìn thấy chuỗi suy luận của nó.
Đối với thị giác, bạn gửi hình ảnh hoặc URL base64. Thẻ 397b-cloud xử lý biểu đồ, ảnh chụp màn hình mã và tài liệu với độ chính xác 85.0 MMMU. Do đó, bạn xây dựng các pipeline hiểu tài liệu có thể trích xuất bảng, biểu đồ và ghi chú viết tay.
Xử lý ngữ cảnh dài đạt 256K token trên Ollama. Bạn cung cấp toàn bộ cơ sở mã hoặc các bài nghiên cứu và yêu cầu tóm tắt, phân tích khác biệt hoặc tái cấu trúc kiến trúc. Bạn giám sát việc sử dụng ngữ cảnh với trường context trong phản hồi và triển khai các chiến lược cửa sổ trượt khi bạn gần đạt đến giới hạn.
Tối ưu hóa hiệu suất và khắc phục sự cố
Bạn giữ cho các mô hình hoạt động liên tục với --keep-alive. Bạn giảm độ trễ bằng cách đặt num_predict thấp hơn cho các tác vụ đơn giản và cao hơn cho suy luận phức tạp.
Các vấn đề phổ biến và cách khắc phục:
- Giới hạn tốc độ trên gói miễn phí: Bạn giám sát việc sử dụng trong bảng điều khiển Ollama và chuyển sang các lời nhắc nhẹ hơn hoặc yêu cầu hàng loạt.
- Kết nối bị từ chối: Bạn xác nhận
ollama serveđang chạy và cổng 11434 đang lắng nghe. - Phản hồi chậm: Bạn thêm
options: { "num_gpu": 999 }để buộc tăng tốc tối đa. - Lỗi thị giác: Bạn xác minh mã hóa base64 và giới hạn kích thước hình ảnh.
Bạn ghi lại mọi lệnh gọi API thông qua Apidog để nhanh chóng xác định các điểm nghẽn. Do đó, bạn duy trì thời gian hoạt động cao ngay cả trên gói miễn phí.
Kết luận
Giờ đây, bạn đã sở hữu một lộ trình kỹ thuật hoàn chỉnh để sử dụng các mô hình qwen3.5 miễn phí với Ollama. Bạn đã cài đặt môi trường chạy, kéo các thẻ đám mây, thành thạo tương tác CLI và API, tăng cường kiểm thử với Apidog, xây dựng các ứng dụng sản xuất và tối ưu hóa cho khối lượng công việc thực tế. Mọi bước đều tận dụng các lệnh chủ động, tham số chính xác và kết quả có thể đo lường được.
Những hành động nhỏ—tải xuống Apidog, tạo một Modelfile hoặc thêm một xác nhận duy nhất—gộp lại thành năng suất mang tính chuyển đổi. Bạn thử nghiệm với các tác nhân đa phương thức tiên tiến ngay hôm nay mà không cần thẻ tín dụng hoặc vé hạ tầng. Gói Ollama miễn phí loại bỏ mọi rào cản.
