Tóm tắt
Ollama cung cấp cách dễ nhất để chạy các mô hình Qwen 3.5 nhỏ (0.8B, 2B, 4B và 9B) cục bộ trên máy Mac, Linux hoặc Windows của bạn. Với một lệnh ollama run đơn giản, bạn có thể truy cập các tính năng AI mạnh mẽ mà không tốn chi phí API đám mây. Tải Ollama, kéo một mô hình và bắt đầu trò chuyện chỉ trong vòng chưa đầy 5 phút.

Giới thiệu
Chạy các mô hình ngôn ngữ lớn cục bộ đã trở nên rất phổ biến và Ollama giúp việc này trở nên đơn giản. Nếu bạn muốn sử dụng các mô hình Qwen 3.5 của Alibaba mà không cần gửi dữ liệu lên đám mây hoặc trả phí theo token, Ollama chính là câu trả lời.
Hướng dẫn này sẽ đưa bạn qua mọi thứ bạn cần biết về cách chạy các mô hình Qwen 3.5 nhỏ với Ollama. Cho dù bạn cần mô hình 0.8B nhỏ gọn cho các tác vụ nhanh hay mô hình 9B lớn hơn để suy luận phức tạp, chúng tôi sẽ đề cập đến cài đặt, cách sử dụng và tích hợp.
Tại sao nên sử dụng Ollama cho Qwen 3.5
Ollama đã trở thành giải pháp hàng đầu để triển khai LLM cục bộ:
Thiết lập đơn giản
Không cần thiết lập Docker hoặc Python phức tạp. Tải xuống một ứng dụng và bạn đã sẵn sàng.
Ưu tiên quyền riêng tư
Dữ liệu của bạn nằm trên máy của bạn. Điều này quan trọng đối với dữ liệu kinh doanh hoặc bất kỳ thông tin nhạy cảm nào.
Không tốn phí API
Sau khi tải xuống mô hình, việc chạy chúng hoàn toàn miễn phí. Không có phí mỗi token hoặc phí đăng ký.
Khả năng ngoại tuyến
Sử dụng AI ở bất cứ đâu, ngay cả khi không có internet.
Tăng tốc phần cứng
Ollama tự động sử dụng tăng tốc GPU khi có sẵn, giúp suy luận cục bộ nhanh chóng.
Cài đặt Ollama
Cài đặt trên Mac
Nếu bạn có máy Mac, việc cài đặt chỉ mất vài giây:
# Tải xuống từ ollama.com hoặc sử dụng Homebrew
brew install ollama
Vậy là xong. Ollama sẽ tự động phát hiện Apple Silicon (M1/M2/M3) và sử dụng Metal để tăng tốc GPU.
Cài đặt trên Linux
Đối với máy chủ Linux hoặc WSL:
# Cài đặt nhanh
curl -fsSL https://ollama.com/install.sh | sh
Cài đặt trên Windows
Người dùng Windows có thể tải xuống trình cài đặt. Phiên bản Windows hỗ trợ tăng tốc GPU thông qua DirectML.

Xác minh
Sau khi cài đặt, hãy xác minh mọi thứ hoạt động:
ollama --version
Bạn sẽ thấy số phiên bản. Bây giờ chúng ta hãy kéo một số mô hình Qwen.
Chạy các mô hình Qwen 3.5
Kéo mô hình đầu tiên của bạn
Ollama giúp việc tải xuống mô hình trở nên đơn giản:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bMỗi lần tải xuống mô hình mất vài phút tùy thuộc vào tốc độ internet của bạn. Mô hình 2B có kích thước khoảng 1.5GB, trong khi mô hình 9B là khoảng 5GB.
Bắt đầu phiên trò chuyện
Sau khi kéo, hãy bắt đầu trò chuyện ngay lập tức:
ollama run qwen3.5:9b
Bạn sẽ thấy một dấu nhắc nơi bạn có thể nhập trực tiếp:
>>> Điện toán lượng tử là gì một cách đơn giản?
Điện toán lượng tử là một loại tính toán mà...
Nhập câu hỏi của bạn và nhấn Enter. Nhấn Ctrl+D để thoát.
Liệt kê các mô hình khả dụng
Xem những gì bạn đã cài đặt:
ollama list
Kết quả hiển thị mỗi mô hình, kích thước của nó và lần cuối bạn sử dụng nó.
Xóa mô hình
Giải phóng không gian đĩa bằng cách xóa các mô hình bạn không cần:
ollama remove qwen3.5:9b
So sánh và lựa chọn mô hình
Việc chọn mô hình phù hợp phụ thuộc vào phần cứng và trường hợp sử dụng của bạn:
| Mô hình | Tham số | Kích thước mô hình xấp xỉ (BF16, độ chính xác đầy đủ) | RAM cần thiết (BF16, hướng dẫn của Unsloth) | Phù hợp nhất cho |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Thiết bị biên & di động siêu nhẹ: tự động hoàn thành nhanh, chatbot đơn giản, công cụ nhỏ, nhận dạng hình ảnh/OCR cơ bản trên các thiết bị cấu hình rất thấp. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Trợ lý nhẹ, tác nhân nhỏ, hỗ trợ lập trình cơ bản, đa phương thức khá tốt trên laptop với RAM vừa phải. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | Trợ lý phát triển "tự động hoàn thành thông minh", tác nhân nhẹ, khả năng suy luận và đa phương thức tốt hơn 2B trong khi vẫn dễ chạy cục bộ. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Trợ lý tổng quát mạnh mẽ, đa ngôn ngữ + thị giác tốt, có thể sử dụng làm AI cục bộ chính trên máy có 16–24 GB RAM/VRAM. |
Khuyến nghị cho hầu hết người dùng: Bắt đầu với qwen2.5:2b. Nó cung cấp sự cân bằng tốt nhất giữa khả năng và tốc độ. Chỉ nâng cấp lên 4B hoặc 9B nếu bạn cần khả năng suy luận mạnh hơn.
API của Ollama dành cho nhà phát triển
Ollama chạy một máy chủ API cục bộ mà các ứng dụng của bạn có thể gọi. Điều này hoàn hảo để tích hợp Qwen 3.5 vào các dự án của bạn.
Khởi động máy chủ API
Theo mặc định, Ollama chạy như một dịch vụ nền. API có sẵn tại:
http://localhost:11434
Hoàn thành trò chuyện cơ bản
Gửi yêu cầu đến điểm cuối trò chuyện:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Python là gì?"}
],
"stream": false
}'
Phản hồi:

Truyền trực tuyến phản hồi
Để có kết quả đầu ra theo thời gian thực, hãy bật chế độ truyền trực tuyến:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Đếm đến 5"}],
"stream": true
}'
Điều này truyền trực tuyến các token khi chúng được tạo ra.
Điểm cuối tạo nội dung
Đối với các lời nhắc không phải trò chuyện:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Viết một bài haiku về lập trình",
"stream": false
}'
Tích hợp với các ứng dụng của bạn
Tích hợp Python
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Giải thích đệ quy"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
Tích hợp JavaScript/Node.js
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'API là gì?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Kiểm thử tích hợp của bạn với Apidog
Khi xây dựng các ứng dụng gọi Ollama, hãy sử dụng các công cụ kiểm thử API để xác thực phản hồi. Dưới đây là cách kiểm thử API Ollama của bạn với Apidog:
- Tạo một yêu cầu POST mới đến
http://localhost:11434/api/chat - Đặt Content-Type là
application/json - Thêm nội dung yêu cầu:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Xin chào"}],
"stream": false
}
Apidog cho phép bạn tạo các trường hợp kiểm thử tự động để xác thực chất lượng phản hồi, kiểm thử các lời nhắc khác nhau và giám sát các điểm cuối LLM cục bộ của bạn. Điều này đảm bảo tích hợp của bạn hoạt động đáng tin cậy trong môi trường sản xuất.
Hiệu suất và yêu cầu phần cứng
Tăng tốc GPU
Ollama tự động sử dụng GPU khi có sẵn:
- Apple Silicon (M1/M2/M3): Sử dụng Metal, rất hiệu quả
- GPU NVIDIA: Sử dụng CUDA, hiệu suất tuyệt vời
- GPU AMD: Sử dụng ROCm trên Linux
- Chỉ CPU: Hoạt động nhưng chậm hơn
Hiệu suất mong đợi
| Mô hình | GPU | Token/giây (xấp xỉ) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
Suy luận chỉ bằng CPU sẽ chậm hơn đáng kể (gấp 5-10 lần).
Yêu cầu bộ nhớ
RAM tối thiểu theo mô hình:
- 0.8B: 2GB RAM khả dụng
- 2B: 4GB RAM khả dụng
- 4B: 8GB RAM khả dụng
- 9B: 16GB RAM khả dụng
Có nhiều RAM hơn mức tối thiểu sẽ giúp tăng khả năng phản hồi.
Khắc phục sự cố thường gặp
"Không tìm thấy Ollama"
Đảm bảo Ollama có trong PATH của bạn. Trên Mac/Linux, khởi động lại terminal sau khi cài đặt.
Hiệu suất chậm
- Kiểm tra xem GPU có đang được sử dụng không:
ollama listhiển thị thông tin mô hình - Đối với chỉ CPU: mong đợi tốc độ chậm hơn
- Đóng các ứng dụng GPU khác
Tải xuống mô hình thất bại
Thử lại với internet nhanh hơn. Nếu đang dùng VPN, hãy thử không dùng nó.
Kết nối API bị từ chối
Đảm bảo Ollama đang chạy: ollama serve (thường chạy tự động)
Hết bộ nhớ
Sử dụng một mô hình nhỏ hơn. Mô hình 9B cần nhiều RAM. Đóng các ứng dụng khác.
Kết luận
Ollama giúp việc chạy các mô hình Qwen 3.5 cục bộ trở nên đơn giản. Cho dù bạn là nhà phát triển xây dựng ứng dụng AI hay chỉ muốn thử nghiệm với các LLM cục bộ, quá trình này chỉ mất vài phút thay vì hàng giờ.
Sự kết hợp giữa khả năng đa ngôn ngữ mạnh mẽ của Qwen 3.5 và giao diện đơn giản của Ollama biến đây thành một trong những cách dễ nhất để bắt đầu với AI cục bộ.
Các bước tiếp theo: Sau khi bạn đã thiết lập API Ollama của mình, hãy sử dụng Apidog để tạo các trường hợp kiểm thử tự động nhằm xác thực chất lượng phản hồi, kiểm thử các lời nhắc khác nhau và giám sát các điểm cuối LLM cục bộ của bạn. Bắt đầu với Apidog miễn phí.
Câu hỏi thường gặp
Sự khác biệt giữa Ollama và các phương pháp triển khai khác là gì?
Ollama được thiết kế để đơn giản. Không giống như Docker hoặc triển khai mô hình thủ công, nó xử lý mọi thứ (tải xuống mô hình, tăng tốc GPU, phục vụ API) bằng các lệnh đơn giản.
Tôi có thể sử dụng Ollama với các mô hình Qwen khác không?
Có, Ollama hỗ trợ nhiều mô hình. Kiểm tra ollama.com/library để biết danh sách đầy đủ.
Làm cách nào để cập nhật các mô hình Qwen trong Ollama?
Kéo phiên bản mới nhất: ollama pull qwen2.5:2b. Thao tác này sẽ tải xuống các bản cập nhật nếu có.
Tôi có thể chạy nhiều mô hình cùng lúc không?
Có, nhưng mỗi mô hình đều sử dụng bộ nhớ. Hầu hết các hệ thống có thể chạy 1-2 mô hình cùng lúc.
Dữ liệu của tôi có an toàn với Ollama không?
Có. Mọi thứ đều chạy cục bộ. Không có dữ liệu nào được gửi đến máy chủ bên ngoài.
Tôi có thể tinh chỉnh các mô hình Qwen bằng Ollama không?
Ollama chỉ dành cho suy luận. Để tinh chỉnh, bạn sẽ cần các công cụ khác như bộ điều hợp LoRA.
Làm cách nào để thay đổi cổng mà Ollama sử dụng?
Đặt biến môi trường OLLAMA_HOST trước khi chạy: export OLLAMA_HOST=0.0.0.0:8080
