Tóm tắt
Ollama là cách dễ nhất để chạy các mô hình AI mạnh mẽ cục bộ. Kết hợp với OpenClaw, nó tạo ra một trợ lý AI miễn phí, tập trung vào quyền riêng tư, có thể cạnh tranh với các lựa chọn thay thế trả phí. Hướng dẫn này sẽ chỉ cho bạn cách thiết lập Ollama, chọn mô hình phù hợp và tích hợp nó với OpenClaw để có trợ lý AI cá nhân của bạn.
Giới thiệu
Chạy AI cục bộ từng là một thú vui của những người yêu thích công nghệ, đòi hỏi thiết lập phức tạp và phần cứng đắt tiền. Ollama đã thay đổi điều đó. Với một lệnh cài đặt đơn giản và API trực quan, Ollama giúp bất kỳ ai cũng có thể chạy các mô hình AI cục bộ.

Khi kết hợp với OpenClaw, bạn sẽ có một trợ lý AI mạnh mẽ với các đặc điểm sau:
- Không tốn phí vận hành (sau khi thiết lập ban đầu)
- Giữ dữ liệu của bạn riêng tư 100%
- Hoạt động ngoại tuyến sau khi các mô hình được tải xuống
- Cung cấp toàn quyền kiểm soát tùy chỉnh
Hướng dẫn này bao gồm mọi thứ bạn cần để bắt đầu.
Tại sao nên sử dụng Ollama với OpenClaw
Lợi ích của AI cục bộ
- Quyền riêng tư: Các cuộc trò chuyện của bạn không bao giờ rời khỏi máy của bạn
- Không tốn chi phí API: Trả tiền một lần cho phần cứng, sử dụng không giới hạn
- Truy cập ngoại tuyến: Hoạt động mà không cần internet
- Kiểm soát hoàn toàn: Tùy chỉnh mô hình và lời nhắc
- Không giới hạn tốc độ: Sử dụng tùy thích
Tại sao lại là Ollama
Ollama nổi bật vì một số lý do:
- Cài đặt đơn giản: Chỉ cần một lệnh để bắt đầu
- Thư viện mô hình: Hơn 100 mô hình có sẵn
- Đa nền tảng: Hoạt động trên macOS, Linux, Windows
- API-first: Tích hợp dễ dàng với OpenClaw
- Phát triển tích cực: Cập nhật thường xuyên và các mô hình mới
Điều kiện tiên quyết
Trước khi bắt đầu, hãy đảm bảo bạn có:
Yêu cầu phần cứng
| Kích thước mô hình | RAM tối thiểu | RAM khuyến nghị |
|---|---|---|
| 7B tham số | 8GB | 16GB |
| 14B tham số | 16GB | 32GB |
| 32B tham số | 32GB | 64GB |
| 70B tham số | 64GB | 128GB |
Yêu cầu phần mềm
- macOS 10.15+, Linux, hoặc Windows 10+
- Quyền quản trị/root để cài đặt
- Kết nối Internet để tải xuống ban đầu
- Quen thuộc với dòng lệnh
Những gì bạn sẽ cần
- Một máy tính đáp ứng yêu cầu về RAM
- Internet để tải xuống các mô hình
- Thời gian để tải xuống các mô hình ban đầu (thay đổi tùy theo kích thước và kết nối)
Cài đặt Ollama
Cài đặt trên macOS
Phương pháp dễ nhất là sử dụng Homebrew:
brew install ollama
Hoặc sử dụng tập lệnh cài đặt chính thức:
curl -fsSL https://ollama.ai/install.sh | sh
Cài đặt trên Linux
# Sử dụng tập lệnh cài đặt (được khuyến nghị)
curl -fsSL https://ollama.ai/install.sh | sh
# Hoặc tải xuống tệp nhị phân trực tiếp
sudo curl -L https://ollama.ai/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama
Cài đặt trên Windows
- Tải xuống trình cài đặt
- Chạy trình cài đặt
- Làm theo hướng dẫn trên màn hình

Xác minh cài đặt
ollama --version
Bạn sẽ thấy đầu ra như ollama version 0.15.0 hoặc mới hơn.

Khởi động dịch vụ Ollama
Ollama chạy như một dịch vụ nền:
# Kiểm tra xem Ollama có đang chạy không
ollama list
# Khởi động Ollama nếu chưa chạy
ollama serve

Chọn mô hình phù hợp
Ollama hỗ trợ hơn 100 mô hình. Dưới đây là cách chọn:
Theo trường hợp sử dụng
| Trường hợp sử dụng | Mô hình khuyến nghị |
|---|---|
| Trò chuyện chung | Qwen3.5, Llama 3.2, Mistral |
| Hỗ trợ viết code | Qwen3.5-Coder, DeepSeek-Coder |
| Suy luận/toán học | DeepSeek-R1, Qwen3.5 |
| Phần cứng nhỏ hơn | Phi3.5, Gemma2.2B |
Theo phần cứng
| RAM khả dụng | Khuyến nghị |
|---|---|
| 8GB | Các mô hình 7B (Qwen3.5, Llama3.2, Mistral) |
| 16GB | Các mô hình 8-14B |
| 32GB | Các mô hình 14-32B |
| 64GB+ | Các mô hình 70B+ |
Các mô hình phổ biến vào năm 2026
Qwen3.5 — Hiệu suất toàn diện xuất sắc, khả năng suy luận mạnh mẽ, tốt cho việc viết mã. Là lựa chọn phổ biến nhất cho OpenClaw vào năm 2026.
DeepSeek-R1 — Mô hình suy luận mã nguồn mở có thể cạnh tranh với GPT-4 trong các tác vụ toán học và logic. Tuyệt vời cho việc giải quyết vấn đề phức tạp.
Mistral — Nhẹ nhưng có khả năng. Tuyệt vời cho các hệ thống có RAM hạn chế.
Cài đặt mô hình
Tải mô hình
# Cài đặt Qwen3.5 (được khuyến nghị cho hầu hết người dùng)
ollama pull qwen2.5:7b
# Hoặc Qwen3 mới nhất
ollama pull qwen3:7b
# DeepSeek-R1 cho các tác vụ suy luận
ollama pull deepseek-r1:7b
# Llama 3.2
ollama pull llama3.2:7b
# Mistral
ollama pull mistral:7b
Thẻ mô hình
Các mô hình có nhiều kích thước khác nhau:
# Các kích thước tham số khác nhau
ollama pull qwen2.5:3b # Nhỏ hơn, nhanh hơn
ollama pull qwen2.5:7b # Cân bằng
ollama pull qwen2.5:14b # Mạnh mẽ hơn
Xem các mô hình đã cài đặt
ollama list
Điều này hiển thị tất cả các mô hình đã tải xuống và kích thước của chúng.
Chạy và kiểm tra mô hình
Chế độ tương tác
# Trò chuyện với mô hình
ollama run qwen2.5:7b
Nhập tin nhắn của bạn và nhấn Enter. Nhập /bye để thoát.
Chế độ API
Ollama chạy một máy chủ API trên cổng 11434 theo mặc định:
# Điểm cuối tạo
curl http://localhost:11434/api/generate -d {
"model": "qwen2.5:7b",
"prompt": "Hello, how are you?",
"stream": false
}
Sử dụng thư viện Python
from ollama import Client
client = Client()
response = client.chat(
model='qwen2.5:7b',
messages=[
{'role': 'user', 'content': 'Hello!'}
]
)
print(response['message']['content'])
Kiểm tra với Apidog
Trước khi kết nối với OpenClaw, hãy kiểm tra thiết lập Ollama của bạn bằng cách sử dụng Apidog:
- Tạo một yêu cầu mới trong Apidog
- Đặt phương thức là POST
- Nhập URL:
http://localhost:11434/api/generate - Thêm tiêu đề:
Content-Type: application/json

5. Thêm nội dung:
{
"model": "qwen3-coder",
"prompt": "What is 2 + 2?",
"stream": false
}

Điều này xác minh thiết lập Ollama của bạn hoạt động trước khi tích hợp với OpenClaw.
Tích hợp Ollama với OpenClaw
Bây giờ, hãy kết nối Ollama với OpenClaw.
Phương pháp 1: Cấu hình nhanh
# Đặt OpenClaw sử dụng Ollama với mô hình của bạn
openclaw models set ollama/qwen2.5:7b
Phương pháp 2: Biến môi trường
# Cấu hình điểm cuối Ollama
export OLLAMA_HOST=http://localhost:11434
# Đặt mô hình mặc định
export OLLAMA_MODEL=qwen2.5:7b
Phương pháp 3: Tệp cấu hình
Tạo hoặc chỉnh sửa ~/.openclaw/config.yaml:
models:
default: ollama/qwen2.5:7b
ollama:
host: http://localhost:11434
model: qwen2.5:7b
temperature: 0.7
top_p: 0.9
Xác minh tích hợp
# Kiểm tra trạng thái mô hình OpenClaw
openclaw models status
# Kiểm tra bằng tin nhắn
openclaw chat "Hello!"
Bạn sẽ nhận được phản hồi từ mô hình cục bộ của mình.
Tùy chọn cấu hình
Tinh chỉnh thiết lập Ollama + OpenClaw của bạn:
Nhiệt độ (Temperature)
Kiểm soát sự sáng tạo so với độ chính xác:
ollama:
temperature: 0.7 # 0.0 = chính xác, 1.0 = sáng tạo
Top-P và Top-K
Kiểm soát sự đa dạng của phản hồi:
ollama:
top_p: 0.9 # Lấy mẫu hạt nhân
top_k: 40 # Chọn mã thông báo
Độ dài ngữ cảnh
Đối với các cuộc hội thoại dài hơn:
ollama:
context_size: 4096 # Mặc định thường là 2048 hoặc 4096
Lời nhắc hệ thống
Tùy chỉnh hành vi mô hình:
ollama:
system_prompt: |
Bạn là một trợ lý viết mã hữu ích.
Cung cấp các ví dụ mã rõ ràng, súc tích.
Giải thích các khái niệm một cách đơn giản.
Chuyển đổi giữa các mô hình
Một lợi thế của Ollama là dễ dàng chuyển đổi mô hình:
# Chuyển sang DeepSeek-R1 cho tác vụ suy luận
openclaw models set ollama/deepseek-r1:7b
# Chuyển sang Qwen-Coder cho tác vụ viết mã
openclaw models set ollama/qwen2.5-coder:7b
# Chuyển về mô hình chung
openclaw models set ollama/qwen2.5:7b
Thiết lập nhiều mô hình
Cấu hình nhiều mô hình trong config.yaml:
models:
default: ollama/qwen2.5:7b
coding: ollama/qwen2.5-coder:7b
reasoning: ollama/deepseek-r1:7b
Sau đó chuyển đổi giữa chúng:
openclaw models set coding
openclaw models set reasoning
Khắc phục sự cố
Mô hình không tải được
Vấn đề: Lỗi hết bộ nhớ
Giải pháp:
- Sử dụng mô hình nhỏ hơn (7B thay vì 14B)
- Đóng các ứng dụng khác để giải phóng RAM
- Kiểm tra bộ nhớ khả dụng bằng
free -h(Linux) hoặc Activity Monitor (Mac)
Phản hồi chậm
Vấn đề: Phản hồi quá lâu
Giải pháp:
- Sử dụng mô hình nhỏ hơn
- Bật tăng tốc GPU (nếu có)
- Giảm kích thước ngữ cảnh
- Sử dụng ổ đĩa SSD cho các tệp mô hình
Kết nối bị từ chối
Vấn đề: OpenClaw không thể kết nối với Ollama
Giải pháp:
# Xác minh Ollama đang chạy
ollama serve
# Kiểm tra cổng
curl http://localhost:11434
Không tìm thấy mô hình
Vấn đề: Mô hình không tồn tại trong Ollama
Giải pháp:
# Tải mô hình
ollama pull qwen2.5:7b
# Kiểm tra các mô hình có sẵn
ollama list
Kết luận
Giờ đây, bạn đã có một trợ lý AI mạnh mẽ, riêng tư chạy cục bộ. Ollama + OpenClaw mang đến những khả năng mà với các lựa chọn thay thế đám mây sẽ tốn hơn 20 đô la/tháng — tất cả đều chạy trên phần cứng mà bạn kiểm soát.
Những gì bạn có thể làm bây giờ:
- Trò chuyện với AI của bạn qua nhiều nền tảng
- Chuyển đổi giữa các mô hình dựa trên tác vụ
- Tùy chỉnh lời nhắc cho các hành vi chuyên biệt
- Chạy ngoại tuyến sau khi các mô hình được tải xuống
Giới hạn duy nhất là phần cứng của bạn.
Các bước tiếp theo:
- Thử nghiệm với các mô hình khác nhau
- Thử Qwen3.5, DeepSeek-R1 và các mô hình khác
- Tùy chỉnh lời nhắc hệ thống của bạn
- Khám phá các kỹ năng của OpenClaw trên ClawHub
Sẵn sàng xây dựng ứng dụng AI chuyên nghiệp? Tải xuống Apidog miễn phí và kiểm tra các tích hợp AI của bạn với giao diện trực quan được thiết kế cho các nhà phát triển.
Câu hỏi thường gặp
Mô hình Ollama nào tốt nhất cho OpenClaw?
Qwen3.5 hiện là mô hình phổ biến nhất — hiệu suất cân bằng với khả năng suy luận và viết mã tốt. DeepSeek-R1 vượt trội trong các tác vụ suy luận nếu đó là ưu tiên của bạn.
Tôi có thể chạy nhiều mô hình Ollama cùng lúc không?
Có, nhưng mỗi mô hình yêu cầu RAM. Một thiết lập điển hình chạy một mô hình tại một thời điểm, chuyển đổi khi cần thiết.
Tôi có cần GPU không?
Không, Ollama hoạt động trên CPU. Tăng tốc GPU giúp nó nhanh hơn nhưng không bắt buộc. Các mô hình nhỏ hơn (7B) hoạt động khá tốt trên CPU.
Làm cách nào để cập nhật mô hình?
ollama pull model-name
Ollama tự động cập nhật nếu có phiên bản mới hơn.
Tôi có thể sử dụng các mô hình đã tinh chỉnh của riêng mình không?
Có, bạn có thể nhập các mô hình tùy chỉnh bằng chức năng nhập của Ollama. Kiểm tra tài liệu của Ollama để biết chi tiết.
