Hướng Dẫn Chạy OpenClaw với Ollama

Tóm tắt

Ollama là cách dễ nhất để chạy các mô hình AI mạnh mẽ cục bộ. Kết hợp với OpenClaw, nó tạo ra một trợ lý AI miễn phí, tập trung vào quyền riêng tư, có thể cạnh tranh với các lựa chọn thay thế trả phí. Hướng dẫn này sẽ chỉ cho bạn cách thiết lập Ollama, chọn mô hình phù hợp và tích hợp nó với OpenClaw để có trợ lý AI cá nhân của bạn.

Giới thiệu

Chạy AI cục bộ từng là một thú vui của những người yêu thích công nghệ, đòi hỏi thiết lập phức tạp và phần cứng đắt tiền. Ollama đã thay đổi điều đó. Với một lệnh cài đặt đơn giản và API trực quan, Ollama giúp bất kỳ ai cũng có thể chạy các mô hình AI cục bộ.

ollama launch openclaw --model qwen3.5:35b

Khi kết hợp với OpenClaw, bạn sẽ có một trợ lý AI mạnh mẽ với các đặc điểm sau:

Không tốn phí vận hành (sau khi thiết lập ban đầu)
Giữ dữ liệu của bạn riêng tư 100%
Hoạt động ngoại tuyến sau khi các mô hình được tải xuống
Cung cấp toàn quyền kiểm soát tùy chỉnh

Hướng dẫn này bao gồm mọi thứ bạn cần để bắt đầu.

Tại sao nên sử dụng Ollama với OpenClaw

Lợi ích của AI cục bộ

Quyền riêng tư: Các cuộc trò chuyện của bạn không bao giờ rời khỏi máy của bạn
Không tốn chi phí API: Trả tiền một lần cho phần cứng, sử dụng không giới hạn
Truy cập ngoại tuyến: Hoạt động mà không cần internet
Kiểm soát hoàn toàn: Tùy chỉnh mô hình và lời nhắc
Không giới hạn tốc độ: Sử dụng tùy thích

Tại sao lại là Ollama

Ollama nổi bật vì một số lý do:

Cài đặt đơn giản: Chỉ cần một lệnh để bắt đầu
Thư viện mô hình: Hơn 100 mô hình có sẵn
Đa nền tảng: Hoạt động trên macOS, Linux, Windows
API-first: Tích hợp dễ dàng với OpenClaw
Phát triển tích cực: Cập nhật thường xuyên và các mô hình mới

Điều kiện tiên quyết

Trước khi bắt đầu, hãy đảm bảo bạn có:

Yêu cầu phần cứng

Kích thước mô hình	RAM tối thiểu	RAM khuyến nghị
7B tham số	8GB	16GB
14B tham số	16GB	32GB
32B tham số	32GB	64GB
70B tham số	64GB	128GB

Yêu cầu phần mềm

macOS 10.15+, Linux, hoặc Windows 10+
Quyền quản trị/root để cài đặt
Kết nối Internet để tải xuống ban đầu
Quen thuộc với dòng lệnh

Những gì bạn sẽ cần

Một máy tính đáp ứng yêu cầu về RAM
Internet để tải xuống các mô hình
Thời gian để tải xuống các mô hình ban đầu (thay đổi tùy theo kích thước và kết nối)

Cài đặt Ollama

Cài đặt trên macOS

Phương pháp dễ nhất là sử dụng Homebrew:

brew install ollama

Hoặc sử dụng tập lệnh cài đặt chính thức:

curl -fsSL https://ollama.ai/install.sh | sh

Cài đặt trên Linux

# Sử dụng tập lệnh cài đặt (được khuyến nghị)
curl -fsSL https://ollama.ai/install.sh | sh

# Hoặc tải xuống tệp nhị phân trực tiếp
sudo curl -L https://ollama.ai/download/ollama-linux-amd64 -o /usr/bin/ollama
sudo chmod +x /usr/bin/ollama

Cài đặt trên Windows

Tải xuống trình cài đặt
Chạy trình cài đặt
Làm theo hướng dẫn trên màn hình

Xác minh cài đặt

ollama --version

Bạn sẽ thấy đầu ra như ollama version 0.15.0 hoặc mới hơn.

Khởi động dịch vụ Ollama

Ollama chạy như một dịch vụ nền:

# Kiểm tra xem Ollama có đang chạy không
ollama list

# Khởi động Ollama nếu chưa chạy
ollama serve

Kiểm tra xem ollama có đang chạy bằng lệnh Ollama list

Chọn mô hình phù hợp

Ollama hỗ trợ hơn 100 mô hình. Dưới đây là cách chọn:

Theo trường hợp sử dụng

Trường hợp sử dụng	Mô hình khuyến nghị
Trò chuyện chung	Qwen3.5, Llama 3.2, Mistral
Hỗ trợ viết code	Qwen3.5-Coder, DeepSeek-Coder
Suy luận/toán học	DeepSeek-R1, Qwen3.5
Phần cứng nhỏ hơn	Phi3.5, Gemma2.2B

Theo phần cứng

RAM khả dụng	Khuyến nghị
8GB	Các mô hình 7B (Qwen3.5, Llama3.2, Mistral)
16GB	Các mô hình 8-14B
32GB	Các mô hình 14-32B
64GB+	Các mô hình 70B+

Các mô hình phổ biến vào năm 2026

Qwen3.5 — Hiệu suất toàn diện xuất sắc, khả năng suy luận mạnh mẽ, tốt cho việc viết mã. Là lựa chọn phổ biến nhất cho OpenClaw vào năm 2026.

DeepSeek-R1 — Mô hình suy luận mã nguồn mở có thể cạnh tranh với GPT-4 trong các tác vụ toán học và logic. Tuyệt vời cho việc giải quyết vấn đề phức tạp.

Mistral — Nhẹ nhưng có khả năng. Tuyệt vời cho các hệ thống có RAM hạn chế.

Cài đặt mô hình

Tải mô hình

# Cài đặt Qwen3.5 (được khuyến nghị cho hầu hết người dùng)
ollama pull qwen2.5:7b

# Hoặc Qwen3 mới nhất
ollama pull qwen3:7b

# DeepSeek-R1 cho các tác vụ suy luận
ollama pull deepseek-r1:7b

# Llama 3.2
ollama pull llama3.2:7b

# Mistral
ollama pull mistral:7b

Thẻ mô hình

Các mô hình có nhiều kích thước khác nhau:

# Các kích thước tham số khác nhau
ollama pull qwen2.5:3b    # Nhỏ hơn, nhanh hơn
ollama pull qwen2.5:7b    # Cân bằng
ollama pull qwen2.5:14b   # Mạnh mẽ hơn

Xem các mô hình đã cài đặt

ollama list

Điều này hiển thị tất cả các mô hình đã tải xuống và kích thước của chúng.

Chạy và kiểm tra mô hình

Chế độ tương tác

# Trò chuyện với mô hình
ollama run qwen2.5:7b

Nhập tin nhắn của bạn và nhấn Enter. Nhập /bye để thoát.

Chế độ API

Ollama chạy một máy chủ API trên cổng 11434 theo mặc định:

# Điểm cuối tạo
curl http://localhost:11434/api/generate -d {
  "model": "qwen2.5:7b",
  "prompt": "Hello, how are you?",
  "stream": false
}

Sử dụng thư viện Python

from ollama import Client

client = Client()
response = client.chat(
    model='qwen2.5:7b',
    messages=[
        {'role': 'user', 'content': 'Hello!'}
    ]
)
print(response['message']['content'])

Kiểm tra với Apidog

Trước khi kết nối với OpenClaw, hãy kiểm tra thiết lập Ollama của bạn bằng cách sử dụng Apidog:

Tạo một yêu cầu mới trong Apidog
Đặt phương thức là POST
Nhập URL: http://localhost:11434/api/generate
Thêm tiêu đề: Content-Type: application/json

5. Thêm nội dung:

{
  "model": "qwen3-coder",
  "prompt": "What is 2 + 2?",
  "stream": false
}

Điều này xác minh thiết lập Ollama của bạn hoạt động trước khi tích hợp với OpenClaw.

Tích hợp Ollama với OpenClaw

Bây giờ, hãy kết nối Ollama với OpenClaw.

Phương pháp 1: Cấu hình nhanh

# Đặt OpenClaw sử dụng Ollama với mô hình của bạn
openclaw models set ollama/qwen2.5:7b

Phương pháp 2: Biến môi trường

# Cấu hình điểm cuối Ollama
export OLLAMA_HOST=http://localhost:11434

# Đặt mô hình mặc định
export OLLAMA_MODEL=qwen2.5:7b

Phương pháp 3: Tệp cấu hình

Tạo hoặc chỉnh sửa ~/.openclaw/config.yaml:

models:
  default: ollama/qwen2.5:7b

ollama:
  host: http://localhost:11434
  model: qwen2.5:7b
  temperature: 0.7
  top_p: 0.9

Xác minh tích hợp

# Kiểm tra trạng thái mô hình OpenClaw
openclaw models status

# Kiểm tra bằng tin nhắn
openclaw chat "Hello!"

Bạn sẽ nhận được phản hồi từ mô hình cục bộ của mình.

Tùy chọn cấu hình

Tinh chỉnh thiết lập Ollama + OpenClaw của bạn:

Nhiệt độ (Temperature)

Kiểm soát sự sáng tạo so với độ chính xác:

ollama:
  temperature: 0.7    # 0.0 = chính xác, 1.0 = sáng tạo

Top-P và Top-K

Kiểm soát sự đa dạng của phản hồi:

ollama:
  top_p: 0.9         # Lấy mẫu hạt nhân
  top_k: 40          # Chọn mã thông báo

Độ dài ngữ cảnh

Đối với các cuộc hội thoại dài hơn:

ollama:
  context_size: 4096  # Mặc định thường là 2048 hoặc 4096

Lời nhắc hệ thống

Tùy chỉnh hành vi mô hình:

ollama:
  system_prompt: |
    Bạn là một trợ lý viết mã hữu ích.
    Cung cấp các ví dụ mã rõ ràng, súc tích.
    Giải thích các khái niệm một cách đơn giản.

Chuyển đổi giữa các mô hình

Một lợi thế của Ollama là dễ dàng chuyển đổi mô hình:

# Chuyển sang DeepSeek-R1 cho tác vụ suy luận
openclaw models set ollama/deepseek-r1:7b

# Chuyển sang Qwen-Coder cho tác vụ viết mã
openclaw models set ollama/qwen2.5-coder:7b

# Chuyển về mô hình chung
openclaw models set ollama/qwen2.5:7b

Thiết lập nhiều mô hình

Cấu hình nhiều mô hình trong config.yaml:

models:
  default: ollama/qwen2.5:7b
  coding: ollama/qwen2.5-coder:7b
  reasoning: ollama/deepseek-r1:7b

Sau đó chuyển đổi giữa chúng:

openclaw models set coding
openclaw models set reasoning

Khắc phục sự cố

Mô hình không tải được

Vấn đề: Lỗi hết bộ nhớ

Giải pháp:

Sử dụng mô hình nhỏ hơn (7B thay vì 14B)
Đóng các ứng dụng khác để giải phóng RAM
Kiểm tra bộ nhớ khả dụng bằng free -h (Linux) hoặc Activity Monitor (Mac)

Phản hồi chậm

Vấn đề: Phản hồi quá lâu

Giải pháp:

Sử dụng mô hình nhỏ hơn
Bật tăng tốc GPU (nếu có)
Giảm kích thước ngữ cảnh
Sử dụng ổ đĩa SSD cho các tệp mô hình

Kết nối bị từ chối

Vấn đề: OpenClaw không thể kết nối với Ollama

Giải pháp:

# Xác minh Ollama đang chạy
ollama serve

# Kiểm tra cổng
curl http://localhost:11434

Không tìm thấy mô hình

Vấn đề: Mô hình không tồn tại trong Ollama

Giải pháp:

# Tải mô hình
ollama pull qwen2.5:7b

# Kiểm tra các mô hình có sẵn
ollama list

Kết luận

Giờ đây, bạn đã có một trợ lý AI mạnh mẽ, riêng tư chạy cục bộ. Ollama + OpenClaw mang đến những khả năng mà với các lựa chọn thay thế đám mây sẽ tốn hơn 20 đô la/tháng — tất cả đều chạy trên phần cứng mà bạn kiểm soát.

Những gì bạn có thể làm bây giờ:

Trò chuyện với AI của bạn qua nhiều nền tảng
Chuyển đổi giữa các mô hình dựa trên tác vụ
Tùy chỉnh lời nhắc cho các hành vi chuyên biệt
Chạy ngoại tuyến sau khi các mô hình được tải xuống

Giới hạn duy nhất là phần cứng của bạn.

Các bước tiếp theo:

Thử nghiệm với các mô hình khác nhau
Thử Qwen3.5, DeepSeek-R1 và các mô hình khác
Tùy chỉnh lời nhắc hệ thống của bạn
Khám phá các kỹ năng của OpenClaw trên ClawHub

Sẵn sàng xây dựng ứng dụng AI chuyên nghiệp? Tải xuống Apidog miễn phí và kiểm tra các tích hợp AI của bạn với giao diện trực quan được thiết kế cho các nhà phát triển.

button

Câu hỏi thường gặp

Mô hình Ollama nào tốt nhất cho OpenClaw?

Qwen3.5 hiện là mô hình phổ biến nhất — hiệu suất cân bằng với khả năng suy luận và viết mã tốt. DeepSeek-R1 vượt trội trong các tác vụ suy luận nếu đó là ưu tiên của bạn.

Tôi có thể chạy nhiều mô hình Ollama cùng lúc không?

Có, nhưng mỗi mô hình yêu cầu RAM. Một thiết lập điển hình chạy một mô hình tại một thời điểm, chuyển đổi khi cần thiết.

Tôi có cần GPU không?

Không, Ollama hoạt động trên CPU. Tăng tốc GPU giúp nó nhanh hơn nhưng không bắt buộc. Các mô hình nhỏ hơn (7B) hoạt động khá tốt trên CPU.

Làm cách nào để cập nhật mô hình?

ollama pull model-name

Ollama tự động cập nhật nếu có phiên bản mới hơn.

Tôi có thể sử dụng các mô hình đã tinh chỉnh của riêng mình không?

Có, bạn có thể nhập các mô hình tùy chỉnh bằng chức năng nhập của Ollama. Kiểm tra tài liệu của Ollama để biết chi tiết.