Bạn phải đối mặt với hóa đơn điện toán đám mây cao khi chạy các tác nhân AI mạnh mẽ mỗi ngày. Qwen3.5 cung cấp cho bạn khả năng suy luận đa phương thức cấp tiên tiến ngay tại cục bộ. Bạn kết hợp nó với OpenClaw để có các quy trình làm việc tác nhân liên tục và Ollama để phục vụ cục bộ đơn giản. Kết quả là một tác nhân AI hoàn chỉnh hoạt động 24/7 trên máy của bạn mà không cần đăng ký.
Những lựa chọn nhỏ đều quan trọng. Bạn chọn đúng thẻ mô hình. Bạn đặt URL cơ sở chính xác. Những quyết định này tạo ra sự khác biệt lớn về tốc độ và độ tin cậy. Hướng dẫn này chỉ cho bạn các bước chính xác để bạn hoàn thành với một chồng công nghệ sẵn sàng sản xuất mà bạn kiểm soát hoàn toàn.
Điều gì khiến Qwen3.5 hoàn hảo cho công việc tác nhân cục bộ
Alibaba đã phát hành Qwen3.5 vào đầu năm 2026 với tư cách là dòng mô hình ngôn ngữ-thị giác bản địa đầu tiên của mình. Phiên bản flagship 397B-A17B sử dụng kiến trúc lai. Nó kết hợp Mạng Delta có cổng với Mixture-of-Experts thưa thớt. Chỉ 17 tỷ tham số được kích hoạt trên mỗi token. Bạn nhận được hiệu suất mạnh mẽ với bộ nhớ ít hơn đáng kể.

Ollama cung cấp các thẻ thực tế này mà bạn có thể tải về ngay hôm nay:
- qwen3.5:35b — phù hợp với 24 GB VRAM, ngữ cảnh 256K, hỗ trợ đầy đủ văn bản và hình ảnh
- qwen3.5:122b — cần 81 GB để suy luận sâu hơn
Bạn chạy qwen3.5 cục bộ và giữ dữ liệu của mình riêng tư. Mô hình đạt 86.7 điểm trên TAU2-Bench và 85.0 trên MMMU. Do đó, bạn có thể tin tưởng nó cho các tác vụ tác nhân kết hợp văn bản, ảnh chụp màn hình và lời gọi công cụ.
Cách OpenClaw biến Qwen3.5 thành một tác nhân thực thụ
OpenClaw chạy như thời gian chạy tác nhân luôn hoạt động của bạn. Bạn kết nối nó với WhatsApp, Telegram, Slack, Discord hoặc Signal một lần. Tác nhân lắng nghe liên tục. Khi bạn gửi tin nhắn, OpenClaw định tuyến nó đến qwen3.5, gọi các công cụ, điều khiển trình duyệt của bạn bằng Playwright, chỉnh sửa tệp, cập nhật lịch và trả lời chủ động.

Bạn lưu trữ bộ nhớ qua các phiên. Tác nhân ghi nhớ các dự án và tùy chọn của bạn mãi mãi. Bạn cài đặt các kỹ năng cộng đồng hoặc để qwen3.5 viết các kỹ năng mới theo yêu cầu. Do đó, OpenClaw trở thành trợ lý kỹ thuật số cá nhân của bạn không bao giờ ngủ.
Tại sao Ollama giúp việc tích hợp đơn giản
Ollama phục vụ các mô hình cục bộ và hiển thị một điểm cuối tương thích OpenAI trên cổng 11434. Bạn trỏ OpenClaw đến http://localhost:11434/v1 và đặt mô hình thành qwen3.5:35b. Ollama tự động xử lý lượng tử hóa, giảm tải GPU và quản lý ngữ cảnh.
Bạn đạt được tốc độ tạo token nhanh trên phần cứng thông thường. Bạn giữ cửa sổ ngữ cảnh 256K đầy đủ mà qwen3.5 cần cho các cuộc hội thoại tác nhân dài. Đồng thời, bạn tránh được chi phí đám mây và rò rỉ dữ liệu.
Các điều kiện tiên quyết bạn cần đáp ứng
Bạn chuẩn bị máy của mình trước khi bắt đầu. Sử dụng macOS 14 trở lên, Ubuntu 22.04/24.04 hoặc Windows 11 với WSL2. Bạn cần ít nhất 24 GB VRAM cho mô hình 35B hoặc 32 GB bộ nhớ hợp nhất trên Apple Silicon. Giữ 30 GB dung lượng đĩa trống. Cài đặt Node.js 22 trở lên và Ollama 0.17 hoặc mới hơn.
Bạn sẽ kiểm tra GPU của mình sau bằng một lệnh. Phần cứng đáp ứng các yêu cầu này sẽ mang lại cho bạn hiệu suất phản hồi tốt. Bạn có thể quay lại sử dụng các mô hình lượng tử hóa nhỏ hơn nếu có ít bộ nhớ hơn.
Cài đặt Ollama và tải Qwen3.5
Bạn bắt đầu bằng cách cài đặt Ollama. Trên macOS, bạn chạy:
brew install ollama
brew services start ollama
Trên Linux, bạn chạy:
curl -fsSL https://ollama.com/install.sh | sh
systemctl enable --now ollama
Bạn xác nhận dịch vụ đang chạy bằng ollama list. Tiếp theo, bạn tải mô hình:
ollama pull qwen3.5:35b
Quá trình tải xuống hoàn tất trong 10 đến 30 phút. Bạn kiểm tra suy luận cơ bản:
ollama run qwen3.5:35b
Bạn nhập một lời nhắc trong REPL. Qwen3.5 trả lời chính xác. Bạn thoát bằng /bye.
Bạn kiểm tra ngay điểm cuối tương thích OpenAI vì OpenClaw cần nó:
curl http://localhost:11434/v1/models
Phản hồi liệt kê qwen3.5:35b. Bạn biết rằng cầu nối hoạt động.
Khởi chạy OpenClaw với Qwen3.5
Bạn sử dụng một lệnh Ollama để cài đặt và khởi động mọi thứ:
ollama launch openclaw --model qwen3.5:35b
Ollama cài đặt các thành phần bị thiếu, khởi động cổng và mở trình hướng dẫn TUI. Bạn kết nối các kênh nhắn tin của mình, xác nhận nhà cung cấp mô hình và lưu cài đặt. Cổng chạy trên cổng 8080.
Bạn kiểm tra bằng cách nhắn tin cho bot của mình trên Telegram: "Liệt kê các tệp trong thư mục Downloads của tôi." OpenClaw sử dụng qwen3.5 và trả về kết quả.
Bạn cũng có thể cấu hình thủ công. Bạn chỉnh sửa ~/.openclaw/openclaw.json và đặt URL cơ sở của nhà cung cấp Ollama. Bạn khởi động lại bằng openclaw start. Cả hai phương pháp đều cho kết quả giống hệt nhau.
Kiểm tra toàn bộ hệ thống với Apidog
Bạn mở Apidog và tạo một dự án mới có tên “Qwen3.5 OpenClaw Local Stack”. Bạn đặt URL cơ sở là http://localhost:11434/v1.

Bạn thêm một yêu cầu POST đến /chat/completions. Bạn bao gồm các tiêu đề này:
- Content-Type: application/json
- Authorization: Bearer ollama
Bạn sử dụng nội dung này:
{
"model": "qwen3.5:35b",
"messages": [
{"role": "system", "content": "Bạn là một tác nhân hữu ích."},
{"role": "user", "content": "Lập kế hoạch các bước để sắp xếp thư mục Downloads của tôi theo loại tệp."}
],
"temperature": 0.7,
"max_tokens": 2048
}
Bạn gửi yêu cầu. Apidog hiển thị các token streaming theo thời gian thực. Bạn thêm một xác nhận trực quan cho mã trạng thái 200. Bạn lưu yêu cầu làm một kịch bản kiểm thử. Bạn chạy lại kịch bản sau khi thay đổi cài đặt. Do đó, bạn phát hiện vấn đề ngay lập tức.
Bạn tạo một bộ sưu tập thứ hai cho cổng của OpenClaw tại http://localhost:8080/v1. Bạn kiểm tra định tuyến tin nhắn đầu cuối. Xác thực schema của Apidog xác nhận các định dạng gọi công cụ khớp với những gì OpenClaw mong đợi.
Thiết kế và lập tài liệu các điểm cuối của bạn trong Apidog
Bạn sử dụng trình thiết kế trực quan của Apidog để tạo mô hình schema hoàn thành cuộc trò chuyện. Bạn nhập đặc tả OpenAI chính thức. Bạn tùy chỉnh nó cho các tham số qwen3.5. Bạn tạo tài liệu tương tác tự động. Bạn chia sẻ tài liệu với đồng đội thông qua không gian làm việc của Apidog nếu bạn làm việc cùng nhau.

Bạn cũng tạo các phản hồi giả lập trong Apidog. Bạn mô phỏng các lời gọi công cụ trước khi hoàn thành cài đặt OpenClaw đầy đủ. Do đó, bạn phát triển nhanh hơn và kiểm tra các trường hợp biên an toàn.
Cấu hình nâng cao để có hiệu suất tốt hơn
Bạn tạo một Modelfile tùy chỉnh khi cần lượng tử hóa nhẹ hơn:
FROM qwen3.5:35b
PARAMETER num_gpu 999
PARAMETER num_ctx 131072
Bạn xây dựng nó bằng ollama create qwen3.5:35b-q4 -f Modelfile. Bạn cập nhật cấu hình OpenClaw của mình để sử dụng thẻ mới.
Bạn bật tính năng thị giác bằng cách gửi hình ảnh base64 trong tin nhắn trò chuyện. Qwen3.5 xử lý các ảnh chụp màn hình mà OpenClaw chụp trong quá trình thực hiện tác vụ trình duyệt. Do đó, bạn tự động hóa các biểu mẫu yêu cầu hiểu biết trực quan.
Bạn cài đặt các kỹ năng bổ sung:
openclaw skill install @community/calendar
openclaw skill install @community/github
Mỗi kỹ năng đăng ký các schema JSON. Qwen3.5 học cách gọi chúng tự động. Bạn theo dõi việc sử dụng bên trong bảng điều khiển OpenClaw.
Các quy trình làm việc thực tế bạn có thể chạy hôm nay
Bạn sử dụng chồng công nghệ này để xem xét mã. Bạn nhắn tin cho OpenClaw: "Xem xét PR trong kho lưu trữ của tôi và đề xuất các chỉnh sửa." Tác nhân sao chép kho lưu trữ, phân tích mã và tạo một bản vá.
Bạn tự động hóa các tác vụ cá nhân. Bạn viết: "Kiểm tra hộp thư đến của tôi để tìm xác nhận chuyến bay và thêm chúng vào lịch." OpenClaw phân tích email và cập nhật lịch của bạn.
Bạn xây dựng các trợ lý nghiên cứu. Bạn gửi một ảnh chụp màn hình PDF và yêu cầu tóm tắt cùng với các câu hỏi tiếp theo. Qwen3.5 trích xuất văn bản chính xác. OpenClaw giữ ngữ cảnh qua nhiều ngày.
Bạn chạy nhiều tác nhân. Bạn khởi chạy các không gian làm việc OpenClaw riêng biệt. Một cái sử dụng qwen3.5:35b cho công việc chung. Một cái khác sử dụng một mô hình lập trình viên chuyên biệt. Cổng định tuyến tin nhắn đúng cách.
Tối ưu hóa tốc độ và mức sử dụng bộ nhớ
Bạn đặt OLLAMA_NUM_GPU=999 để sử dụng tất cả các lớp GPU. Bạn theo dõi bằng nvidia-smi. Trên Apple Silicon, bạn bật flash attention.
Bạn giảm sự phình to ngữ cảnh bằng các lời nhắc tóm tắt định kỳ mà qwen3.5 tự động chạy. Bạn so sánh tỷ lệ token mỗi giây. Mô hình 35B đạt 45–60 token mỗi giây trên GPU loại 4090. Bạn chọn biến thể phù hợp với phần cứng của mình.
Bạn sử dụng tính năng kiểm thử hiệu suất của Apidog để đo độ trễ trên 100 yêu cầu. Bạn điều chỉnh nhiệt độ và max_tokens cho đến khi đạt được thời gian phản hồi mục tiêu của mình.
Giải quyết các vấn đề thường gặp một cách nhanh chóng
Bạn thấy “model not found.” Bạn chạy ollama list và sửa thẻ trong cấu hình của mình.
Bạn gặp độ trễ cao. Bạn kiểm tra nhật ký bằng journalctl -u ollama và tăng số lớp GPU. Bạn sử dụng Apidog để kiểm tra lại cùng một yêu cầu và xác nhận sự cải thiện.
Phân tích lời gọi công cụ thất bại. Bạn khóa nhiệt độ ở 0.7 trong các kịch bản kiểm thử Apidog và chạy lại.
OpenClaw mất kết nối với một ứng dụng nhắn tin. Bạn chạy openclaw configure --section channels để làm mới token.
Bạn gặp giới hạn tỷ lệ trong Ollama. Bạn tăng cài đặt đồng thời và kiểm tra lại trong Apidog.
Bạn sử dụng bảng kiểm tra lỗi của Apidog cho mọi vấn đề. Dấu vết ngăn xếp trực quan và so sánh phản hồi giúp tăng tốc độ sửa lỗi đáng kể.
Giữ thiết lập của bạn an toàn
Bạn chạy OpenClaw dưới một tài khoản người dùng chuyên dụng. Bạn bật sandboxing cho việc thực thi công cụ. Bạn không bao giờ công khai các cổng 11434 hoặc 8080. Bạn truy cập chúng thông qua đường hầm SSH hoặc Tailscale khi đi du lịch.
Bạn xem xét mọi nguồn kỹ năng trước khi cài đặt. Bạn bật mã hóa bộ nhớ trong cài đặt OpenClaw. Bạn sao lưu thư mục ~/.openclaw thường xuyên.
Do đó, bạn vận hành một hệ thống an toàn hơn hầu hết các dịch vụ đám mây vì dữ liệu của bạn không bao giờ rời khỏi mạng của bạn.
Lập kế hoạch cho các bản cập nhật trong tương lai
Alibaba thường xuyên phát hành các biến thể Qwen3.5 nhỏ hơn. Ollama thêm chúng nhanh chóng. Bạn tải các bản cập nhật bằng ollama pull qwen3.5:35b --force.
Thư viện kỹ năng của OpenClaw phát triển mỗi tuần. Bạn kiểm tra thông báo GitHub để cập nhật.
Bạn lặp lại quy trình kiểm thử Apidog sau mỗi bản cập nhật. Bạn giữ bộ sưu tập kiểm thử của mình và chỉ cần thay đổi thẻ mô hình. Do đó, bạn duy trì độ tin cậy mà không cần thêm công sức.
Kết luận
Giờ đây, bạn chạy qwen3.5 với OpenClaw miễn phí bằng Ollama. Bạn kiểm soát toàn bộ hệ thống trên phần cứng của mình. Bạn có được khả năng suy luận mạnh mẽ, hỗ trợ thị giác, bộ nhớ liên tục và tự động hóa chủ động.
Bạn đã làm theo các bước rõ ràng. Bạn đã kiểm tra mọi lớp với Apidog. Bạn đã tối ưu hóa hiệu suất và bảo mật môi trường. Những lựa chọn cấu hình nhỏ đã tạo ra một tác nhân AI cá nhân có năng lực.
Mở terminal của bạn ngay bây giờ. Chạy lệnh khởi chạy. Kết nối các ứng dụng nhắn tin của bạn. Gửi tác vụ đầu tiên của bạn. Bạn sẽ thấy một tác nhân hoàn toàn cục bộ mạnh mẽ đến mức nào.
Tải xuống Apidog để theo dõi các bản cập nhật trong tương lai và tiếp tục kiểm thử các điểm cuối của bạn một cách hiệu quả. Bạn đã có mọi thứ cần thiết để xây dựng các quy trình làm việc thông minh hơn ngay hôm nay.

