Bạn muốn truy cập vào một trong những mô hình mở có năng lực nhất năm 2026—GLM-5 từ Z.ai—mà không phải trả một xu nào cho các cuộc gọi API hoặc điện toán đám mây. Các kỹ sư và nhà phát triển đạt được điều này ngay hôm nay bằng cách chạy GLM-5 cục bộ trên phần cứng tiêu dùng và chuyên nghiệp. Lượng tử hóa mạnh mẽ của Unsloth thu nhỏ mô hình Mixture-of-Experts 744B tham số (40B hoạt động) từ 1.65TB xuống chỉ còn 241GB, và bạn có thể triển khai nó thông qua llama.cpp, Ollama, hoặc vLLM.
Bạn chạy GLM-5 cục bộ! Quá trình này đòi hỏi sự chú ý đến phần cứng, các bước xây dựng chính xác và các chiến lược giảm tải thông minh. Hướng dẫn này sẽ hướng dẫn bạn qua mọi phương pháp, giải thích tại sao mỗi lệnh lại quan trọng và chỉ cho bạn cách tối đa hóa hiệu suất từ thiết lập của mình. Bạn sẽ có được chủ quyền dữ liệu hoàn toàn, độ trễ bằng 0 cho các quy trình làm việc tự động và suy luận không giới hạn.
Điều gì khiến GLM-5 trở thành yếu tố thay đổi cuộc chơi cho việc triển khai cục bộ?
Z.ai đã phát hành GLM-5 như là phiên bản kế nhiệm của GLM-4.7. Mô hình này mở rộng đến tổng số 744B tham số với 40B hoạt động trên mỗi token, được huấn luyện trên 28.5T token. Nó mang lại kết quả hàng đầu trong các thử nghiệm tác nhân: 77.8% trên SWE-bench Verified, 89.7% trên τ²-Bench và 61.1% trên Terminal-Bench 2.0 với các công cụ.
Bạn được hưởng lợi từ cửa sổ ngữ cảnh 200K nhờ DeepSeek Sparse Attention. Mô hình vượt trội trong suy luận tầm xa, gọi công cụ đa lượt và tạo mã phức tạp. Hơn nữa, giấy phép MIT mở cho phép bạn chạy, sửa đổi và thậm chí thương mại hóa nó mà không bị hạn chế.

Tuy nhiên, mô hình thô đòi hỏi 1.65TB dung lượng lưu trữ và VRAM khổng lồ. Unsloth đã thay đổi cuộc chơi bằng cách phát hành các lượng tử hóa Dynamic 2.0 GGUF—UD-IQ2_XXS ở 241GB (-85%) và 1-bit ở 176GB (-89%). Các phiên bản này bảo toàn chất lượng suy luận thông qua nâng cấp lớp thông minh trong khi vẫn phù hợp với Mac có bộ nhớ hợp nhất 256GB hoặc một GPU 24GB duy nhất kết hợp với RAM hệ thống 256GB.
Bạn chạy GLM-5 cục bộ với các lượng tử hóa này vì chúng cân bằng giữa kích thước, tốc độ và khả năng. Các thử nghiệm cho thấy sự suy giảm tối thiểu về chất lượng mã hóa và tác vụ so với độ chính xác đầy đủ.

Tại sao nên chạy GLM-5 cục bộ thay vì sử dụng API đám mây?
Bạn loại bỏ các chi phí định kỳ. Các nhà cung cấp đám mây tính phí theo token, và khả năng của GLM-5 khiến việc sử dụng nhiều trở nên đắt đỏ nhanh chóng. Suy luận cục bộ không tốn chi phí gì ngoài điện.
Bạn bảo vệ dữ liệu nhạy cảm. Các doanh nghiệp và nhà nghiên cứu giữ mã độc quyền, hồ sơ y tế hoặc truy vấn khách hàng hoàn toàn ngoại tuyến.
Bạn đạt được độ trễ thấp hơn. Các mô hình cục bộ phản hồi trong mili giây cho các cuộc trò chuyện và vòng lặp gọi công cụ. Bạn chuỗi các tác nhân mà không cần nhảy mạng.
Bạn tùy chỉnh tự do. Bạn tinh chỉnh với Unsloth, tạo Modelfile trong Ollama hoặc xây dựng các công cụ tùy chỉnh trong vLLM.
Hơn nữa, bạn thử nghiệm mà không bị giới hạn tốc độ. Bạn kiểm tra ngữ cảnh 200K, chạy các cuộc hội thoại 1000 lượt hoặc thử nghiệm độ chính xác của việc gọi công cụ qua đêm.
Yêu cầu phần cứng: Những gì bạn thực sự cần
Bạn điều chỉnh thiết lập của mình theo mức lượng tử hóa.
- 2-bit UD-IQ2_XXS (241GB): Chạy trên Apple M-series với 256GB bộ nhớ hợp nhất hoặc NVIDIA 24GB GPU + 256GB RAM với tính năng giảm tải MoE.
- 1-bit (176GB): Phù hợp với RAM 180GB.
- FP8 (vLLM): Đòi hỏi 8×H200 hoặc tương đương—tổng cộng hơn 800GB VRAM.
- Tối thiểu khả thi: 64GB RAM + CPU hiện đại cho các ngữ cảnh rất nhỏ; khuyến nghị 128GB+ cho công việc thực tế.
Bạn theo dõi mức sử dụng bằng nvidia-smi trên Linux hoặc Activity Monitor trên macOS. Ổ cứng SSD tăng tốc quá trình giảm tải. Bạn phân bổ ít nhất 50GB trống cho các tệp mô hình và bộ nhớ đệm.
Phương pháp 1: Chạy GLM-5 cục bộ với Unsloth GGUF trong llama.cpp (Dễ tiếp cận nhất)
Bạn chọn con đường này để có sự linh hoạt và hiệu quả tối đa trên phần cứng hỗn hợp.
Bước 1: Xây dựng llama.cpp với hỗ trợ GLM-5
Bạn cần llama.cpp mới nhất với PR 19460 đã được hợp nhất.
apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON # Sử dụng -DGGML_CUDA=OFF cho chỉ CPU
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .
Bạn chạy lệnh này một lần. Quá trình xây dựng mất 10–20 phút tùy thuộc vào máy của bạn.
Bước 2: Tải xuống mô hình đã được lượng tử hóa
Bạn sử dụng huggingface_hub để truyền dữ liệu nhanh.
pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"
Bây giờ bạn có mô hình 241GB được chia thành các phân đoạn.
Bước 3: Khởi chạy suy luận
Bạn khởi động CLI để sử dụng tương tác.
export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
-hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
--jinja \
--ctx-size 32768 \
--flash-attn on \
--temp 0.7 \
--top-p 1.0 \
--fit on
Bạn thêm --threads 32 cho các thiết lập nặng CPU hoặc -ot ".ffn_.*_exps.=CPU" để giảm tải các chuyên gia MoE.
Bước 4: Cung cấp dưới dạng API OpenAI
Bạn phơi bày mô hình cho các ứng dụng.
./llama-server \
--model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
--alias "glm-5" \
--fit on \
--ctx-size 32768 \
--port 8000 \
--jinja
Bây giờ bạn trỏ bất kỳ máy khách OpenAI nào đến http://localhost:8000/v1.
Bạn đạt được 3–8 token/giây trên GPU 24GB với thiết lập này. Bạn mở rộng ngữ cảnh lên 128K mà không bị treo khi sử dụng --fit on.
Phương pháp 2: Chạy GLM-5 cục bộ với Ollama (Dễ nhất cho người mới bắt đầu)
Bạn ưa thích sự đơn giản. Ollama xử lý các bản tải xuống, lượng tử hóa và phục vụ tự động.
Cài đặt
Bạn tải xuống từ ollama.com và chạy trình cài đặt. Trên Linux:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Tải và chạy GLM-5
Bạn sử dụng thẻ được cộng đồng tối ưu hóa.
ollama pull glm-5:cloud
ollama run glm-5:cloud
Bạn tương tác trực tiếp trong terminal hoặc thông qua API tại http://localhost:11434/v1.
Tạo một Modelfile tùy chỉnh
Bạn điều chỉnh lời nhắc hệ thống và các tham số.
FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072
Bạn xây dựng và chạy:
ollama create my-glm5 -f Modelfile
ollama run my-glm5
Bạn tích hợp với Claude Code, Cursor hoặc Continue.dev bằng cách thiết lập điểm cuối Ollama. Bạn có được một giải pháp thay thế cục bộ tinh tế cho các tác nhân mã hóa đám mây.
Phương pháp 3: Triển khai nâng cao với vLLM (Hiệu suất tối đa)
Bạn cần thông lượng cao nhất cho các tác nhân sản xuất.
Bạn cài đặt bản dựng hàng đêm:
uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130
Bạn khởi chạy máy chủ (phiên bản FP8 yêu cầu 8×H200):
vllm serve unsloth/GLM-5-FP8 \
--served-model-name glm-5 \
--tensor-parallel-size 8 \
--kv-cache-dtype fp8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--max-model-len 200000 \
--gpu-memory-utilization 0.93
Bạn bật giải mã suy đoán và gọi công cụ. Bạn phục vụ hàng ngàn yêu cầu mỗi phút trên một cụm đa GPU.
Kiểm tra và gỡ lỗi GLM-5 cục bộ của bạn với Apidog
Bạn kết nối Apidog với điểm cuối của mình và xác minh mọi thứ hoạt động.

Bạn tạo một dự án mới, đặt URL cơ sở thành http://localhost:8000/v1 (hoặc 11434 cho Ollama) và định nghĩa điểm cuối /chat/completions.
Bạn xây dựng các yêu cầu trực quan:
- Mô hình:
glm-5 - Tin nhắn: hệ thống + người dùng
- Nhiệt độ: 0.7
- Công cụ: định nghĩa lược đồ JSON cho việc gọi hàm
Bạn gửi yêu cầu, kiểm tra phản hồi luồng và lưu các bộ sưu tập để kiểm tra hồi quy. Bạn tạo SDK Python hoặc JavaScript ngay lập tức. Bạn mô phỏng phản hồi cho các nhóm giao diện người dùng.
Apidog biến GLM-5 cục bộ của bạn thành một nền tảng phát triển hạng nhất. Bạn lặp lại trên các tác nhân, xác thực đầu ra công cụ và đo độ trễ—tất cả mà không cần rời khỏi giao diện.
Các kỹ thuật tối ưu hóa hiệu suất
Bạn vắt kiệt tốc độ hơn từ phần cứng của mình.
- Bạn bật flash attention và
--fit ontrong llama.cpp. - Bạn chỉ giảm tải các chuyên gia MoE sang CPU khi VRAM bị hạn chế.
- Bạn sử dụng 4-bit cho trò chuyện và 2-bit cho mã hóa tác nhân.
- Bạn đặt
--prio 3trong máy chủ để có ưu tiên tiến trình cao hơn. - Bạn giám sát bằng
nvtophoặchtopvà điều chỉnh--n-gpu-layers.
Bạn đạt được 15–25 token/giây trên thiết lập hai RTX 4090 với các điều chỉnh này.
Các vấn đề thường gặp và cách khắc phục
Bạn gặp lỗi bộ nhớ. Bạn giảm ngữ cảnh xuống 16K hoặc giảm tải nhiều lớp hơn.
Bạn thấy việc gọi công cụ kém. Bạn đặt nhiệt độ thành 1.0 và top-p thành 0.95, sau đó sử dụng cờ --tool-call-parser glm47.
Bạn gặp phải tình trạng tải xuống chậm. Bạn bật hf_transfer và sử dụng một máy chủ phản chiếu nhanh.
Bạn gặp lỗi CUDA hết bộ nhớ. Bạn thêm --gpu-memory-utilization 0.85 và đóng các tiến trình nền.
Bạn luôn kiểm tra tài liệu của Unsloth và kho lưu trữ GLM-5 GGUF để biết các phân đoạn mới nhất.
Con đường phía trước: GLM-5 cục bộ và hơn thế nữa
Bạn đang chứng kiến sự chuyển dịch sang AI có chủ quyền. Các mô hình như GLM-5 chứng minh rằng khả năng tiên tiến có thể chạy trên phần cứng mà bạn đã sở hữu. Bạn kết hợp nó với các cơ sở dữ liệu vector cục bộ, máy chủ công cụ và khung tác nhân để xây dựng các hệ thống riêng tư, hiệu suất cao.
Bạn tham gia cộng đồng trên Hugging Face, r/LocalLLaMA của Reddit và Discord của Unsloth. Bạn chia sẻ Modelfiles, kết quả thử nghiệm và các lượng tử hóa tùy chỉnh.
Bạn chạy GLM-5 cục bộ ngay hôm nay. Bạn kiểm soát điện toán, dữ liệu và tương lai của ngăn xếp AI của mình.
Bắt đầu với GGUF 2-bit trong llama.cpp. Tải xuống Apidog. Khởi động máy chủ. Bạn sẽ ngạc nhiên với những gì bạn có thể xây dựng khi mô hình nằm trên máy của mình.
Kỷ nguyên của các mô hình tiên tiến hoàn toàn cục bộ đã đến. Bạn hãy tận dụng tối đa điều đó.
