คุณต้องการเข้าถึงหนึ่งในโมเดลโอเพนซอร์สที่ทรงพลังที่สุดในปี 2026 อย่าง GLM-5 จาก Z.ai โดยไม่ต้องเสียค่าใช้จ่ายแม้แต่สตางค์เดียวสำหรับการเรียก API หรือการประมวลผลบนคลาวด์ วิศวกรและนักพัฒนาสามารถทำสิ่งนี้ได้ในวันนี้ด้วยการรัน GLM-5 บนฮาร์ดแวร์ของผู้บริโภคและ prosumer การควอนไทซ์ที่รุนแรงของ Unsloth ช่วยลดขนาดโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 744B (40B ที่ใช้งานอยู่) จาก 1.65TB เหลือเพียง 241GB และคุณสามารถปรับใช้ได้ผ่าน llama.cpp, Ollama หรือ vLLM
คุณสามารถรัน GLM-5 ในเครื่องของคุณได้! กระบวนการนี้ต้องใส่ใจกับฮาร์ดแวร์ ขั้นตอนการสร้างที่แม่นยำ และกลยุทธ์การออฟโหลดที่ชาญฉลาด คู่มือนี้จะแนะนำคุณในทุกวิธีการ อธิบายว่าทำไมแต่ละคำสั่งจึงมีความสำคัญ และแสดงวิธีดึงประสิทธิภาพสูงสุดจากการตั้งค่าของคุณ คุณจะได้รับอธิปไตยข้อมูลเต็มรูปแบบ ความหน่วงเวลาเป็นศูนย์สำหรับเวิร์กโฟลว์ของเอเจนต์ และการอนุมานแบบไม่จำกัด
อะไรทำให้ GLM-5 เป็นผู้เปลี่ยนเกมสำหรับการปรับใช้ในเครื่อง?
Z.ai ได้เปิดตัว GLM-5 ในฐานะผู้สืบทอดของ GLM-4.7 โมเดลนี้มีพารามิเตอร์รวม 744B โดยมี 40B ที่ทำงานอยู่ต่อโทเค็น ซึ่งฝึกฝนด้วยโทเค็น 28.5T ให้ผลลัพธ์ที่ล้ำสมัยในการทดสอบประสิทธิภาพของเอเจนต์: 77.8% บน SWE-bench Verified, 89.7% บน τ²-Bench และ 61.1% บน Terminal-Bench 2.0 พร้อมเครื่องมือ
คุณได้รับประโยชน์จากหน้าต่างบริบทขนาด 200K ต้องขอบคุณ DeepSeek Sparse Attention โมเดลนี้โดดเด่นในการให้เหตุผลระยะยาว การเรียกใช้เครื่องมือหลายรอบ และการสร้างโค้ดที่ซับซ้อน ยิ่งไปกว่านั้น สิทธิ์อนุญาต MIT แบบเปิดยังช่วยให้คุณสามารถรัน แก้ไข และแม้แต่ใช้ในเชิงพาณิชย์ได้โดยไม่มีข้อจำกัด

อย่างไรก็ตาม โมเดลต้นฉบับต้องใช้พื้นที่เก็บข้อมูล 1.65TB และ VRAM จำนวนมาก Unsloth ได้เปลี่ยนเกมด้วยการเปิดตัว Dynamic 2.0 GGUF quantizations—UD-IQ2_XXS ขนาด 241GB (-85%) และ 1-บิต ขนาด 176GB (-89%) เวอร์ชันเหล่านี้รักษาคุณภาพการให้เหตุผลผ่านการปรับเลเยอร์อัจฉริยะในขณะที่สามารถทำงานได้บน Mac ที่มีหน่วยความจำรวม 256GB หรือ GPU ขนาด 24GB เดี่ยวที่จับคู่กับ RAM ระบบ 256GB
คุณสามารถรัน GLM-5 ในเครื่องได้ด้วยการควอนไทซ์เหล่านี้ เนื่องจากมันสร้างความสมดุลระหว่างขนาด ความเร็ว และความสามารถ การทดสอบประสิทธิภาพแสดงให้เห็นการลดลงของคุณภาพเพียงเล็กน้อยในงานเขียนโค้ดและงานของเอเจนต์ เมื่อเทียบกับความแม่นยำเต็มรูปแบบ

ทำไมต้องรัน GLM-5 ในเครื่อง แทนที่จะใช้ Cloud API?
คุณสามารถกำจัดค่าใช้จ่ายที่เกิดขึ้นซ้ำๆ ผู้ให้บริการคลาวด์คิดค่าบริการต่อโทเค็น และความสามารถของ GLM-5 ทำให้การใช้งานหนักมีราคาแพงอย่างรวดเร็ว การอนุมานในเครื่องไม่มีค่าใช้จ่ายใดๆ นอกเหนือจากค่าไฟฟ้า
คุณสามารถปกป้องข้อมูลที่ละเอียดอ่อนได้ องค์กรและนักวิจัยสามารถเก็บโค้ดที่เป็นกรรมสิทธิ์ บันทึกทางการแพทย์ หรือคำถามของลูกค้าไว้ในโหมดออฟไลน์ได้อย่างสมบูรณ์
คุณจะได้รับความหน่วงเวลาที่ต่ำลง โมเดลในเครื่องตอบสนองได้ในหน่วยมิลลิวินาทีสำหรับการสนทนาและการเรียกใช้เครื่องมือ คุณสามารถเชื่อมโยงเอเจนต์ได้โดยไม่ต้องมีการกระโดดผ่านเครือข่าย
คุณสามารถปรับแต่งได้อย่างอิสระ คุณสามารถปรับแต่งโมเดลด้วย Unsloth สร้าง Modelfiles ใน Ollama หรือสร้างเครื่องมือที่กำหนดเองใน vLLM
นอกจากนี้ คุณสามารถทดลองโดยไม่มีข้อจำกัดด้านอัตรา คุณสามารถทดสอบบริบท 200K, สนทนาต่อเนื่อง 1000 รอบ หรือเปรียบเทียบความแม่นยำในการเรียกใช้เครื่องมือได้ตลอดคืน
ข้อกำหนดฮาร์ดแวร์: สิ่งที่คุณต้องการจริงๆ
คุณจับคู่การตั้งค่าของคุณกับระดับการควอนไทซ์
- UD-IQ2_XXS แบบ 2-บิต (241GB): ทำงานบน Apple M-series ที่มีหน่วยความจำรวม 256GB หรือ NVIDIA GPU ขนาด 24GB + RAM 256GB พร้อมการออฟโหลด MoE
- แบบ 1-บิต (176GB): สามารถใช้ได้กับ RAM 180GB
- FP8 (vLLM): ต้องใช้ 8×H200 หรือเทียบเท่า—VRAM รวมกว่า 800GB
- ขั้นต่ำที่ใช้งานได้จริง: RAM 64GB + CPU ที่ทันสมัยสำหรับบริบทที่เล็กมาก; แนะนำ 128GB+ สำหรับการทำงานจริง
คุณตรวจสอบการใช้งานด้วย nvidia-smi บน Linux หรือ Activity Monitor บน macOS พื้นที่เก็บข้อมูล SSD ช่วยเร่งการออฟโหลด คุณจัดสรรพื้นที่ว่างอย่างน้อย 50GB สำหรับไฟล์โมเดลและแคช
วิธีที่ 1: รัน GLM-5 ในเครื่องด้วย Unsloth GGUF ใน llama.cpp (เข้าถึงได้ง่ายที่สุด)
คุณเลือกเส้นทางนี้เพื่อความยืดหยุ่นและประสิทธิภาพสูงสุดบนฮาร์ดแวร์แบบผสมผสาน
ขั้นตอนที่ 1: สร้าง llama.cpp พร้อมรองรับ GLM-5
คุณต้องใช้ llama.cpp เวอร์ชันล่าสุดที่มี PR 19460 รวมอยู่แล้ว
apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON # Use -DGGML_CUDA=OFF for CPU-only
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .
คุณรันคำสั่งนี้เพียงครั้งเดียว การสร้างจะใช้เวลา 10–20 นาที ขึ้นอยู่กับเครื่องของคุณ
ขั้นตอนที่ 2: ดาวน์โหลดโมเดลที่ควอนไทซ์
คุณใช้ huggingface_hub สำหรับการถ่ายโอนที่รวดเร็ว
pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"
ตอนนี้คุณมีโมเดลขนาด 241GB ที่ถูกแบ่งออกเป็น shards
ขั้นตอนที่ 3: เริ่มต้นการอนุมาน
คุณเริ่มต้น CLI สำหรับการใช้งานแบบโต้ตอบ
export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
-hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
--jinja \
--ctx-size 32768 \
--flash-attn on \
--temp 0.7 \
--top-p 1.0 \
--fit on
คุณเพิ่ม --threads 32 สำหรับการตั้งค่าที่เน้น CPU หรือ -ot ".ffn_.*_exps.=CPU" เพื่อออฟโหลด MoE experts
ขั้นตอนที่ 4: ให้บริการเป็น OpenAI API
คุณเปิดเผยโมเดลสำหรับการใช้งานในแอปพลิเคชัน
./llama-server \
--model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
--alias "glm-5" \
--fit on \
--ctx-size 32768 \
--port 8000 \
--jinja
ตอนนี้คุณสามารถชี้ไคลเอนต์ OpenAI ใดๆ ไปยัง http://localhost:8000/v1 ได้แล้ว
คุณสามารถทำได้ถึง 3–8 โทเค็น/วินาที บน GPU ขนาด 24GB ด้วยการตั้งค่านี้ คุณสามารถขยายบริบทได้ถึง 128K โดยไม่เกิดข้อผิดพลาดเมื่อคุณใช้ --fit on
วิธีที่ 2: รัน GLM-5 ในเครื่องด้วย Ollama (ง่ายที่สุดสำหรับผู้เริ่มต้น)
คุณชอบความเรียบง่าย Ollama จัดการการดาวน์โหลด การควอนไทซ์ และการให้บริการโดยอัตโนมัติ
การติดตั้ง
คุณดาวน์โหลดจาก ollama.com และรันตัวติดตั้ง บน Linux:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ดึงและรัน GLM-5
คุณใช้แท็กที่ได้รับการปรับแต่งจากชุมชน
ollama pull glm-5:cloud
ollama run glm-5:cloud
คุณสามารถโต้ตอบได้โดยตรงในเทอร์มินัล หรือผ่าน API ที่ http://localhost:11434/v1
สร้าง Modelfile ที่กำหนดเอง
คุณสามารถปรับแต่ง system prompt และพารามิเตอร์ได้
FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072
คุณสร้างและรัน:
ollama create my-glm5 -f Modelfile
ollama run my-glm5
คุณสามารถรวมเข้ากับ Claude Code, Cursor, หรือ Continue.dev โดยการตั้งค่าปลายทาง Ollama คุณจะได้รับทางเลือกในเครื่องที่สมบูรณ์แบบสำหรับเอเจนต์เขียนโค้ดบนคลาวด์
วิธีที่ 3: การปรับใช้ขั้นสูงด้วย vLLM (ประสิทธิภาพสูงสุด)
คุณต้องการ throughput สูงสุดสำหรับเอเจนต์ที่ใช้งานจริง
คุณติดตั้งเวอร์ชัน nightly build:
uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130
คุณเปิดใช้งานเซิร์ฟเวอร์ (เวอร์ชัน FP8 ต้องการ 8×H200):
vllm serve unsloth/GLM-5-FP8 \
--served-model-name glm-5 \
--tensor-parallel-size 8 \
--kv-cache-dtype fp8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--max-model-len 200000 \
--gpu-memory-utilization 0.93
คุณเปิดใช้งาน speculative decoding และการเรียกใช้เครื่องมือ คุณสามารถให้บริการคำขอนับพันรายการต่อนาทีบนคลัสเตอร์ multi-GPU
ทดสอบและดีบัก GLM-5 ในเครื่องของคุณด้วย Apidog
คุณเชื่อมต่อ Apidog กับปลายทางของคุณและตรวจสอบว่าทุกอย่างทำงานได้ดี

คุณสร้างโปรเจกต์ใหม่ กำหนด URL พื้นฐานเป็น http://localhost:8000/v1 (หรือ 11434 สำหรับ Ollama) และกำหนดปลายทาง /chat/completions
คุณสร้างคำขอด้วยภาพ:
- โมเดล:
glm-5 - ข้อความ: system + user
- อุณหภูมิ: 0.7
- เครื่องมือ: กำหนด JSON schemas สำหรับการเรียกใช้ฟังก์ชัน
คุณส่งคำขอ ตรวจสอบการตอบสนองแบบสตรีมมิ่ง และบันทึกคอลเลกชันสำหรับการทดสอบ regression คุณสร้าง Python หรือ JavaScript SDK ได้ทันที คุณจำลองการตอบสนองสำหรับทีมฟรอนต์เอนด์
Apidog เปลี่ยน GLM-5 ในเครื่องของคุณให้เป็นแพลตฟอร์มการพัฒนาชั้นหนึ่ง คุณสามารถวนซ้ำบนเอเจนต์ ตรวจสอบเอาต์พุตเครื่องมือ และวัดความหน่วงเวลา—ทั้งหมดนี้โดยไม่ต้องออกจากอินเทอร์เฟซ
เทคนิคการเพิ่มประสิทธิภาพ
คุณสามารถดึงความเร็วจากฮาร์ดแวร์ของคุณได้มากขึ้น
- คุณเปิดใช้งาน flash attention และ
--fit onใน llama.cpp - คุณออฟโหลดเฉพาะ MoE experts ไปยัง CPU เมื่อ VRAM มีจำกัด
- คุณใช้ 4-bit สำหรับการสนทนา และ 2-bit สำหรับการเขียนโค้ดของเอเจนต์
- คุณตั้งค่า
--prio 3ในเซิร์ฟเวอร์เพื่อจัดลำดับความสำคัญของกระบวนการให้สูงขึ้น - คุณตรวจสอบด้วย
nvtopหรือhtopและปรับ--n-gpu-layers
คุณสามารถทำได้ถึง 15–25 โทเค็น/วินาที บนการตั้งค่า Dual RTX 4090 ด้วยการปรับแต่งเหล่านี้
ปัญหาที่พบบ่อยและวิธีแก้ไข
คุณพบข้อผิดพลาดเกี่ยวกับหน่วยความจำ คุณสามารถลดบริบทเป็น 16K หรือออฟโหลดเลเยอร์เพิ่มเติม
คุณเห็นการเรียกใช้เครื่องมือไม่ดี คุณตั้งค่า temperature เป็น 1.0 และ top-p เป็น 0.95 จากนั้นใช้แฟล็ก --tool-call-parser glm47
คุณประสบปัญหาการดาวน์โหลดช้า คุณเปิดใช้งาน hf_transfer และใช้มิเรอร์ที่รวดเร็ว
คุณพบปัญหา CUDA out of memory คุณเพิ่ม --gpu-memory-utilization 0.85 และปิดกระบวนการที่ทำงานอยู่เบื้องหลัง
คุณควรตรวจสอบเอกสาร Unsloth และ GLM-5 GGUF repo สำหรับ shards ล่าสุดเสมอ
เส้นทางข้างหน้า: GLM-5 ในเครื่องและอนาคต
คุณกำลังเห็นการเปลี่ยนแปลงไปสู่ AI ที่เป็นอิสระ โมเดลอย่าง GLM-5 พิสูจน์ให้เห็นว่าความสามารถระดับแนวหน้าสามารถทำงานได้บนฮาร์ดแวร์ที่คุณมีอยู่แล้ว คุณสามารถรวมมันเข้ากับฐานข้อมูลเวกเตอร์ในเครื่อง, เซิร์ฟเวอร์เครื่องมือ, และเฟรมเวิร์กของเอเจนต์ เพื่อสร้างระบบส่วนตัวที่มีประสิทธิภาพสูง
คุณเข้าร่วมชุมชนบน Hugging Face, r/LocalLLaMA ของ Reddit และ Discord ของ Unsloth คุณสามารถแบ่งปัน Modelfiles, ผลลัพธ์การทดสอบประสิทธิภาพ และ quantizations ที่กำหนดเอง
คุณสามารถรัน GLM-5 ในเครื่องได้แล้ววันนี้ คุณควบคุมการประมวลผล ข้อมูล และอนาคตของ AI stack ของคุณ
เริ่มต้นด้วย 2-bit GGUF ใน llama.cpp ดาวน์โหลด Apidog เปิดใช้งานเซิร์ฟเวอร์ คุณจะทึ่งกับสิ่งที่คุณสามารถสร้างได้เมื่อโมเดลอยู่บนเครื่องของคุณ
ยุคของโมเดลแนวหน้าในเครื่องที่แท้จริงได้มาถึงแล้ว จงใช้ประโยชน์จากมันให้เต็มที่
