วิธีรัน GLM-5 ในเครื่องฟรี ง่ายๆ ด้วยตัวเอง

Ashley Innocent

Ashley Innocent

13 February 2026

วิธีรัน GLM-5 ในเครื่องฟรี ง่ายๆ ด้วยตัวเอง

Apidog สำหรับองค์กร

ติดตั้งภายในองค์กร

SSO & RBAC

รองรับ SOC 2

สำรวจ Apidog Enterprise

คุณต้องการเข้าถึงหนึ่งในโมเดลโอเพนซอร์สที่ทรงพลังที่สุดในปี 2026 อย่าง GLM-5 จาก Z.ai โดยไม่ต้องเสียค่าใช้จ่ายแม้แต่สตางค์เดียวสำหรับการเรียก API หรือการประมวลผลบนคลาวด์ วิศวกรและนักพัฒนาสามารถทำสิ่งนี้ได้ในวันนี้ด้วยการรัน GLM-5 บนฮาร์ดแวร์ของผู้บริโภคและ prosumer การควอนไทซ์ที่รุนแรงของ Unsloth ช่วยลดขนาดโมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 744B (40B ที่ใช้งานอยู่) จาก 1.65TB เหลือเพียง 241GB และคุณสามารถปรับใช้ได้ผ่าน llama.cpp, Ollama หรือ vLLM

💡
ก่อนเริ่มต้น ให้ดาวน์โหลด Apidog ฟรี ไคลเอนต์ API อันทรงพลังนี้จะเปลี่ยนวิธีการทดสอบและดีบักปลายทาง GLM-5 ในเครื่องของคุณ คุณสามารถสร้างคำขอด้วยภาพ สร้างโค้ด SDK รันการทดสอบอัตโนมัติ และตรวจสอบการใช้โทเค็น โดยที่การทดลองของคุณยังคงเป็นส่วนตัวอย่างสมบูรณ์ Apidog ทำงานเข้ากันได้ดีกับเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI ที่คุณจะเปิดใช้งาน ช่วยให้คุณเปลี่ยนจากการเรียกใช้ curl ดิบไปสู่การรวมระบบที่พร้อมใช้งานจริงได้ในไม่กี่นาที
ปุ่ม

คุณสามารถรัน GLM-5 ในเครื่องของคุณได้! กระบวนการนี้ต้องใส่ใจกับฮาร์ดแวร์ ขั้นตอนการสร้างที่แม่นยำ และกลยุทธ์การออฟโหลดที่ชาญฉลาด คู่มือนี้จะแนะนำคุณในทุกวิธีการ อธิบายว่าทำไมแต่ละคำสั่งจึงมีความสำคัญ และแสดงวิธีดึงประสิทธิภาพสูงสุดจากการตั้งค่าของคุณ คุณจะได้รับอธิปไตยข้อมูลเต็มรูปแบบ ความหน่วงเวลาเป็นศูนย์สำหรับเวิร์กโฟลว์ของเอเจนต์ และการอนุมานแบบไม่จำกัด

อะไรทำให้ GLM-5 เป็นผู้เปลี่ยนเกมสำหรับการปรับใช้ในเครื่อง?

Z.ai ได้เปิดตัว GLM-5 ในฐานะผู้สืบทอดของ GLM-4.7 โมเดลนี้มีพารามิเตอร์รวม 744B โดยมี 40B ที่ทำงานอยู่ต่อโทเค็น ซึ่งฝึกฝนด้วยโทเค็น 28.5T ให้ผลลัพธ์ที่ล้ำสมัยในการทดสอบประสิทธิภาพของเอเจนต์: 77.8% บน SWE-bench Verified, 89.7% บน τ²-Bench และ 61.1% บน Terminal-Bench 2.0 พร้อมเครื่องมือ

คุณได้รับประโยชน์จากหน้าต่างบริบทขนาด 200K ต้องขอบคุณ DeepSeek Sparse Attention โมเดลนี้โดดเด่นในการให้เหตุผลระยะยาว การเรียกใช้เครื่องมือหลายรอบ และการสร้างโค้ดที่ซับซ้อน ยิ่งไปกว่านั้น สิทธิ์อนุญาต MIT แบบเปิดยังช่วยให้คุณสามารถรัน แก้ไข และแม้แต่ใช้ในเชิงพาณิชย์ได้โดยไม่มีข้อจำกัด

อย่างไรก็ตาม โมเดลต้นฉบับต้องใช้พื้นที่เก็บข้อมูล 1.65TB และ VRAM จำนวนมาก Unsloth ได้เปลี่ยนเกมด้วยการเปิดตัว Dynamic 2.0 GGUF quantizations—UD-IQ2_XXS ขนาด 241GB (-85%) และ 1-บิต ขนาด 176GB (-89%) เวอร์ชันเหล่านี้รักษาคุณภาพการให้เหตุผลผ่านการปรับเลเยอร์อัจฉริยะในขณะที่สามารถทำงานได้บน Mac ที่มีหน่วยความจำรวม 256GB หรือ GPU ขนาด 24GB เดี่ยวที่จับคู่กับ RAM ระบบ 256GB

คุณสามารถรัน GLM-5 ในเครื่องได้ด้วยการควอนไทซ์เหล่านี้ เนื่องจากมันสร้างความสมดุลระหว่างขนาด ความเร็ว และความสามารถ การทดสอบประสิทธิภาพแสดงให้เห็นการลดลงของคุณภาพเพียงเล็กน้อยในงานเขียนโค้ดและงานของเอเจนต์ เมื่อเทียบกับความแม่นยำเต็มรูปแบบ

ทำไมต้องรัน GLM-5 ในเครื่อง แทนที่จะใช้ Cloud API?

คุณสามารถกำจัดค่าใช้จ่ายที่เกิดขึ้นซ้ำๆ ผู้ให้บริการคลาวด์คิดค่าบริการต่อโทเค็น และความสามารถของ GLM-5 ทำให้การใช้งานหนักมีราคาแพงอย่างรวดเร็ว การอนุมานในเครื่องไม่มีค่าใช้จ่ายใดๆ นอกเหนือจากค่าไฟฟ้า

คุณสามารถปกป้องข้อมูลที่ละเอียดอ่อนได้ องค์กรและนักวิจัยสามารถเก็บโค้ดที่เป็นกรรมสิทธิ์ บันทึกทางการแพทย์ หรือคำถามของลูกค้าไว้ในโหมดออฟไลน์ได้อย่างสมบูรณ์

คุณจะได้รับความหน่วงเวลาที่ต่ำลง โมเดลในเครื่องตอบสนองได้ในหน่วยมิลลิวินาทีสำหรับการสนทนาและการเรียกใช้เครื่องมือ คุณสามารถเชื่อมโยงเอเจนต์ได้โดยไม่ต้องมีการกระโดดผ่านเครือข่าย

คุณสามารถปรับแต่งได้อย่างอิสระ คุณสามารถปรับแต่งโมเดลด้วย Unsloth สร้าง Modelfiles ใน Ollama หรือสร้างเครื่องมือที่กำหนดเองใน vLLM

นอกจากนี้ คุณสามารถทดลองโดยไม่มีข้อจำกัดด้านอัตรา คุณสามารถทดสอบบริบท 200K, สนทนาต่อเนื่อง 1000 รอบ หรือเปรียบเทียบความแม่นยำในการเรียกใช้เครื่องมือได้ตลอดคืน

ข้อกำหนดฮาร์ดแวร์: สิ่งที่คุณต้องการจริงๆ

คุณจับคู่การตั้งค่าของคุณกับระดับการควอนไทซ์

คุณตรวจสอบการใช้งานด้วย nvidia-smi บน Linux หรือ Activity Monitor บน macOS พื้นที่เก็บข้อมูล SSD ช่วยเร่งการออฟโหลด คุณจัดสรรพื้นที่ว่างอย่างน้อย 50GB สำหรับไฟล์โมเดลและแคช

วิธีที่ 1: รัน GLM-5 ในเครื่องด้วย Unsloth GGUF ใน llama.cpp (เข้าถึงได้ง่ายที่สุด)

คุณเลือกเส้นทางนี้เพื่อความยืดหยุ่นและประสิทธิภาพสูงสุดบนฮาร์ดแวร์แบบผสมผสาน

ขั้นตอนที่ 1: สร้าง llama.cpp พร้อมรองรับ GLM-5

คุณต้องใช้ llama.cpp เวอร์ชันล่าสุดที่มี PR 19460 รวมอยู่แล้ว

apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON  # Use -DGGML_CUDA=OFF for CPU-only
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .

คุณรันคำสั่งนี้เพียงครั้งเดียว การสร้างจะใช้เวลา 10–20 นาที ขึ้นอยู่กับเครื่องของคุณ

ขั้นตอนที่ 2: ดาวน์โหลดโมเดลที่ควอนไทซ์

คุณใช้ huggingface_hub สำหรับการถ่ายโอนที่รวดเร็ว

pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"

ตอนนี้คุณมีโมเดลขนาด 241GB ที่ถูกแบ่งออกเป็น shards

ขั้นตอนที่ 3: เริ่มต้นการอนุมาน

คุณเริ่มต้น CLI สำหรับการใช้งานแบบโต้ตอบ

export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
  -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
  --jinja \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 0.7 \
  --top-p 1.0 \
  --fit on

คุณเพิ่ม --threads 32 สำหรับการตั้งค่าที่เน้น CPU หรือ -ot ".ffn_.*_exps.=CPU" เพื่อออฟโหลด MoE experts

ขั้นตอนที่ 4: ให้บริการเป็น OpenAI API

คุณเปิดเผยโมเดลสำหรับการใช้งานในแอปพลิเคชัน

./llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "glm-5" \
  --fit on \
  --ctx-size 32768 \
  --port 8000 \
  --jinja

ตอนนี้คุณสามารถชี้ไคลเอนต์ OpenAI ใดๆ ไปยัง http://localhost:8000/v1 ได้แล้ว

คุณสามารถทำได้ถึง 3–8 โทเค็น/วินาที บน GPU ขนาด 24GB ด้วยการตั้งค่านี้ คุณสามารถขยายบริบทได้ถึง 128K โดยไม่เกิดข้อผิดพลาดเมื่อคุณใช้ --fit on

วิธีที่ 2: รัน GLM-5 ในเครื่องด้วย Ollama (ง่ายที่สุดสำหรับผู้เริ่มต้น)

คุณชอบความเรียบง่าย Ollama จัดการการดาวน์โหลด การควอนไทซ์ และการให้บริการโดยอัตโนมัติ

การติดตั้ง

คุณดาวน์โหลดจาก ollama.com และรันตัวติดตั้ง บน Linux:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ดึงและรัน GLM-5

คุณใช้แท็กที่ได้รับการปรับแต่งจากชุมชน

ollama pull glm-5:cloud
ollama run glm-5:cloud

คุณสามารถโต้ตอบได้โดยตรงในเทอร์มินัล หรือผ่าน API ที่ http://localhost:11434/v1

สร้าง Modelfile ที่กำหนดเอง

คุณสามารถปรับแต่ง system prompt และพารามิเตอร์ได้

FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072

คุณสร้างและรัน:

ollama create my-glm5 -f Modelfile
ollama run my-glm5

คุณสามารถรวมเข้ากับ Claude Code, Cursor, หรือ Continue.dev โดยการตั้งค่าปลายทาง Ollama คุณจะได้รับทางเลือกในเครื่องที่สมบูรณ์แบบสำหรับเอเจนต์เขียนโค้ดบนคลาวด์

วิธีที่ 3: การปรับใช้ขั้นสูงด้วย vLLM (ประสิทธิภาพสูงสุด)

คุณต้องการ throughput สูงสุดสำหรับเอเจนต์ที่ใช้งานจริง

คุณติดตั้งเวอร์ชัน nightly build:

uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130

คุณเปิดใช้งานเซิร์ฟเวอร์ (เวอร์ชัน FP8 ต้องการ 8×H200):

vllm serve unsloth/GLM-5-FP8 \
  --served-model-name glm-5 \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.93

คุณเปิดใช้งาน speculative decoding และการเรียกใช้เครื่องมือ คุณสามารถให้บริการคำขอนับพันรายการต่อนาทีบนคลัสเตอร์ multi-GPU

ทดสอบและดีบัก GLM-5 ในเครื่องของคุณด้วย Apidog

คุณเชื่อมต่อ Apidog กับปลายทางของคุณและตรวจสอบว่าทุกอย่างทำงานได้ดี

คุณสร้างโปรเจกต์ใหม่ กำหนด URL พื้นฐานเป็น http://localhost:8000/v1 (หรือ 11434 สำหรับ Ollama) และกำหนดปลายทาง /chat/completions

คุณสร้างคำขอด้วยภาพ:

คุณส่งคำขอ ตรวจสอบการตอบสนองแบบสตรีมมิ่ง และบันทึกคอลเลกชันสำหรับการทดสอบ regression คุณสร้าง Python หรือ JavaScript SDK ได้ทันที คุณจำลองการตอบสนองสำหรับทีมฟรอนต์เอนด์

Apidog เปลี่ยน GLM-5 ในเครื่องของคุณให้เป็นแพลตฟอร์มการพัฒนาชั้นหนึ่ง คุณสามารถวนซ้ำบนเอเจนต์ ตรวจสอบเอาต์พุตเครื่องมือ และวัดความหน่วงเวลา—ทั้งหมดนี้โดยไม่ต้องออกจากอินเทอร์เฟซ

เทคนิคการเพิ่มประสิทธิภาพ

คุณสามารถดึงความเร็วจากฮาร์ดแวร์ของคุณได้มากขึ้น

คุณสามารถทำได้ถึง 15–25 โทเค็น/วินาที บนการตั้งค่า Dual RTX 4090 ด้วยการปรับแต่งเหล่านี้

ปัญหาที่พบบ่อยและวิธีแก้ไข

คุณพบข้อผิดพลาดเกี่ยวกับหน่วยความจำ คุณสามารถลดบริบทเป็น 16K หรือออฟโหลดเลเยอร์เพิ่มเติม

คุณเห็นการเรียกใช้เครื่องมือไม่ดี คุณตั้งค่า temperature เป็น 1.0 และ top-p เป็น 0.95 จากนั้นใช้แฟล็ก --tool-call-parser glm47

คุณประสบปัญหาการดาวน์โหลดช้า คุณเปิดใช้งาน hf_transfer และใช้มิเรอร์ที่รวดเร็ว

คุณพบปัญหา CUDA out of memory คุณเพิ่ม --gpu-memory-utilization 0.85 และปิดกระบวนการที่ทำงานอยู่เบื้องหลัง

คุณควรตรวจสอบเอกสาร Unsloth และ GLM-5 GGUF repo สำหรับ shards ล่าสุดเสมอ

เส้นทางข้างหน้า: GLM-5 ในเครื่องและอนาคต

คุณกำลังเห็นการเปลี่ยนแปลงไปสู่ AI ที่เป็นอิสระ โมเดลอย่าง GLM-5 พิสูจน์ให้เห็นว่าความสามารถระดับแนวหน้าสามารถทำงานได้บนฮาร์ดแวร์ที่คุณมีอยู่แล้ว คุณสามารถรวมมันเข้ากับฐานข้อมูลเวกเตอร์ในเครื่อง, เซิร์ฟเวอร์เครื่องมือ, และเฟรมเวิร์กของเอเจนต์ เพื่อสร้างระบบส่วนตัวที่มีประสิทธิภาพสูง

คุณเข้าร่วมชุมชนบน Hugging Face, r/LocalLLaMA ของ Reddit และ Discord ของ Unsloth คุณสามารถแบ่งปัน Modelfiles, ผลลัพธ์การทดสอบประสิทธิภาพ และ quantizations ที่กำหนดเอง

คุณสามารถรัน GLM-5 ในเครื่องได้แล้ววันนี้ คุณควบคุมการประมวลผล ข้อมูล และอนาคตของ AI stack ของคุณ

เริ่มต้นด้วย 2-bit GGUF ใน llama.cpp ดาวน์โหลด Apidog เปิดใช้งานเซิร์ฟเวอร์ คุณจะทึ่งกับสิ่งที่คุณสามารถสร้างได้เมื่อโมเดลอยู่บนเครื่องของคุณ

ยุคของโมเดลแนวหน้าในเครื่องที่แท้จริงได้มาถึงแล้ว จงใช้ประโยชน์จากมันให้เต็มที่

ปุ่ม

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API