Anda ingin mengakses salah satu model terbuka paling mumpuni tahun 2026—GLM-5 dari Z.ai—tanpa membayar sepeser pun untuk panggilan API atau komputasi awan. Para insinyur dan pengembang mencapai ini hari ini dengan menjalankan GLM-5 secara lokal pada perangkat keras konsumen dan prosumer. Kuantisasi agresif Unsloth mengecilkan model Mixture-of-Experts berparameter 744B (40B aktif) dari 1.65TB menjadi hanya 241GB, dan Anda dapat menyebarkannya melalui llama.cpp, Ollama, atau vLLM.
Anda menjalankan GLM-5 secara lokal! Proses ini menuntut perhatian pada perangkat keras, langkah-langkah pembangunan yang tepat, dan strategi offloading yang cerdas. Panduan ini akan memandu Anda melalui setiap metode, menjelaskan mengapa setiap perintah penting, dan menunjukkan cara memaksimalkan kinerja dari pengaturan Anda. Anda mendapatkan kedaulatan data penuh, latensi nol untuk alur kerja agentik, dan inferensi tanpa batas.
Apa yang Membuat GLM-5 Menjadi Pengubah Permainan untuk Penerapan Lokal?
Z.ai merilis GLM-5 sebagai penerus GLM-4.7. Model ini berskala hingga total 744B parameter dengan 40B aktif per token, dilatih pada 28.5T token. Ini memberikan hasil terbaik di kelasnya pada benchmark agentik: 77.8% pada SWE-bench Verified, 89.7% pada τ²-Bench, dan 61.1% pada Terminal-Bench 2.0 dengan alat.
Anda mendapatkan manfaat dari jendela konteks 200K berkat DeepSeek Sparse Attention. Model ini unggul dalam penalaran jangka panjang, pemanggilan alat multi-giliran, dan pembuatan kode yang kompleks. Terlebih lagi, lisensi MIT terbuka memungkinkan Anda menjalankan, memodifikasi, dan bahkan mengkomersialkannya tanpa batasan.

Namun, model mentah membutuhkan penyimpanan 1.65TB dan VRAM yang besar. Unsloth mengubah permainan dengan merilis kuantisasi GGUF Dynamic 2.0—UD-IQ2_XXS pada 241GB (-85%) dan 1-bit pada 176GB (-89%). Versi-versi ini mempertahankan kualitas penalaran melalui upcasting lapisan cerdas sambil muat pada Mac dengan memori terpadu 256GB atau GPU 24GB tunggal yang dipasangkan dengan RAM sistem 256GB.
Anda menjalankan GLM-5 secara lokal dengan kuantisasi ini karena menyeimbangkan ukuran, kecepatan, dan kemampuan. Benchmark menunjukkan degradasi minimal pada tugas pengkodean dan agen dibandingkan dengan presisi penuh.

Mengapa Menjalankan GLM-5 Secara Lokal Daripada Menggunakan API Cloud?
Anda menghilangkan biaya berulang. Penyedia cloud mengenakan biaya per token, dan kemampuan GLM-5 membuat penggunaan berat menjadi mahal dengan cepat. Inferensi lokal tidak memakan biaya selain listrik.
Anda melindungi data sensitif. Perusahaan dan peneliti menjaga kode kepemilikan, rekam medis, atau pertanyaan pelanggan sepenuhnya offline.
Anda mencapai latensi yang lebih rendah. Model lokal merespons dalam milidetik untuk obrolan dan loop pemanggilan alat. Anda merangkai agen tanpa lompatan jaringan.
Anda menyesuaikan dengan bebas. Anda melakukan fine-tuning dengan Unsloth, membuat Modelfiles di Ollama, atau membangun alat kustom di vLLM.
Selanjutnya, Anda bereksperimen tanpa batasan laju. Anda menguji 200K konteks, menjalankan percakapan 1000 giliran, atau mengukur akurasi pemanggilan alat semalaman.
Persyaratan Perangkat Keras: Apa yang Sebenarnya Anda Butuhkan
Anda menyesuaikan pengaturan Anda dengan tingkat kuantisasi.
- 2-bit UD-IQ2_XXS (241GB): Berjalan di Apple M-series dengan memori terpadu 256GB atau GPU NVIDIA 24GB + RAM 256GB dengan offloading MoE.
- 1-bit (176GB): Muat dalam RAM 180GB.
- FP8 (vLLM): Membutuhkan 8×H200 atau yang setara—lebih dari 800GB VRAM total.
- Minimum layak: RAM 64GB + CPU modern untuk konteks yang sangat kecil; 128GB+ direkomendasikan untuk pekerjaan praktis.
Anda memantau penggunaan dengan nvidia-smi di Linux atau Activity Monitor di macOS. Penyimpanan SSD mempercepat offloading. Anda mengalokasikan setidaknya 50GB ruang kosong untuk file model dan cache.
Metode 1: Menjalankan GLM-5 Secara Lokal dengan Unsloth GGUF di llama.cpp (Paling Mudah Diakses)
Anda memilih jalur ini untuk fleksibilitas dan efisiensi maksimum pada perangkat keras campuran.
Langkah 1: Membangun llama.cpp dengan Dukungan GLM-5
Anda memerlukan llama.cpp terbaru dengan PR 19460 yang sudah digabungkan.
apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON # Gunakan -DGGML_CUDA=OFF untuk CPU-only
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .
Anda menjalankan ini sekali. Proses pembangunan memakan waktu 10–20 menit tergantung pada mesin Anda.
Langkah 2: Mengunduh Model yang Dikuantisasi
Anda menggunakan huggingface_hub untuk transfer cepat.
pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"
Anda sekarang memiliki model 241GB yang terbagi dalam beberapa shard.
Langkah 3: Meluncurkan Inferensi
Anda memulai CLI untuk penggunaan interaktif.
export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
-hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
--jinja \
--ctx-size 32768 \
--flash-attn on \
--temp 0.7 \
--top-p 1.0 \
--fit on
Anda menambahkan --threads 32 untuk pengaturan yang membebani CPU atau -ot ".ffn_.*_exps.=CPU" untuk melakukan offload MoE experts.
Langkah 4: Melayani sebagai API OpenAI
Anda mengekspos model untuk aplikasi.
./llama-server \
--model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
--alias "glm-5" \
--fit on \
--ctx-size 32768 \
--port 8000 \
--jinja
Anda sekarang mengarahkan klien OpenAI mana pun ke http://localhost:8000/v1.
Anda mencapai 3–8 token/detik pada GPU 24GB dengan pengaturan ini. Anda menskala konteks hingga 128K tanpa crash saat Anda menggunakan --fit on.
Metode 2: Menjalankan GLM-5 Secara Lokal dengan Ollama (Termudah untuk Pemula)
Anda lebih menyukai kesederhanaan. Ollama menangani pengunduhan, kuantisasi, dan penyajian secara otomatis.
Instalasi
Anda mengunduh dari ollama.com dan menjalankan penginstal. Di Linux:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Menarik dan Menjalankan GLM-5
Anda menggunakan tag yang dioptimalkan komunitas.
ollama pull glm-5:cloud
ollama run glm-5:cloud
Anda berinteraksi langsung di terminal atau melalui API di http://localhost:11434/v1.
Membuat Modelfile Kustom
Anda menyesuaikan prompt sistem dan parameter.
FROM glm-5:cloud
SYSTEM Anda adalah seorang arsitek perangkat lunak ahli dengan pengetahuan mendalam tentang sistem terdistribusi.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072
Anda membangun dan menjalankan:
ollama create my-glm5 -f Modelfile
ollama run my-glm5
Anda berintegrasi dengan Claude Code, Cursor, atau Continue.dev dengan mengatur endpoint Ollama. Anda mendapatkan alternatif lokal yang lebih baik untuk agen pengkodean cloud.
Metode 3: Penerapan Lanjutan dengan vLLM (Performa Maksimum)
Anda memerlukan throughput tertinggi untuk agen produksi.
Anda menginstal nightly build:
uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130
Anda meluncurkan server (versi FP8 membutuhkan 8×H200):
vllm serve unsloth/GLM-5-FP8 \
--served-model-name glm-5 \
--tensor-parallel-size 8 \
--kv-cache-dtype fp8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--max-model-len 200000 \
--gpu-memory-utilization 0.93
Anda mengaktifkan speculative decoding dan pemanggilan alat. Anda melayani ribuan permintaan per menit pada cluster multi-GPU.
Uji dan Debug GLM-5 Lokal Anda dengan Apidog

Anda membuat proyek baru, mengatur URL dasar ke http://localhost:8000/v1 (atau 11434 untuk Ollama), dan mendefinisikan endpoint /chat/completions.
Anda membangun permintaan secara visual:
- Model:
glm-5 - Pesan: sistem + pengguna
- Suhu: 0.7
- Alat: definisikan skema JSON untuk pemanggilan fungsi
Anda mengirim permintaan, memeriksa respons streaming, dan menyimpan koleksi untuk pengujian regresi. Anda menghasilkan SDK Python atau JavaScript secara instan. Anda membuat mock respons untuk tim frontend.
Apidog mengubah GLM-5 lokal Anda menjadi platform pengembangan kelas satu. Anda melakukan iterasi pada agen, memvalidasi output alat, dan mengukur latensi—semuanya tanpa meninggalkan antarmuka.
Teknik Optimalisasi Performa
Anda memeras lebih banyak kecepatan dari perangkat keras Anda.
- Anda mengaktifkan flash attention dan
--fit ondi llama.cpp. - Anda hanya meng-offload MoE experts ke CPU saat VRAM terbatas.
- Anda menggunakan 4-bit untuk obrolan dan 2-bit untuk pengkodean agentik.
- Anda mengatur
--prio 3di server untuk prioritas proses yang lebih tinggi. - Anda memantau dengan
nvtopatauhtopdan menyesuaikan--n-gpu-layers.
Anda mencapai 15–25 token/detik pada pengaturan dual RTX 4090 dengan penyesuaian ini.
Masalah Umum dan Cara Memperbaikinya
Anda mengalami kesalahan memori. Anda mengurangi konteks menjadi 16K atau meng-offload lebih banyak lapisan.
Anda melihat pemanggilan alat yang buruk. Anda mengatur suhu ke 1.0 dan top-p ke 0.95, lalu menggunakan flag --tool-call-parser glm47.
Anda mengalami unduhan yang lambat. Anda mengaktifkan hf_transfer dan menggunakan mirror yang cepat.
Anda mengalami CUDA out of memory. Anda menambahkan --gpu-memory-utilization 0.85 dan menutup proses latar belakang.
Anda selalu memeriksa dokumen Unsloth dan repo GLM-5 GGUF untuk shard terbaru.
Jalan ke Depan: GLM-5 Lokal dan Selanjutnya
Anda menyaksikan pergeseran menuju AI yang berdaulat. Model seperti GLM-5 membuktikan bahwa kemampuan terdepan dapat berjalan di perangkat keras yang sudah Anda miliki. Anda menggabungkannya dengan basis data vektor lokal, server alat, dan kerangka kerja agen untuk membangun sistem pribadi berkinerja tinggi.
Anda bergabung dengan komunitas di Hugging Face, r/LocalLLaMA Reddit, dan Discord Unsloth. Anda berbagi Modelfiles, hasil benchmark, dan kuantisasi kustom.
Anda menjalankan GLM-5 secara lokal hari ini. Anda mengontrol komputasi, data, dan masa depan tumpukan AI Anda.
Mulailah dengan GGUF 2-bit di llama.cpp. Unduh Apidog. Jalankan server. Anda akan kagum dengan apa yang dapat Anda bangun ketika model berada di mesin Anda.
Era model terdepan yang benar-benar lokal telah tiba. Manfaatkanlah sebaik-baiknya.
