GLM-5'i Ücretsiz ve Yerel Olarak Nasıl Çalıştırılır

Ashley Innocent

Ashley Innocent

13 February 2026

GLM-5'i Ücretsiz ve Yerel Olarak Nasıl Çalıştırılır

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

2026'nın en yetenekli açık modellerinden biri olan Z.ai'nin GLM-5'ine API çağrıları veya bulut bilişim için tek kuruş ödemeden erişmek istiyorsunuz. Mühendisler ve geliştiriciler, GLM-5'i bugün tüketici ve prosumer donanımlarında yerel olarak çalıştırarak bunu başarıyorlar. Unsloth'un agresif nicelemesi, 744 milyar parametreli (40 milyar aktif) Uzmanlar Karışımı modelini 1.65 TB'tan sadece 241 GB'a düşürüyor ve bunu llama.cpp, Ollama veya vLLM aracılığıyla dağıtabilirsiniz.

💡
Başlamadan önce Apidog'u ücretsiz indirin. Bu güçlü API istemcisi, yerel GLM-5 uç noktanızı test etme ve hata ayıklama şeklinizi dönüştürür. İstekleri görsel olarak oluşturabilir, SDK kodu üretebilir, otomatik testler çalıştırabilir ve jeton kullanımını izleyebilirsiniz; tüm bunları yaparken deneylerinizi tamamen gizli tutarsınız. Apidog, kuracağınız OpenAI uyumlu sunucularla mükemmel uyum sağlar, böylece ham 'curl' komutlarından üretime hazır entegrasyonlara dakikalar içinde geçebilirsiniz.
düğme

GLM-5'i yerel olarak çalıştırıyorsunuz! Bu süreç donanıma dikkat, hassas yapım adımları ve akıllı yük boşaltma stratejileri gerektirir. Bu kılavuz size her yöntemi anlatacak, her komutun neden önemli olduğunu açıklayacak ve kurulumunuzdan maksimum performansı nasıl elde edeceğinizi gösterecektir. Tam veri egemenliği, aracı iş akışları için sıfır gecikme ve sınırsız çıkarım elde edersiniz.

GLM-5'i Yerel Dağıtım İçin Oyunun Kurallarını Değiştiren Ne Yapar?

Z.ai, GLM-5'i GLM-4.7'nin halefi olarak piyasaya sürdü. Model, her belirteç başına 40 milyar aktif olmak üzere toplam 744 milyar parametreye ölçeklenir ve 28.5 trilyon belirteç üzerinde eğitilmiştir. Aracı karşılaştırmalarda son teknoloji sonuçlar sunar: SWE-bench Verified'da %77.8, τ²-Bench'te %89.7 ve Terminal-Bench 2.0'da araçlarla birlikte %61.1.

DeepSeek Sparse Attention sayesinde 200K'lık bir bağlam penceresinden faydalanırsınız. Model, uzun vadeli akıl yürütme, çok turlu araç çağırma ve karmaşık kod üretmede mükemmeldir. Dahası, açık MIT lisansı, modeli kısıtlama olmaksızın çalıştırmanıza, değiştirmenize ve hatta ticarileştirmenize olanak tanır.

Ancak, ham model 1.65 TB depolama alanı ve büyük miktarda VRAM gerektirir. Unsloth, Dynamic 2.0 GGUF nicelemeleri—241 GB'ta (-%85) UD-IQ2_XXS ve 176 GB'ta (-%89) 1-bit—yayınlayarak oyunun kurallarını değiştirdi. Bu sürümler, akıllı katman yükseltme yoluyla muhakeme kalitesini korurken, 256 GB birleşik belleğe sahip bir Mac'e veya 256 GB sistem RAM'i ile eşleştirilmiş tek bir 24 GB GPU'ya sığar.

Bu nicelemelerle GLM-5'i yerel olarak çalıştırırsınız çünkü bunlar boyut, hız ve yetenek arasında denge sağlar. Karşılaştırmalar, tam hassasiyete kıyasla kodlama ve aracı görevlerde minimum bozulma olduğunu gösteriyor.

GLM-5'i Bulut API'leri Yerine Neden Yerel Olarak Çalıştırmalısınız?

Tekrarlayan maliyetleri ortadan kaldırırsınız. Bulut sağlayıcıları jeton başına ücret alır ve GLM-5'in yetenekleri yoğun kullanımı hızla pahalı hale getirir. Yerel çıkarım, elektrik dışında hiçbir maliyeti yoktur.

Hassas verileri korursunuz. İşletmeler ve araştırmacılar, özel kodları, tıbbi kayıtları veya müşteri sorgularını tamamen çevrimdışı tutar.

Daha düşük gecikme süresi elde edersiniz. Yerel modeller, sohbet ve araç çağırma döngüleri için milisaniyeler içinde yanıt verir. Ağ atlamaları olmadan aracıları birbirine bağlarsınız.

Özgürce özelleştirirsiniz. Unsloth ile ince ayar yapabilir, Ollama'da Modelfile'lar oluşturabilir veya vLLM'de özel araçlar geliştirebilirsiniz.

Ayrıca, hız sınırları olmadan deneme yaparsınız. 200K bağlamı test edebilir, 1000 turluk konuşmalar yürütebilir veya araç çağırma doğruluğunu bir gecede karşılaştırabilirsiniz.

Donanım Gereksinimleri: Gerçekten Neye İhtiyacınız Var?

Kurulumunuzu niceleme düzeyine göre ayarlarsınız.

Linux'ta nvidia-smi veya macOS'ta Aktivite Monitörü ile kullanımı izlersiniz. SSD depolama, boşaltmayı hızlandırır. Model dosyaları ve önbellek için en az 50GB boş yer ayırırsınız.

Yöntem 1: Unsloth GGUF ile GLM-5'i llama.cpp'de Yerel Olarak Çalıştırın (En Erişilebilir)

Karma donanımlarda maksimum esneklik ve verimlilik için bu yolu seçersiniz.

Adım 1: GLM-5 Desteğiyle llama.cpp'yi Oluşturun

PR 19460'ın birleştirildiği en son llama.cpp'ye ihtiyacınız var.

apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON  # Use -DGGML_CUDA=OFF for CPU-only
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .

Bunu bir kez çalıştırırsınız. Oluşturma işlemi makinenize bağlı olarak 10-20 dakika sürer.

Adım 2: Nicelemeli Modeli İndirin

Hızlı aktarımlar için huggingface_hub kullanırsınız.

pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"

Artık parçalara bölünmüş 241GB'lık modele sahipsiniz.

Adım 3: Çıkarımı Başlatın

Etkileşimli kullanım için CLI'yi başlatırsınız.

export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
  -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
  --jinja \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 0.7 \
  --top-p 1.0 \
  --fit on

CPU yoğun kurulumlar için --threads 32 ekler veya MoE uzmanlarını boşaltmak için -ot ".ffn_.*_exps.=CPU" kullanırsınız.

Adım 4: OpenAI API Olarak Sunun

Modeli uygulamalar için erişilebilir hale getirirsiniz.

./llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "glm-5" \
  --fit on \
  --ctx-size 32768 \
  --port 8000 \
  --jinja

Artık herhangi bir OpenAI istemcisini http://localhost:8000/v1 adresine yönlendirirsiniz.

Bu kurulumla 24GB'lık bir GPU'da saniyede 3-8 jeton elde edersiniz. --fit on kullandığınızda, bağlamı çökme olmadan 128K'ya ölçeklersiniz.

Yöntem 2: GLM-5'i Ollama ile Yerel Olarak Çalıştırın (Yeni Başlayanlar İçin En Kolay)

Basitliği tercih ediyorsunuz. Ollama indirmeleri, nicelemeyi ve sunmayı otomatik olarak halleder.

Kurulum

ollama.com adresinden indirip yükleyiciyi çalıştırırsınız. Linux'ta:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

GLM-5'i Çek ve Çalıştır

Topluluk tarafından optimize edilmiş etiketi kullanırsınız.

ollama pull glm-5:cloud
ollama run glm-5:cloud

Doğrudan terminalde veya http://localhost:11434/v1 adresindeki API aracılığıyla etkileşim kurarsınız.

Özel Bir Modelfile Oluşturun

Sistem istemini ve parametrelerini özelleştirirsiniz.

FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072

Oluşturur ve çalıştırırsınız:

ollama create my-glm5 -f Modelfile
ollama run my-glm5

Ollama uç noktasını ayarlayarak Claude Code, Cursor veya Continue.dev ile entegre olursunuz. Bulut kodlama aracılarına şık bir yerel alternatif elde edersiniz.

Yöntem 3: vLLM ile Gelişmiş Dağıtım (Maksimum Performans)

Üretim aracıları için en yüksek iş hacmine ihtiyacınız var.

Gece yapımını yüklersiniz:

uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130

Sunucuyu başlatırsınız (FP8 sürümü 8×H200 gerektirir):

vllm serve unsloth/GLM-5-FP8 \
  --served-model-name glm-5 \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.93

Spekülatif kod çözmeyi ve araç çağırmayı etkinleştirirsiniz. Çoklu GPU kümesinde dakikada binlerce isteğe hizmet verirsiniz.

Yerel GLM-5'inizi Apidog ile Test Edin ve Hata Ayıklayın

Apidog'u uç noktanıza bağlar ve her şeyin çalıştığını doğrulardınız.

Yeni bir proje oluşturur, temel URL'yi http://localhost:8000/v1 (veya Ollama için 11434) olarak ayarlar ve /chat/completions uç noktasını tanımlarsınız.

İstekleri görsel olarak oluşturursunuz:

İstekleri gönderir, akış yanıtlarını inceler ve regresyon testleri için koleksiyonları kaydedersiniz. Python veya JavaScript SDK'larını anında oluşturursunuz. Ön uç ekipleri için sahte yanıtlar hazırlarsınız.

Apidog, yerel GLM-5'inizi birinci sınıf bir geliştirme platformuna dönüştürür. Aracıları yineleyebilir, araç çıktılarını doğrulayabilir ve gecikmeyi ölçebilirsiniz—tüm bunları arayüzden ayrılmadan yaparsınız.

Performans Optimizasyon Teknikleri

Donanımınızdan daha fazla hız elde edersiniz.

Bu ayarlamalarla çift RTX 4090 kurulumunda saniyede 15-25 jeton elde edersiniz.

Yaygın Sorunlar ve Bunları Nasıl Giderirsiniz

Bellek hatalarıyla karşılaşırsınız. Bağlamı 16K'ya düşürür veya daha fazla katmanı boşaltırsınız.

Zayıf araç çağırma görürsünüz. Sıcaklığı 1.0'a ve top-p'yi 0.95'e ayarlarsınız, ardından --tool-call-parser glm47 bayrağını kullanırsınız.

Yavaş indirmeler yaşarsınız. hf_transfer'ı etkinleştirir ve hızlı bir yansıtma sunucusu kullanırsınız.

CUDA bellek yetersizliği hatası alırsınız. --gpu-memory-utilization 0.85 eklersiniz ve arka plan işlemlerini kapatırsınız.

En son parçalar için her zaman Unsloth belgelerini ve GLM-5 GGUF deposunu kontrol edersiniz.

Gelecek Yol: Yerel GLM-5 ve Ötesi

Egemen yapay zekaya geçişe tanık olursunuz. GLM-5 gibi modeller, öncü yeteneklerin zaten sahip olduğunuz donanımlarda çalıştığını kanıtlıyor. Özel, yüksek performanslı sistemler oluşturmak için bunu yerel vektör veri tabanları, araç sunucuları ve aracı çerçevelerle birleştirirsiniz.

Hugging Face, Reddit'in r/LocalLLaMA'sı ve Unsloth'un Discord'undaki topluluğa katılırsınız. Modelfile'ları, karşılaştırma sonuçlarını ve özel nicelemeleri paylaşırsınız.

Bugün GLM-5'i yerel olarak çalıştırıyorsunuz. İşlem gücünü, verileri ve yapay zeka yığınınızın geleceğini kontrol edersiniz.

llama.cpp'deki 2-bit GGUF ile başlayın. Apidog'u indirin. Sunucuyu çalıştırın. Model makinenizde yaşadığında neler inşa edebileceğinize şaşıracaksınız.

Gerçekten yerel öncü modellerin çağı geldi. Bunun keyfini çıkarırsınız.

düğme

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin