تشغيل نموذج GLM-5 محليًا مجانًا

Ashley Innocent

Ashley Innocent

13 فبراير 2026

تشغيل نموذج GLM-5 محليًا مجانًا

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

تريد الوصول إلى أحد نماذج الذكاء الاصطناعي المفتوحة الأكثر قدرة لعام 2026—GLM-5 من Z.ai—دون دفع أي تكلفة لاستدعاءات API أو الحوسبة السحابية. يحقق المهندسون والمطورون هذا اليوم عن طريق تشغيل GLM-5 محليًا على أجهزة المستهلكين والمحترفين. يقلص التكميم المكثف من Unsloth نموذج Mixture-of-Experts ذو الـ 744 مليار معلمة (40 مليار نشط) من 1.65 تيرابايت إلى 241 جيجابايت فقط، ويمكنك نشره عبر llama.cpp أو Ollama أو vLLM.

💡
قبل البدء، قم بتنزيل Apidog مجانًا. يحوّل عميل API القوي هذا طريقة اختبار وتصحيح أخطاء نقطة نهاية GLM-5 المحلية الخاصة بك. يمكنك بناء الطلبات بصريًا، وتوليد شيفرة SDK، وتشغيل الاختبارات الآلية، ومراقبة استخدام الرموز—كل ذلك مع الحفاظ على خصوصية تجاربك بالكامل. يتوافق Apidog تمامًا مع الخوادم المتوافقة مع OpenAI التي ستقوم بتشغيلها، مما يتيح لك الانتقال من أوامر curl الخام إلى تكاملات جاهزة للإنتاج في دقائق.
زر

يمكنك تشغيل GLM-5 محليًا! تتطلب هذه العملية اهتمامًا بالمعدات، وخطوات بناء دقيقة، واستراتيجيات تفريغ ذكية. يرشدك هذا الدليل عبر كل طريقة، ويوضح سبب أهمية كل أمر، وكيفية تحقيق أقصى أداء من إعداداتك. ستحصل على سيادة كاملة على بياناتك، ووقت استجابة صفري لسير العمل الوكلي (agentic workflows)، واستنتاج غير محدود.

ما الذي يجعل GLM-5 نقطة تحول للنشر المحلي؟

أصدرت Z.ai نموذج GLM-5 كخلف لـ GLM-4.7. يتوسع النموذج إلى 744 مليار معلمة إجمالية مع 40 مليار معلمة نشطة لكل رمز، وقد تم تدريبه على 28.5 تريليون رمز. يقدم نتائج متطورة في المعايير الوكيلة (agentic benchmarks): 77.8% على SWE-bench Verified، و 89.7% على τ²-Bench، و 61.1% على Terminal-Bench 2.0 مع الأدوات.

تستفيد من نافذة سياق بحجم 200 ألف بفضل DeepSeek Sparse Attention. يتفوق النموذج في الاستدلال طويل المدى، واستدعاء الأدوات متعدد الأدوار، وتوليد الشفرات المعقدة. علاوة على ذلك، يتيح لك ترخيص MIT المفتوح تشغيله وتعديله وحتى تسويقه دون قيود.

ومع ذلك، يتطلب النموذج الخام 1.65 تيرابايت من التخزين وذاكرة VRAM هائلة. غيّرت Unsloth قواعد اللعبة بإصدار تكميمات Dynamic 2.0 GGUF—UD-IQ2_XXS بحجم 241 جيجابايت (-85%) و 1-bit بحجم 176 جيجابايت (-89%). تحافظ هذه الإصدارات على جودة الاستدلال من خلال رفع الطبقات الذكي (intelligent layer upcasting) مع إمكانية تشغيلها على جهاز Mac بذاكرة موحدة 256 جيجابايت أو بطاقة رسوميات GPU واحدة بسعة 24 جيجابايت مقترنة بذاكرة وصول عشوائي (RAM) للنظام بسعة 256 جيجابايت.

يمكنك تشغيل GLM-5 محليًا باستخدام هذه التكميمات لأنها تحقق توازنًا بين الحجم والسرعة والقدرة. تظهر المعايير انخفاضًا طفيفًا جدًا في مهام البرمجة والوكيل مقارنة بالدقة الكاملة.

لماذا تشغل GLM-5 محليًا بدلاً من استخدام واجهات برمجة تطبيقات السحابة؟

تتخلص من التكاليف المتكررة. يفرض مزودو الخدمات السحابية رسومًا لكل رمز، وتجعل قدرات GLM-5 الاستخدام الكثيف مكلفًا بسرعة. لا يكلف الاستدلال المحلي شيئًا سوى الكهرباء.

تحمي البيانات الحساسة. تحتفظ الشركات والباحثون بالشيفرة الخاصة بهم، أو السجلات الطبية، أو استفسارات العملاء بالكامل دون اتصال بالإنترنت.

تحقق زمن استجابة أقل. تستجيب النماذج المحلية في غضون مللي ثانية لمحادثات الدردشة وحلقات استدعاء الأدوات. يمكنك ربط الوكلاء دون قفزات شبكة.

يمكنك التخصيص بحرية. يمكنك الضبط الدقيق باستخدام Unsloth، أو إنشاء Modelfiles في Ollama، أو بناء أدوات مخصصة في vLLM.

علاوة على ذلك، يمكنك التجربة دون قيود على المعدل. يمكنك اختبار 200 ألف سياق، أو إجراء محادثات من 1000 دور، أو قياس دقة استدعاء الأدوات طوال الليل.

متطلبات الأجهزة: ما تحتاجه بالفعل

تطابق إعداداتك مع مستوى التكميم.

تراقب الاستخدام باستخدام nvidia-smi على Linux أو Activity Monitor على macOS. تسرع وحدات التخزين SSD عملية التفريغ. يجب تخصيص ما لا يقل عن 50 جيجابايت حرة لملفات النموذج وذاكرة التخزين المؤقت.

الطريقة 1: تشغيل GLM-5 محليًا باستخدام Unsloth GGUF في llama.cpp (الأكثر سهولة للوصول)

تختار هذا المسار للحصول على أقصى قدر من المرونة والكفاءة على الأجهزة المختلطة.

الخطوة 1: بناء llama.cpp بدعم GLM-5

تحتاج إلى أحدث إصدار من llama.cpp مع دمج PR 19460.

apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON  # Use -DGGML_CUDA=OFF for CPU-only
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .

تقوم بتشغيل هذا مرة واحدة. يستغرق البناء من 10 إلى 20 دقيقة حسب جهازك.

الخطوة 2: تنزيل النموذج المكمم

تستخدم huggingface_hub لنقل البيانات بسرعة.

pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"

لديك الآن النموذج الذي يبلغ حجمه 241 جيجابايت مقسمًا عبر الشظايا (shards).

الخطوة 3: بدء الاستنتاج

تبدأ واجهة سطر الأوامر (CLI) للاستخدام التفاعلي.

export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
  -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
  --jinja \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 0.7 \
  --top-p 1.0 \
  --fit on

تضيف `--threads 32` للإعدادات التي تعتمد بشكل كبير على وحدة المعالجة المركزية (CPU) أو `-ot ".ffn_.*_exps.=CPU"` لتفريغ خبراء MoE.

الخطوة 4: التقديم كـ OpenAI API

تكشف النموذج للتطبيقات.

./llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "glm-5" \
  --fit on \
  --ctx-size 32768 \
  --port 8000 \
  --jinja

يمكنك الآن توجيه أي عميل OpenAI إلى `http://localhost:8000/v1`.

تحقق من 3 إلى 8 رموز/ثانية على بطاقة رسوميات GPU بسعة 24 جيجابايت باستخدام هذا الإعداد. يمكنك توسيع السياق إلى 128 ألف رمز دون تعطل عند استخدام `--fit on`.

الطريقة 2: تشغيل GLM-5 محليًا باستخدام Ollama (الأسهل للمبتدئين)

أنت تفضل البساطة. يتعامل Ollama مع التنزيلات والتكميم والتقديم تلقائيًا.

التثبيت

تقوم بالتنزيل من ollama.com وتشغيل المثبت. على نظام Linux:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

سحب وتشغيل GLM-5

تستخدم الوسم المحسن من قبل المجتمع.

ollama pull glm-5:cloud
ollama run glm-5:cloud

تتفاعل مباشرة في الطرفية (terminal) أو عبر API على `http://localhost:11434/v1`.

إنشاء ملف نموذج مخصص (Modelfile)

تقوم بتخصيص موجه النظام (system prompt) والمعلمات.

FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072

تقوم بالبناء والتشغيل:

ollama create my-glm5 -f Modelfile
ollama run my-glm5

تتكامل مع Claude Code، Cursor، أو Continue.dev عن طريق تعيين نقطة نهاية Ollama. تحصل على بديل محلي مصقول لوكلاء البرمجة السحابيين.

الطريقة 3: النشر المتقدم باستخدام vLLM (أقصى أداء)

تحتاج إلى أعلى معدل نقل (throughput) لوكلاء الإنتاج.

تقوم بتثبيت الإصدار الليلي (nightly build):

uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130

تقوم بتشغيل الخادم (يتطلب إصدار FP8 ثمانية وحدات H200):

vllm serve unsloth/GLM-5-FP8 \
  --served-model-name glm-5 \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.93

تمكّن فك التشفير التخميني (speculative decoding) واستدعاء الأدوات. يمكنك تقديم الآلاف من الطلبات في الدقيقة على مجموعة (cluster) متعددة وحدات معالجة الرسوميات (GPU).

اختبار وتصحيح أخطاء GLM-5 المحلي الخاص بك باستخدام Apidog

تقوم بتوصيل Apidog بنقطة النهاية الخاصة بك وتتحقق من أن كل شيء يعمل.

تقوم بإنشاء مشروع جديد، وتعيين عنوان URL الأساسي إلى `http://localhost:8000/v1` (أو 11434 لـ Ollama)، وتحديد نقطة النهاية `/chat/completions`.

تقوم ببناء الطلبات بصريًا:

ترسل الطلبات، وتفحص الاستجابات المتدفقة (streaming responses)، وتحفظ المجموعات لاختبارات الانحدار. تقوم بإنشاء حزم SDK بلغة Python أو JavaScript على الفور. يمكنك محاكاة الاستجابات لفرق الواجهة الأمامية.

يحول Apidog نموذج GLM-5 المحلي الخاص بك إلى منصة تطوير من الدرجة الأولى. يمكنك تكرار العمل على الوكلاء، والتحقق من مخرجات الأدوات، وقياس زمن الاستجابة—كل ذلك دون مغادرة الواجهة.

تقنيات تحسين الأداء

تستخلص سرعة أكبر من أجهزتك.

تحقق من 15 إلى 25 رمزًا/ثانية على إعداد RTX 4090 المزدوج مع هذه التعديلات.

المشكلات الشائعة وكيفية إصلاحها

تواجه أخطاء في الذاكرة. تقوم بتقليل السياق إلى 16 ألف أو تفريغ المزيد من الطبقات.

ترى ضعفًا في استدعاء الأدوات. تضبط درجة الحرارة على 1.0 و top-p على 0.95، ثم تستخدم الراية `--tool-call-parser glm47`.

تعاني من بطء التنزيلات. تمكّن `hf_transfer` وتستخدم خادمًا وسيطًا سريعًا (fast mirror).

تنفد ذاكرة CUDA. تضيف `--gpu-memory-utilization 0.85` وتغلق العمليات الخلفية.

عليك دائمًا التحقق من وثائق Unsloth ومستودع GLM-5 GGUF للحصول على أحدث الشظايا.

الطريق إلى الأمام: GLM-5 المحلي وما بعده

تشهد التحول نحو الذكاء الاصطناعي السيادي. تثبت نماذج مثل GLM-5 أن القدرات المتطورة تعمل على الأجهزة التي تمتلكها بالفعل. يمكنك دمجها مع قواعد بيانات المتجهات المحلية، وخوادم الأدوات، وأطر عمل الوكلاء لبناء أنظمة خاصة عالية الأداء.

تتصل بالمجتمع على Hugging Face، و r/LocalLLaMA على Reddit، وخادم Discord الخاص بـ Unsloth. يمكنك مشاركة Modelfiles، ونتائج المعايير، والتكميمات المخصصة.

يمكنك تشغيل GLM-5 محليًا اليوم. تتحكم في الحوسبة والبيانات ومستقبل مكدس الذكاء الاصطناعي الخاص بك.

ابدأ باستخدام GGUF ذو 2 بت في llama.cpp. قم بتنزيل Apidog. قم بتشغيل الخادم. ستندهش مما يمكنك بنائه عندما يعيش النموذج على جهازك.

لقد وصل عصر النماذج المتطورة المحلية حقًا. استغلها بأقصى قدر ممكن.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات

تشغيل نموذج GLM-5 محليًا مجانًا