يقدم GLM-5 من Z.ai نموذجًا مفتوح المصدر على مستوى الريادة، متاحًا الآن عبر Ollama. يمكنك الحصول على قدرات استثنائية في الاستدلال المعقد، وهندسة البرمجيات، وسير عمل العميل طويل الأمد، مع الاحتفاظ بكل شيء على جهازك الخاص.
ما الذي يجعل GLM-5 مميزًا؟
أصدرت Z.ai نموذج GLM-5 بموجب ترخيص MIT، مما يجعل أوزانه متاحة مجانًا على Hugging Face و ModelScope. يتسع النموذج إلى 744 مليار معلمة إجمالية في بنية "مزيج من الخبراء" (MoE)، حيث يتم تفعيل 40 مليار معلمة فقط لكل توكن. يحافظ هذا التصميم على ذكاء عالٍ مع التحكم في تكاليف الاستدلال.

يؤدي التدريب المسبق على 28.5 تريليون توكن إلى تزويد GLM-5 بدعم قوي للغات متعددة، ويتفوق بشكل أساسي في الإنجليزية والصينية. يتعامل مع سياقات تصل إلى حوالي 198 ألف توكن في تطبيق Ollama من خلال DeepSeek Sparse Attention (DSA)، مما يقلل من النفقات العامة للحوسبة دون التضحية بأداء التسلسلات الطويلة.
تسلط المقاييس الضوء على نقاط قوته. يحقق GLM-5 نسبة 92.7% في AIME 2026 I، و86.0% في GPQA-Diamond، و77.8% في SWE-bench Verified. تضعه هذه النتائج في منافسة قوية مع النماذج الرائدة في البرمجة، والتفكير الرياضي، والمهام العميلية مثل التخطيط متعدد الخطوات واستخدام الأدوات.

يقدر المستخدمون بشكل خاص قدرته على إنشاء مستندات منظمة مثل مستندات متطلبات المنتج (PRDs)، وجداول البيانات، والتقارير، وتوافقه مع أطر عمل الوكلاء. ينتقل النموذج بسلاسة من المحادثة البسيطة إلى سير عمل هندسي معقد.
لماذا تقرن GLM-5 مع Ollama؟
يبسط Ollama نشر نماذج LLM المحلية عبر أنظمة macOS و Linux و Windows. يدير تنزيلات النماذج، والتكميم، والتقديم مع عرض واجهة برمجة تطبيقات REST متوافقة مع OpenAI على http://localhost:11434/v1. ونتيجة لذلك، فإن أي أداة مصممة لنقاط نهاية OpenAI تعمل مع GLM-5 مباشرةً.
تتجنب تكاليف السحابة، وحدود المعدل، ونقل البيانات إلى أطراف ثالثة. علاوة على ذلك، يدعم Ollama التبديل السهل بين النماذج ويتكامل مباشرة مع أدوات المطورين. يوفر وسم glm-5:cloud نسخة محسّنة مصممة للتنفيذ المحلي، مما يوازن بين القدرة ومتطلبات الموارد.
المتطلبات الأساسية لتشغيل GLM-5 محليًا
جهّز نظامك قبل التثبيت. يعمل Ollama على الأجهزة الحديثة، لكن GLM-5 يستفيد من موارد كبيرة نظرًا لحجمه.
- نظام التشغيل: macOS (يُفضل Apple Silicon)، أو Linux، أو Windows مع WSL2.
- توصية وحدة معالجة الرسوميات (GPU): توفر بطاقات NVIDIA المزودة بذاكرة VRAM بسعة 24 جيجابايت فما فوق أداءً مريحًا عند أطوال السياق الأعلى. تعمل أجهزة Apple Silicon Mac المزودة بذاكرة موحدة بسعة 32 جيجابايت فما فوق بشكل جيد أيضًا. تعمل إعدادات المعالج المركزي (CPU) فقط ولكنها تنتج توكنات أبطأ.
- الذاكرة العشوائية (RAM): ذاكرة نظام لا تقل عن 32 جيجابايت؛ 64 جيجابايت فما فوق يحسن الاستقرار أثناء السياقات الطويلة.
- التخزين: خصص مساحة SSD خالية تبلغ 50 جيجابايت فما فوق لملفات النموذج ووقت تشغيل Ollama.
- الإنترنت: مطلوب لأمر
ollama pullالأولي.
تحقق من جهازك مقابل هذه الإرشادات. غالبًا ما يحقق المستخدمون الذين لديهم وحدات معالجة رسوميات متوسطة المدى سرعات قابلة للاستخدام عن طريق تحديد السياق أو استخدام تكميم أقل حيثما كان ذلك متاحًا. اختبر بشكل تدريجي بعد الإعداد.
الخطوة 1: تثبيت Ollama
قم بزيارة الموقع الرسمي لـ Ollama وقم بتنزيل المثبت المناسب لمنصتك. تستغرق العملية ثوانٍ على معظم الأنظمة.
على نظامي macOS أو Linux، افتح الطرفية وقم بتشغيل أمر التثبيت المتوفر على الموقع. يقوم مستخدمو Windows بتشغيل ملف .exe الذي تم تنزيله.
بعد التثبيت، تحقق من النجاح بفتح الطرفية وكتابة:
ollama --version
يؤكد هذا الأمر أن وقت التشغيل نشط. ابدأ خادم Ollama في الخلفية باستخدام ollama serve إذا لم يتم تشغيله تلقائيًا.
الخطوة 2: سحب وتشغيل GLM-5
قم بتنزيل النموذج بأمر واحد:
ollama pull glm-5:cloud
تقوم العملية بتنزيل الملفات الضرورية وقد تستغرق وقتًا اعتمادًا على اتصالك. راقب التقدم في الطرفية.
ابدأ جلسة تفاعلية مباشرة بعد ذلك:
ollama run glm-5:cloud
يمكنك الآن التفاعل مباشرة مع GLM-5 في سطر الأوامر. اكتب الأوامر ولاحظ الاستجابات. اخرج من الجلسة باستخدام /bye عند الانتهاء.
الخطوة 3: التفاعل عبر سطر الأوامر واستدعاءات API الأساسية
واجهة سطر الأوامر (CLI) مناسبة للاختبار السريع. للوصول البرمجي، استخدم واجهة برمجة تطبيقات REST.
اختبر إكمال الدردشة البسيط باستخدام curl:
curl http://localhost:11434/api/chat -d '{
"model": "glm-5:cloud",
"messages": [
{ "role": "user", "content": "Explain the advantages of Mixture-of-Experts architectures in large language models." }
],
"stream": false
}'
يعيد Ollama استجابة JSON تحتوي على رسالة المساعد. تدعم نقطة النهاية هذه البث عند تعيين "stream": true، مما يتيح إخراج التوكنات في الوقت الفعلي في التطبيقات.
يستفيد مطورو بايثون من مكتبة ollama الرسمية أو OpenAI SDK للتوافق:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Placeholder; no real key required
)
response = client.chat.completions.create(
model="glm-5:cloud",
messages=[
{"role": "system", "content": "You are an expert software architect."},
{"role": "user", "content": "Design a scalable microservices system for an e-commerce platform handling 1M daily users."}
],
temperature=0.7,
max_tokens=2048
)
print(response.choices[0].message.content)
يوضح هذا الكود كيف تتكيف قواعد الكود المتوافقة مع OpenAI بسهولة مع النموذج المحلي.
الخطوة 4: تحسين سير عملك باستخدام Apidog
يعمل اختبار API المرئي على تسريع عملية التطوير وتصحيح الأخطاء. يتفوق Apidog في هذا المجال من خلال توفير واجهة بديهية لصياغة الطلبات، وإدارة البيئات، وتوليد كود العميل.

قم بتنزيل Apidog مجانًا من الموقع الرسمي وقم بتثبيته. أنشئ مشروعًا جديدًا وقم بتكوين ما يلي:
- عنوان URL الأساسي:
http://localhost:11434/v1 - نقطة النهاية: أضف
/chat/completionsكطلب POST. - الرؤوس (Headers): عيّن
Content-Type: application/json(لا يلزم رأس التخويل (Authorization header) لـ Ollama المحلي).
قم بإنشاء نص طلبك بصريًا. حدد مصفوفة الرسائل، واضبط المعلمات مثل temperature أو top_p أو max_tokens، وقم بتضمين اسم النموذج "glm-5:cloud". أرسل الطلب وافحص استجابة JSON الكاملة، بما في ذلك استخدام التوكنات والتوقيت.
يتيح لك Apidog أيضًا:
- حفظ البيئات القابلة لإعادة الاستخدام لنماذج أو سياقات مختلفة.
- إنشاء كود SDK بلغات Python أو JavaScript أو غيرها.
- إنشاء مجموعات اختبار آلية للتحقق من مخرجات GLM-5 مقابل المخططات المتوقعة.
- محاكاة الاستجابات لتطوير الواجهة الأمامية عندما يعمل الواجهة الخلفية محليًا.
يحول هذا التكامل تجربة API الخام إلى عملية منظمة وتعاونية. يستفيد المطورون الذين يختبرون محادثات معقدة متعددة الأدوار أو سيناريوهات استدعاء الأدوات بشكل خاص من أدوات تصحيح الأخطاء المرئية في Apidog.
التكوينات والتحسينات المتقدمة
قم بتخصيص السلوك عن طريق إنشاء Modelfile. على سبيل المثال:
FROM glm-5:cloud
SYSTEM You are a precise engineering assistant focused on long-term planning and code quality.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072
قم بإنشاء النموذج المخصص باستخدام ollama create my-glm5 -f Modelfile وتشغيله كـ ollama run my-glm5.
اضبط طول السياق بعناية. تستهلك النوافذ الأكبر مزيدًا من الذاكرة ولكنها تتيح تحليل قواعد البيانات الكبيرة أو المستندات. راقب استخدام ذاكرة الفيديو (VRAM) باستخدام أدوات مثل nvidia-smi.
لسير عمل الوكلاء، قم بتشغيل الأدوات المتوافقة مباشرة:
ollama launch openclaw --model glm-5:cloud
تدعم الأوامر المشابهة Claude Code و Codex وأطر عمل أخرى، مما يتيح لـ GLM-5 تشغيل وكلاء سطح المكتب أو مساعدي البرمجة محليًا.

قم بالتجربة مع موجهات النظام لتوجيه النموذج نحو مجالات محددة، مثل بنية الواجهة الأمامية أو تحليل الأمن السيبراني. تتبع مقاييس الأداء — عادةً ما تتحسن التوكنات في الثانية مع تسريع GPU وإدارة السياق المحسّنة.
استكشاف المشكلات الشائعة وإصلاحها
يواجه المستخدمون أحيانًا تحديات أثناء الإعداد الأولي. إذا فشل أمر السحب (pull)، فتحقق من اتصالك بالإنترنت ومساحة القرص. أعد تشغيل خدمة Ollama وحاول مرة أخرى.
تشير أخطاء الذاكرة أثناء الاستدلال إلى عدم كفاية ذاكرة الفيديو (VRAM) أو حجم سياق طموح بشكل مفرط. قلل num_ctx أو أغلق التطبيقات الأخرى التي تستهلك وحدة معالجة الرسوميات بكثافة. على أجهزة Apple Silicon، تأكد من تخصيص ذاكرة موحدة كافية.
غالبًا ما تتحسن أوقات الاستجابة البطيئة عن طريق تأكيد تفريغ عمل وحدة معالجة الرسوميات (GPU). تحقق من سجلات Ollama للتأكد من تحميل الطبقات إلى المسرع.
عندما تعيد استدعاءات API تنسيقات غير متوقعة، تأكد من تطابق وسم النموذج تمامًا وأن نص الطلب يتبع المخطط المتوقع. يساعد Apidog في عزل هذه المشكلات بسرعة من خلال عرض الطلبات والاستجابات الخام جنبًا إلى جنب.
توفر منتديات المجتمع والوثائق الرسمية حلولًا إضافية مع تطور النظام البيئي.
الخلاصة: تحكم في الذكاء الاصطناعي المتقدم اليوم
يزيل تشغيل GLM-5 محليًا عبر Ollama الحواجز أمام الحصول على مساعدة ذكاء اصطناعي عالية الجودة. يمكنك الوصول إلى أداء تفكير وبرمجة متطور مع الحفاظ على سيادة البيانات الكاملة وإلغاء تكاليف الاستخدام.
ابدأ بخطوات التثبيت الموضحة أعلاه، وادمج Apidog لتحسين تفاعلاتك مع API، واستكشف التكوينات المخصصة التي تتناسب مع سير عملك المحدد. غالبًا ما تؤدي التعديلات الصغيرة — مثل الموجهات المحسنة، أو إدارة السياق، أو تكامل الأدوات — إلى تحسينات كبيرة في جودة المخرجات والكفاءة.
يُمكّن الجمع بين قدرات GLM-5 وبساطة Ollama المطورين من التجريب بحرية وبناء حلول جاهزة للإنتاج بالكامل على بنيتهم التحتية الخاصة. ابدأ نشرك المحلي الآن وافتح الإمكانات الكاملة لهذا النموذج القوي مفتوح المصدر.
