TL;DR
GLM-5.1 (744 مليار معلمة إجمالية، MoE، 40-44 مليار معلمة نشطة، ترخيص MIT) يحقق 77.8% في SWE-bench مقابل 80.8% لـ Claude Opus 4.6. تكلفته 1.00 دولار / 3.20 دولار لكل مليون رمز (توكن) مقابل 15.00 دولار / 75.00 دولار لـ Claude Opus 4.6. إنه النموذج مفتوح الأوزان الأكثر قدرة في عام 2026، تم تدريبه بالكامل على أجهزة Huawei دون استخدام وحدات معالجة الرسوميات (GPUs) من Nvidia. للفرق المهتمة بالتكلفة والتي تحتاج إلى أداء برمجة قريب من المستوى الرائد، يعتبر GLM-5.1 الخيار المفتوح الأقوى.
مقدمة
يُعد GLM-5.1 من Zhipu AI (الذي صدر في 27 مارس 2026) مهمًا لسببين يتجاوزان أداءه الخام في الاختبارات المعيارية: فهو مفتوح الأوزان بموجب ترخيص MIT، وقد تم تدريبه على 100,000 شريحة Huawei Ascend 910B – دون استخدام أي أجهزة Nvidia.
بالنسبة للمؤسسات التي تشعر بالقلق بشأن تبعيات سلسلة التوريد أو التي تتطلب تخصيص النموذج، فإن هذه العوامل لا تقل أهمية عن درجات الاختبارات المعيارية.
المواصفات
| المواصفات | GLM-5.1 |
|---|---|
| المعلمات | 744 مليار إجمالي (MoE) |
| نشطة لكل رمز | 40-44 مليار |
| هندسة الخبراء | 256 خبيرًا، 8 نشطة لكل رمز |
| نافذة السياق | 200 ألف رمز |
| أقصى إخراج | 131,072 رمزًا |
| بيانات التدريب | 28.5 تريليون رمز |
| أجهزة التدريب | 100,000 Huawei Ascend 910B |
| الترخيص | MIT (أوزان مفتوحة) |
الهيكل الذي يبلغ إجمالي معلماته 744 مليار معلمة مقابل 40-44 مليار معلمة نشطة هو سمة مميزة لهندسة MoE: فالنموذج كبير من حيث السعة الإجمالية ولكنه فعال لكل استدلال لأن جزءًا فقط من المعلمات ينشط لكل رمز.
مقارنة الأداء المعياري
الاستدلال والمعرفة
| المعيار | GLM-5 (الأساس 5.1) | Claude Opus 4.6 | ملاحظات |
|---|---|---|---|
| AIME 2025 | 92.7% | ~88% | GLM-5 يتفوق |
| GPQA Diamond | 86.0% | 91.3% | Claude يتصدر |
| MMLU | 88-92% | ~90%+ | مماثل |
البرمجة
| المعيار | GLM-5.1 | Claude Opus 4.6 |
|---|---|---|
| SWE-bench | 77.8% | 80.8% |
| LiveCodeBench | 52.0% | أعلى |
يحقق GLM-5.1 نسبة 77.8% في SWE-bench — متأخرًا بـ 3 نقاط عن Claude Opus 4.6 ولكنه متقدم بشكل كبير على GPT-5 و Gemini و DeepSeek في هذا المعيار المحدد. جاء تحسين البرمجة بنسبة 28% من GLM-5 إلى 5.1 من خلال التنقيح بعد التدريب بدلاً من التغييرات المعمارية.
تفضيل الإنسان (LMArena)
يحتل GLM-5 المرتبة الأولى بين النماذج مفتوحة الأوزان في LMArena لكل من مجالات النص والبرمجة. ومن بين جميع النماذج، فإنه ينافس النماذج المغلقة الرائدة.
مقارنة الأسعار
| النموذج | الإدخال (لكل مليون رمز) | الإخراج (لكل مليون رمز) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
يقدم GLM-5.1 ما يقرب من 94.6% من أداء برمجة Claude Opus 4.6 بتكلفة 1/15 (بناءً على ادعاءات Zhipu AI الداخلية؛ التحقق المستقل معلق بالنسبة للرقم 94.6% تحديدًا).
بالنسبة للفرق التي تشغل عوامل برمجة إنتاجية على نطاق واسع، يغير هذا الفارق في التكلفة الاقتصاديات بشكل كبير.
ميزة الأوزان المفتوحة
يتوفر GLM-5.1 على Hugging Face بموجب ترخيص MIT. يمكن للفرق:
- تنزيله واستضافته ذاتيًا (يتطلب حوالي 1.49 تيرابايت لـ BF16 الكامل)
- ضبطه بدقة على بيانات خاصة بالمجال
- نشره مع تحكم كامل في معالجة البيانات والبنية التحتية
- تعديل بنية النموذج أو ما بعد التدريب لمهام محددة
متطلبات التخزين البالغة 1.49 تيرابايت والبنية التحتية لوحدات معالجة الرسوميات (GPU) لـ 744 مليار معلمة تجعل الاستضافة الذاتية الكاملة مكلفة. بالنسبة لمعظم الفرق، الوصول عبر واجهة برمجة التطبيقات (API) أكثر عملية.
القيود
نص فقط: يعالج GLM-5.1 مدخلات نصية فقط. لا يوجد فهم للصور أو الصوت أو الفيديو. وهذا يحد من حالات الاستخدام مقارنة بالنماذج متعددة الوسائط مثل GPT-5.2 و Gemini 2.5 Pro.
استقلالية المعايير: تستخدم معايير برمجة GLM-5.1 برنامج Claude Code كإطار للتقييم. التحقق المستقل من الدرجات الدقيقة على بنية تحتية للتقييم غير تابعة لـ Claude لا يزال معلقًا.
أوزان GLM-5.1 معلقة: أوزان GLM-5 فقط هي المتاحة حاليًا للجمهور. يتوفر GLM-5.1 عبر واجهة برمجة التطبيقات (API)؛ لم يتم إصدار أوزان 5.1 حتى تاريخ النشر.
متطلبات التخزين: 1.49 تيرابايت للاستضافة الذاتية. يتطلب النشر الذاتي العملي استثمارًا كبيرًا في البنية التحتية.
اختبار GLM-5.1 باستخدام Apidog
عبر WaveSpeedAI (موصى به للوصول إلى واجهة برمجة التطبيقات):
POST https://api.wavespeed.ai/api/v1/chat/completions
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"model": "glm-5",
"messages": [
{
"role": "user",
"content": "{{coding_task}}"
}
],
"temperature": 0.2,
"max_tokens": 4096
}
قارن مع Claude Opus 4.6:
POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
Content-Type: application/json
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "{{coding_task}}"}]
}
استخدم نفس المتغير {{coding_task}} لكليهما. قارن:
- صحة الكود (هل يعمل؟)
- جودة الكود (هل هو مقروء ومنظم جيدًا؟)
- طول الاستجابة (أقصر = أكثر تركيزًا)
- استخدام الرموز (تحقق من بيانات تعريف الاستجابة)
بتكلفة 1.00 دولار / 3.20 دولار مقابل 15.00 دولار / 75.00 دولار، تكلف نفس مهمة البرمجة ما يقرب من 20-25 ضعفًا أكثر على Claude Opus 4.6.
من يجب أن يستخدم GLM-5.1
مناسب بقوة:
- الفرق التي تحتاج إلى أداء برمجة رائد بتكلفة مخفضة
- المؤسسات التي تتطلب نماذج مفتوحة الأوزان للامتثال أو التخصيص
- المطورون الذين يبنون لسوق الصينية أو حالات الاستخدام متعددة اللغات
- فرق البحث التي تدرس النماذج المفتوحة القريبة من الريادة
توجد بدائل أفضل:
- حالات الاستخدام متعددة الوسائط: GPT-5.2 أو Gemini 2.5 Pro
- أقصى قدرة على الاستدلال بغض النظر عن التكلفة: Claude Opus 4.6
- الخيار الأقل تكلفة: DeepSeek V3.2 بسعر 0.27 دولار / 1.10 دولار
الأسئلة الشائعة
هل يتوفر GLM-5.1 عبر واجهة برمجة تطبيقات (API) متوافقة مع OpenAI؟
تستخدم نماذج GLM تنسيق واجهة برمجة تطبيقات (API) متوافقًا مع حزم تطوير البرمجيات (SDKs) الشائعة. تحقق من وثائق Zhipu AI الحالية لتنسيق نقطة النهاية الدقيق.
ما الذي يجعل التدريب على أجهزة Huawei مهمًا؟
تُدرب معظم النماذج الرائدة على مجموعات Nvidia A100/H100. إظهار GLM-5.1 لأداء قريب من الريادة على أجهزة Huawei Ascend يثبت أن البدائل للبنية التحتية لـ Nvidia ممكنة.
هل يسمح ترخيص MIT بالاستخدام التجاري؟
نعم. يسمح ترخيص MIT بالاستخدام التجاري والتعديل والتوزيع. وهذا أكثر تساهلاً من التراخيص الموجودة على معظم النماذج الرائدة الأخرى.
كيف يقارن GLM-5.1 بأفضل النماذج مفتوحة المصدر؟
يحتل GLM-5 المرتبة الأولى في LMArena بين النماذج مفتوحة الأوزان، متفوقًا على Llama و Qwen والبدائل المفتوحة الأخرى.
ما فائدة نافذة السياق 200 ألف رمز؟
يمكن لـ 200 ألف رمز أن تحتوي على حوالي 150,000 كلمة — كتاب كامل، أو قاعدة بيانات كبيرة، أو العديد من المستندات في وقت واحد. لتطبيقات السياق الطويل مثل تحليل المستندات أو مراجعة قاعدة بيانات كبيرة، يعد هذا كافيًا لمعظم حالات الاستخدام العملية.
