معايير أداء ومواصفات GLM-5.2: اختبارات SWE-bench Pro و Terminal-Bench وتفسير الأرقام

وصل نموذج GLM-5.2 من Z.ai (Zhipu AI) مع مجموعة من أرقام المقاييس، وبعضها يلفت الانتباه حقًا. العنوان الرئيسي هو SWE-bench Pro بنتيجة 62.1، متفوقًا بذلك على GPT-5.5. القصة الأكبر مدفونة في صف واحد لأسفل: قفز Terminal-Bench من 62.0 إلى 81.0 في جيل واحد. يستعرض هذا المنشور كل نتيجة معيارية لـ GLM-5.2، ويشرح ما يقيسه الاختبار فعليًا، ويحدد أين يكون التقدم حقيقيًا مقابل كونه مجرد خطأ تقريبي.

جميع أرقام الإطلاق هنا هي نتائج منشورة من Z.ai ما لم يُذكر خلاف ذلك. عندما يدعي نموذج التفوق في مجاله بناءً على بطاقات نتائجه الخاصة، فإنك تقرأ ذلك بتردد. لذلك، سنتحدث تحديدًا عما يثبته كل معيار وما لا يثبته.

💡

إذا كنت تبني أو تختبر واجهات برمجة التطبيقات (APIs) أثناء تقييم نماذج كهذه، فإن Apidog هو النظام الأساسي الشامل الذي نستخدمه لتصميم، تصحيح، محاكاة، وتوثيق نقاط النهاية التي تستدعيها هذه النماذج. المزيد عن ذلك لاحقًا، لكنه أمر ذو صلة: تظهر الكثير من مكاسب GLM-5.2 في أعمال الوكلاء واستخدام الأدوات، وهو بالضبط مجال واجهة برمجة التطبيقات.

زر

النسخة المختصرة: نظرة سريعة على نتائج معايير GLM-5.2

إليك جدول معايير GLM-5.2 الكامل، مع أقرب المنافسين للسياق. تعامل مع أعمدة المقارنة على أنها الأرقام المبلغ عنها من Z.ai لتلك النماذج، وليست عمليات إعادة تشغيل مستقلة.

المعيار	ما يقيسه	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	إصلاح أخطاء المستودعات في العالم الحقيقي	62.1	58.4	58.6	غير متوفر
Terminal-Bench 2.1	مهام الواجهة/الوكيل متعددة الخطوات	81.0	62.0	غير متوفر	غير متوفر
MCP-Atlas	استخدام الأدوات عبر خوادم MCP	77.0	غير متوفر	75.3	77.8
اختبار البشرية الأخير (مع الأدوات)	استدلال الخبراء الصعب	54.7	غير متوفر	52.2	غير متوفر
AIME 2026	مسابقة الرياضيات	99.2	غير متوفر	غير متوفر	غير متوفر
GPQA-Diamond	العلوم على مستوى الدراسات العليا	91.2	غير متوفر	غير متوفر	غير متوفر

كما تُفيد Z.ai بأن GLM-5.2 هو النموذج مفتوح المصدر الأعلى أداءً في FrontierSWE و PostTrainBench و SWE-Marathon. سنتطرق لاحقًا إلى معنى هذا الوصف ("مفتوح المصدر").

للحصول على نسخة مبسطة لماهية هذا النموذج، راجع نظرة عامة على GLM-5.2. لمعرفة كيفية مقارنته بالنماذج الاحتكارية وجهًا لوجه، يوجد تحليل مخصص لـ GLM-5.2 مقابل GPT-5.5 و Opus و Gemini.

SWE-bench Pro: 62.1 وما يخبرك به حقًا

SWE-bench Pro هو النسخة الأصعب والمنسقة من SWE-bench الأصلي. يزود النموذج بمشكلة GitHub حقيقية بالإضافة إلى المستودع الكامل، ويطلب منه إنتاج تصحيح يجتاز مجموعة الاختبارات المخفية للمشروع. لا يوجد خيار من متعدد، ولا وظائف تجريبية. إما أن تقوم بإصلاح الخطأ عبر الملفات الحقيقية أو لا تفعل ذلك.

سجل GLM-5.2 نتيجة 62.1. بينما سجل GPT-5.5 نتيجة 58.6 و GLM-5.1 نتيجة 58.4، وفقًا لـ Z.ai. لذلك، هناك نقطتان صريحتان للاستنتاج:

التقدم بفارق 3.5 نقطة على GPT-5.5 ذو معنى ولكنه ليس فجوة كبيرة. في معيار بهذا القدر من الضوضاء، يمكن أن تتأرجح بضع نقاط بناءً على تفاصيل بيئة الاختبار، وميزانيات إعادة المحاولة، وهيكل المطالبة. اسمِه "تنافسيًا في القمة"، وليس "مهيمنًا".
الزيادة بمقدار 3.7 نقطة عن GLM-5.1 هي الإشارة الأكثر موثوقية، لأن نفس المختبر قام بالقياس بنفس الطريقة عبر نموذجين خاصين به. فالفروقات بين الأجيال المتعاقبة هي أوضح قراءة تحصل عليها.

لماذا نهتم بـ SWE-bench Pro على الإطلاق؟ لأنه أقرب مؤشر عام لما إذا كان "هذا النموذج قادرًا على أداء وظيفتي الفعلية". يتطلب إصلاح خطأ في قاعدة بيانات برمجية واسعة قراءة تعليمات برمجية غير مألوفة، وتحديد الملف الصحيح، والتعديل دون إفساد ثلاثة أشياء أخرى. هذا هو الواقع اليومي لعمل البرمجيات، ولهذا السبب يتم تقييم النماذج التي تركز على البرمجة بناءً عليه أولاً.

Terminal-Bench 2.1: 81.0 هو الرقم البطل

إذا قرأت صفًا واحدًا في الجدول، فاقرأ هذا الصف. يقوم Terminal-Bench بتقييم النموذج كوكيل في واجهة سطر أوامر حقيقية: تثبيت التبعيات، تشغيل الأوامر، تحليل المخرجات، التعافي من الأخطاء، وإكمال مهمة متعددة الخطوات من البداية إلى النهاية. إنه يكافئ المثابرة والانضباط في استخدام الأدوات، وليس الذكاء من المحاولة الواحدة.

سجل GLM-5.1 نتيجة 62.0. بينما سجل GLM-5.2 نتيجة 81.0. هذه قفزة بمقدار 19 نقطة في جيل واحد، وهي إحصائية الأداء البارزة لـ GLM-5.2 لسبب وجيه. فالانتقال من "يفشل في حوالي أربع من عشر مهام" إلى "يكمل حوالي أربع من خمس مهام" هو الفرق بين نموذج تحتاج إلى الإشراف عليه وآخر يمكنك أن تسلمه محطة طرفية.

وهنا تتصل قصة البنية بقصة المعايير. تعزو Z.ai الفضل إلى آلية الانتباه المتفرق "IndexShare" في GLM-5.2، والتي تعيد استخدام مفهرس واحد عبر كل أربع طبقات من الانتباه المتفرق للحفاظ على تكاليف الانتباه منخفضة في السياقات الطويلة. تولد مهام الوكيل طويلة الأفق سجلات طويلة: أمر، مخرج، أمر، مخرج، لعشرات الأدوار. النموذج الذي يحتفظ بهذا السياق بكفاءة ودقة هو نموذج لا يفقد المسار في منتصف عملية بناء. قفزة Terminal-Bench هي المكافأة العملية لهذا التصميم. للمقارنة الكاملة بين الأجيال، راجع GLM-5.2 مقابل GLM-5.1.

تحذير صريح: Terminal-Bench هو رقم أبلغت عنه Z.ai، ومعايير الوكلاء حساسة للهيكل المحيط بالنموذج (حدود المهلة، عدد المحاولات المسموح بها، مطالبة بيئة الاختبار). القفزة كبيرة بما يكفي بحيث لا يُرجح أن يفسرها الهيكل وحده، ولكن تحقق من ذلك على عبء عملك الخاص قبل أن تراهن على مسار عمل بناءً عليه.

MCP-Atlas: 77.0، وتعادل صريح في القمة

يقيس MCP-Atlas استخدام الأدوات عبر بروتوكول سياق النموذج (Model Context Protocol)، وهي الطريقة القياسية التي تستدعي بها النماذج الأدوات والخوادم الخارجية. إنه المعيار الذي يتوافق مباشرة مع عمل الوكلاء وواجهات برمجة التطبيقات: هل يمكن للنموذج اختيار الأداة الصحيحة، وتنسيق الاستدعاء بشكل صحيح، وقراءة النتيجة، والاستمرار في العمل.

وصل GLM-5.2 إلى 77.0. بينما سجل GPT-5.5 75.3، و Claude Opus 4.8 سجل 77.8، وفقًا لـ Z.ai. هذا هو الصف الذي يجب أن تقاوم فيه الرغبة في إعلان فائز. يتفوق GLM-5.2 على GPT-5.5 بفارق 1.7 نقطة ويتأخر عن Opus 4.8 بفارق 0.8 نقطة. هذه الهوامش هي في نطاق أخطاء التقريب. العبارة العادلة هي أن الثلاثة متعادلون في استخدام الأدوات على غرار MCP، وقد اكتسب GLM-5.2 مكانه في هذه المجموعة.

هذا مهم لأن استخدام الأدوات هو المكان الذي يلتقي فيه نموذج البرمجة مع مكدس التقنيات الخاص بك. كل استدعاء MCP هو، من الناحية الوظيفية، تفاعل واجهة برمجة تطبيقات (API): طلب منظم، استجابة للتحليل، خطأ للمعالجة. إذا كنت تربط نموذجًا بخدمات حقيقية، فأنت تريد نفس النظافة التي ستطبقها على أي عملية دمج. وهذا هو بالضبط المكان الذي يناسبه Apidog. يمكنك تعريف ومحاكاة نقاط النهاية التي سيصل إليها الوكيل، ثم تصحيح الأخطاء في حمولات الطلبات والاستجابات الفعلية التي يولدها النموذج، قبل إطلاقه في الإنتاج. قم بتنزيل Apidog إذا كنت ترغب في اختبار استدعاءات الأدوات هذه بنفس الطريقة التي تختبر بها أي واجهة برمجة تطبيقات أخرى.

الاستدلال والرياضيات: HLE 54.7، AIME 99.2، GPQA-Diamond 91.2

البرمجة ليست القصة كلها. يسجل GLM-5.2 أيضًا أرقامًا قوية في الاستدلال.

اختبار البشرية الأخير (مع الأدوات): 54.7. HLE هو اختبار قاسٍ عمدًا يغطي أسئلة على مستوى الخبراء عبر العديد من المجالات، مصمم لمقاومة التشبع السهل. إعداد "مع الأدوات" يسمح للنموذج بالبحث والحساب بدلاً من الإجابة الفورية. يتجاوز GLM-5.2 بنتيجة 54.7 نظيره GPT-5.5 بنتيجة 52.2 (وفقًا لـ Z.ai). في معيار بهذا القدر من الصعوبة، أي نتيجة في الخمسينيات تعتبر إنجازًا جادًا.
AIME 2026: 99.2. AIME هي مسابقة رياضيات لطلاب المدارس الثانوية المتفوقين. تُعد النتيجة 99.2 فعليًا درجة سقف، والتي تخبرك في الغالب أن الاختبار لم يعد يميز النماذج الرائدة. إنها إشارة "لا توجد نقاط ضعف هنا" أكثر من كونها عامل تفريق.
GPQA-Diamond: 91.2. GPQA-Diamond هي الشريحة الأصعب من مجموعة أسئلة وأجوبة علمية على مستوى الدراسات العليا، تم تصفيتها بحيث لا يتمكن غير الخبراء من حلها بالقوة الغاشمة حتى مع الوصول إلى الويب. تضع نتيجة 91.2 نموذج GLM-5.2 بقوة في منطقة الريادة في الاستدلال التقني.

النمط عبر هذه المقاييس: GLM-5.2 ليس متخصصًا ضيقًا في البرمجة يتفكك أداؤه في الرياضيات أو العلوم. تتيح لك مستويان من جهد التفكير (عالي وأقصى، مع التوصية بالحد الأقصى للبرمجة) مبادلة زمن الاستجابة بالعمق في المشكلات الأكثر صعوبة. إذا كنت ترغب في زاوية أعمق للرياضيات والاستدلال جنبًا إلى جنب مع البرمجة، فإن مقال معايير GLM-5.2 مقابل المجال يقدم هذه المقارنة بشكل أوسع.

توضيح ادعاء "الأعلى مفتوح المصدر"

تُفيد Z.ai بأن GLM-5.2 هو النموذج مفتوح المصدر الأفضل في FrontierSWE و PostTrainBench و SWE-Marathon. اقرأ هذا المؤهل بعناية، لأنه يؤدي دورًا حقيقيًا.

إن ادعاء "الأعلى مفتوح المصدر" هو ادعاء أضيق من "الأعلى، نقطة". مجال الأوزان المفتوحة هو الإطار ذو الصلة هنا: يتم شحن GLM-5.2 بموجب ترخيص MIT مع أوزان مفتوحة وبدون قيود إقليمية، وهو اقتراح يختلف عن نموذج واجهة برمجة التطبيقات المغلق الذي تستأجره. ضد النماذج الأخرى ذات الأوزان المفتوحة، كونها في صدارة FrontierSWE (مهام البرمجيات ذات الصعوبة الرائدة)، و PostTrainBench (قدرة ما بعد التدريب)، و SWE-Marathon (أعمال البرمجيات الطويلة والمستمرة) هو ادعاء قوي، وهو الادعاء الذي يهم إذا كان قيدك هو "يجب أن يكون قابلاً للاستضافة الذاتية".

إنه ليس هو نفسه التفوق على كل نموذج احتكاري في تلك الاختبارات. حيث يتفوق GLM-5.2 بالفعل على GPT-5.5، مثل SWE-bench Pro و HLE، تذكر Z.ai ذلك مباشرة دون التحفظ بشأن المصدر المفتوح. لذا، فإن النموذج الذهني هو: على الحدود أو بالقرب منها بشكل عام، ومن الواضح أنه الأول بين النماذج التي يمكنك تنزيلها وتشغيلها بنفسك. وصفت VentureBeat القيمة بصراحة، مشيرة إلى أن GLM-5.2 "يتفوق على GPT-5.5 في البرمجة طويلة الأفق بتكلفة تبلغ سدس التكلفة تقريبًا". هذا هو وصف VentureBeat، ويستحق الإشارة إليه بدلاً من تأكيده كحقيقة مقاسة.

نظرة سريعة على مواصفات GLM-5.2

لا تعني المعايير شيئًا إلا بالقياس إلى واقع الأجهزة والتراخيص. إليك مواصفات GLM-5.2 التي تحدد كيفية ترجمة النتائج إلى إعدادك الخاص.

المواصفات	القيمة
المعلمات	إجمالي ~753 مليار، خليط من الخبراء (MoE)
الدقة	BF16
الانتباه	انتباه متفرق IndexShare (مفهرس واحد مشترك لكل 4 طبقات متفرقة)
نافذة السياق	مليون رمز (1,048,576)
الحد الأقصى للمخرجات	يصل إلى 128 ألفًا وفقًا لوثائق z.ai (تحقق مباشرة؛ OpenRouter لا يذكر رقمًا)
النمط	نص للداخل، نص للخارج (لا يوجد إصدار رؤية مؤكد)
جهد التفكير	مرتفع وأقصى؛ يمكن تعطيله
الترخيص	MIT، أوزان مفتوحة، لا توجد قيود إقليمية
معرفات النموذج	HF `zai-org/GLM-5.2`، API `glm-5.2`، Ollama `glm-5.2`، OpenRouter `z-ai/glm-5.2`

بعض الملاحظات حول قراءة هذا الشريط الجانبي. عدد المعلمات البالغ حوالي 753 مليار هو الحجم الإجمالي لخليط الخبراء (MoE)، وليس العدد النشط لكل رمز، لذلك لا تفسرها على أنها "تحتاج إلى 753 مليار من الحساب الكثيف لكل تمريرة أمامية"، هذا هو الهدف من MoE. سياق المليون رمز هو المواصفة التي تجعل نتيجة Terminal-Bench قابلة للتصديق: تحتاج عمليات الوكيل الطويلة إلى مكان لوضع كل هذا التاريخ. فيما يتعلق بالحد الأقصى للمخرجات، كن حذرًا. تشير وثائق Z.ai إلى ما يصل إلى 128 ألفًا (اعتبارًا من يونيو 2026، تحقق من الحد الحالي على z.ai)، ولكنها غير مدرجة باستمرار عبر جميع الموفرين، لذا تعامل معها كسقف موثق بدلاً من كونه مضمونًا. ولا يوجد نموذج رؤية لـ GLM-5.2. إذا رأيت "GLM-5.2V" في مكان ما، فهذا ليس شيئًا أكدته Z.ai.

تتبع التسعيرة منطق الأوزان المفتوحة: يسرد OpenRouter 1.40 دولارًا لكل مليون رمز إدخال و 4.40 دولارًا لكل مليون رمز إخراج، مع إدخال مخبأ حوالي 0.26 دولارًا لكل مليون (رقم VentureBeat). هذا الملف الشخصي للتكلفة هو العمود الفقري لخط "سدس التكلفة". للحصول على تفاصيل التكلفة الكاملة بما في ذلك مستويات خطة ترميز GLM، راجع صفحة تسعيرة GLM-5.2، وإذا كنت ترغب في تشغيله دون الدفع لكل رمز، فإن مقال كيفية استخدام GLM-5.2 مجانًا يغطي مسار الاستضافة الذاتية.

كيف تتحقق من هذه المعايير بنفسك

بطاقات الأداء الخاصة بالبائع هي نقطة بداية وليست حكمًا نهائيًا. إليك ثلاثة أمور يجب القيام بها قبل الوثوق بأي من هذه الأرقام لاتخاذ قرار حقيقي:

اقرأ المصادر الأساسية. مدونة Z.ai GLM-5.2 و وثائق Z.ai تحمل المنهجية الرسمية. تحتوي بطاقة نموذج Hugging Face على الأوزان والتكوين إذا كنت ترغب في فحص البنية مباشرة.
تحقق من القوائم الخارجية. تؤكد صفحة OpenRouter التسعيرة ومعرف النموذج، وتؤكد إدخال مكتبة Ollama مسار التشغيل المحلي. تضيف تغطية VentureBeat إطارًا خارجيًا لقصة التكلفة.
قم بتشغيل تقييمك الخاص. المعيار الوحيد الذي يهم حقًا هو عبء عملك. قم بربط GLM-5.2 بمهمة حقيقية، ويفضل أن تكون مهمة وكيلية تتضمن استدعاءات للأدوات، وراقب كيف تعمل على مدى عدة دورات. للحصول على سياق الأجيال السابقة لهذه التجربة بالضبط، تعتبر مقالة GLM-5.1 ومقارنة سرعة وتكلفة GLM-5 مقابل DeepSeek مقابل GPT-5 بمثابة خطوط أساس مفيدة.

عندما تقوم بتشغيل تقييم عبء العمل الخاص بك، فإن استدعاءات الأدوات هي المكان الذي تتهاوى فيه النماذج بصمت، من JSON مشوه، أو اختيار خاطئ للأداة، أو إسقاط معالجة الأخطاء. تتيح لك محاكاة نقاط النهاية هذه في Apidog مشاهدة طلبات واستجابات النموذج الفعلية دون الضغط على الخدمات المباشرة، وهي أسرع طريقة للتفريق بين بطل المعايير والنموذج الذي يعمل في مكدسك.

الخلاصة

يصمد جدول معايير GLM-5.2 أمام التدقيق بشكل أفضل من معظم بطاقات الأداء للإطلاق. قفزة Terminal-Bench من 62.0 إلى 81.0 هي الرقم الكبير حقًا، وتقدم SWE-bench Pro على GPT-5.5 حقيقي وإن كان متواضعًا، ونتيجة MCP-Atlas هي تعادل ثلاثي صريح في القمة. اجمع هذه النتائج مع الأوزان المفتوحة، وترخيص MIT، وسياق مليون رمز، واقتصاديات تبلغ سدس التكلفة تقريبًا، وستحصل على نموذج يستحق تقييمًا جادًا بدلاً من مجرد نظرة عابرة.

تشير المعايير إلى النموذج الصحيح. يؤكد عبء عملك الخاص ذلك. عندما تقوم بتشغيل هذا الاختبار ويتضمن استدعاءات حقيقية لواجهة برمجة التطبيقات والأدوات، قم بإعداد نقاط النهاية في Apidog حتى تتمكن من رؤية ما يرسله النموذج ويستقبله بالضبط، ثم قرر بناءً على ما يفعله في مكدسك، وليس بناءً على ما سجله في مكدس شخص آخر.