ملخص
MiniMax M2.5 هو نموذج رائد للذكاء الاصطناعي تم إصداره في 12 فبراير 2026، ويحقق أداءً متطورًا في البرمجة (80.2% على SWE-Bench Verified)، واستخدام أدوات الوكيل، ومهام إنتاجية المكاتب. بسعر 0.30 دولار فقط في الساعة بمعدل إنتاجية 50 رمزًا في الثانية، يتم تسعيره بعُشر إلى عشرين مرة أقل من المنافسين مثل Claude Opus 4.6 و GPT-5، مما يجعله أول نموذج رائد "ذكاء رخيص جدًا بحيث لا يمكن قياسه". يكمل النموذج مهام البرمجة المعقدة أسرع بنسبة 37% من سلفه، مطابقًا سرعة Claude Opus 4.6 بينما يكلف 90% أقل لكل مهمة.
مقدمة
قدمت MiniMax للتو M2.5، وهو نموذج رائد يتحدى كل ما اعتقدنا أننا نعرفه عن المفاضلة بين التكلفة والأداء في نماذج اللغات الكبيرة. يوفر الإعلان الرسمي تفاصيل تقنية كاملة. مع حصوله على درجة 80.2% في SWE-Bench Verified - المعيار الذهبي لقدرة البرمجة - فإن M2.5 ليس مجرد منافس لنماذج الفئة العليا مثل Claude Opus 4.6 و GPT-5. بل يتجاوزها في العديد من المقاييس.
ولكن إليك ما يجعل هذا الإعلان محطماً حقاً: التسعير. بسعر 0.30 دولار في الساعة للتشغيل المستمر بمعدل 50 رمزًا في الثانية، أو 1 دولار فقط في الساعة بمعدل 100 رمز في الثانية، تدعي MiniMax أن M2.5 يقدم "ذكاءً رخيصًا جدًا بحيث لا يمكن قياسه". بالنسبة للمطورين والشركات، انهار حاجز نشر وكلاء الذكاء الاصطناعي المتطورين للتو.
ما هو MiniMax M2.5؟
MiniMax M2.5 هو أحدث نموذج رائد من شركة MiniMax الصينية للذكاء الاصطناعي، ويمثل الإصدار الثالث في سلسلة M2 للشركة التي تم إطلاقها على مدار ثلاثة أشهر ونصف فقط (M2 في أواخر أكتوبر، M2.1 في أواخر 2025، و M2.5 في فبراير 2026).

ما يميز M2.5 هو تركيزه على الإنتاجية في العالم الحقيقي بدلاً من مجرد أداء المعايير. تم تدريبه بشكل مكثف باستخدام التعلم المعزز عبر مئات الآلاف من البيئات المعقدة في العالم الحقيقي، وقد تم تصميم M2.5 للتعامل مع المهام ذات القيمة الاقتصادية التي يواجهها المطورون والعاملون في مجال المعرفة يوميًا.

يتوفر النموذج في نسختين:
- M2.5: إنتاجية 50 رمزًا في الثانية، نصف تكلفة Lightning
- M2.5-Lightning: 100 رمز في الثانية، مُحسن للسرعة
تدعم كلا النسختين التخزين المؤقت للسياق ومتطابقتان وظيفياً في القدرة، وتختلفان فقط في السرعة والتسعير.
المواصفات الرئيسية في لمحة
| المواصفات | القيمة |
|---|---|
| تاريخ الإصدار | 12 فبراير 2026 |
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
| الإنتاجية (القياسية) | 50 رمز/ثانية |
| الإنتاجية (Lightning) | 100 رمز/ثانية |
| سعر الإدخال | 0.30 دولار لكل مليون رمز |
| سعر الإخراج | 2.40 دولار لكل مليون رمز |
قدرات البرمجة
إذا كان هناك مجال واحد يبرز فيه MiniMax M2.5 عضلاته بشكل دراماتيكي، فهو البرمجة. يحقق النموذج 80.2% في SWE-Bench Verified - وهو معيار يختبر القدرة على حل مشكلات GitHub الواقعية - وهو رقم يضعه بقوة في مجال التقنيات المتطورة.

لكن درجات المعايير الخام لا تروي القصة كاملة. ما يجعل M2.5 مثيرًا للاهتمام بشكل خاص للمطورين هو قدرته على التفكير المعماري. أثناء التدريب، طور النموذج ما تصفه MiniMax بـ "ميل كتابة المواصفات" - قبل كتابة أي رمز، يقوم M2.5 بنشاط بتحليل وتخطيط الميزات والهيكل وتصميم واجهة المستخدم من منظور مهندس برمجيات متمرس.
تميز البرمجة متعددة اللغات
تم تدريب M2.5 على أكثر من 10 لغات برمجة عبر أكثر من 200,000 بيئة حقيقية:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, and Ruby
الأمر لا يتعلق فقط بإصلاح الأخطاء. فالنموذج يتعامل مع دورة حياة التطوير بأكملها:
- 0-إلى-1: تصميم النظام وإعداد البيئة
- 1-إلى-10: تطوير النظام
- 10-إلى-90: تكرار الميزات
- 90-إلى-100: مراجعة شاملة للرمز واختبار النظام
تطوير كامل المكدس عبر الأنظمة الأساسية
على عكس العديد من مساعدي البرمجة الذين يركزون بشكل أساسي على العروض التوضيحية للواجهة الأمامية، يتعامل M2.5 مع مشاريع كاملة المكدس عبر منصات متعددة: الويب، Android، iOS، و Windows. يتعامل مع واجهات برمجة التطبيقات من جانب الخادم، ومنطق الأعمال، وقواعد البيانات، وهندسة الأنظمة المعقدة - وليس فقط مكونات صفحات الويب.
أداء المعايير مقابل المنافسة
اختبرت MiniMax M2.5 على أطر عمل مختلفة لوكلاء البرمجة لتقييم التعميم عبر البيئات خارج التوزيع:
| الإطار | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79.7% | 78.9% |
| OpenCode | 76.1% | 75.9% |
يتفوق M2.5 على Claude Opus 4.6 في كل من أطري عمل الوكيل الشائعة، مما يشير إلى قدرات تعميم قوية.
عند بناء تطبيقات مدعومة بالذكاء الاصطناعي باستخدام M2.5، ستحتاج إلى اختبار واجهات برمجة التطبيقات (APIs) التي تربط تطبيقك بالنموذج. يتيح لك Apidog إنشاء سيناريوهات اختبار تتحقق من معالجة الطلبات/الاستجابات، وتدفقات المصادقة، ومعالجة الأخطاء - وهي أمور أساسية لتطبيقات الذكاء الاصطناعي الإنتاجية.
استخدام الأدوات والبحث الوكيلي
الذكاء الاصطناعي الحديث لا يقتصر على الإجابة على الأسئلة - بل يتعلق باتخاذ الإجراءات. يظهر M2.5 قدرات وكيلية قوية، خاصة في استدعاء الأدوات والبحث المستقل.
BrowseComp والبحث الواسع
في معايير مثل BrowseComp والبحث الواسع، يحقق M2.5 أداءً رائدًا في الصناعة. ولكن الأهم من ذلك، أن MiniMax قامت ببناء RISE (تقييم البحث التفاعلي الواقعي) لاختبار مهام البحث المهنية في العالم الحقيقي - النوع الذي يتطلب استكشافًا عميقًا عبر صفحات الويب الغنية بالمعلومات، وليس مجرد استعلامات بحث بسيطة.
اتخاذ القرارات الفعال
ربما يكون الجانب الأكثر إثارة للإعجاب في قدرات M2.5 الوكيلية هو كفاءته. عبر مهام وكيلية متعددة بما في ذلك BrowseComp والبحث الواسع و RISE، حقق M2.5 نتائج أفضل بحوالي 20% عددًا أقل من جولات التفكير مقارنة بـ M2.1. وهذا يشير إلى أن النموذج لا يحصل فقط على الإجابة الصحيحة - بل يجد مسارات فعالة للوصول إليها.
لهذا آثار عملية: عدد أقل من استدعاءات واجهة برمجة التطبيقات، وتكاليف أقل، وإنجاز أسرع للمهام عند نشر M2.5 كوكيل مستقل.
ميزات إنتاجية المكتب
البرمجة ليست المجال الوحيد الذي يتفوق فيه M2.5. فقد صممت MiniMax النموذج خصيصًا لـ إنتاجية المكاتب في العالم الحقيقي، بالتعاون مع كبار المتخصصين في التمويل والقانون والعلوم الاجتماعية لتدريب النموذج على مخرجات قابلة للتسليم فعليًا.
إتقان Word و PowerPoint و Excel
يظهر M2.5 تحسينات كبيرة في القدرات في سيناريوهات مساحة العمل عالية القيمة:
- Word: إنشاء المستندات وتنسيقها والكتابة الاحترافية
- PowerPoint: تصميم العروض التقديمية وتوليد الشرائح
- Excel: النمذجة المالية وعمليات جداول البيانات المعقدة
قامت MiniMax ببناء إطار عمل للتقييم الداخلي يسمى GDPval-MM يقيم جودة المخرجات واحترافية مسار عمل الوكيل بأكمله. في المقارنات المباشرة مع النماذج السائدة الأخرى، حقق M2.5 معدل فوز متوسط قدره 59.0%.
تخصص النمذجة المالية
تم تدريب النموذج خصيصًا على مشكلات النمذجة المالية التي صممها خبراء الصناعة. تتضمن هذه المهام بحثًا وتحليلاً شاملاً يتم إجراؤها عبر أدوات Excel، ويتم تسجيلها باستخدام معايير صممها الخبراء. بالنسبة للمتخصصين في التمويل، يمكن أن يمثل هذا قفزة كبيرة في الإنتاجية.
الأداء والسرعة
السرعة مهمة في عمليات النشر في العالم الحقيقي. فالنموذج الأذكى ولكن الأبطأ غالبًا ما يوفر تجربة مستخدم أسوأ من بديل أقل قدرة قليلاً ولكنه أسرع.
سرعة توليد الرموز
يتم تقديم M2.5 أصلاً بسرعة 100 رمز في الثانية لنسخة Lightning - أي ما يقرب من ضعف سرعة النماذج الرائدة الأخرى. تتضاعف ميزة الإنتاجية الأصلية هذه بشكل كبير عند التعامل مع المهام الوكيلية طويلة الأمد.
مقارنة وقت تشغيل SWE-Bench
| المقياس | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| متوسط الرموز/المهمة | 3.72M | 3.52M | - |
| متوسط وقت التشغيل | 31.3 دقيقة | 22.8 دقيقة | 22.9 دقيقة |
| تحسن السرعة | - | -37% | - |

يكمل M2.5 تقييم SWE-Bench Verified أسرع بنسبة 37% من M2.1، مطابقًا وقت تشغيل Claude Opus 4.6 مع استخدام 3.52 مليون رمز فقط لكل مهمة (مقارنة بـ 3.72 مليون رمز لـ M2.1).
التسعير وكفاءة التكلفة
هنا يصبح M2.5 مؤثرًا حقًا. فقد وضعت MiniMax النموذج كأول ذكاء اصطناعي رائد حيث "لا يحتاج المستخدمون للقلق بشأن التكلفة".
هيكل التسعير
| النموذج | الإنتاجية | سعر الإدخال | سعر الإخراج |
|---|---|---|---|
| M2.5 | 50 رمز/ثانية | 0.30 دولار/مليون رمز | 2.40 دولار/مليون رمز |
| M2.5-Lightning | 100 رمز/ثانية | 0.60 دولار/مليون رمز | 4.80 دولار/مليون رمز |
مقارنات التكلفة
عند أقصى إنتاجية للإخراج:
- 1 دولار في الساعة بسرعة 100 رمز/ثانية (Lightning)
- 0.30 دولار في الساعة بسرعة 50 رمز/ثانية (قياسي)
هذا يترجم إلى ما يقرب من عُشر إلى واحد على عشرين من تكلفة Opus و Gemini 3 Pro و GPT-5 بناءً على تسعير الإخراج.
مثال على التكلفة في العالم الحقيقي
يكلف تشغيل M2.5 بشكل مستمر لمدة ساعة 1 دولار فقط بأقصى سرعة. عند 50 رمز/ثانية، ينخفض ذلك إلى 0.30 دولار. للمقارنة، يمكنك تشغيل أربع نسخ من M2.5 بشكل مستمر لمدة عام كامل مقابل 10,000 دولار.
بالنسبة للشركات التي تنشر وكلاء الذكاء الاصطناعي على نطاق واسع، يغير هذا التسعير الاقتصاديات بشكل جذري. تصبح المهام التي كانت باهظة التكلفة ممكنة. وتصبح المشاريع التجريبية التي كانت ستستنفد قيود الميزانية استكشافات بأسعار معقولة.
البنية التقنية
التعلم المعزز على نطاق واسع
المحرك الرئيسي لقدرات M2.5 هو توسيع نطاق التعلم المعزز. حولت MiniMax معظم مهام الشركة ومساحات العمل إلى بيئات تدريب - مئات الآلاف من السيناريوهات الواقعية حيث يتعلم النموذج من خلال التجربة والخطأ.
Forge: إطار عمل التعلم المعزز الخاص بالوكيل
طورت MiniMax Forge، وهو إطار عمل للتعلم المعزز خاص بالوكيل داخليًا، يقدم طبقة وسيطة تفصل محرك التدريب والاستدلال الأساسي تمامًا عن الوكيل. يدعم هذا تكامل الوكلاء العشوائيين ويمكّن التحسين عبر أطر عمل وأدوات الوكيل المختلفة.

تشمل التحسينات الرئيسية:
- استراتيجيات الجدولة غير المتزامنة التي توازن بين الإنتاجية مقابل عدم التقيد بالسياسة في العينات
- استراتيجية دمج منظمة على شكل شجرة لعينات التدريب
- تحقيق تسريع في التدريب بحوالي 40 ضعفاً
خوارزمية CISPO
لتحقيق الاستقرار الخوارزمي أثناء تدريب MoE (مزيج الخبراء) على نطاق واسع، يواصل M2.5 استخدام خوارزمية CISPO التي اقترحتها MiniMax في أوائل عام 2025. لمعالجة تحديات تعيين الائتمان في السياقات الطويلة، قدموا آلية مكافأة العملية للمراقبة الشاملة لجودة التوليد.
نطاق بيئة التدريب
بالأرقام:
- مئات الآلاف من بيئات التدريب الواقعية
- أكثر من 10 لغات برمجة
- أكثر من 200,000 بيئة برمجية
- مهام تشمل تطوير الويب و Android و iOS و Windows
تكامل وكيل MiniMax
M2.5 ليس مجرد واجهة برمجة تطبيقات (API) - بل هو بالفعل يشغل منتجات MiniMax الخاصة.
تكامل مهارات المكتب
قامت MiniMax بتبسيط قدرات معالجة المعلومات الأساسية إلى مهارات مكتبية موحدة مدمجة بعمق ضمن وكيل MiniMax. في وضع MAX، عند التعامل مع تنسيق Word وتحرير PowerPoint وحسابات Excel، يقوم الوكيل بتحميل مهارات المكتب المقابلة تلقائيًا بناءً على نوع الملف.
إنشاء الخبراء
يمكن للمستخدمين الجمع بين مهارات المكتب والخبرة الصناعية الخاصة بالمجال لإنشاء خبراء قابلين لإعادة الاستخدام لسيناريوهات مهام محددة. على سبيل المثال:
- البحث الصناعي: دمج إجراء تشغيل قياسي لإطار بحث مع مهارات Word لجلب البيانات تلقائيًا وتنظيم المنطق وإخراج تقارير منسقة
- النمذجة المالية: دمج معايير النمذجة الخاصة مع مهارات Excel لاتباع منطق محدد للتحكم في المخاطر ومعايير الحساب
مقاييس التبني
- أكثر من 10,000 خبير تم إنشاؤه على وكيل MiniMax
- 30% من إجمالي مهام MiniMax يتم إنجازها ذاتيًا بواسطة M2.5
- 80% من الرمز الملتزم به حديثًا في MiniMax يتم إنشاؤه بواسطة M2.5
هذه ليست قدرة نظرية - إنها تقنية صلبة جاهزة للإنتاج.
كيف يقارن M2.5 بالمنافسين
مقابل Claude Opus 4.6
| المقياس | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80.2% | ~77% |
| إطار عمل Droid | 79.7% | 78.9% |
| إطار عمل OpenCode | 76.1% | 75.9% |
| وقت التشغيل على SWE-Bench | 22.8 دقيقة | 22.9 دقيقة |
| التكلفة/المهمة | ~1.50 دولار | ~15 دولار+ |
يتطابق M2.5 أو يتجاوز Opus 4.6 في معايير البرمجة بينما يكلف حوالي 10% لكل مهمة.
مقابل GPT-5
- تكلفة أقل بكثير (عُشر إلى واحد على عشرين من السعر)
- معايير برمجة تنافسية
- ميزات إنتاجية مكتبية أصلية
- سرعة استدلال أسرع (100 رمز/ثانية مقابل 30-50 رمز/ثانية عادةً)
مقابل Gemini 3 Pro
- تسعير أقل بكثير
- درجات SWE-Bench أعلى
- تكامل أفضل لإنتاجية المكاتب
- نهج أكثر قوة لتوسيع نطاق التعلم المعزز
الخلاصة
يمثل MiniMax M2.5 تحولاً حقيقياً في مشهد الذكاء الاصطناعي. للمرة الأولى، لدينا نموذج رائد يجمع بين القدرة المتطورة والتسعير الذي يتيح النشر غير المحدود.
النقاط الرئيسية:
- أداء برمجة من الدرجة الأولى (80.2% SWE-Bench، متفوقًا على Opus 4.6 في عدة أطر عمل)
- كفاءة وكيلية (عدد جولات تفكير أقل بنسبة 20%، أسرع بنسبة 37% من M2.1)
- إنتاجية مكتبية (معدل فوز 59% ضد المنافسين في مهام مكتبية حقيقية)
- تسعير لا يهزم (0.30-1 دولار/ساعة، 1/10 إلى 1/20 من تكلفة المنافسين)
- جاهز للإنتاج (يشغل بالفعل منتجات MiniMax الخاصة، ويولد 80% من رمز الشركة)
السؤال ليس ما إذا كان M2.5 يستحق التجربة - بل ما إذا كان بإمكانك تحمل عدم تجربته.
هل أنت مستعد لبناء واختبار واجهات برمجة التطبيقات المدعومة بالذكاء الاصطناعي؟ قم بتنزيل Apidog مجانًا وأنشئ مجموعات اختبار شاملة لتكاملات MiniMax الخاصة بك. قم باستيراد مجموعات Postman الحالية بنقرة واحدة وابدأ الاختبار في دقائق.
الأسئلة الشائعة
ما هو MiniMax M2.5؟
MiniMax M2.5 هو نموذج رائد للذكاء الاصطناعي تم إصداره في فبراير 2026 ويحقق أداءً متطورًا في البرمجة والمهام الوكيلية وإنتاجية المكاتب. وهو جدير بالذكر لجمعه بين المعايير عالية المستوى والتسعير المنخفض للغاية.
كيف يقارن MiniMax M2.5 بـ Claude Opus 4.6؟
يتطابق M2.5 أو يتجاوز Claude Opus 4.6 في معظم معايير البرمجة (80.2% مقابل ~77% على SWE-Bench Verified) بينما يكلف حوالي 90% أقل لكل مهمة. ويتطابق مع سرعة تشغيل Opus 4.6 (22.8 مقابل 22.9 دقيقة على SWE-Bench).
ما هو تسعير MiniMax M2.5؟
يكلف M2.5 0.30 دولار لكل مليون رمز إدخال و 2.40 دولار لكل مليون رمز إخراج (بمعدل 50 رمز/ثانية). عند أقصى إنتاجية، يكلف تشغيل M2.5 بشكل مستمر لمدة ساعة 0.30-1.00 دولار فقط، اعتمادًا على النسخة.
ما هي لغات البرمجة التي يدعمها M2.5؟
تم تدريب M2.5 على أكثر من 10 لغات بما في ذلك Go، C، C++، TypeScript، Rust، Kotlin، Python، Java، JavaScript، PHP، Lua، Dart، و Ruby عبر أكثر من 200,000 بيئة واقعية.
هل MiniMax M2.5 جيد للعمل المكتبي؟
نعم. تم تدريب M2.5 خصيصًا لمهام إنتاجية المكاتب بما في ذلك Word و PowerPoint والنمذجة المالية في Excel. وحقق معدل فوز بنسبة 59% ضد النماذج السائدة الأخرى في مهام المكتب في تقييمات MiniMax الداخلية.
هل يمكنني استخدام MiniMax M2.5 عبر واجهة برمجة التطبيقات (API)؟
نعم. توفر MiniMax الوصول إلى واجهة برمجة التطبيقات من خلال منصتها على minimax.io. تدعم واجهة برمجة التطبيقات كلاً من النسخة القياسية M2.5 (50 رمز/ثانية) و M2.5-Lightning (100 رمز/ثانية).
ما الذي يميز MiniMax M2.5؟
M2.5 هو أول "نموذج رائد" حيث تكون التكلفة منخفضة بما يكفي بحيث لا يحتاج المستخدمون للقلق بشأنها - تدعي الشركة أنه "ذكاء رخيص جدًا بحيث لا يمكن قياسه". بالإضافة إلى معايير البرمجة عالية المستوى والقدرات الوكيلية، يجعله هذا قابلًا للنشر على نطاق واسع لوكلاء الذكاء الاصطناعي.
ما مدى سرعة MiniMax M2.5؟
تولد نسخة M2.5-Lightning 100 رمز في الثانية - أي ما يقرب من ضعف سرعة النماذج الرائدة الأخرى. وحتى النسخة القياسية M2.5 تعمل بسرعة 50 رمز/ثانية. في مهام SWE-Bench، تكمل التقييمات أسرع بنسبة 37% من M2.1.
