تم إصدار ثلاثة إصدارات من الفئة الرائدة في آخر 33 يومًا. تم إطلاق Claude Opus 4.7 من Anthropic في 16 أبريل. وتلاه GPT-5.5 من OpenAI في 23 أبريل. وتم شحن Gemini 3.5 Flash من جوجل في 19 مايو، مع وصول إصدار Pro في يونيو.
تجدر الإشارة مقدمًا: هذه مقارنة غير متكافئة الفئات. يعتبر Opus 4.7 و GPT-5.5 نموذجين رائدين بأسعار رائدة. بينما Flash هو إصدار جوجل السريع ومنخفض التكلفة، بسعر يمثل جزءًا صغيرًا من أي منهما. السؤال المثير للاهتمام هو ما إذا كان Flash يصمد عندما تضعه بجانب نماذج تكلف 5-10 أضعاف لكل رمز.
الجواب المختصر: Flash يتجاوز فئته بكثير. إنه يفوز من حيث التكلفة والسرعة وعدة معايير وكيلة. يخسر في أصعب مهام الترميز وجودة الكتابة. السر يكمن في مطابقة النموذج مع عبء العمل.
الجواب في 30 ثانية
| السؤال | أفضل خيار |
|---|---|
| أرخص حلقة وكيل إنتاج | Gemini 3.5 Flash |
| أعلى نتيجة في إصلاحات الأخطاء المؤكدة بـ SWE-Bench | Opus 4.7 |
| الأكثر كفاءة في استهلاك الرموز على نطاق واسع | GPT-5.5 |
| أفضل استرجاع سياق طويل (مليون رمز) | Gemini 3.5 Flash |
| أفضل فهم للرسوم البيانية والمستندات | Gemini 3.5 Flash |
| أفضل وكيل سطر أوامر طويل الأفق | GPT-5.5 (Terminal-Bench 2.0) |
| أفضل متابعة تعليمات متعددة الخطوات | Opus 4.7 |
| أسرع إخراج للرموز | Gemini 3.5 Flash (~4 أضعاف الآخرين) |
| أفضل إعادة هيكلة رمز على مستوى المستودع | Opus 4.7 |
لا يوجد فائز وحيد. تابع القراءة للحصول على تفصيل عبء العمل حسب عبء العمل.
الجدول الزمني للإصدارات
تم شحن النماذج في فترات متقاربة ولكن بتموضع مختلف:
- Opus 4.7، 16 أبريل 2026. نموذج الاستدلال الرائد من Anthropic، مُحسَّن للتعليمات البرمجية والعمل متعدد الخطوات الموسع. فئة رائدة.
- GPT-5.5، 23 أبريل 2026. أول نموذج أساسي مُعاد تدريبه بالكامل من OpenAI منذ GPT-4.5. التركيز: كفاءة الوكيل وتقليل تكلفة الرموز. فئة رائدة.
- Gemini 3.5 Flash، 19 مايو 2026. إصدار جوجل السريع من عائلة 3.5. التركيز: التنفيذ الوكيل بتكلفة منخفضة وسرعة عالية. فئة متوسطة. Gemini 3.5 Pro (فئة رائدة) سيُشحن في يونيو 2026.
يمثل كل إصدار خطوة للأمام عن سلفه الذي لم يسد الفجوة تمامًا في عمل الوكيل على نطاق الإنتاج. راجع مقالنا السابق Cursor Composer 2.5 مقابل Opus 4.7 مقابل GPT-5.5 للحصول على زاوية أداة الترميز، ومنشورنا Gemini 3.1 Pro مقابل Opus 4.6 مقابل GPT-5.3 لمعرفة كيف كانت أداء الأجيال السابقة.
مقارنة الأسعار
هنا يظهر عدم تطابق الفئات بشكل أوضح:
| النموذج | الإدخال (دولار/مليون) | الإخراج (دولار/مليون) | ملاحظات |
|---|---|---|---|
| Gemini 3.5 Flash | ~1.50 دولار | ~9.00 دولار | يتوفر مستوى مجاني |
| GPT-5.5 | ~10 دولار | ~30 دولار | الإدخال المخزن مؤقتًا أرخص |
| Claude Opus 4.7 | ~15 دولار | ~75 دولار | أعلى سعر معلن |
لكل رمز، Flash أرخص 6-10 مرات في الإدخال و 3-8 مرات أرخص في الإخراج. للحساب الكامل للأسعار بما في ذلك وضع الدفعة و Vertex AI، راجع تفاصيل أسعار Gemini 3.5 Flash. لتفاصيل GPT-5.5، راجع أسعار GPT-5.5.
بالنسبة لأعباء العمل الوكيلة حيث يُشغّل النموذج مئات الدورات لكل مهمة، تتضاعف فجوة التكلفة. ادعاء جوجل بأن 'أقل من نصف تكلفة النماذج الرائدة الأخرى' هو مقارنة بين نموذج رائد ونموذج رائد؛ Flash تحديدًا يقع أقل بكثير من النصف.
كفاءة الرموز تميل الحسابات في الاتجاه الآخر. ينتج GPT-5.5 عددًا أقل بشكل ملحوظ من رموز الإخراج لنفس المهمة، أحيانًا أقل بنسبة 72% من Opus 4.7. هذا يقلل جزئيًا الفجوة لكل مهمة على الرغم من أن سعر الرمز الواحد أعلى.
معايير الترميز
الترميز هو حيث تتبادل النماذج الثلاثة الضربات بشكل أوضح.

SWE-Bench Verified (إصلاحات أخطاء ذات مشكلة واحدة)
| النموذج | النتيجة |
|---|---|
| Opus 4.7 | 87.6% |
| GPT-5.5 | ~85% |
| Gemini 3.5 Flash | لم يتم الإبلاغ عنها بشكل منفصل |
لا يزال Opus 4.7 يتصدر في معايير إصلاح الأخطاء المعزولة. الفجوة بينه وبين GPT-5.5 تبلغ بضع نقاط مئوية، مما يعني أن كلا النموذجين يشعران بالمنافسة في معظم مهام الترميز أحادية اللقطة. لا ينشر Flash رقمًا مقارنًا، لكن الاختبارات غير الرسمية تشير إلى أنه يأتي أقل من كلا النموذجين الرائدين في SWE-Bench Verified الخالص، وهو أمر متوقع لنموذج من الفئة السريعة.
SWE-Bench Pro (إصلاحات معقدة متعددة الملفات)
| النموذج | النتيجة |
|---|---|
| Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| Gemini 3.5 Flash | لم يتم الإبلاغ عنها بشكل منفصل |
إعادة هيكلة الملفات المتعددة هي نقطة قوة Opus 4.7. إذا كان برنامجك اليومي هو Cursor Composer أو سير عمل Claude Code يقوم بإعادة هيكلة حقيقية عبر مستودع، فإن Opus هو الخيار الافتراضي الأكثر أمانًا. سيوصلك Flash إلى معظم الطريق للتغييرات الروتينية بجزء بسيط من التكلفة.
Terminal-Bench 2.0/2.1 (حلقات وكيل سطر الأوامر)
| النموذج | النتيجة | المعيار |
|---|---|---|
| GPT-5.5 | 82.7% | Terminal-Bench 2.0 |
| Gemini 3.5 Flash | 76.2% | Terminal-Bench 2.1 |
| Opus 4.7 | 69.4% | Terminal-Bench 2.0 |
تستخدم لوحتا تسجيل مختلفتان، 2.0 و 2.1، مزيجًا مختلفًا من المهام. الخلاصة: يتفوق كل من Flash و GPT-5.5 على Opus في تشغيل وكلاء سطر الأوامر الطويل. لا يزال GPT-5.5 يتصدر هنا، لكن Flash سد معظم الفجوة، بينما يكلف أقل بكثير.
MCP Atlas (تنسيق الأدوات المتعددة)
Gemini 3.5 Flash: 83.6%. مقياس جوجل الرئيسي لاستخدام الأدوات الوكيلة. لم تنشر OpenAI و Anthropic أرقامًا قابلة للمقارنة على نفس المعيار، مما يجعل المقارنة المباشرة صعبة. وبشكل غير رسمي، جميع النماذج الثلاثة موثوقة في أعباء عمل استدعاء الأدوات في عام 2026.
العمل الوكيل وطويل الأمد
للمهام التي تستغرق من عشرات الدقائق إلى ساعات دون إشراف:
- Gemini 3.5 Flash: يفوز في السعر لكل مهمة وسرعة الإخراج. تشير درجة MCP Atlas (83.6%) و Terminal-Bench 2.1 (76.2%) إلى سلوك استخدام أدوات متسق. إرسال الوكلاء الفرعيين من الدرجة الأولى.
- GPT-5.5: يفوز في Terminal-Bench 2.0 (82.7%) وفي كفاءة الرموز. عدد أقل من رموز الإخراج لكل مهمة يعني تباينًا أقل وتجاوزًا أقل للتكاليف.
- Opus 4.7: يفوز في متابعة التعليمات متعددة الخطوات وجودة الكود. يخسر في السرعة والسعر للتشغيل الطويل جدًا بسبب الإخراج المطول ذي النمط السردي.
إذا كنت تقوم بتشغيل وكلاء يعملون باستمرار كما هو الحال في نمط أمر /goal مع Codex و Claude Code، فإن الجوانب الاقتصادية مهمة. Flash يفوز في التكلفة؛ Opus يفوز في جودة الإخراج لكل دورة؛ GPT-5.5 يفوز في انضباط الرموز.
نافذة السياق واسترجاع السياق الطويل
| النموذج | الحد الأقصى للإدخال | الحد الأقصى للإخراج |
|---|---|---|
| Gemini 3.5 Flash | 1 مليون رمز | 64 ألف رمز |
| GPT-5.5 | 400 ألف رمز | 128 ألف رمز |
| Opus 4.7 | 1 مليون رمز (بيتا) | 64 ألف رمز |
يتصدر Flash جدول جوجل المنشور في معيار استرجاع 1 مليون رمز MRCR v2. وهذا يجعل Flash الخيار الأوضح عندما تكون المهمة هي "العثور على الإجابة الصحيحة في ملف PDF من 200 صفحة" دون استراتيجيات التجزئة، خاصة بالنظر إلى فئة سعره.
يتطابق Opus 4.7 في حجم النافذة الخام ولكنه يتخلف في اتساق الاسترجاع في الحد الأعلى. حجم 400 ألف رمز من GPT-5.5 سخي ولكنه يخسر أمام Flash من حيث النطاق الخام.
لأعباء العمل الغنية بالمستندات، والتقارير الطويلة، وقواعد التعليمات البرمجية الكاملة، وتحليل المستندات المتعددة، Flash هو الخيار الافتراضي العملي.
متعدد الوسائط
يتصدر Flash في الاستدلال على الرسوم البيانية والمستندات:
- CharXiv Reasoning: 84.2% (Gemini 3.5 Flash)
- MMMU-Pro: 83.6% (Gemini 3.5 Flash)
تدعم OpenAI و Anthropic كلاهما إدخال الصور على نماذجهما الرائدة، لكن لا يتطابق أي منهما مع درجة Flash في استدلال الرسوم البيانية في يوم الإطلاق. لتحليلات البيانات المرئية، استخراج ملفات PDF، أو أعباء العمل التي تمزج النص ولقطات الشاشة، Flash هو الخيار الواضح.
إذا كنت تقوم بتوجيه توليد الصور كجزء من مسار العمل، فراجع وجهة نظرنا حول Gemini 3 Pro Image مقابل Seedream لاختيار النموذج في هذا الجانب.
سرعة الإخراج
عدد الرموز في الثانية مهم عندما ينتظر المستخدمون الإخراج المتدفق.
| النموذج | سرعة الإخراج النسبية |
|---|---|
| Gemini 3.5 Flash | ~4 أضعاف الخط الأساسي |
| GPT-5.5 | الخط الأساسي |
| Opus 4.7 | ~0.7 أضعاف الخط الأساسي |
تختلف الأرقام حسب المنطقة والحمل. الاتجاه ثابت: Flash يبث بشكل أسرع بكثير من كلا النموذجين الرائدين. لواجهات المستخدم للدردشة ومساعدي الترميز المباشر، فإن الزيادة الملحوظة في الجودة من البث الفوري حقيقية.
الاستدلال، الرياضيات، والعلوم
| المعيار | Flash | GPT-5.5 | Opus 4.7 |
|---|---|---|---|
| GPQA Diamond | قوي (وفقًا لجدول جوجل) | مرتفع | مرتفع |
| الاستدلال الرياضي | قوي | قوي | قوي |
| الكتابة الطويلة | جيد | جيد | الأفضل |
هذا الصف متقارب في أعلى لوحة المتصدرين، ولكن مع تحذير: Flash يحافظ على مكانته هنا على الرغم من كونه نموذجًا من الفئة السريعة. لا يزال Opus يتمتع بأقوى صوت كتابي سردي. وقد لحق النموذجان الآخران بالاستدلال الخام.
نظام الأدوات البيئي والتكاملات
- Opus 4.7: Claude Code، MCP، Anthropic API، نظام أدوات بيئي ناضج، Bitwarden Agent ودعم واسع لبيئات التطوير المتكاملة (IDE)
- GPT-5.5: OpenAI Codex، Responses API، تكامل تطبيق ChatGPT. استدعاء الوظائف له أطول سجل حافل.
- Gemini 3.5 Flash: Antigravity، Gemini Enterprise Agent Platform، Gemini CLI، تكامل Android Studio، ينمو بسرعة.
تمتلك Anthropic أعمق نظام بيئي لمحوّلات الطرف الثالث. تتمتع OpenAI بأوسع تبني للمطورين. تلحق جوجل بالركب بسرعة مع Antigravity و Agent Platform ولكنها تبدأ من قاعدة أصغر من الطرف الثالث.
متى تختار أي نموذج
تخطَّ المعايير للحظة وانظر إلى أعباء العمل.
اختر Gemini 3.5 Flash عندما:
- ميزانيتك ضيقة لكل مهمة
- سرعة الإخراج في واجهة مستخدم بثية مهمة
- تقوم بمعالجة مستندات طويلة (مليون رمز)
- تتضمن المهمة رسومًا بيانية، ملفات PDF، لقطات شاشة
- تريد حلقة وكيل موثوقة بأقل فئة سعر
- أنت بالفعل في نظام Google Cloud أو Workspace البيئي
- عبء العمل كبير الحجم و "جيد بما فيه الكفاية" يتفوق على "مثالي"
اختر GPT-5.5 عندما:
- كفاءة الرموز هي الأولوية (تدفع لكل مليون)
- المهمة هي عمل وكيل مدفوع بسطر الأوامر (متصدر Terminal-Bench)
- تريد أوسع مكتبة محوّلات أدوات من الطرف الثالث
- ChatGPT موجود بالفعل في سير عمل فريقك
- شاهد الإعداد الكامل في كيفية استخدام GPT-5.5 API
اختر Opus 4.7 عندما:
- المهمة هي إعادة هيكلة كود متعدد الملفات أو تغييرات على مستوى المستودع (متصدر SWE-Bench Pro)
- جودة متابعة التعليمات متعددة الخطوات تهم أكثر من السرعة
- الكتابة الطويلة أو الإخراج السردي الدقيق هي النتيجة المطلوبة
- أنت بالفعل تستخدم Claude Code مع خطة Claude
- التكلفة لكل مهمة ليست القيد الملزم
اختر مزيجًا عندما:
تنتهي معظم مكدسات الإنتاج بتشغيل اثنين من هذه. الأنماط الشائعة:
- Flash للاسترجاع والتحضير، Opus للتسليم النهائي: العمل الرخيص ذو السياق الغني يغذي النموذج الباهظ الثمن بالمدخلات الصحيحة.
- GPT-5.5 لحلقات وكيل سطر الأوامر، Flash لتحليل الرسوم البيانية/المستندات: كل منهما يقوم بما يبرع فيه.
- Flash لـ 80% من حركة المرور، Opus أو GPT-5.5 لـ 20% الصعبة: التوجيه حسب تعقيد المهمة.
- الثلاثة جميعًا خلف موجه رخيص يختار بناءً على نوع المهمة.
مقارنة المستويات المجانية
جميع الثلاثة لديهم مسار مجاني:
- Gemini 3.5 Flash: مفتاح API لـ AI Studio، ~1,500 طلب/يوم. راجع دليل Flash المجاني.
- GPT-5.5: استعلامات مجانية محدودة في ChatGPT، بالإضافة إلى البوابات المغطاة في دليل GPT-5.5 المجاني.
- Opus 4.7: حد يومي على Claude.ai، بالإضافة إلى مسارات مجانية في دليل Opus 4.7 المجاني.
من بين الثلاثة، مسار API المجاني لـ Flash هو الأكثر ملاءمة للمطورين. يمنحك AI Studio مفتاحًا عاملاً بدون بطاقة ائتمان وحصصًا يومية مفيدة.
كيف تختبر هذه النماذج فعليًا مقابل عبء عملك الخاص
تخبرك المعايير بما يمكن أن يفعله النموذج في المتوسط. عبء عملك هو ما يهم. قم ببناء أداة تقييم صغيرة:
- اختر 20 مهمة تمثيلية من حالة استخدامك الفعلية.
- شغل جميع النماذج الثلاثة مقابل كل مهمة.
- قيم على ثلاثة أبعاد: نجاح المهمة، التكلفة الإجمالية، زمن الاستجابة.
- راقب أنماط الفشل الخاصة بعبء عملك، حالات الرفض، انحراف المخطط، تغييرات شكل استدعاء الأدوات.
هنا حيث تساعد Apidog. تقوم بحفظ نقاط نهاية API الثلاث (Gemini، OpenAI، Anthropic) كطلبات معلمية، وتخزين المفاتيح كمتغيرات بيئة، وتشغيل نفس المطالبة عبر الثلاثة بنقرة واحدة. تعود الاستجابات إلى إطار عمل اختبار Apidog حيث يمكنك مقارنتها جنبًا إلى جنب.
إعداد عملي:
- قم بتنزيل Apidog
- أنشئ مساحة عمل باسم "تقييم النماذج الرائدة"

- احفظ ثلاثة طلبات، واحد لكل مزود (Flash، GPT-5.5، Opus 4.7)
- ابنِ سيناريو اختبار يشغل نفس المطالبة مقابل الثلاثة جميعًا
- أضف تأكيدات الاستجابة (شكل JSON، سلاسل يجب تضمينها، عتبات زمن الاستجابة)
- شغل السيناريو أسبوعيًا لاكتشاف انحراف النموذج
يومين من الإعداد يغنيان عن ثلاثة أشهر من النقاش حول أي نموذج "يبدو" أفضل.
ما الذي سيتغير لاحقًا
ثلاثة أمور يجب مراقبتها خلال التسعين يومًا القادمة:
- إطلاق Gemini 3.5 Pro بشكل عام. بمجرد وصول Pro في يونيو، ستتغير المقارنة. سيظل Flash يحتفظ بزاوية التكلفة/السرعة، لكن Pro سيكون المطابق الرائد المباشر لـ Opus و GPT-5.5.
- استجابة OpenAI. كان GPT-5.5 إصدارًا في أبريل. من المحتمل وجود تحديث في منتصف الدورة أو متغير جديد إذا أطلق Gemini 3.5 Pro بقوة.
- خطوة Anthropic التالية. Opus 4.7 هو النموذج الرائد الحالي لـ Anthropic. تحديث Sonnet أو Opus 4.8 في الربع القادم سيكون ضمن الدورة المتوقعة.
- يتحرك هذا المجال شهريًا الآن. اللعبة الذكية هي الحفاظ على تشغيل أداة التقييم الخاصة بك، والتبديل عندما تتغير الأرقام، وعدم الانغلاق أبدًا في أدوات مزود واحد.
- هل Gemini 3.5 Flash منافس حقًا لـ Opus 4.7 و GPT-5.5؟ نعم، في فئته. يتفوق Flash على فئته في معايير الوكالة ويسيطر على التكلفة. بالنسبة لأصعب المهام (إعادة هيكلة معقدة لملفات متعددة، كتابة طويلة دقيقة)، لا تزال النماذج الرائدة تتصدر.
- لماذا تتم مقارنة نموذج من الفئة السريعة بالنماذج الرائدة؟ لأن فجوة التكلفة كبيرة جدًا لدرجة أن العديد من أعباء العمل الإنتاجية يجب أن تعمل على Flash حتى عندما يؤدي النموذج الرائد المهمة بشكل أفضل قليلاً. السؤال الصادق هو "هل Flash جيد بما يكفي لعبء العمل هذا؟" وليس "هل Flash هو الأفضل في كل شيء؟"
- هل Opus 4.7 يستحق سعره الأعلى؟ لأعباء العمل حيث جودة الكود أو الكتابة لكل دورة هي الأهم، نعم. لحلقات الوكيل عالية الحجم حيث تشغل آلاف الدورات، الحسابات لكل مهمة تفضل Flash.
- هل يمكنني استخدام النماذج الثلاثة عبر واجهة API واحدة؟ ليس مباشرة. لكل مزود نقطة نهاية خاصة به. وضع التوافق مع OpenAI من OpenAI مدعوم من قبل Google (كمحول)، لكنك ستظل تحتاج إلى الاحتفاظ بثلاث مجموعات من بيانات الاعتماد. النمط الأكثر نظافة هو تجريد استدعاء النموذج خلف غلافك الخاص البسيط.
- متى يتم شحن Gemini 3.5 Pro؟ يونيو 2026. سيكون ذلك هو المطابق الرائد لـ Opus و GPT-5.5. حتى ذلك الحين، Flash هو الخيار الوحيد لعائلة 3.5.
- كيف أراقب التكلفة عند تشغيل ثلاثة مزودين؟ تتبع الإنفاق لكل نموذج في سجل طلبات Apidog، أو اجمع لوحات معلومات المزودين الخاصة بك. اضبط تنبيهات الميزانية لكل نموذج لتجنب المفاجآت أثناء الاختبار.
- ثلاثة نماذج موثوقة، ثلاث نقاط قوة مختلفة.
- Gemini 3.5 Flash للعمل الرخيص والسريع والمتعدد الوسائط وذو السياق الطويل، وكمية ملحوظة من عبء العمل الوكيلي الذي كان يتطلب نموذجًا رائدًا في السابق.
- GPT-5.5 لأتمتة الوكلاء الفعالة بالرموز والتي تعتمد على سطر الأوامر.
- Opus 4.7 لإعادة هيكلة الكود عالية الجودة والكتابة الطويلة.
- ابنِ تقييمك الخاص. اختبر مقابل عبء عملك الحقيقي. غيّر عندما تتغير الأرقام. هذا هو الجواب الصادق الوحيد في سوق يتغير فيه القائد شهريًا. وراقب شهر يونيو: Gemini 3.5 Pro سيعيد تشكيل هذه المواجهة.
