كلود فيبل 5 بنشمارك: ماذا تقول الأرقام؟

عندما أطلقت شركة Anthropic نموذج Claude Fable 5 في 9 يونيو 2026، وصفته بأنه متطور للغاية في كل المعايير تقريباً التي اختبرتها. إذا كنت قد أتيت إلى هنا بحثاً عن معايير Claude Fable 5 واضحة بأرقام صريحة بجانب كل تقييم، فهناك تحذير صريح مقدماً: إعلان Anthropic ذكر *مواقع* المعايير (حيث يصنف Fable 5 مقارنة بنماذج رائدة أخرى) أكثر من لوحات النتائج الرقمية الكاملة في نصه، ووصلت العديد من الرسوم البيانية الرئيسية كصور بدلاً من جداول قابلة للنسخ واللصق. لذا، يركز هذا الملخص على ما تعنيه هذه المواقع بالفعل، ومكانة Fable 5، وكيف يمكنك إجراء تقييم سريع خاص بك إذا كنت تريد أرقاماً تتحكم فيها. لمقارنة أوسع للنماذج الرائدة الحالية، فإن تحليلنا لـ Opus 4.8 مقابل GPT-5.5 و Gemini 3.5 يعد رفيقاً مفيداً.

يُشحن Fable 5 بسعر 10 دولارات لكل مليون رمز إدخال و 50 دولاراً لكل مليون رمز إخراج، تحت معرف النموذج `claude-fable-5`. إنه يقع في مستوى أعلى من Opus 4.8 من حيث القدرة والسعر، وتضعه Anthropic كأقوى نموذج Claude متاح للجمهور في هندسة البرمجيات، والعمل المعرفي، والرؤية، والبحث العلمي.

ملخص

يحتل Claude Fable 5 المرتبة الأولى بين النماذج الرائدة في FrontierCode و FrontierBench (كلاهما من Cognition)، وهو متطور للغاية في CursorBench، ويسجل أعلى نتيجة في معيار Finance Benchmark الخاص بـ Hebbia. يظهر قوة واضحة في المهام ذات الأفق الطويل والعمل المستقل. وقد أبلغت Anthropic عن هذه النتائج كمواقع، لذا فإن الدرجات العامة الدقيقة محدودة. تعامل مع التصنيفات كتوجيهات، وليست نهائية.

النتيجة الرئيسية

الجملة الوحيدة التي تؤطر كل مناقشات معايير Claude Fable 5: تصف Anthropic النموذج بأنه متطور للغاية في جميع المعايير تقريباً التي أجرتها، ويغطي ذلك هندسة البرمجيات، والعمل المعرفي، والرؤية، والبحث العلمي. إنه ادعاء واسع، والادعاءات الواسعة تستحق قراءة متأنية.

عبارة "متطور للغاية في جميع المعايير تقريباً" تعني أن Fable 5 إما يتصدر لوحة المتصدرين أو يجلس في المستوى الأعلى في معظم التقييمات التي اختارت Anthropic الإبلاغ عنها. لا يعني ذلك أن Fable 5 يفوز في كل اختبار بفارق كبير، ولا يعني أن المختبرات المستقلة قد أعادت إنتاج كل نتيجة. ما يشير إليه هو الاتساق: نموذج يكون الأفضل في فئته في البرمجة ولكنه متوسط في استدلال المستندات لن يحصل على هذه الصيغة. يبدو أن Fable 5 يحتل الصدارة عبر فئات تتوازن عادةً مع بعضها البعض.

هذا النطاق الواسع يهم أكثر من أي مخطط واحد. العديد من النماذج تتفوق في معيار مفضل وتتراجع في أماكن أخرى. النموذج الذي يبقى قريباً من القمة في البرمجة، والمالية، والرؤية، والعلوم يصعب التلاعب به، لأنه لا يمكنك التكيف مع أربع مهارات غير مترابطة في وقت واحد بدون قدرة حقيقية كامنة. إذا كنت تقرر ما إذا كان Fable 5 يستحق الانتقال من مستوى أرخص، فإن اتساع نطاق التصنيفات هو الجزء الذي يجب أن تزنوه. للحصول على دليل كامل عن النموذج نفسه، راجع ما هو Claude Fable 5.

موضوع ثانٍ يمر عبر النتائج: العمل ذو الأفق الطويل. تقول Anthropic إن Fable 5 "يظل مركزاً عبر ملايين الرموز في المهام طويلة الأمد" ويعمل بشكل مستقل لفترة أطول من أي نموذج Claude سابق. العديد من التصنيفات أدناه ليست اختبارات دقة بلقطة واحدة. إنها تكافئ نموذجاً يمكنه الحفاظ على خطة متماسكة عبر آلاف الخطوات دون انحراف. هذا هو المكان الذي يكون فيه تقدم Fable 5 المبلغ عنه أوسع، وهو أيضاً القدرة الأصعب في التقاطها في رقم واحد.

معايير البرمجة: FrontierCode و CursorBench

البرمجة هي حيث تكون قصة معايير Fable 5 الأقوى والأكثر وضوحاً.

على **FrontierCode**، وهو تقييم للبرمجة من Cognition (الفريق الذي يقف وراء وكيل البرمجة Devin)، تفيد Anthropic بأن Fable 5 هو النموذج الرائد الأعلى تسجيلاً، ويحتفظ بهذه الصدارة حتى بـ *جهد متوسط*. مؤهل "الجهد" يستحق التوقف عنده. يمكن دفع العديد من النماذج الرائدة لتحقيق دقة أعلى عن طريق إنفاق المزيد من قوة الحوسبة للاستدلال (المزيد من رموز الاستدلال، المزيد من المحاولات، إعدادات جهد أعلى). النموذج الذي يتصدر بالفعل بجهد متوسط يصل إلى القمة دون الحاجة إلى التكوين الأكثر تكلفة، وهي إشارة أفضل للاستخدام اليومي من رقم يظهر فقط بأقصى إنفاق.

على **CursorBench**، تصف Anthropic Fable 5 بأنه متطور للغاية وتؤطر النتيجة حول النطاق بدلاً من رقم دقة واحد. العبارة من الإعلان هي أن Fable 5 "فتح فئة من المشكلات ذات الأفق الطويل التي كانت بعيدة المنال" للنماذج السابقة. يميل CursorBench نحو العمل الهندسي متعدد الملفات ومتعدد الخطوات الذي تتطلبه قواعد الأكواد الحقيقية، لذا فإن وضع "متطور للغاية" هنا يشير إلى البرمجة الوكيلية أكثر من كتابة وظائف معزولة.

تشير كلتا النتيجتين إلى نفس الاتجاه: Fable 5 مصمم للهندسة المستمرة، وليس لإكمال المقتطفات. إذا كنت تقضي يومك في وكيل برمجة يخطط، ويحرر عبر الملفات، ويشغل الاختبارات، ويكرر، فهذه هي المعايير التي تتناسب مع سير عملك. النموذج الذي يتصدر FrontierCode بجهد متوسط ويدفع CursorBench إلى منطقة جديدة يجب أن يصمد خلال جلسات الوكيل الطويلة بدلاً من التدهور بعد بضع محاولات.

المعرفة والمالية: Finance Benchmark (Hebbia)

خارج نطاق الكود، تأتي أوضح نتيجة للعمل المعرفي من **Finance Benchmark** الذي أنشأته Hebbia، وهي شركة تركز على الذكاء الاصطناعي للعمل المالي والقانوني الغني بالمستندات.

تفيد Anthropic بأن Fable 5 يسجل أعلى نتيجة لأي نموذج في هذا المعيار، مع تركز المكاسب في ثلاثة مجالات: استدلال المستندات، الرسوم البيانية، والجداول. هذا التركيب بليغ. التحليل المالي نادراً ما يكون سؤال معلومات عامة. إنه قراءة ملف طويل، وتتبع رقم عبر عدة صفحات، ومطابقة رسم بياني مع النص الذي يصفه، واستخراج الخلية الصحيحة من جدول كثيف دون إساءة قراءة العمود. هذه هي بالضبط المهارات التي يؤكد عليها Finance Benchmark، وتلك التي تعرقل النماذج القوية في النثر ولكن الضعيفة في البيانات المنظمة.

زاوية الرؤية مهمة هنا أيضاً. غالباً ما تكون الرسوم البيانية والجداول صوراً أو تخطيطات مختلطة، لذا فإن درجة Finance Benchmark العالية هي جزئياً نتيجة رؤية. يتماشى هذا مع ادعاء Anthropic الأوسع بأن Fable 5 قوي في الرؤية، ويشير إلى أن النموذج يتعامل مع المستندات الفوضوية الواقعية التي يتعامل معها العاملون في مجال المعرفة بدلاً من المدخلات النصية النظيفة فقط.

بالنسبة للمطورين، القراءة العملية هي أن Fable 5 مرشح لخطوط أنابيب استخراج المستندات، وأدوات التحليل المالي، وأي سير عمل يكون فيه الإدخال ملف PDF مليء بالأرقام بدلاً من حمولة JSON منظمة. إذا كان منتجك يقرأ العقود، البيانات، أو التقارير ويجب أن يكون دقيقاً بشأن الأرقام، فهذا هو التصنيف الذي يجب مراقبته. تحقق من صحة مستنداتك الخاصة قبل أن تثق في معيار للتنبؤ بنتائجك.

الاستدلال طويل الأفق: FrontierBench (Cognition)

التقييم الثاني من Cognition، **FrontierBench**، هو حيث تتحول قصة الاستقلالية إلى تصنيف معيار. تفيد Anthropic بأن Fable 5 هو النموذج الأعلى تسجيلاً في FrontierBench وتفرد الاستدلال طويل الأفق كسبب لذلك.

الاستدلال طويل الأفق هو القدرة على الحفاظ على هدف وخطة متماسكة عبر مهمة طويلة: العديد من الخطوات، العديد من الرموز، العديد من الفرص لضياع المسار. تكافئ معظم المعايير إجابة صحيحة لسؤال محدد. يكافئ FrontierBench، حسب تأطير Anthropic، نموذجاً يمكنه البقاء في المهمة بينما تملأ نافذة السياق بالعمل الوسيط الخاص به. هذه عضلة مختلفة، وتلك التي تستمر Anthropic في الإشارة إليها بعبارات مثل "يبقى مركزاً عبر ملايين الرموز."

هذا أيضاً هو التصنيف الأصعب في التحقق منه من الخارج، وذلك تحديداً لأنه صعب القياس. يجب أن يحدد التقييم طويل الأفق ما يعنيه "البقاء في المهمة"، وكيف يتم تسجيل التقدم الجزئي، وكيفية إيقاف النموذج من التلاعب بالمعيار عن طريق المماطلة. لذا، تعامل مع تصنيف FrontierBench كإشارة توجيهية قوية بأن Fable 5 مصمم للوكلاء المستقلين وطويلي الأمد، مع الأخذ في الاعتبار أن تسجيل الأفق الطويل هو مجال متطور حيث تختلف المنهجية بين المختبرات. مجتمعاً مع CursorBench، القصة متسقة: ميزة Fable 5 الأقل أهمية هي الإجابة على سؤال واحد صعب، والأكثر أهمية هي عدم التفكك على مدى سؤال طويل.

الأداء الواقعي أبعد من المعايير

المعايير هي بديل. النتيجتان اللتان أبرزتهما Anthropic من عمليات النشر الحقيقية هما على الأرجح أكثر إفادة من أي لوحة متصدرين، لأنهما تظهران النموذج وهو يؤدي مهمة بدلاً من اجتياز اختبار.

الأولى هي **ترحيل قاعدة بيانات Stripe**. تفيد Anthropic بأن Fable 5 رحّل قاعدة بيانات Ruby بحجم 50 مليون سطر لـ Stripe في يوم واحد، وهو عمل قدر الفريق أنه كان سيستغرق شهرين أو أكثر. اقرأ ذلك بعناية. ترحيل 50 مليون سطر ليس لغز برمجة. إنه عمل شاق، متكرر، غني بالسياق، يمتد عبر آلاف الملفات حيث تتراكم التناقضات الصغيرة لتؤدي إلى بناءات معطلة. الإشارة ليست أن Fable 5 ذكي؛ بل إنه يمكنه الحفاظ على تعديلات صحيحة ومتسقة على نطاق هائل دون انحراف، وهي القدرة طويلة الأفق التي تشير إليها المعايير، والتي تظهر على نظام إنتاج حقيقي.

الثانية هي **اختبار Slay the Spire**. Slay the Spire هي لعبة roguelike لبناء البطاقات، وقد استخدمتها Anthropic لاستكشاف الذاكرة بدلاً من البرمجة. مع تمكين ذاكرة الملفات الدائمة، أظهر Fable 5 تحسناً بمقدار 3 أضعاف مقارنة بـ Opus 4.8 في اللعبة. الآلية هي الجزء المثير للاهتمام: جاء التحسن من السماح للنموذج بكتابة ملاحظات إلى الملفات وقراءتها مرة أخرى عبر الجولات، وتجميع الاستراتيجية بالطريقة التي يفعلها اللاعب البشري. يشير هذا إلى نموذج يتحسن بشكل كبير عندما تمنحه ذاكرة دائمة، بدلاً من البدء من الصفر في كل جلسة.

ماذا تخبرك هذه النتائج مما لا تخبرك به المعايير؟ شيئين. أولاً، تحمل النطاق: سؤال المعيار صغير بطبيعته، ونتيجة Stripe تظهر سلوكاً على نطاق لا يصل إليه أي تقييم قياسي. ثانياً، الذاكرة واستخدام الأدوات كمضاعفات للقوة. نتيجة Slay the Spire ليست عن معدل الذكاء الخام للنموذج، بل عن كيفية تحسن النموذج عند توصيله ببيئة ذات حالة دائمة. كلاهما خاصيتان لا تراهما إلا عندما يتم تضمين النموذج في نظام حقيقي، وهذا أيضاً هو سبب صعوبة مقارنتها بين البائعين. إذا كنت تقيم Fable 5 لوكيل يعمل لساعات ويحتفظ بملاحظاته الخاصة، فإن هذه الإشارات تهم أكثر من نسبة دقة واحدة.

كيف تقرأ هذه النتائج

ملخص المعايير الذي يقتصر على الإشادة ليس مفيداً. إليك التحذيرات التي يجب مراعاتها بجانب التصنيفات.

أصحاب المعايير هم شركاء. تأتي FrontierCode و FrontierBench من Cognition، ويأتي Finance Benchmark من Hebbia. هذه منظمات موثوقة تبني تقييمات جادة، ومشاركتها هي ميزة، وليست علامة حمراء. لكنهم أيضاً شركاء في السرد الإطلاقي، ويميل المعيار الذي صممه طرف واحد إلى مكافأة القدرات التي يهتم بها هذا الطرف. هذا لا يجعل النتائج خاطئة؛ بل يعني أنه يجب أن ترغب في إعادة إنتاج مستقلة قبل اعتبارها مستقرة. قارن مع مقارنات محايدة مثل نظرتنا إلى MiniMax M3 مقابل Opus 4.7 مقابل GPT-5.5 لترى كيف تصمد نماذج Anthropic مقارنة بأطر أخرى.
إعدادات "الجهد" تغير الصورة. تم الإبلاغ عن نتيجة FrontierCode بجهد متوسط، وهو أمر مشجع. لكن الجهد هو متغير حقيقي عبر هذه التقييمات. نموذجان مقارنان بمستويات جهد مختلفة لا يتم مقارنتهما بشكل عادل، والرقم المقتبس بدون إعداد جهده غير مكتمل. عندما ترى درجة Fable 5 عبر الإنترنت، تحقق من الجهد وعدد المحاولات التي أنتجتها قبل مقارنتها بأي شيء.
الدرجات العامة محدودة. اعتمد إعلان Anthropic على التصنيفات، ووصلت الرسوم البيانية المفصلة كصور، ولهذا السبب تظل هذه المقالة نوعية بشأن التقييمات المحددة. لقد سدت المنافذ الثانوية الفجوة بالأرقام، لكن هذه الأرقام تتفاوت وليست كلها قابلة للتتبع إلى مصدر أساسي، لذا لا ينبغي أن تكون أساساً لقرار الشراء بعد. عندما تنشر Cognition و Hebbia لوحات المتصدرين الخاصة بهما، فضل تلك.
التصنيف ليس هامشاً. "الأعلى تسجيلاً" يخبرك بالترتيب، وليس الفجوة. يمكن لنموذج أن يتصدر بنقطة أو بعشرين نقطة، وكلاهما يعني أشياء مختلفة فيما إذا كانت الترقية تستحق التسعير 10 دولارات / 50 دولاراً. بدون الدرجات الأساسية، تعامل مع الصدارة كشيء حقيقي ولكنه غير محدد الكمية.

لا شيء من هذا سبب لرفض النتائج. قيادة Fable 5 في البرمجة، والمالية، والرؤية، والاستدلال طويل الأفق، بالإضافة إلى عمليات نشر Stripe و Slay the Spire، هي صورة قوية ومتماسكة. إنه سبب للتحقق من عبء عملك الخاص قبل الالتزام، وهي الخطوة الصحيحة مع أي نموذج جديد بغض النظر عن من صنعه. نظرة عامة على النماذج هي المكان المناسب لتأكيد المعرفات الحالية، والأسعار، وحدود السياق قبل توصيل أي شيء.

قم بتشغيل معيارك الخاص باستخدام Apidog

المعيار الأكثر موثوقية هو الذي يستخدم مطالباتك وتعريفك لـ "الجيد". لا تحتاج إلى أداة بحث للحصول على قراءة مفيدة. قم ببناء تقييم DIY خفيف الوزن عن طريق إرسال مطالبة اختبار ثابتة إلى واجهة برمجة تطبيقات Fable 5 ومقارنة الاستجابة بـ Opus 4.8 على ثلاثة محاور يمكنك قياسها مباشرة: جودة الإخراج، وقت الاستجابة، وتكلفة الرمز.

إليك طريقة بسيطة للقيام بذلك باستخدام Apidog، وهي منصة واجهات برمجة تطبيقات لتصميم واختبار وتوثيق الطلبات. الفكرة هي إنشاء طلب واحد في Apidog، وتوجيهه إلى كل نموذج، وقراءة الاستجابة، والتوقيت، واستخدام الرموز جنباً إلى جنب.

قم بإعداد طلب POST إلى نقطة نهاية رسائل Claude واحفظه كطلب قابل لإعادة الاستخدام في Apidog حتى تتمكن من إعادة تشغيله دون إعادة الكتابة.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

امنحه نصاً بمهمة ثابتة. اختر مطالبة تشبه عملك الحقيقي، وليس لعبة. تعليمات على غرار الترحيل هي اختبار إجهاد جيد لنموذج البرمجة:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

قم بتشغيله مرة واحدة مقابل `claude-fable-5`. ثم كرر الطلب، غير حقل `model` إلى `claude-opus-4-8`، وشغل نفس المطالبة. لأن الإدخال متطابق، فإن أي اختلاف في الإخراج هو بسبب النموذج، وليس المطالبة.

الآن اقرأ الإشارات الثلاث التي تظهرها Apidog لكل مكالمة:

الجودة. قارن كلتا الاستجابتين بمعيارك الخاص. هل غطى الاختبار حالات الحافة؟ هل بقي إعادة الهيكلة صحيحاً؟ سجل كليهما قبل أن تنظر إلى النموذج الذي أنتج أياً منهما.
وقت الاستجابة. يعرض Apidog وقت الاستجابة لكل طلب. بالنسبة لأداة تفاعلية، قد يكون النموذج الأكثر دقة بمرتين ولكنه أبطأ بأربع مرات خياراً خاطئاً.
تكلفة الرمز. تتضمن استجابة Claude كتلة `usage` مع `input_tokens` و `output_tokens`. اضرب في الأسعار المنشورة (10 دولارات و 50 دولاراً لكل مليون لـ Fable 5، و 5 دولارات و 25 دولاراً لـ Opus 4.8) للحصول على التكلفة الحقيقية لكل إجابة.

كرر هذا عبر خمس أو عشر مطالبات تعكس استخدامك الفعلي، وستحصل على معيار صغير وصادق يخبرك بما لا تستطيع لوحات المتصدرين العامة: ما إذا كانت ميزة Fable 5 تظهر في مهامك *الخاصة* بسعر أنت على استعداد لدفعه. يمكنك تنزيل Apidog وإعداده في غضون دقائق. للحصول على تفاصيل أعمق للتكلفة، يقوم دليل تسعير Fable 5 الخاص بنا بإجراء الحسابات.

زر