معايير أداء كلود سونيت 5: تحليل الأرقام الحقيقية

تم إطلاق Claude Sonnet 5 في 30 يونيو 2026، والادعاء الرئيسي من Anthropic جريء: أداء وكيلي (agentic) قريب من Opus 4.8 بسعر أقل بكثير. تستعرض هذه المقالة نتائج المعايير (benchmarks) المبلغ عنها عند الإطلاق، وتشرح ما يعنيه النمط بالفعل، وتوضح أين تتوقف الأرقام عن كونها مفيدة. إذا كنت تريد نظرة عامة كاملة على النموذج أولاً، فابدأ بدليل Claude Sonnet 5 pillar guide. للحصول على الأرقام الخام مباشرة من المصدر، نشرت Anthropic تلك الأرقام على صفحة الإعلان الرسمية.

إليك النسخة المختصرة. في المهام التي يستخدم فيها النموذج الأدوات، يقترب Sonnet 5 من Opus 4.8 ببضع نقاط. في الاستدلال البحت دون الاعتماد على أي شيء، يتسع الفارق إلى حوالي ست نقاط. هذا النمط الوحيد يفسر معظم قرارات الشراء، وهو المحور الذي سنتناوله أدناه.

جميع الأرقام الواردة في هذه المقالة هي معايير إطلاق Anthropic، وقد تم تأكيدها عبر عدة تقارير صدرت في يوم الإطلاق. تعامل معها كأرقام مُبلغ عنها، وليس كاختباراتنا المستقلة.

جدول المعايير

ثلاثة معايير تروي القصة. فيما يلي النتائج المعلنة لـ Sonnet 5، وسابقه Sonnet 4.6، والنموذج الرائد Opus 4.8.

المعيار	ما يقيسه	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	الترميز الوكيلي (Agentic coding) على مستودعات حقيقية	63.2%	58.1%	69.2%
Terminal-Bench 2.1	إنجاز مهام سطر الأوامر	80.4%	لم يُبلّغ عنه	82.7%
OSWorld-Verified	استخدام الكمبيوتر، مهام الواجهة الرسومية	81.2%	78.5%	83.4%

تبرز بعض الأمور.

يتفوق Sonnet 5 على Sonnet 4.6 في كل معيار تم الإبلاغ عنه لكليهما. القفزة في SWE-bench Pro من 58.1% إلى 63.2% تتجاوز خمس نقاط، وهي مكسب جيلي حقيقي في الترميز الوكيلي. ينتقل OSWorld-Verified من 78.5% إلى 81.2%.

مقارنةً بـ Opus 4.8، يتخلف Sonnet 5 بمقدار 6.0 نقاط في SWE-bench Pro، و2.3 نقطة في Terminal-Bench 2.1، و2.2 نقطة في OSWorld-Verified. الفارق هو الأصغر في المهمتين اللتين تعتمدان بشكل أكبر على الأدوات ومحطة الأوامر (terminal).

النمط المهم

اقرأ الجدول مرة أخرى مع وضع سؤال واحد في الاعتبار: إلى أي مدى يمكن للنموذج استخدام الأدوات لحل المشكلة؟

في Terminal-Bench 2.1 و OSWorld-Verified، يقوم النموذج بتشغيل الأوامر، وقراءة المخرجات، والتعديل. يتلقى ملاحظات من البيئة في كل خطوة. يقترب Sonnet 5 من Opus 4.8 بحوالي نقطة إلى ثلاث نقاط في كليهما.

SWE-bench Pro هو أيضًا وكيلي (agentic)، لكنه يركز على الاستدلال الأعمق حول قواعد الأكواد الكبيرة، وهناك يتسع الفارق إلى ست نقاط. عندما تكافئ المهمة الاستدلال البحت على استخدام الأدوات المتكرر (tool loops)، يتقدم Opus.

يدعم تأطير Anthropic الخاص هذا. يصفون Sonnet 5 بأنه النموذج السونيتي الأكثر وكيلية (agentic) حتى الآن، ويضعونه قريبًا من Opus 4.8 في المهام الوكيلية واستخدام الأدوات، بينما يحافظ Opus على تقدمه في الاستدلال البحت. تتوافق المعايير هنا مع التسويق، وهو ما لا يحدث دائمًا.

لذلك، فإن القراءة العملية بسيطة. إذا كانت مهامك تتضمن استخدام الأدوات، الوكلاء، مساعدي الترميز، أو استخدام الكمبيوتر، فإن Sonnet 5 يمنحك معظم قدرات Opus 4.8. إذا كانت مهامك عبارة عن عملية استدلال صعبة واحدة بدون أدوات لتصحيح المسار، فإن Opus يستحق سعره الأعلى. للحصول على مقارنة شاملة جنبًا إلى جنب تشمل السعر والسياق، راجع Claude Sonnet 5 مقابل Opus 4.8.

السعر يغير كيفية قراءتك لهذه النتائج

المعايير بمعزل عن غيرها تبرز النموذج الأغلى. أضف السعر تتغير الصورة.

يعمل Sonnet 5 بسعر تمهيدي قدره 2 دولار لكل مليون رمز إدخال و10 دولارات لكل مليون رمز إخراج حتى 31 أغسطس 2026، ثم ينتقل إلى السعر القياسي 3 دولارات / 15 دولارًا. بينما Opus 4.8 بسعر 5 دولارات / 25 دولارًا. لذلك، بالأسعار القياسية، يكلف Sonnet 5 ما يعادل 60% من تكلفة إدخال Opus و60% من تكلفة إخراج Opus، وأقل من ذلك خلال فترة التقديم.

الآن أعد تقييم الجدول. فجوة قدرها 2.3 نقطة في Terminal-Bench 2.1 تتطلب تكلفة أقل بكثير لتقليصها باختيار Opus مقارنة بفجوة 6 نقاط. بالنسبة للعمل الوكيلي والمهام التي تعتمد على الأدوات بشكل كبير، فإن دفع السعر الإضافي لـ Opus لاستعادة نقطتين أو ثلاث غالبًا ما لا يستحق العناء. هذه هي حجة القيمة الكاملة لـ Sonnet 5، والمعايير هي ما يجعلها موثوقة.

هناك نقطة خفية لا تكشفها النتائج البحتة: يستخدم Sonnet 5 مُحلل رموز جديد ينتج ما يقرب من 30% رموزًا إضافية لنفس نص الإدخال. سعر الرمز الواحد لم يتغير عن Sonnet 4.6، لكن تكلفة الطلب المكافئ قد ترتفع بسبب وجود المزيد من الرموز التي يجب احتساب تكلفتها. دقة المعايير لا تقول شيئًا عن هذا. قم بنمذجة تكلفتك الحقيقية من خلال عد الرموز بدلاً من افتراض التكافؤ الثابت. التفاصيل الكاملة موجودة في دليل تسعير Claude Sonnet 5.

ما فات المعايير

المعايير العامة مفيدة لتصنيف النماذج. لكنها ضعيفة في التنبؤ بكيفية تصرف النموذج في عملك المحدد. تبرز ثلاث فجوات.

عبء عملك ليس SWE-bench. إذا كنت تكتب TypeScript مقابل واجهة برمجة تطبيقات خاصة باتفاقيات داخلية، فإن معيار حل المستودعات على مشاريع Python العامة هو تقريب تقريبي في أحسن الأحوال. يميل الترتيب النسبي إلى الثبات، لكن الرقم المطلق لن يطابق ما تراه.

التكلفة لكل مهمة محلولة تتفوق على الدقة الخام. نموذج يحقق نقطتين أقل ولكنه يكلف 40% أقل يمكنه حل المزيد من المهام بنفس الميزانية. عندما تقوم بتشغيل الوكلاء بكميات كبيرة، فإن التكلفة لكل نجاح هي المقياس الذي يدفع الفواتير، ولا توجد لوحة صدارة تُبلغ عنه لطلباتك (prompts).

لا تظهر زمن الاستجابة والإنتاجية. تقيس المعايير ما إذا كانت الإجابة صحيحة، وليس مدى سرعة وصولها أو كيف يتصرف النموذج تحت التفكير التكيفي (adaptive thinking)، وهو مفعل افتراضيًا في Sonnet 5. بالنسبة للأدوات التفاعلية، يمكن أن تخسر إجابة صحيحة بطيئة أمام إجابة سريعة جيدة بما يكفي.

الاستنتاج الصادق هو التعامل مع هذه النتائج كمرشح أولي، ثم إجراء تقييمك الخاص. إن قياس الأداء على المهام التي تهتم بها فعلاً هو الاختبار الوحيد الذي يعكس نتائجك.

السلامة، باختصار

نادرًا ما تتضمن جداول المعايير السلامة، لكنها جزء من كيفية قراءة هذه الأرقام.

تفيد Anthropic بأن Sonnet 5 لديه معدل إجمالي أقل للسلوكيات غير المرغوب فيها مقارنة بـ Sonnet 4.6، مع هلوسة أقل وتملق أقل. إنه أول نموذج من فئة Sonnet مزود بحماية أمنية سيبرانية في الوقت الفعلي. قد تُرفض الطلبات التي تمس مواضيع سيبرانية محظورة أو عالية المخاطر، ويعود الرفض كاستجابة HTTP 200 ناجحة مع stop_reason: "refusal"، وليس كخطأ، لذا يجب البناء على هذه الحالة.

كن صريحًا بشأن التحذيرات أيضًا. في التدقيق السلوكي الآلي لـ Anthropic، أظهر Sonnet 5 معدلات سلوك غير متوافق أعلى من Opus 4.8. فيما يتعلق بالقدرة السيبرانية، فهو يقع أدنى من نماذج Opus، ولم يتمكن أي من نموذجي Sonnet من تطوير استغلال وظيفي على الإطلاق، حيث تم الإبلاغ عن 0.0%. القدرة المنخفضة هناك هي ميزة، وليست فجوة. التفاصيل الكاملة موجودة في مركز شفافية Anthropic.

أعد إنتاج الأرقام في مهامك الخاصة

المعيار الأكثر قيمة هو الذي يتم تشغيله على طلباتك (prompts). للقيام بذلك بشكل موثوق، تحتاج إلى استدعاء واجهة برمجة تطبيقات Sonnet 5 بنفس الطريقة في كل مرة، وحفظ الطلبات، ومقارنة الاستجابات عبر عمليات التشغيل.

هذه مهمة لعميل واجهة برمجة التطبيقات (API client). يتيح لك Apidog بناء طلب إلى Anthropic Messages API، وحفظه في مجموعة قابلة لإعادة الاستخدام، وتخزين مفتاح API الخاص بك كمتغير بيئة، وتشغيل نفس الاستدعاء بشكل متكرر مع تأكيدات على الاستجابة. عندما تريد مقارنة Sonnet 5 بـ Opus 4.8 أو Sonnet 4.6 على مدخلاتك الخاصة، يمكنك تغيير متغير واحد، وهو معرّف النموذج (model ID)، وإعادة تشغيل المجموعة.

إليك شكل الطلب الذي ستحفظه. معرّف النموذج هو السلسلة النصية الدقيقة `claude-sonnet-5`.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

لاختبار A/B لطلب (prompt) معياري عبر النماذج، حافظ على الجزء الرئيسي (body) متطابقًا وبدّل `"model"` بين `claude-sonnet-5`، `claude-opus-4-8`، و`claude-sonnet-4-6`. في Apidog، ستقوم بتخزين النموذج كمتغير بيئة بحيث يقوم تعديل واحد بتبديل كل طلب في عملية التشغيل. أضف تأكيد اختبار للتحقق من `stop_reason` وطول الاستجابة، ثم قم بتشغيل المجموعة في CI ليكون تقييمك قابلاً للتكرار. إذا لم تقم بإعداد اختبارات API بهذه الطريقة من قبل، فإن دليل الاختبار بدون Postman يشرح سير العمل بالتفصيل.

ملاحظة حول الترحيل عند برمجة المقارنات: لا يقبل Sonnet 5 قيم `temperature` أو `top_p` أو `top_k` غير الافتراضية، ويرفض الحقل القديم `thinking: {type: "enabled", budget_tokens: N}`. كلاهما يعيد خطأ 400. قم بإزالة هذه المعلمات قبل قياس الأداء، وإلا ستفشل عملية التشغيل قبل أن تقيس أي شيء.

قم بتنزيل Apidog لبناء الطلب مرة واحدة وإعادة استخدامه عبر كل نموذج ترغب في تقييمه.

الأسئلة الشائعة

ما هي نتيجة Claude Sonnet 5 في SWE-bench Pro؟ تشير أرقام إطلاق Anthropic إلى 63.2% لـ Sonnet 5، مقارنة بـ 58.1% لـ Sonnet 4.6 و69.2% لـ Opus 4.8. إنها زيادة جيلية بخمس نقاط في الترميز الوكيلي، وتتخلف بحوالي ست نقاط عن النموذج الرائد.

هل Sonnet 5 أفضل من Opus 4.8؟ ليس في النتائج الخام. يتصدر Opus 4.8 كل معيار تم الإبلاغ عنه. لكن Sonnet 5 يقترب منه بنقطة إلى ثلاث نقاط في المهام التي تعتمد على الأدوات بكثافة بسعر 60%، مما يجعله القيمة الأفضل للوكلاء ودورات الترميز. المقارنة الكاملة موجودة في Claude Sonnet 5 مقابل Opus 4.8.

هل هذه أرقام معيارية من اختبارات مستقلة؟ لا. إنها معايير إطلاق Anthropic الخاصة بها، وقد تم تأكيدها عبر عدة تقارير صدرت في يوم الإطلاق. تعامل معها كأرقام مُبلغ عنها وقم بالتحقق منها في عبء عملك الخاص قبل الالتزام.

لماذا يقدم Sonnet 5 أداءً أفضل نسبيًا في مهام الأدوات مقارنة بمهام الاستدلال؟ عندما يستطيع النموذج تشغيل الأوامر وقراءة النتائج، فإنه يصحح أخطاءه خطوة بخطوة. هذه الملاحظات تضيّق الفجوة مع Opus. في عملية استدلال واحدة بدون أدوات، لا يوجد ما يمكن تصحيحه بناءً عليه، لذلك يظهر الاستدلال الأعمق لـ Opus كتقدم أوسع.

كيف أقيس أداء Sonnet 5 على طلباتي الخاصة؟ قم باستدعاء Anthropic Messages API باستخدام معرّف النموذج `claude-sonnet-5`، واحفظ الطلب في أداة مثل Apidog، وأضف تأكيدات، وأعد تشغيله عبر النماذج بتبديل معرّف النموذج. هذا يمنحك التكلفة لكل مهمة وزمن الاستجابة، وهي معلومات لا تُبلغ عنها لوحات الصدارة العامة أبدًا.