كلاود ميثوس: أنثروبيك تقول أن هذا النموذج خطر جداً بحيث لا يمكن إصداره

خلاصة القول (TL;DR)

يبدو أن Claude Mythos Preview هو نموذج مقيد من Anthropic يتم اختباره من خلال مشروع Glasswing، وهو برنامج معاينة يركز على الأمن السيبراني وليس إطلاقًا عامًا. تشير أرقام المعايير المبلغ عنها إلى أنه قد يكون أقوى بكثير من Claude Opus 4.6 في مهام هندسة البرمجيات، لكن Anthropic لم تطرحه على نطاق واسع. السبب المحتمل هو خطر الاستخدام المزدوج: فالنموذج الذي يساعد المدافعين قد يساعد المهاجمين أيضًا.

مقدمة

يقول كل معمل ذكاء اصطناعي كبير إنه يأخذ السلامة على محمل الجد. وقليل جدًا من المعامل تثبت ذلك من خلال حجب نموذج قوي بدلاً من طرحه في السوق بأسرع ما يمكن.

هذا ما يجعل Claude Mythos Preview مثيرًا للاهتمام. لم تعلن Anthropic عنه كإصدار عادي من Claude. لا يوجد طرح واسع لواجهة برمجة التطبيقات (API) للجمهور، ولا إطلاق منتج دردشة قياسي، ولا صفحة "جربه الآن" المبهجة الموجهة للجميع. بدلاً من ذلك، ظهر النموذج من خلال تقارير مرتبطة بمشروع Glasswing، وهو برنامج مقيد يركز على أعمال الأمن السيبراني الدفاعي.

هذا وحده يكفي لجذب الانتباه. لكن أرقام المعايير المرتبطة بـ Claude Mythos Preview تجعل القصة أكبر بكثير. تشير النتائج المبلغ عنها إلى قفزة كبيرة على Claude Opus 4.6 في مهام البرمجة من نوع SWE-Bench. إذا ثبتت صحة هذه الأرقام، فقد يكون لدى Anthropic بالفعل نموذج يغير بشكل ملموس التوازن بين القدرات السيبرانية الهجومية والدفاعية.

💡

إذا كنت تقوم ببناء أدوات حول إصدارات نماذج الذكاء الاصطناعي، فهذا هو بالضبط نوع الموقف الذي يكون فيه الاختبار القائم على واجهة برمجة التطبيقات (API-first testing) مهمًا. قد تكشف المعامل عن نموذج لمجموعة ضيقة من الشركاء قبل وقت طويل من حدوث طرح عام. يساعد Apidog الفرق على نمذجة تدفقات واجهة برمجة التطبيقات المستقبلية هذه، ومحاكاة نقاط النهاية ذات الوصول المقيد، واختبار منطق التكامل قبل فتح الوصول الأوسع. قم بتنزيل Apidog مجانًا إذا كنت ترغب في عمل نماذج أولية لتكاملات نماذج الذكاء الاصطناعي دون انتظار الإطلاق العام الكامل.

زر

ما هو Claude Mythos Preview؟

بناءً على التقارير الحالية، يعد Claude Mythos Preview نموذجًا غير مُطلق من Anthropic يتم توفيره فقط لشركاء وباحثي الأمن السيبراني الدفاعي المختارين.

تلك الصياغة مهمة.

لا يبدو هذا كإطلاق قياسي لعائلة Claude مثل Sonnet أو Opus. يبدو أشبه بنموذج معاينة مُتحكم فيه مع قيود وصول مرتبطة بحالة استخدام ضيقة. أفادت رويترز أن Anthropic تعمل مع شركاء رئيسيين بما في ذلك أمازون ومايكروسوفت وآبل وجوجل وإنفيديا و CrowdStrike و Palo Alto Networks ضمن مشروع Glasswing. الغرض هو أبحاث الأمن السيبراني الدفاعي، وليس وصول المستهلكين على نطاق واسع.

لذا فإن أوضح وصف حاليًا هو هذا: يبدو أن Claude Mythos Preview هو نموذج Anthropic مقيد الوصول لأعمال الأمن الدفاعي، وليس فئة عامة من Claude.

لماذا يثير النموذج كل هذا الاهتمام؟

الإجابة بسيطة: أرقام المعايير المبلغ عنها مرتفعة بشكل غير عادي.

وفقًا للتغطية التي ظهرت خلال دورة أخبار الذكاء الاصطناعي اليوم، يُزعم أن Claude Mythos Preview حقق ما يلي:

المعيار	Claude Mythos Preview	Claude Opus 4.6
SWE-Bench Verified	93.9%	80.8%
SWE-Bench Pro	77.8%	53.4%

إذا كانت هذه الأرقام دقيقة، فهذه ليست ترقية صغيرة. إنها قفزة كبيرة.

تعتبر معايير SWE-Bench مهمة لأنها واحدة من أوضح المؤشرات العامة التي لدينا لقدرة هندسة البرمجيات الحقيقية. إنها تختبر ما إذا كان النموذج يمكنه قراءة مستودع، وفهم خطأ أو مشكلة، وإجراء تغييرات الشفرة الصحيحة، وحل المهمة ضمن قيود واقعية. قفزة بهذا الحجم ستشير إلى أن Anthropic قد تجاوزت بكثير حدودها العامة السابقة في المهام التي تتطلب الكثير من الترميز والمهام الوكيلية (agentic tasks).

هذا هو السبب في رد فعل الناس القوي. القصة ليست فقط أن Anthropic قد يكون لديها نموذج أقوى. القصة هي أن Anthropic قد يكون لديها بالفعل هذا النموذج وما زالت تختار عدم إطلاقه علنًا.

لماذا قد تبقي Anthropic نموذج Claude Mythos خاصًا؟

التفسير الأكثر ترجيحًا هو خطر الاستخدام المزدوج.

النموذج القوي بما يكفي لمساعدة المدافعين في العثور على الثغرات الأمنية، وتحليل مسارات الهجوم، ومراجعة الشفرات غير الآمنة، وأتمتة الإصلاح، يمكنه أيضًا تسهيل سير عمل الهجمات. نفس القدرة التي تساعد الفريق الأزرق على ترقيع الأنظمة بشكل أسرع يمكن أن تساعد الفريق الأحمر أو الجهة الخبيثة على التحرك بشكل أسرع أيضًا.

تزداد هذه المفاضلة حدة عندما يصبح النموذج أفضل في: - فهم الشفرات على نطاق المستودع - الاستخدام المستقل للأدوات - إعادة إنتاج الثغرات الأمنية - حل المشكلات طويلة الأمد - ربط العديد من الإجراءات معًا دون فقدان السياق

هذه هي بالضبط القدرات التي ترغب فيها مختبرات الذكاء الاصطناعي الحديثة لوكلاء البرمجة. وهي أيضًا بالضبط القدرات التي تثير القلق في الأمن السيبراني.

لقد كانت Anthropic تشير منذ فترة إلى أن إصدارات النماذج الرائدة قد تحتاج إلى استراتيجيات طرح أكثر استهدافًا. يبدو Claude Mythos Preview أوضح مثال على هذه الاستراتيجية حتى الآن. بدلاً من "النشر على نطاق واسع والترقيع لاحقًا"، تبدو الخطوة هنا هي "التقييد أولاً، التعلم من المستخدمين الموثوق بهم، ثم تحديد ما سيحدث بعد ذلك".

ماذا يعني مشروع Glasswing على ما يبدو

مشروع Glasswing هو الإطار الذي يجعل قصة Mythos منطقية.

الفكرة المبلغ عنها ليست ببساطة "هنا نموذج أفضل". بل هي "هنا نموذج أفضل، ولكن شركاء الدفاع الموثوق بهم فقط هم من يمكنهم استخدامه الآن". هذا يغير قصة المنتج تمامًا.

بدلاً من إطلاق موجه للمستهلكين، هذا أقرب إلى برنامج معاينة أمني. بدلاً من أن يكون النمو هو المؤشر الرئيسي للأداء، قد يكون المؤشر الرئيسي هو التقييم المتحكم فيه: فهم ما يمكن أن يفعله النموذج للمدافعين، وما هي مخاطر سوء الاستخدام التي تظهر عمليًا، وما إذا كانت ضمانات الإطلاق كافية.

هذا تحول ذو مغزى للصناعة.

لقد أمضت المعامل العامين الماضيين في محاولة زيادة الوصول العام مع الحديث عن السلامة. يشير مشروع Glasswing إلى نموذج مختلف: قد تظهر الأنظمة الأكثر قدرة أولاً في عمليات نشر محدودة ومحددة القطاع حيث يقوم باحثو السلامة وشركاء الشركات باختبارها ضمن قيود حقيقية.

قد يصبح ذلك هو المعيار للنماذج ذات القدرات السيبرانية القوية.

هل Claude Mythos أقوى من Opus 4.6؟

بناءً على أرقام المعايير المبلغ عنها، قد يكون كذلك.

ولكن هنا تكمن أهمية الدقة.

ما يمكننا قوله: - تشير الأرقام المبلغ عنها إلى أن Claude Mythos Preview يتقدم بشكل كبير على Opus 4.6 في مهام هندسة البرمجيات من نوع SWE-Bench - يُزعم أن Anthropic تتعامل معه كنموذج عالي المخاطر - النموذج لا يتم طرحه كإصدار عام عادي لـ Claude

ما لا يمكننا قوله على وجه اليقين التام بعد: - أنه أقوى من Opus 4.6 في كل فئة - أن ظروف المقارنة المنشورة كانت متطابقة تمامًا في كل تفصيل - أن المستخدمين العامين سيرون نفس المكاسب في جميع سير العمل

لذا، فإن النسخة الحذرة هي هذه: يبدو أن Claude Mythos Preview أقوى ماديًا من Claude Opus 4.6 في بعض المعايير البرمجية المهمة على الأقل، وقوي بما يكفي لدرجة أن Anthropic قد تقيد الوصول إليه بسبب المخاطر.

تلك لا تزال قصة كبيرة جدًا.

ماذا يمكن أن يعنيه هذا للمطورين

بالنسبة لمعظم المطورين، Claude Mythos ليس شيئًا يمكنك استخدامه اليوم. لكنه لا يزال مهمًا لأنه يلمح إلى اتجاه الموجة القادمة من نماذج البرمجة.

تبرز ثلاث تداعيات.

1. قد لا تعكس نماذج Claude العامة الحد الأقصى لقدرات Anthropic الرائدة

يفترض الكثيرون أن أفضل نموذج عام لـ Claude قريب من أفضل القدرات الداخلية للمختبر. يشير Claude Mythos Preview إلى أن هذه الفجوة قد تكون أكبر مما افترضه الكثيرون.

2. قد تصبح القدرة السيبرانية هي العائق الرئيسي للإطلاق

قد لا يكون أكبر قيد على الإصدار هو جودة النموذج بعد الآن. قد يكون ما إذا كان النموذج يتجاوز عتبة حيث يصبح خطر سوء الاستخدام الهجومي مرتفعًا جدًا.

3. قد تصل أفضل النماذج أولاً عبر برامج الشركات المقيدة

بدلاً من رؤية أقوى الأنظمة أولاً في تطبيقات الدردشة العامة، قد نراها داخل شبكات شركاء ضيقة، ومشاريع تجريبية صناعية، ومعاينات مؤسسية مُتحكم بها.

سيؤثر ذلك على كيفية تخطيط المطورين لخرائط الطريق، وتقييم الموردين، والتفكير في مخاطر الوصول.

ماذا يمكن أن يعنيه هذا لصناعة الذكاء الاصطناعي

قد يكون Claude Mythos Preview أقل أهمية كمنتج وأكثر أهمية كإشارة.

إذا كانت Anthropic مستعدة لحجب نموذج بسبب المخاطر السيبرانية، فقد ينتهي المطاف بمعامل أخرى بفعل الشيء نفسه. سيؤدي ذلك إلى إنشاء سوق ذكاء اصطناعي ذي مسارين: - نماذج عامة ذات وصول واسع وقيود أثقل - نماذج مقيدة بقدرات أقوى وضوابط وصول أكثر صرامة

سيؤثر هذا الانقسام على معايير الأداء أيضًا. قد يكون لدى المختبر نظام أقوى بكثير مما رآه الجمهور، بينما لا يزال يتنافس علنًا بإصدار أكثر أمانًا وأضعف. كما سيجعل من الصعب على الغرباء الحكم على الحدود الحقيقية من واجهات برمجة التطبيقات العامة وحدها.

من وجهة نظر سياسية، هذا هو بالضبط نوع الحالة التي كان يتوقعها المشرعون وباحثو الأمن. السؤال المثير للاهتمام ليس ما إذا كانت النماذج القوية ستوجد. بل هو ما إذا كانت المعامل تستطيع إنشاء آليات إطلاق تحافظ على القيمة الدفاعية دون أن تجعل سوء الاستخدام الهجومي أسهل بشكل كبير.

قد يكون Claude Mythos Preview أول مثال بارز لمختبر يحاول حل هذه المشكلة في الوقت الفعلي.

هل يجب على المطورين الاهتمام الآن؟

نعم، ولكن ليس لأنه يجب عليك تبديل الأدوات غدًا.

يجب أن تهتم لأن هذا يغير طريقة قراءتك لإعلانات النماذج.

عندما يقول مختبر إن نموذجًا عامًا هو نموذجه "الأفضل المتاح"، قد لا يعني ذلك بعد الآن أنه أقوى نموذج لدى المختبر. قد يعني فقط أنه أقوى نموذج يرغب المختبر في إطلاقه على نطاق واسع. وهذا تصريح مختلف.

يجب أن تهتم أيضًا لأن هذا يؤثر على الوضع التنافسي بين الموردين. إذا كانت Anthropic تحجب نموذج ترميز أقوى، فإن المقارنات بين Claude العام و GPT و Gemini و GLM ونماذج الترميز مفتوحة المصدر قد تقلل من شأن ما يمكن أن تفعله الأنظمة الحدودية الخاصة بالفعل.

الخاتمة

Claude Mythos Preview ليس إطلاق منتج عاديًا. يبدو نموذجًا مقيدًا من Anthropic قد يكون أقوى بكثير من Claude Opus 4.6 في مهام هندسة البرمجيات، ومقيدًا بدرجة كافية بحيث تبدو Anthropic غير راغبة في إطلاقه على نطاق واسع.

هذا وحده يجعله من أهم قصص الذكاء الاصطناعي في الوقت الراهن.

إذا كانت المعايير المبلغ عنها دقيقة، فإن العنوان الرئيسي ليس فقط أن Anthropic بنت نموذجًا أفضل. العنوان الحقيقي هو أن Anthropic قد تكون تعمل بالفعل في عالم تكون فيه بعض النماذج الرائدة شديدة القدرة، أو على الأقل شديدة الخطورة، للإطلاق العام الفوري.

سيشكل ذلك تحولًا كبيرًا في كيفية وصول أنظمة الذكاء الاصطناعي المتقدمة إلى السوق.

الأسئلة الشائعة

ما هو Claude Mythos Preview؟بناءً على التقارير الحالية، هو نموذج معاينة مقيد من Anthropic يتم اختباره مع شركاء الأمن السيبراني الدفاعي المختارين بدلاً من إطلاقه علنًا.

هل Claude Mythos متاح للجمهور؟لم يتم الإعلان عن أي إصدار عام للجمهور. تشير التقارير الحالية إلى أن الوصول مقيد عبر مشروع Glasswing.

هل Claude Mythos أقوى من Claude Opus 4.6؟تشير أرقام المعايير المبلغ عنها إلى أنه قد يكون أقوى بكثير في مهام البرمجة من نوع SWE-Bench، لكن ذلك لا يثبت أنه أقوى في كل فئة.

ما هو مشروع Glasswing؟يبدو أن مشروع Glasswing هو برنامج Anthropic المقيد الوصول لتقييم Claude Mythos Preview في إعدادات الأمن السيبراني الدفاعي.

لماذا قد ترفض Anthropic إطلاق نموذج أقوى؟السبب المحتمل هو خطر الاستخدام المزدوج. فالنموذج الذي يساعد المدافعين على أتمتة مهام البرمجة والأمان يمكن أن يجعل سوء الاستخدام الهجومي أسهل أيضًا.

هل يمكن للمطورين استخدام Claude Mythos اليوم؟ليس على نطاق واسع. في الوقت الحالي، يبدو أنه يقتصر على شركاء وباحثين مختارين بدلاً من مستخدمي واجهة برمجة التطبيقات العامة.