لقد تم تحويل مشهد الذكاء الاصطناعي بشكل جذري مع إصدار ميتا لبرنامج Llama 4 - ليس فقط من خلال تحسينات تدريجية، ولكن عبر اختراقات معمارية تعيد تعريف نسب الأداء إلى التكلفة عبر الصناعة. تمثل هذه النماذج الجديدة convergence لثلاثة ابتكارات حاسمة: تعدد الوسائط الأصلي من خلال تقنيات الدمج المبكر، وهياكل مزيج من الخبراء (MoE) التي تحسن بشكل جذري كفاءة المعاملات، وتوسعات نوافذ السياق التي تمتد إلى 10 مليون رمز غير مسبوقة.

لا يتنافس Llama 4 Scout و Maverick فقط مع قادة الصناعة الحاليين — بل يتفوقون عليهم بشكل منهجي عبر المعايير القياسية مع تقليل متطلبات الحساب بشكل دراماتيكي. مع تحقيق Maverick لنتائج أفضل من GPT-4o بتكلفة تقريبية تساوي سدس تكلفة الرمز، وقيام Scout بالتناسب على وحدة معالجة GPU واحدة من طراز H100 مع الحفاظ على أداء أفضل مقارنة بالنماذج التي تتطلب وحدات معالجة متعددة، غيرت ميتا بشكل جذري الاقتصاديات المتعلقة بنشر الذكاء الاصطناعي المتقدم.

تحلل هذه الدراسة التقنية الابتكارات المعمارية التي تدعم هذه النماذج، وتقدم بيانات معيارية شاملة عبر مهام التفكير والتشفير والمتعددة اللغات والمتعددة الوسائط، وتفحص هياكل تسعير واجهة البرمجة API عبر المزودين الرئيسيين. لمتخذي القرارات التقنية الذين يقيمون خيارات البنية التحتية للذكاء الاصطناعي، نقدم مقارنات تفصيلية للأداء / التكلفة واستراتيجيات النشر لتعظيم كفاءة هذه النماذج الرائدة في بيئات الإنتاج.
يمكنك تنزيل لاما لاما 4 مفتوح المصدر و مفتوح الوزن على Hugging Face، اعتبارًا من اليوم:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

كيف أنشأت لاما 4 نافذة سياق 10M؟
تنفيذ مزيج من الخبراء (MoE)
تستخدم جميع نماذج Llama 4 هيكل MoE المتقدم الذي يغير بشكل جذري معادلة الكفاءة:
| النموذج | المعاملات النشطة | عدد الخبراء | إجمالي المعاملات | طرق تفعيل المعاملات |
|---|---|---|---|---|
| Llama 4 Scout | 17B | 16 | 109B | التوجيه الخاص بالرموز |
| Llama 4 Maverick | 17B | 128 | 400B | الخبير المشترك + الموجه الفردي لكل رمز |
| Llama 4 Behemoth | 288B | 16 | ~2T | التوجيه الخاص بالرموز |
تمتاز تصميم MoE في Llama 4 Maverick بالتعقيد، حيث تستخدم طبقات كثيفة ومتناوبة من MoE. كل رمز يُفعل الخبير المشترك بالإضافة إلى أحد 128 خبير موجه، مما يعني أن حوالي 17B فقط من إجمالي 400B من المعاملات نشطة لمعالجة أي رمز معطى.
العمارة متعددة الوسائط
العمارة متعددة الوسائط لـ Llama 4:
├── رموز نصية
│ └── مسار معالجة نصوص أصلي
├── مشفر بصري (معزز MetaCLIP)
│ ├── معالجة الصور
│ └── يحول الصور إلى تسلسلات رموز
└── طبقة الدمج المبكر
└── توحد الرموز النصية والبصرية في العمود الفقري للنموذج
تسمح هذه الطريقة في الدمج المبكر بالتدريب المسبق على أكثر من 30 تريليون رمز من بيانات مختلطة من النصوص والصور والفيديو، مما ينتج عنه قدرات متعددة الوسائط أكثر تماسكًا بشكل ملحوظ مقارنة بالأساليب التقليدية.
معمارية iRoPE لنوافذ السياق الممتدة
تستفيد نافذة السياق البالغة 10M للـ Scout من Llama 4 من معمارية iRoPE المبتكرة:
# الكود الزائف لمعمارية iRoPE
def iRoPE_layer(tokens, layer_index):
if layer_index % 2 == 0:
# الطبقات الزوجية: انتباه متداخل دون تضمينات موضعية
return attention_no_positional(tokens)
else:
# الطبقات الفردية: RoPE (تضمينات الموضع الدوارة)
return attention_with_rope(tokens)
def inference_scaling(tokens, temperature_factor):
# تحسين الحجم خلال الاستدلال يحسن عمومية الطول
return scale_attention_scores(tokens, temperature_factor)
تمكن هذه المعمارية Scout من معالجة وثائق بطول غير مسبوق مع الحفاظ على التماسك طوال الوقت، مع عامل قياس يبلغ حوالي 80 ضعف نوافذ السياق للنماذج السابقة من Llama.
تحليل شامل للمعايير
مقاييس الأداء لمعايير القياسية
تكشف نتائج المعايير التفصيلية عبر مجموعة التقييمات الرئيسية عن الوضع التنافسي لنماذج Llama 4:
| الفئة | معيار | Llama 4 Maverick | GPT-4o | Gemini 2.0 Flash | DeepSeek v3.1 |
|---|---|---|---|---|---|
| التفكير في الصور | MMMU | 73.4 | 69.1 | 71.7 | لا دعم متعدد الوسائط |
| MathVista | 73.7 | 63.8 | 73.1 | لا دعم متعدد الوسائط | |
| فهم الصور | ChartQA | 90.0 | 85.7 | 88.3 | لا دعم متعدد الوسائط |
| DocVQA (اختبار) | 94.4 | 92.8 | - | لا دعم متعدد الوسائط | |
| التشفير | LiveCodeBench | 43.4 | 32.3 | 34.5 | 45.8/49.2 |
| التفكير والمعرفة | MMLU Pro | 80.5 | - | 77.6 | 81.2 |
| GPQA Diamond | 69.8 | 53.6 | 60.1 | 68.4 | |
| متعدد اللغات | متعدد اللغات MMLU | 84.6 | 81.5 | - | - |
| سياق طويل | MTOB (نصف كتاب) الإنجليزي→kgv/kgv→الانجليزي | 54.0/46.4 | السياق محدود إلى 128K | 48.4/39.8 | السياق محدود إلى 128K |
| MTOB (كتاب كامل) الإنجليزي→kgv/kgv→الانجليزي | 50.8/46.7 | السياق محدود إلى 128K | 45.5/39.6 | السياق محدود إلى 128K |
تسعير واجهة برمجة التطبيقات لـ Llama 4
تتيح لك هذه الأداة واجهة برمجة التطبيقات اختبار أخطاء نقاط النهاية الخاصة بنموذجك بسهولة. قم بتنزيل Apidog مجانًا اليوم وسهل سير العمل أثناء استكشاف قدرات Mistral Small 3.1!

<
