أسبوع DeepSeek مفتوح المصدر، الذي أقيم في الفترة من 24 فبراير إلى 28 فبراير 2025، مثل نقطة تحول هامة في مجتمع الذكاء الاصطناعي مفتوح المصدر. المبادرة، التي قادها الناشئ الصيني للذكاء الاصطناعي DeepSeek، كانت تهدف إلى ديمقراطية الوصول إلى أدوات الذكاء الاصطناعي المتقدمة وتعزيز التعاون بين المطورين والباحثين في جميع أنحاء العالم. على مدى خمسة أيام، أصدرت DeepSeek خمسة مستودعات مبتكرة، كل منها مصمم لمعالجة تحديات حاسمة في تطوير الذكاء الاصطناعي. فيما يلي ملخص مفصل عن الحدث، وميزاته، والمستودعات المتاحة.
نظرة عامة على أسبوع DeepSeek مفتوح المصدر
تم الإعلان عن الحدث في 21 فبراير 2025، حيث أكدت DeepSeek التزامها بالشفافية والابتكار المدفوع من المجتمع. وصفت الشركة المبادرة كوسيلة لمشاركة "قطع البناء المتواضعة" لخدماتها عبر الإنترنت، والتي تم توثيقها وتوزيعها واختبارها في بيئات الإنتاج. كانت الإصدارات تهدف إلى تسريع تطوير الذكاء الاصطناعي من خلال توفير أدوات تعزز الكفاءة الحاسوبية، وتحسين النماذج، والتعامل مع البيانات الكبيرة.
تشمل الأهداف الرئيسية للحدث:
اسم المستودع | الوصف | رابط GitHub |
---|---|---|
FlashMLA | نواة فك الترميز MLA فعالة لوحدات معالجة الرسومات من نوع Hopper | FlashMLA |
DeepEP | مكتبة الاتصالات لنماذج Mixture-of-Experts | DeepEP |
DeepGEMM | مكتبة الضرب العام المحسن | DeepGEMM |
استراتيجيات تحسين التوازي | إطار عمل لتحسين التوازي في التعلم العميق الموزع | استراتيجيات تحسين التوازي |
نظام الملفات Fire-Flyer (3FS) | نظام ملفات موزع محسن لعمليات التعلم الآلي | نظام الملفات Fire-Flyer |
نظام استدلال DeepSeek-V3/R1 | نظام استدلال على نطاق واسع يستخدم التوازي عبر العقد | نظام استدلال DeepSeek-V3/R1 |
اليوم الأول: FlashMLA
الوصف: FlashMLA هي نواة فك ترميز فعالة للانتباه latent متعدد الرؤوس (MLA) مُحسّنة لوحدات معالجة الرسومات NVIDIA Hopper.

الميزات الرئيسية:
يدعم أنواع البيانات BF16 و FP16.
ذاكرة كاش مكونة من صفحات بحجم كتلة 64.
معايير الأداء: 3000 جيجابايت/ثانية لعمليات الذاكرة و 580 TFLOPS للمهام المحورية في الحساب.
يتطلب CUDA 12.3+ و PyTorch 2.0+.
الأهمية: يعزز هذا الأداة سرعة الاستدلال لنماذج اللغة الكبيرة (LLMs)، مما يجعلها مثالية لتطبيقات الذكاء الاصطناعي عالية الأداء.
اليوم الثاني: DeepEP
الوصف: DeepEP هي أول مكتبة اتصال مفتوحة المصدر مصممة خصيصًا لنماذج Mixture-of-Experts (MoE).

الميزات الرئيسية:
اتصالات فعالة من كل إلى كل لكلا من الإعدادات داخل العقدة وبين العقد.
نوى ذات إنتاجية عالية للتدريب والاستدلال المسبق.
نوى ذات تأخير منخفض لفك الترميز.
دعم توزيع FP8 الأصلي.
إدارة موارد GPU مرنة لمهام الحساب والتواصل المتداخلة.
الأهمية: يعالج DeepEP اختناقات تدريب واستدلال نموذج MoE، مما يمكّن الحوسبة الموزعة القابلة للتطوير.
اليوم الثالث: DeepGEMM
الوصف: مكتبة ضرب المصفوفات العامة (GEMM) المحسّنة للغاية مصممة لحمولات التعلم العميق.

الميزات الرئيسية:
تحسينات نوى متقدمة لعمليات المصفوفات الكثيفة.
دعم للحسابات مختلطة الدقة (FP16/BF16).
تكامل سلس مع أطر العمل الشهيرة مثل TensorFlow و PyTorch.
الأهمية: يُحسن DeepGEMM الكفاءة الحاسوبية في تدريب الشبكات العصبية، خصوصًا للطبقات الكثيفة.
اليوم الرابع: DualPipe: استراتيجيات تحسين التوازي
الوصف: إطار عمل يقدم استراتيجيات لتحسين التوازي في مهام التعلم العميق الموزعة.

الميزات الرئيسية:
تقنيات للتوازي البياني، توازي النموذج، وتوازي الأنابيب.
تحميل ديناميكي متوازن عبر وحدات المعالجة الرسومية والعقد.
دعم مدمج للتداخل بين الحساب والتواصل.
الأهمية: تسهل هذه الأداة تنفيذ استراتيجيات التوازي، مما يقلل وقت التدريب للنماذج الكبيرة الحجم.
اليوم الخامس: نظام الملفات Fire-Flyer (3FS)
الوصف: نظام ملفات موزع مُحسّن لعمليات التعلم الآلي.

الميزات الرئيسية:
الوصول إلى البيانات عالية الإنتاجية عبر التجمعات.
دعم لمجموعات البيانات الكبيرة مع عمليات إدخال/إخراج منخفضة التأخير.
توافق مع أنظمة التخزين الشهيرة مثل HDFS و S3.
الأهمية: يسهل نظام الملفات Fire-Flyer التعامل بكفاءة مع البيانات في بيئات تدريب الذكاء الاصطناعي الموزعة.
اليوم السادس: شيء آخر – نظام استدلال DeepSeek-V3/R1
اليوم النهائي من أسبوع DeepSeek مفتوح المصدر قدم نظرة شاملة على نظام استدلال DeepSeek-V3/R1، وهو حل مبتكر مصمم لتحسين الإنتاجية والتأخير لمهام استدلال الذكاء الاصطناعي على نطاق واسع. يستفيد هذا النظام من التوازي عبر العقد للخبراء (EP) لتوسيع أحجام المجموعات، وتحسين كفاءة GPU، وتقليل متطلبات الوصول إلى الذاكرة، مما يلبي الأهداف المزدوجة لزيادة الإنتاجية وتقليل التأخير.
ما الجديد في تصميم DeepSeek
يستخدم نظام استدلال DeepSeek-V3/R1 التوازي عبر العقد على نطاق واسع لمعالجة الندرة العالية للنماذج التي تحتوي على العديد من الخبراء (على سبيل المثال، يتم تنشيط 8 فقط من 256 خبيرًا في كل طبقة). يستخدم النظام استراتيجيات توازي متميزة خلال مراحل التمهيد و فك الترميز:
مرحلة التمهيد: توازي الخبراء EP32 مع خبراء مشتركة DP32 عبر 4 عقود.
مرحلة فك الترميز: توازي الخبراء EP144 مع خبراء مشتركة DP144 عبر 18 عقدة.

تستراتيجية التداخل ثنائية الدفع تخفي تأخير التواصل عن طريق تقسيم الطلبات إلى ميكرو دفعات. خلال التمهيد، يتداخل التواصل لدفعة واحدة مع الحساب للدفعة الأخرى.
أثناء فك الترميز، يُقسم خط أنابيب بـ 5 مراحل طبقة الانتباه إلى خطوتين، مما يضمن تداخل سلس بين التواصل والحساب.
آليات التوازن في الحمل:
- موازن الحمل للتمهيد: يوازن بين حساب الانتباه الأساسي وأحمال إرسال التفويض عبر وحدات المعالجة الرسومية.
- موازن الحمل لفك الترميز: يوازن بين استخدام KVCache وعدد الطلبات لكل وحدة معالجة رسومية.
- موازن الحمل لتوازي الخبراء: يوزع أحمال الحساب للخبراء بشكل متساوٍ عبر وحدات المعالجة الرسومية لتقليل الاختناقات.
تحليل التكلفة والإيرادات

وصلت ذروة إشغال العقد إلى 278 عقدة، مع متوسط إشغال 226.75 عقدة (8 وحدات معالجة رسومية لكل عقدة).
التكلفة التشغيلية اليومية: 87,072 دولار (استنادًا إلى 2 دولار/ساعة لكل وحدة معالجة رسومية من نوع H800).
الإيرادات اليومية النظرية: 562,027 دولار استنادًا إلى تسعير DeepSeek-R1.
هامش الربح: 545%، على الرغم من أن الإيرادات الفعلية أقل بسبب الخدمات المجانية والخصومات والأسعار المنخفضة لـ DeepSeek-V3.
مبادئ التصميم والابتكارات في النظام تجعل منه حلاً متميزًا لمهام استدلال الذكاء الاصطناعي على نطاق واسع، مما يضع مقاييس جديدة في الكفاءة والقابلية للتوسع.
الخاتمة
اختتم أسبوع DeepSeek مفتوح المصدر بالإفصاح عن نظام استدلال DeepSeek-V3/R1، وهو شهادة على التزام الشركة بتطوير بنية تحتية للذكاء الاصطناعي. من خلال فتح المصدر لهذه المستودعات، لم تمكّن DeepSeek المطورين فحسب، بل وضعت معايير جديدة في كفاءة الذكاء الاصطناعي، وقابلية التوسع، والوصول. لقد تركت هذه المبادرة أثرًا دائمًا على مجتمع الذكاء الاصطناعي، معززة التعاون والابتكار على نطاق غير مسبوق.