Apidog

منصة تطوير API تعاونية متكاملة

تصميم API

توثيق API

تصحيح أخطاء API

محاكاة API

اختبار API الآلي

أسبوع DeepSeek المصدر المفتوح: ملخص كامل

@apidog

@apidog

Updated on مارس 4, 2025

أسبوع DeepSeek مفتوح المصدر، الذي أقيم في الفترة من 24 فبراير إلى 28 فبراير 2025، مثل نقطة تحول هامة في مجتمع الذكاء الاصطناعي مفتوح المصدر. المبادرة، التي قادها الناشئ الصيني للذكاء الاصطناعي DeepSeek، كانت تهدف إلى ديمقراطية الوصول إلى أدوات الذكاء الاصطناعي المتقدمة وتعزيز التعاون بين المطورين والباحثين في جميع أنحاء العالم. على مدى خمسة أيام، أصدرت DeepSeek خمسة مستودعات مبتكرة، كل منها مصمم لمعالجة تحديات حاسمة في تطوير الذكاء الاصطناعي. فيما يلي ملخص مفصل عن الحدث، وميزاته، والمستودعات المتاحة.

💡
بينما تعزز أدوات DeepSeek مفتوحة المصدر مثل DualPipe و 3FS الأداء، يمكن أن يسهم دمج Apidog في تبسيط تطوير واجهات برمجة التطبيقات (APIs) الخاصة بك. توفر منصة Apidog الشاملة لك إمكانية تصميم وتوثيق ومحاكاة واختبار واجهات برمجة التطبيقات بكفاءة، مما يوفر الوقت ويقلل الأخطاء. مع اختبارات مدمجة تلقائيًا ودمج سلس، يعزز Apidog سير عملك، مما يتيح لك التركيز على بناء وتحسين نماذج الذكاء الاصطناعي وبيانات خطوط الأنابيب.
زر

نظرة عامة على أسبوع DeepSeek مفتوح المصدر

تم الإعلان عن الحدث في 21 فبراير 2025، حيث أكدت DeepSeek التزامها بالشفافية والابتكار المدفوع من المجتمع. وصفت الشركة المبادرة كوسيلة لمشاركة "قطع البناء المتواضعة" لخدماتها عبر الإنترنت، والتي تم توثيقها وتوزيعها واختبارها في بيئات الإنتاج. كانت الإصدارات تهدف إلى تسريع تطوير الذكاء الاصطناعي من خلال توفير أدوات تعزز الكفاءة الحاسوبية، وتحسين النماذج، والتعامل مع البيانات الكبيرة.

تشمل الأهداف الرئيسية للحدث:

اسم المستودعالوصفرابط GitHub
FlashMLAنواة فك الترميز MLA فعالة لوحدات معالجة الرسومات من نوع HopperFlashMLA
DeepEPمكتبة الاتصالات لنماذج Mixture-of-ExpertsDeepEP
DeepGEMMمكتبة الضرب العام المحسنDeepGEMM
استراتيجيات تحسين التوازيإطار عمل لتحسين التوازي في التعلم العميق الموزعاستراتيجيات تحسين التوازي
نظام الملفات Fire-Flyer (3FS)نظام ملفات موزع محسن لعمليات التعلم الآلينظام الملفات Fire-Flyer
نظام استدلال DeepSeek-V3/R1نظام استدلال على نطاق واسع يستخدم التوازي عبر العقدنظام استدلال DeepSeek-V3/R1

اليوم الأول: FlashMLA

الوصف: FlashMLA هي نواة فك ترميز فعالة للانتباه latent متعدد الرؤوس (MLA) مُحسّنة لوحدات معالجة الرسومات NVIDIA Hopper.

FlashMLA

الميزات الرئيسية:

يدعم أنواع البيانات BF16 و FP16.

ذاكرة كاش مكونة من صفحات بحجم كتلة 64.

معايير الأداء: 3000 جيجابايت/ثانية لعمليات الذاكرة و 580 TFLOPS للمهام المحورية في الحساب.

يتطلب CUDA 12.3+ و PyTorch 2.0+.

الأهمية: يعزز هذا الأداة سرعة الاستدلال لنماذج اللغة الكبيرة (LLMs)، مما يجعلها مثالية لتطبيقات الذكاء الاصطناعي عالية الأداء.

اليوم الثاني: DeepEP

الوصف: DeepEP هي أول مكتبة اتصال مفتوحة المصدر مصممة خصيصًا لنماذج Mixture-of-Experts (MoE).

DeepEP

الميزات الرئيسية:

اتصالات فعالة من كل إلى كل لكلا من الإعدادات داخل العقدة وبين العقد.

نوى ذات إنتاجية عالية للتدريب والاستدلال المسبق.

نوى ذات تأخير منخفض لفك الترميز.

دعم توزيع FP8 الأصلي.

إدارة موارد GPU مرنة لمهام الحساب والتواصل المتداخلة.

الأهمية: يعالج DeepEP اختناقات تدريب واستدلال نموذج MoE، مما يمكّن الحوسبة الموزعة القابلة للتطوير.

اليوم الثالث: DeepGEMM

الوصف: مكتبة ضرب المصفوفات العامة (GEMM) المحسّنة للغاية مصممة لحمولات التعلم العميق.

DeepGEMM

الميزات الرئيسية:

تحسينات نوى متقدمة لعمليات المصفوفات الكثيفة.

دعم للحسابات مختلطة الدقة (FP16/BF16).

تكامل سلس مع أطر العمل الشهيرة مثل TensorFlow و PyTorch.

الأهمية: يُحسن DeepGEMM الكفاءة الحاسوبية في تدريب الشبكات العصبية، خصوصًا للطبقات الكثيفة.

اليوم الرابع: DualPipe: استراتيجيات تحسين التوازي

الوصف: إطار عمل يقدم استراتيجيات لتحسين التوازي في مهام التعلم العميق الموزعة.

DualPipe: استراتيجيات تحسين التوازي

الميزات الرئيسية:

تقنيات للتوازي البياني، توازي النموذج، وتوازي الأنابيب.

تحميل ديناميكي متوازن عبر وحدات المعالجة الرسومية والعقد.

دعم مدمج للتداخل بين الحساب والتواصل.

الأهمية: تسهل هذه الأداة تنفيذ استراتيجيات التوازي، مما يقلل وقت التدريب للنماذج الكبيرة الحجم.

اليوم الخامس: نظام الملفات Fire-Flyer (3FS)

الوصف: نظام ملفات موزع مُحسّن لعمليات التعلم الآلي.

نظام الملفات Fire-Flyer (3FS)

الميزات الرئيسية:

الوصول إلى البيانات عالية الإنتاجية عبر التجمعات.

دعم لمجموعات البيانات الكبيرة مع عمليات إدخال/إخراج منخفضة التأخير.

توافق مع أنظمة التخزين الشهيرة مثل HDFS و S3.

الأهمية: يسهل نظام الملفات Fire-Flyer التعامل بكفاءة مع البيانات في بيئات تدريب الذكاء الاصطناعي الموزعة.

اليوم السادس: شيء آخر – نظام استدلال DeepSeek-V3/R1

اليوم النهائي من أسبوع DeepSeek مفتوح المصدر قدم نظرة شاملة على نظام استدلال DeepSeek-V3/R1، وهو حل مبتكر مصمم لتحسين الإنتاجية والتأخير لمهام استدلال الذكاء الاصطناعي على نطاق واسع. يستفيد هذا النظام من التوازي عبر العقد للخبراء (EP) لتوسيع أحجام المجموعات، وتحسين كفاءة GPU، وتقليل متطلبات الوصول إلى الذاكرة، مما يلبي الأهداف المزدوجة لزيادة الإنتاجية وتقليل التأخير.

ما الجديد في تصميم DeepSeek

يستخدم نظام استدلال DeepSeek-V3/R1 التوازي عبر العقد على نطاق واسع لمعالجة الندرة العالية للنماذج التي تحتوي على العديد من الخبراء (على سبيل المثال، يتم تنشيط 8 فقط من 256 خبيرًا في كل طبقة). يستخدم النظام استراتيجيات توازي متميزة خلال مراحل التمهيد و فك الترميز:

مرحلة التمهيد: توازي الخبراء EP32 مع خبراء مشتركة DP32 عبر 4 عقود.

مرحلة فك الترميز: توازي الخبراء EP144 مع خبراء مشتركة DP144 عبر 18 عقدة.

تستراتيجية التداخل ثنائية الدفع تخفي تأخير التواصل عن طريق تقسيم الطلبات إلى ميكرو دفعات. خلال التمهيد، يتداخل التواصل لدفعة واحدة مع الحساب للدفعة الأخرى.

أثناء فك الترميز، يُقسم خط أنابيب بـ 5 مراحل طبقة الانتباه إلى خطوتين، مما يضمن تداخل سلس بين التواصل والحساب.

آليات التوازن في الحمل:

  • موازن الحمل للتمهيد: يوازن بين حساب الانتباه الأساسي وأحمال إرسال التفويض عبر وحدات المعالجة الرسومية.
  • موازن الحمل لفك الترميز: يوازن بين استخدام KVCache وعدد الطلبات لكل وحدة معالجة رسومية.
  • موازن الحمل لتوازي الخبراء: يوزع أحمال الحساب للخبراء بشكل متساوٍ عبر وحدات المعالجة الرسومية لتقليل الاختناقات.

تحليل التكلفة والإيرادات

وصلت ذروة إشغال العقد إلى 278 عقدة، مع متوسط إشغال 226.75 عقدة (8 وحدات معالجة رسومية لكل عقدة).

التكلفة التشغيلية اليومية: 87,072 دولار (استنادًا إلى 2 دولار/ساعة لكل وحدة معالجة رسومية من نوع H800).

الإيرادات اليومية النظرية: 562,027 دولار استنادًا إلى تسعير DeepSeek-R1.

هامش الربح: 545%، على الرغم من أن الإيرادات الفعلية أقل بسبب الخدمات المجانية والخصومات والأسعار المنخفضة لـ DeepSeek-V3.

مبادئ التصميم والابتكارات في النظام تجعل منه حلاً متميزًا لمهام استدلال الذكاء الاصطناعي على نطاق واسع، مما يضع مقاييس جديدة في الكفاءة والقابلية للتوسع.

الخاتمة

اختتم أسبوع DeepSeek مفتوح المصدر بالإفصاح عن نظام استدلال DeepSeek-V3/R1، وهو شهادة على التزام الشركة بتطوير بنية تحتية للذكاء الاصطناعي. من خلال فتح المصدر لهذه المستودعات، لم تمكّن DeepSeek المطورين فحسب، بل وضعت معايير جديدة في كفاءة الذكاء الاصطناعي، وقابلية التوسع، والوصول. لقد تركت هذه المبادرة أثرًا دائمًا على مجتمع الذكاء الاصطناعي، معززة التعاون والابتكار على نطاق غير مسبوق.

زر