كيفية تشغيل Deepseek V3 0324 محليًا (مع الخطوات)

مرحبا! في هذا الدليل، سأرشدك إلى تشغيل DeepSeek V3 0324، وهو نموذج لغوي قوي يتكون من 671 مليار معلمة، على جهازك المحلي. سنغطي كل شيء من التحضير إلى تشغيل أولى استفساراتك باستخدام تقنيات الكوانتيزات الديناميكية التي توازن بين دقة النموذج ومتطلبات الذاكرة.

DeepSeek V3 0324: ما مدى جودته؟

يجلب تحديث DeepSeek لشهر مارس 2024 تحسينات ملحوظة في الأداء مقارنة بالنموذج السابق V3:

تحسن درجة MMLU-Pro بمقدار +5.3% (إلى 81.2%)
تحسن درجة AIME بمقدار +19.8%
تحسن درجة LiveCodeBench بمقدار +10.0%
تحسن درجة GPQA بمقدار +9.3%

النموذج الأصلي يحتوي على 671 مليار معلمة، مما يعني أننا بحاجة إلى تقنيات كوانتيزات فعالة لتشغيله على أجهزة المستهلكين.

إليك خيارات الكوانتيزات المتاحة لموازنة مساحة القرص والدقة:

نوع مو_BITS المعالجة	حجم القرص	الدقة	التفاصيل
1.78bit (IQ1_S)	173GB	مقبول	2.06/1.56bit
1.93bit (IQ1_M)	183GB	عادل	2.5/2.06/1.56
2.42bit (IQ2_XXS)	203GB	موصى به	2.5/2.06bit
2.71bit (Q2_K_XL)	231GB	موصى به	3.5/2.5bit
3.5bit (Q3_K_XL)	320GB	رائع	4.5/3.5bit
4.5bit (Q4_K_XL)	406GB	الأفضل	5.5/4.5bit

النموذج الأصلي float8 يتطلب 715GB، لذا فإن هذه النسخ الكوانتية توفر وفورات كبيرة في المساحة!

دليل خطوة بخطوة: تشغيل DeepSeek V3 0324 في llama.cpp

قبل أن نبدأ، دعنا نفهم الإعدادات المثلى لـ DeepSeek V3 0324:

درجة الحرارة: 0.3 (استخدم 0.0 لمهام البرمجة)
Min_P: 0.01 (يساعد في تصفية الرموز غير المحتملة)
قالب الدردشة: <｜User｜>YOUR_PROMPT<｜Assistant｜>
بالنسبة لكوانتيزات ذاكرة KV، استخدم 8bit (ليس 4bit) لتحسين الأداء

الخطوة 1: إعداد llama.cpp

أولاً، نحتاج إلى الحصول على llama.cpp وتجميعه:

# تحديث الحزم وتثبيت الاعتماديات المطلوبة
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# استنساخ مستودع llama.cpp
git clone <https://github.com/ggml-org/llama.cpp>

# بناء مع دعم CUDA لـ GPU (استخدم -DGGML_CUDA=OFF للمعالج فقط)
# ملاحظة: قد يستغرق البناء مع CUDA حوالي 5 دقائق
cmake llama.cpp -B llama.cpp/build \\\\
  -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON

# بناء الأدوات الضرورية
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split

# نسخ الأدوات المجمعة لسهولة الوصول
cp llama.cpp/build/bin/llama-* llama.cpp/

الخطوة 2: تنزيل النموذج الكوانتي

ثبت الحزم المطلوبة في بايثون وقم بتنزيل النموذج:

pip install huggingface_hub hf_transfer

# إعداد البيئة لتحميل أسرع
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

# تنزيل النموذج (هنا نستخدم كوانتيزات ديناميكية 2.7bit للتوازن)
from huggingface_hub import snapshot_download
snapshot_download(
  repo_id = "unsloth/DeepSeek-V3-0324-GGUF",
  local_dir = "unsloth/DeepSeek-V3-0324-GGUF",
  allow_patterns = ["*UD-Q2_K_XL*"],  # كوانتي 2.7bit ديناميكي (230GB)
  # استخدم "*UD-IQ_S*" لكوانتي 1.78bit ديناميكي (151GB) إذا كانت المساحة محدودة
)

الخطوة 3: تشغيل استفسار اختبار

لنختبر النموذج باستفسار يطلب منه إنشاء لعبة Flappy Bird:

./llama.cpp/llama-cli \\\\
  --model unsloth/DeepSeek-V3-0324-GGUF/UD-Q2_K_XL/DeepSeek-V3-0324-UD-Q2_K_XL-00001-of-00006.gguf \\\\
  --cache-type-k q8_0 \\\\
  --threads 20 \\\\
  --n-gpu-layers 2 \\\\
  -no-cnv \\\\
  --prio 3 \\\\
  --temp 0.3 \\\\
  --min_p 0.01 \\\\
  --ctx-size 4096 \\\\
  --seed 3407 \\\\
  --prompt "<｜User｜>أنشئ لعبة Flappy Bird في بايثون. يجب أن تشمل هذه الأشياء:
1. يجب أن تستخدم pygame.
2. يجب أن يكون لون الخلفية مختارًا عشوائيًا وأن يكون من ظل فاتح. ابدأ بلون أزرق فاتح.
3. الضغط على مفتاح SPACE عدة مرات سيزيد سرعة الطائر.
4. يجب اختيار شكل الطائر عشوائيًا على أنه مربع أو دائرة أو مثلث. يجب اختيار لونه عشوائيًا ك لون داكن.
5. ضع في الأسفل بعض الأراضي الملونة بني داكن أو أصفر مختار عشوائيًا.
6. يجب عرض النتيجة في الجانب الأيمن العلوي. ستزداد إذا مررت عبر الأنابيب ولم تصطدم بها.
7. اجعل الأنابيب متباعدة عشوائيًا مع مساحة كافية. لونها عشوائيًا كلون داكن أخضر أو بني فاتح أو ظل رمادي داكن.
8. عندما تخسر، عرض أفضل نتيجة. اجعل النص داخل الشاشة. الضغط على q أو Esc سيخرج من اللعبة. إعادة التشغيل يكون بالضغط على SPACE مرة أخرى.
يجب أن تكون اللعبة النهائية داخل قسم Markdown في بايثون. تحقق من كودك بحثًا عن الأخطاء وقم بإصلاحها قبل قسم Markdown النهائي.<｜Assistant｜>"

إليك توضيحات عن المعلمات:

-model: المسار إلى ملف النموذج
-cache-type-k q8_0: يستخدم كوانتيزات 8-bit لذاكرة KV
-threads 20: عدد خيوط CPU (قم بضبطه بناءً على CPU الخاص بك)
-n-gpu-layers 2: عدد الطبقات المحملة إلى GPU (قم بتعديلها إذا كانت لديك مشاكل في الذاكرة)
no-cnv: يعطل الالتفاف لأسباب الأداء
-prio 3: إعداد الأولوية
-temp 0.3: إعداد درجة الحرارة (استخدم 0.0 للترميز الحتمي)
-min_p 0.01: الحد الأدنى من الاحتمالية لأخذ العينات من الرموز
-ctx-size 4096: حجم نافذة السياق
-seed 3407: البذور العشوائية لإعادة الإنتاج

اختبار DeepSeek V3 0324 مع "تحدي السبع زوايا"

يمكنك اختبار قدرات النموذج أكثر من خلال تشغيل "تحدي السبع زوايا"، الذي يطلب من النموذج إنشاء محاكاة فيزيائية مع كرات تتدحرج داخل سبع زوايا دوارة:

./llama.cpp/llama-cli \\\\
  --model unsloth/DeepSeek-V3-0324-GGUF/UD-Q2_K_XL/DeepSeek-V3-0324-UD-Q2_K_XL-00001-of-00006.gguf \\\\
  --cache-type-k q8_0 \\\\
  --threads 20 \\\\
  --n-gpu-layers 2 \\\\
  -no-cnv \\\\
  --prio 3 \\\\
  --temp 0.3 \\\\
  --min_p 0.01 \\\\
  --ctx-size 4096 \\\\
  --seed 3407 \\\\
  --prompt "<｜User｜>اكتب برنامج بايثون يظهر 20 كرة تتدحرج داخل سبع زوايا دوارة:
- جميع الكرات لها نفس الشعاع.
- جميع الكرات تحمل رقمًا من 1 إلى 20.
- تسقط جميع الكرات من مركز السبع زوايا عند البدء.
- الألوان هي: #f8b862، #f6ad49، #f39800، #f08300، #ec6d51، #ee7948، #ed6d3d، #ec6800، #ec6800، #ee7800، #eb6238، #ea5506، #ea5506، #eb6101، #e49e61، #e45e32، #e17b34، #dd7a56، #db8449، #d66a35
- يجب أن تتأثر الكرات بالجاذبية والاحتكاك، ويجب أن ترتد عند اصطدامها بالجدران الدوارة بشكل واقعي. يجب أن تكون هناك أيضًا تصادمات بين الكرات.
- تحدد مادة جميع الكرات أن ارتفاع ارتدادها عند الاصطدام لا يجب أن يتجاوز شعاع السبع زوايا، ولكن أعلى من شعاع الكرة.
- تدور جميع الكرات مع الاحتكاك، يمكن استخدام الأرقام الموجودة على الكرة للإشارة إلى دوران الكرة.
- تدور السبع زوايا حول مركزها، وسرعة الدوران هي 360 درجة مقابل 5 ثوان.
- يجب أن يكون حجم السبع زوايا كبيرًا بما يكفي لاحتواء جميع الكرات.
- لا تستخدم مكتبة pygame؛ نفذ خوارزميات كشف الاصطدام واستجابة الاصطدام بنفسك. المكتبات التالية مسموح بها في بايثون: tkinter، math، numpy، dataclasses، typing، sys.
- يجب وضع جميع الأكواد في ملف بايثون واحد.<｜Assistant｜>"

تحسين أداء DeepSeek V3 0324

الانتباه الفوري: للحصول على فك تشفير أسرع، استخدم الانتباه الفوري عند تجميع llama.cpp:

-DGGML_CUDA_FA_ALL_QUANTS=ON

بنية CUDA: قم بتعيين بنية CUDA المحددة لديك لتقليل أوقات التجميع:

-DCMAKE_CUDA_ARCHITECTURES="80"  # اضبط لجهاز GPU الخاص بك

تعديل المعلمات:

إذا واجهت مشاكل في نفاد الذاكرة، حاول تقليل -n-gpu-layers
للاستنتاج فقط عبر CPU، قم بإزالة معلمة -n-gpu-layers
قم بضبط -threads استنادًا إلى المعالجات لديك

الآن لديك DeepSeek V3 0324 يعمل محليًا! لتلخيص:

قمنا بإعداد llama.cpp مع دعم CUDA
قمنا بتنزيل نسخة كوانتية من النموذج (كوانتي ديناميكي 2.7bit)
قمنا بتشغيل استفسارات اختبار للتحقق من قدرات النموذج
تعلمنا عن الإعدادات المثلى ونصائح الأداء

يوفر كوانتي 2.7bit الديناميكي توازنًا ممتازًا بين مساحة القرص (231GB) ودقة النموذج، مما يسمح لك بتشغيل هذا النموذج الذي يحتوي على 671B معلمة بكفاءة على الأجهزة الخاصة بك.

لا تتردد في التجربة مع استفسارات ومعلمات مختلفة للحصول على أقصى استفادة من هذا النموذج القوي!

اختبار DeepSeek API باستخدام Apidog

إذا كنت تطور تطبيقات تستخدم DeepSeek من خلال واجهته البرمجية بدلاً من تشغيله محليًا، فإن Apidog يوفر أدوات قوية لتطوير واجهات البرمجة واختبارها وتصحيحها.

إعداد Apidog لاختبار DeepSeek API

الخطوة 1: تحميل وتثبيت Apidog

قم بزيارة https://apidog.com/download/ لتنزيل عميل Apidog لنظام التشغيل الخاص بك.

button

2. قم بتثبيت وفتح Apidog، ثم أنشئ حسابًا أو سجل دخولك باستخدام Google/Github.

3. عند الطلب، حدد دورك (مثل "مطور متكامل") وضع العمل المفضل لديك (مثل "تصميم API أولاً").

الخطوة 2: إنشاء مشروع API جديد لـ DeepSeek

قم بإنشاء مشروع HTTP جديد في Apidog من أجل اختبار DeepSeek API الخاص بك.
أضف نقطة نهاية واجهة برمجة التطبيقات لـ DeepSeek إلى المشروع.

تصحيح استجابات البث من DeepSeek

تستخدم DeepSeek والعديد من نماذج AI الأخرى أحداث الخادم المرسلة (SSE) للبث. يتمتع Apidog (الإصدار 2.6.49 أو أعلى) بدعم مدمج لتصحيح أخطاء SSE:

قم بإنشاء وتكوين نقطة نهاية واجهة برمجة التطبيقات لـ DeepSeek في Apidog.
أرسل الطلب إلى واجهة برمجة التطبيقات لـ DeepSeek.
إذا كانت الاستجابة تتضمن الرأس Content-Type: text/event-stream، يقوم Apidog بمعالجته تلقائيًا كحدث SSE.
عرض الاستجابات المتدفقة في الوقت الفعلي في عرض الجدول الزمني في لوحة الاستجابة.

يمتلك Apidog دعمًا مدمجًا لأشكال نماذج AI الشائعة، بما في ذلك:

تنسيق متوافق مع واجهة برمجة التطبيقات OpenAI
تنسيق متوافق مع واجهة برمجة التطبيقات Gemini
تنسيق متوافق مع واجهة برمجة التطبيقات Claude

بالنسبة لـ DeepSeek تحديدًا، يمكن لـ Apidog عرض عملية تفكير النموذج في الجدول الزمني، مما يوفر لمحة عن تفكير AI.

تخصيص معالجة استجابة SSE لـ DeepSeek

تكوين قواعد استخراج JSONPath لاستجابات SSE المنسقة بـ JSON:

لرد مثل: data: {"choices":[{"index":0,"message":{"role":"assistant","content":"H"}}]}
استخدم JSONPath: $.choices[0].message.content

استخدم سكربتات ما بعد المعالجة لرسائل SSE غير المنسقة بـ JSON:

اكتب سكربتات مخصصة للتعامل مع تنسيق البيانات
قم بمعالجة الرسائل وفقًا لمتطلباتك المحددة

إنشاء اختبارات تلقائية لواجهات برمجة التطبيقات DeepSeek

بمجرد إعداد نقطة نهاية واجهة برمجة التطبيقات لـ DeepSeek، يمكنك إنشاء اختبارات تلقائية في Apidog للتأكد من أنها تعمل بشكل صحيح:

قم بإنشاء سيناريوهات اختبار لأنواع مختلفة من الاستفسارات في وحدة الاختبارات.
أضف التحقق والتأكيدات للتحقق من هيكل الاستجابة ومحتواها.
قم بتكوين سيناريو الاختبار ليعمل مع بيئات مختلفة (مثل التطوير، الإنتاج).
إعداد تشغيل دفعي لاختبار سيناريوهات متعددة دفعة واحدة.

لدمج CI/CD، يسمح لك Apidog CLI بتشغيل هذه الاختبارات كجزء من خط أنابيبك:

# تثبيت Apidog CLI
npm install -g apidog-cli

# تشغيل سيناريو الاختبار
apidog run test-scenario -c <collection-id> -e <environment-id> -k <api-key>

يمكنك قراءة المزيد عن كيفية عمل apidog-cli في الوثائق الرسمية.

اختبار أداء واجهة برمجة التطبيقات DeepSeek

يوفر Apidog أيضًا قدرات اختبار الأداء لتقييم كيفية أداء واجهة برمجة التطبيقات DeepSeek تحت الحمل:

قم بإنشاء سيناريو اختبار يتضمن مكالمات لواجهة برمجة التطبيقات DeepSeek الخاصة بك.

قم بتكوين إعدادات اختبار الأداء:

حدد عدد المستخدمين الافتراضيين (حتى 100)
حدد مدة الاختبار
قم بتكوين مدة الزيادات لمحاكاة زيادة تدريجية في المستخدمين

قم بتشغيل اختبار الأداء لرؤية المقاييس الرئيسية مثل:

معدل نقل البيانات المتوسط
متوسط زمن الاستجابة
أقصى/أدنى زمن استجابة
نسب الأخطاء

هذا مفيد بشكل خاص لفهم كيفية تعامل عملية نشر DeepSeek لديك مع طلبات متعددة متزامنة.

الخاتمة

لديك الآن DeepSeek V3 0324 الذي يعمل محليًا والمعرفة لاختبار واجهات برمجة التطبيقات DeepSeek بشكل فعال باستخدام Apidog! للتلخيص:

قمنا بإعداد llama.cpp مع دعم CUDA
قمنا بتنزيل نسخة كوانتية من النموذج (كوانتي ديناميكي 2.7bit)
قمنا بتشغيل استفسارات اختبار للتحقق من قدرات النموذج
تعلمنا كيفية استخدام Apidog للاختبار وتصحيح واجهات برمجة التطبيقات DeepSeek
استكشفنا نصائح تحسين الأداء لكل من النشر المحلي واختبار واجهات برمجة التطبيقات

يوفر كوانتي 2.7bit الديناميكي توازنًا ممتازًا بين مساحة القرص (231GB) ودقة النموذج، مما يسمح لك بتشغيل هذا النموذج الذي يحتوي على 671B معلمة بكفاءة على الأجهزة الخاصة بك. بينما يوفر Apidog أدوات قوية لتطوير واختبار وتصحيح تنفيذ واجهات برمجة التطبيقات DeepSeek، لا سيما مع قدرات تصحيح SSE لاستجابات البث.

لا تتردد في التجربة مع خيارات الكوانتيزات المختلفة وميزات Apidog للعثور على الإعداد الذي يناسب احتياجاتك الخاصة!

button