كيفية تشغيل DeepSeek V4 محليًا؟

Ashley Innocent

Ashley Innocent

24 أبريل 2026

كيفية تشغيل DeepSeek V4 محليًا؟

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

تم إطلاق DeepSeek V4 في 23 أبريل 2026 بأوزان مرخصة بـ MIT على Hugging Face. يغير هذا الاختيار الفردي للترخيص الحسابات لأي فريق يرغب في امتلاك ذكاء اصطناعي رائد على أجهزته الخاصة. يتناسب V4-Flash (إجمالي 284 مليار، 13 مليار نشط) مع زوج من H100s بتقنية FP8. بينما يتطلب V4-Pro (إجمالي 1.6 تريليون، 49 مليار نشط) مجموعة (كلاستر) ولكنه يعمل بشكل تنافسي مع GPT-5.5 و Claude Opus 4.6 في مهام البرمجة والاستنتاج.

هذا الدليل هو شرح النشر المحلي. ويغطي متطلبات الأجهزة، وخيارات التكميم، وإعدادات vLLM و SGLang، وتكوين استخدام الأدوات، وسير عمل اختبار في Apidog يتحقق من صحة الخادم المحلي قبل توجيه حركة مرور الإنتاج إليه.

زر

للحصول على نظرة عامة على المنتج، راجع ما هو DeepSeek V4. لمسار واجهة برمجة التطبيقات المستضافة، راجع كيفية استخدام DeepSeek V4 API. لمقارنة التكلفة، راجع تسعير DeepSeek V4 API.

باختصار

من يجب أن يستضيف ذاتيًا

الاستضافة الذاتية لـ V4 هي الخيار الصحيح لثلاثة أنواع من الفرق.

  1. ملتزمون بالامتثال. أعمال الصحة، المالية، القانونية، أو الدفاع حيث لا يمكن للبيانات مغادرة الشبكة. ترخيص MIT ذو الأوزان المفتوحة يعني عدم وجود اتفاقية استخدام، ولا تدفقات بيانات عبر الحدود.
  2. أعباء عمل كبيرة ومستقرة. بمعدلات فقدان ذاكرة التخزين المؤقت، تكلف واجهة برمجة تطبيقات V4-Pro مبلغ 1.74 دولار لكل مليون إدخال و 3.48 دولار لكل مليون إخراج. لأعباء العمل التي تزيد عن حوالي 200 مليار توكن شهريًا، تبدأ الأجهزة المخصصة في التفوق على اقتصاديات الدفع حسب التوكن.
  3. الضبط الدقيق والبحث. نقاط الفحص الأساسية موجودة خصيصًا للتدريب المسبق المستمر وتكييف النطاق. يغطي ترخيص MIT إعادة التوزيع التجاري للنموذج الناتج.

من لا ينبغي له الاستضافة الذاتية: المبتكرون (prototypers)، والفرق التي تفتقر إلى خبرة عمليات وحدات معالجة الرسوميات (GPU)، وأي شخص تتناسب عبء عمله مع استخدام واجهة برمجة التطبيقات المستضافة بقيمة 200 دولار شهريًا. تلتهم النفقات التشغيلية وفورات التكلفة بسرعة على نطاق صغير.

متطلبات الأجهزة

يستخدم DeepSeek V4 دقة مختلطة FP4 + FP8 بشكل أساسي. وهذا يعني أن حساب الذاكرة أكثر ملاءمة مما يوحي به حساب عدد المعلمات الساذج.

النسخة إجمالي المعاملات المعاملات النشطة ذاكرة الفيديو FP8 ذاكرة الفيديو INT4 الحد الأدنى من البطاقات
V4-Flash 284 مليار 13 مليار ~500 جيجابايت ~140 جيجابايت 2 × H100 80GB (FP8) أو 1 × H100 (INT4)
V4-Pro 1.6 تيرابايت 49 مليار ~2.4 تيرابايت ~700 جيجابايت 16 × H100 80GB (FP8) أو 8 × H100 (INT4)

بعض التوضيحات:

الخطوة 1: تنزيل الأوزان

المستودعات الرسمية:

تثبيت واجهة سطر الأوامر وسحب:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

احجز حوالي 500 جيجابايت من القرص لـ V4-Flash وعدة تيرابايت لـ V4-Pro. يعكس ModelScope (modelscope.cn) نفس نقاط الفحص وعادة ما يكون أسرع للمستخدمين في الصين.

الخطوة 2: اختيار محرك خدمة

هناك محركان مهمان: vLLM و SGLang.

كلاهما يدعم V4 جاهزًا للاستخدام اعتبارًا من الإصدارات التي صدرت هذا الأسبوع.

الخطوة 3: خدمة V4-Flash باستخدام vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

علامات (Flags) تستحق المعرفة:

بمجرد تشغيل الخادم، يعمل أي عميل متوافق مع OpenAI مقابل http://localhost:8000/v1.

الخطوة 4: خدمة V4-Pro باستخدام vLLM

يتطلب V4-Pro مجموعة (كلاستر). لا يتغير شكل الأمر، فقط التوازي.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

تم تخفيض السياق إلى 512 ألف هنا ليتناسب بشكل مريح مع صندوق 16 H100؛ أعده إلى 1 مليون إذا سمحت ذاكرة VRAM. يعتبر التوازي الأنبوبي (pipeline parallelism) بالإضافة إلى التوازي الموتر (tensor parallelism) الشكل الشائع للنشر عبر العقد.

الخطوة 5: الخدمة باستخدام SGLang (بديل استخدام الأدوات)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

يعرض SGLang نفس الواجهة المتوافقة مع OpenAI على http://localhost:30000/v1. يوفر DSL lang الخاص به وظائف أساسية لاستدعاء الدوال ووضع JSON أكثر وضوحًا من توجيه مخطط JSON الخاص بـ vLLM.

الخطوة 6: التكميم لبطاقة رسومات واحدة

يقوم تكميم INT4 بتشغيل V4-Flash على بطاقة واحدة بحجم 80 جيجابايت مع انخفاض ملحوظ ولكنه صغير في الجودة. هناك مساران.

AWQ (موصى به)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Follow the GPTQ quantization recipe; similar pattern to AWQ.

قدم نقطة الفحص المكممة باستخدام vLLM عن طريق تمرير --quantization awq أو --quantization gptq عند الإطلاق.

الخطوة 7: الاختبار باستخدام Apidog

لا ترسل حركة مرور الإنتاج إلى خادم محلي جديد. تحقق منه أولاً.

  1. نزّل Apidog.
  2. أنشئ مجموعة موجهة إلى http://localhost:8000/v1/chat/completions.
  3. الصق نفس المطالبة الاختبارية التي تستخدمها مقابل واجهة برمجة التطبيقات المستضافة. قارن الاستجابات جنبًا إلى جنب.
  4. اطلب نقطة النهاية باختبار سياق 500 ألف توكن للتأكد من صمود ذاكرة التخزين المؤقت KV.
  5. شغّل تدفق استدعاء أداة من البداية إلى النهاية قبل ربط حلقة عامل (agent loop).

تعمل المجموعة الدقيقة التي تستخدمها مقابل واجهة برمجة تطبيقات DeepSeek V4 المستضافة على خادم محلي بتغيير واحد لعنوان URL الأساسي؛ هذا هو عائد نقاط النهاية المتوافقة مع OpenAI.

المراقبة وقابلية الملاحظة

أربعة مقاييس لتتبعها من اليوم الأول:

  1. الرموز في الثانية. لكل من المطالبة والتوليد. يعرض vLLM هذه المقاييس على /metrics بتنسيق Prometheus.
  2. استخدام وحدة معالجة الرسوميات (GPU). nvidia-smi أو DCGM. عادة ما يعني الاستخدام المستمر أقل من 70% أن حجم دفعتك خاطئ.
  3. معدل تكرار ذاكرة التخزين المؤقت KV. مع --enable-prefix-caching، يُبلغ vLLM عن ذلك؛ يشير انخفاض معدل التكرار إلى تقلب المطالبات الذي يكلف الإنتاجية.
  4. زمن استجابة الطلب p50/p95/p99. استخدم التتبع القياسي؛ يشير ارتفاع p99 مع استقرار p50 إلى أن شكل طلب واحد يعيق قائمة الانتظار.

أرسل الأربعة إلى Grafana أو أي حزمة مراقبة تستخدمها بالفعل.

الضبط الدقيق لنقاط الفحص الأساسية لـ V4

توجد نقاط الفحص الأساسية للتدريب المسبق المستمر و SFT. خط الأنابيب القياسي:

pip install "torch>=2.6" transformers accelerate peft trl

# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

الضبط الدقيق للمعاملات الكاملة على V4-Pro هو مهمة بحثية جادة. تعد محولات LoRA على V4-Flash-Base هي السقف الواقعي لمعظم الفرق؛ مكسب كبير في الجودة، وجزء صغير من الحساب.

المزالق الشائعة

  1. OOM عند البدء. عادة ما يكون إما --max-model-len مضبوطًا أعلى مما تسمح به ذاكرة VRAM أو --tensor-parallel-size مضبوطًا منخفضًا جدًا. اخفض السياق إلى النصف أو ضاعف التوازي.
  2. طلب أول بطيء. يقوم vLLM بتجميع النوى بكسل. يكون الاستدعاء الأول لكل شكل بطيئًا دائمًا؛ قم بالإحماء بطلب وهمي.
  3. أخطاء تحليل استخدام الأدوات. يختلف مخطط تشفير DeepSeek قليلاً عن مخطط OpenAI. قم بتثبيت SDK الخاص بك على إصدار يدعم V4 صراحةً.
  4. أخطاء FP8 على البطاقات القديمة. لا تدعم A100s تقنية FP8 بشكل أساسي. استخدم BF16 على أي شيء قبل Hopper؛ توقع حوالي ضعف ذاكرة VRAM.

متى تجني الاستضافة الذاتية ثمارها

حساب تقريبي لنقطة التعادل، بناءً على تسعير DeepSeek V4 API المستضاف:

تقع نقطة التعادل لـ V4-Flash عند حوالي 100 مليار توكن/شهر عند مزيج الإنتاج. أقل من ذلك، تكون واجهة برمجة التطبيقات المستضافة أرخص ولا تستحق التكاليف التشغيلية الإضافية.

الأسئلة الشائعة

هل يمكنني تشغيل V4-Flash على A100 واحد؟
نعم، مع تكميم كبير وسياق أقصر، ولكن ببطء. يعمل INT4 على A100 بحجم 80 جيجابايت بسرعة 5 إلى 15 توكن/ثانية. H100 هو المكان الذي يرغب فيه المعمارية فعليًا في العمل.

هل يدعم V4 الضبط الدقيق (fine-tuning) باستخدام LoRA؟
نعم. استخدم نقاط الفحص الأساسية وخطوط أنابيب TRL أو Axolotl القياسية. لا يغير توجيه MoE حساب LoRA.

هل الخادم المحلي متوافق مع OpenAI؟
نعم. يعرض كل من vLLM و SGLang /v1/chat/completions و /v1/completions بنفس شكل طلب OpenAI. يعمل دليل واجهة برمجة التطبيقات المستضافة دون تغيير مقابل localhost.

كيف أقوم بتمكين وضع التفكير محليًا؟
مرر thinking_mode: "thinking" أو "thinking_max" في نص الطلب. يقوم vLLM و SGLang بتمرير العلامة إلى النموذج.

هل يمكنني البث من خادم V4 محلي؟
نعم. اضبط stream: true تمامًا كما تفعل مع OpenAI أو واجهة برمجة تطبيقات DeepSeek المستضافة.

ما هي أرخص طريقة للتجربة قبل شراء الأجهزة؟
استأجر بطاقة H100 واحدة على RunPod أو Lambda لبضع ساعات، وقم بتشغيل V4-Flash بتقنية INT4، وقم بقياس الإنتاجية مقابل مطالباتك الفعلية. يجيب اختبار بقيمة 10 إلى 30 دولارًا على سؤال الأجهزة بشكل أسرع من أسبوع من التخطيط.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات