تم إطلاق DeepSeek V4 في 23 أبريل 2026 بأوزان مرخصة بـ MIT على Hugging Face. يغير هذا الاختيار الفردي للترخيص الحسابات لأي فريق يرغب في امتلاك ذكاء اصطناعي رائد على أجهزته الخاصة. يتناسب V4-Flash (إجمالي 284 مليار، 13 مليار نشط) مع زوج من H100s بتقنية FP8. بينما يتطلب V4-Pro (إجمالي 1.6 تريليون، 49 مليار نشط) مجموعة (كلاستر) ولكنه يعمل بشكل تنافسي مع GPT-5.5 و Claude Opus 4.6 في مهام البرمجة والاستنتاج.
هذا الدليل هو شرح النشر المحلي. ويغطي متطلبات الأجهزة، وخيارات التكميم، وإعدادات vLLM و SGLang، وتكوين استخدام الأدوات، وسير عمل اختبار في Apidog يتحقق من صحة الخادم المحلي قبل توجيه حركة مرور الإنتاج إليه.
للحصول على نظرة عامة على المنتج، راجع ما هو DeepSeek V4. لمسار واجهة برمجة التطبيقات المستضافة، راجع كيفية استخدام DeepSeek V4 API. لمقارنة التكلفة، راجع تسعير DeepSeek V4 API.
باختصار
- V4-Flash يعمل على 2 × H100 80 جيجابايت بتقنية FP8، أو 1 × H100 بتقنية INT4. الأوزان تبلغ حوالي 500 جيجابايت بتقنية FP8.
- V4-Pro يحتاج إلى 16+ H100s بتقنية FP8 لإنتاجية الإنتاج؛ ليس نموذجًا للحواسب المحمولة.
- vLLM هو المسار الأسرع إلى خادم متوافق مع OpenAI.
vllm>=0.9.0يضيف دعم V4. - SGLang هو البديل للفرق التي ترغب في ميزات أفضل لاستخدام الأدوات والمخرجات المنظمة.
- يتناسب التكميم إلى AWQ INT4 أو GPTQ INT4 مع V4-Flash على بطاقة واحدة بحجم 80 جيجابايت مع فقدان جودة بنسبة 5% تقريبًا.
- استخدم Apidog للتوجيه إلى
http://localhost:8000/v1وإعادة استخدام المجموعة الدقيقة التي تستخدمها مقابل واجهة برمجة التطبيقات المستضافة.
من يجب أن يستضيف ذاتيًا
الاستضافة الذاتية لـ V4 هي الخيار الصحيح لثلاثة أنواع من الفرق.
- ملتزمون بالامتثال. أعمال الصحة، المالية، القانونية، أو الدفاع حيث لا يمكن للبيانات مغادرة الشبكة. ترخيص MIT ذو الأوزان المفتوحة يعني عدم وجود اتفاقية استخدام، ولا تدفقات بيانات عبر الحدود.
- أعباء عمل كبيرة ومستقرة. بمعدلات فقدان ذاكرة التخزين المؤقت، تكلف واجهة برمجة تطبيقات V4-Pro مبلغ 1.74 دولار لكل مليون إدخال و 3.48 دولار لكل مليون إخراج. لأعباء العمل التي تزيد عن حوالي 200 مليار توكن شهريًا، تبدأ الأجهزة المخصصة في التفوق على اقتصاديات الدفع حسب التوكن.
- الضبط الدقيق والبحث. نقاط الفحص الأساسية موجودة خصيصًا للتدريب المسبق المستمر وتكييف النطاق. يغطي ترخيص MIT إعادة التوزيع التجاري للنموذج الناتج.
من لا ينبغي له الاستضافة الذاتية: المبتكرون (prototypers)، والفرق التي تفتقر إلى خبرة عمليات وحدات معالجة الرسوميات (GPU)، وأي شخص تتناسب عبء عمله مع استخدام واجهة برمجة التطبيقات المستضافة بقيمة 200 دولار شهريًا. تلتهم النفقات التشغيلية وفورات التكلفة بسرعة على نطاق صغير.
متطلبات الأجهزة
يستخدم DeepSeek V4 دقة مختلطة FP4 + FP8 بشكل أساسي. وهذا يعني أن حساب الذاكرة أكثر ملاءمة مما يوحي به حساب عدد المعلمات الساذج.
| النسخة | إجمالي المعاملات | المعاملات النشطة | ذاكرة الفيديو FP8 | ذاكرة الفيديو INT4 | الحد الأدنى من البطاقات |
|---|---|---|---|---|---|
| V4-Flash | 284 مليار | 13 مليار | ~500 جيجابايت | ~140 جيجابايت | 2 × H100 80GB (FP8) أو 1 × H100 (INT4) |
| V4-Pro | 1.6 تيرابايت | 49 مليار | ~2.4 تيرابايت | ~700 جيجابايت | 16 × H100 80GB (FP8) أو 8 × H100 (INT4) |
بعض التوضيحات:
- ذاكرة MoE هي إجمالية، وليست نشطة. تحتاج إلى ذاكرة VRAM كافية لجميع الخبراء، على الرغم من أن مجموعة فرعية فقط تعمل لكل توكن. الرقم "النشط" البالغ 13 مليار يعكس فقط تكلفة الحوسبة لكل توكن، وليس الذاكرة.
- H200 و MI300X يتم تبديلهما بسلاسة. 141 جيجابايت أو 192 جيجابايت لكل بطاقة يعني عددًا أقل من البطاقات لنفس النموذج.
- وحدات معالجة الرسوميات الاستهلاكية ليست مناسبة. حتى V4-Flash بتقنية INT4 لا يعمل على بطاقة RTX 5090 بحجم 24 جيجابايت.
- معالجات Apple Silicon: يمكن لـ M3 Max و M4 Max بذاكرة موحدة بحجم 128 جيجابايت تشغيل V4-Flash بتكميم كبير، ولكن ببطء. إنه مجرد أداة للتطوير، وليس هدفًا للنشر.
الخطوة 1: تنزيل الأوزان
المستودعات الرسمية:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BaseوDeepSeek-V4-Pro-Baseللضبط الدقيق (fine-tuning).
تثبيت واجهة سطر الأوامر وسحب:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
احجز حوالي 500 جيجابايت من القرص لـ V4-Flash وعدة تيرابايت لـ V4-Pro. يعكس ModelScope (modelscope.cn) نفس نقاط الفحص وعادة ما يكون أسرع للمستخدمين في الصين.
الخطوة 2: اختيار محرك خدمة
هناك محركان مهمان: vLLM و SGLang.
- vLLM. أفضل إنتاجية، أنظف واجهة متوافقة مع OpenAI، أكبر مجتمع. الخيار الافتراضي.
- SGLang. وظائف أساسية أفضل لاستخدام الأدوات، ومخرجات منظمة، وبعض المكاسب في السياقات الطويلة. اختر هذا إذا كان عبء عملك يعتمد بشكل كبير على استدعاء الوظائف.
كلاهما يدعم V4 جاهزًا للاستخدام اعتبارًا من الإصدارات التي صدرت هذا الأسبوع.
الخطوة 3: خدمة V4-Flash باستخدام vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
علامات (Flags) تستحق المعرفة:
--tensor-parallel-size 2يقسم النموذج عبر بطاقتي H100. ارفعه لعدد أكبر من البطاقات.--max-model-len 1048576يُمكّن نافذة السياق الكاملة بحجم 1 مليون توكن. قللها إلى 131072 إذا لم تكن بحاجة إليها؛ فالسياق الأقصر يحرر ذاكرة VRAM.--enable-prefix-cachingيعكس تسعير تكرار الوصول إلى ذاكرة التخزين المؤقت (cache-hit) لواجهة برمجة التطبيقات المستضافة محليًا. نفس التأثير: تعمل البادئات المتكررة بشكل أسرع بكثير.--dtype autoيحترم الدقة المختلطة FP8 لـ V4.
بمجرد تشغيل الخادم، يعمل أي عميل متوافق مع OpenAI مقابل http://localhost:8000/v1.
الخطوة 4: خدمة V4-Pro باستخدام vLLM
يتطلب V4-Pro مجموعة (كلاستر). لا يتغير شكل الأمر، فقط التوازي.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
تم تخفيض السياق إلى 512 ألف هنا ليتناسب بشكل مريح مع صندوق 16 H100؛ أعده إلى 1 مليون إذا سمحت ذاكرة VRAM. يعتبر التوازي الأنبوبي (pipeline parallelism) بالإضافة إلى التوازي الموتر (tensor parallelism) الشكل الشائع للنشر عبر العقد.
الخطوة 5: الخدمة باستخدام SGLang (بديل استخدام الأدوات)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
يعرض SGLang نفس الواجهة المتوافقة مع OpenAI على http://localhost:30000/v1. يوفر DSL lang الخاص به وظائف أساسية لاستدعاء الدوال ووضع JSON أكثر وضوحًا من توجيه مخطط JSON الخاص بـ vLLM.
الخطوة 6: التكميم لبطاقة رسومات واحدة
يقوم تكميم INT4 بتشغيل V4-Flash على بطاقة واحدة بحجم 80 جيجابايت مع انخفاض ملحوظ ولكنه صغير في الجودة. هناك مساران.
AWQ (موصى به)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Follow the GPTQ quantization recipe; similar pattern to AWQ.
قدم نقطة الفحص المكممة باستخدام vLLM عن طريق تمرير --quantization awq أو --quantization gptq عند الإطلاق.
الخطوة 7: الاختبار باستخدام Apidog
لا ترسل حركة مرور الإنتاج إلى خادم محلي جديد. تحقق منه أولاً.

- نزّل Apidog.
- أنشئ مجموعة موجهة إلى
http://localhost:8000/v1/chat/completions. - الصق نفس المطالبة الاختبارية التي تستخدمها مقابل واجهة برمجة التطبيقات المستضافة. قارن الاستجابات جنبًا إلى جنب.
- اطلب نقطة النهاية باختبار سياق 500 ألف توكن للتأكد من صمود ذاكرة التخزين المؤقت KV.
- شغّل تدفق استدعاء أداة من البداية إلى النهاية قبل ربط حلقة عامل (agent loop).
تعمل المجموعة الدقيقة التي تستخدمها مقابل واجهة برمجة تطبيقات DeepSeek V4 المستضافة على خادم محلي بتغيير واحد لعنوان URL الأساسي؛ هذا هو عائد نقاط النهاية المتوافقة مع OpenAI.
المراقبة وقابلية الملاحظة
أربعة مقاييس لتتبعها من اليوم الأول:
- الرموز في الثانية. لكل من المطالبة والتوليد. يعرض vLLM هذه المقاييس على
/metricsبتنسيق Prometheus. - استخدام وحدة معالجة الرسوميات (GPU).
nvidia-smiأو DCGM. عادة ما يعني الاستخدام المستمر أقل من 70% أن حجم دفعتك خاطئ. - معدل تكرار ذاكرة التخزين المؤقت KV. مع
--enable-prefix-caching، يُبلغ vLLM عن ذلك؛ يشير انخفاض معدل التكرار إلى تقلب المطالبات الذي يكلف الإنتاجية. - زمن استجابة الطلب p50/p95/p99. استخدم التتبع القياسي؛ يشير ارتفاع p99 مع استقرار p50 إلى أن شكل طلب واحد يعيق قائمة الانتظار.
أرسل الأربعة إلى Grafana أو أي حزمة مراقبة تستخدمها بالفعل.
الضبط الدقيق لنقاط الفحص الأساسية لـ V4
توجد نقاط الفحص الأساسية للتدريب المسبق المستمر و SFT. خط الأنابيب القياسي:
pip install "torch>=2.6" transformers accelerate peft trl
# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
الضبط الدقيق للمعاملات الكاملة على V4-Pro هو مهمة بحثية جادة. تعد محولات LoRA على V4-Flash-Base هي السقف الواقعي لمعظم الفرق؛ مكسب كبير في الجودة، وجزء صغير من الحساب.
المزالق الشائعة
- OOM عند البدء. عادة ما يكون إما
--max-model-lenمضبوطًا أعلى مما تسمح به ذاكرة VRAM أو--tensor-parallel-sizeمضبوطًا منخفضًا جدًا. اخفض السياق إلى النصف أو ضاعف التوازي. - طلب أول بطيء. يقوم vLLM بتجميع النوى بكسل. يكون الاستدعاء الأول لكل شكل بطيئًا دائمًا؛ قم بالإحماء بطلب وهمي.
- أخطاء تحليل استخدام الأدوات. يختلف مخطط تشفير DeepSeek قليلاً عن مخطط OpenAI. قم بتثبيت SDK الخاص بك على إصدار يدعم V4 صراحةً.
- أخطاء FP8 على البطاقات القديمة. لا تدعم A100s تقنية FP8 بشكل أساسي. استخدم BF16 على أي شيء قبل Hopper؛ توقع حوالي ضعف ذاكرة VRAM.
متى تجني الاستضافة الذاتية ثمارها
حساب تقريبي لنقطة التعادل، بناءً على تسعير DeepSeek V4 API المستضاف:
- V4-Flash عند 200 مليار توكن إدخال/شهر + 20 مليار توكن إخراج/شهر: ~33.6 ألف دولار على واجهة برمجة التطبيقات المستضافة. صندوق 8 × H100 يكلف حوالي 20 ألف دولار شهريًا. الاستضافة الذاتية تفوز بحوالي 40%.
- V4-Pro عند 500 مليار إدخال + 50 مليار إخراج شهريًا: ~1.04 مليون دولار على واجهة برمجة التطبيقات المستضافة. مجموعة 16 × H100 تكلف حوالي 35 ألف دولار شهريًا. الاستضافة الذاتية تفوز بأكثر من 95%.
تقع نقطة التعادل لـ V4-Flash عند حوالي 100 مليار توكن/شهر عند مزيج الإنتاج. أقل من ذلك، تكون واجهة برمجة التطبيقات المستضافة أرخص ولا تستحق التكاليف التشغيلية الإضافية.
الأسئلة الشائعة
هل يمكنني تشغيل V4-Flash على A100 واحد؟
نعم، مع تكميم كبير وسياق أقصر، ولكن ببطء. يعمل INT4 على A100 بحجم 80 جيجابايت بسرعة 5 إلى 15 توكن/ثانية. H100 هو المكان الذي يرغب فيه المعمارية فعليًا في العمل.
هل يدعم V4 الضبط الدقيق (fine-tuning) باستخدام LoRA؟
نعم. استخدم نقاط الفحص الأساسية وخطوط أنابيب TRL أو Axolotl القياسية. لا يغير توجيه MoE حساب LoRA.
هل الخادم المحلي متوافق مع OpenAI؟
نعم. يعرض كل من vLLM و SGLang /v1/chat/completions و /v1/completions بنفس شكل طلب OpenAI. يعمل دليل واجهة برمجة التطبيقات المستضافة دون تغيير مقابل localhost.
كيف أقوم بتمكين وضع التفكير محليًا؟
مرر thinking_mode: "thinking" أو "thinking_max" في نص الطلب. يقوم vLLM و SGLang بتمرير العلامة إلى النموذج.
هل يمكنني البث من خادم V4 محلي؟
نعم. اضبط stream: true تمامًا كما تفعل مع OpenAI أو واجهة برمجة تطبيقات DeepSeek المستضافة.
ما هي أرخص طريقة للتجربة قبل شراء الأجهزة؟
استأجر بطاقة H100 واحدة على RunPod أو Lambda لبضع ساعات، وقم بتشغيل V4-Flash بتقنية INT4، وقم بقياس الإنتاجية مقابل مطالباتك الفعلية. يجيب اختبار بقيمة 10 إلى 30 دولارًا على سؤال الأجهزة بشكل أسرع من أسبوع من التخطيط.
