وصل DeepSeek V4 في 23 أبريل 2026 بأربع نقاط تحقق، وواجهة برمجة تطبيقات حية (API)، وأوزان مرخصة بـ MIT على Hugging Face. هذا المزيج يعني عدم وجود "طريقة صحيحة" واحدة لاستخدامه؛ فالطريق الأمثل يعتمد على ما إذا كنت تريد الوصول الفوري، أو مكالمات API للإنتاج، أو النشر في الموقع. يستعرض هذا الدليل الطرق الثلاثة، مع المقايضات، والمزالق، وسير عمل موجه جاهز للإنتاج يمكنك إعادة استخدامه.
إذا كنت تريد فقط نظرة عامة على مستوى المنتج، اقرأ أولاً ما هو DeepSeek V4. للحصول على شرح تفصيلي لـ API فقط، راجع دليل DeepSeek V4 API. للحصول على المسار بدون تكلفة، راجع كيفية استخدام DeepSeek V4 مجانًا. عندما تكون مستعدًا لاختبار الطلبات الحقيقية، احصل على Apidog وقم ببناء المجموعة مسبقًا.
باختصار
- المسار الأسرع: chat.deepseek.com. دردشة ويب مجانية، V4-Pro افتراضيًا، ثلاثة أوضاع للتفكير.
- مسار الإنتاج:
https://api.deepseek.com/v1/chat/completionsبمعرفات النموذجdeepseek-v4-proأوdeepseek-v4-flash. - مسار الاستضافة الذاتية: اسحب الأوزان من Hugging Face، وقم بتشغيل نصوص
/inferenceفي المستودع. - اختر Non-Think للتوجيه والتصنيف، Think High للتعليمات البرمجية والتحليل، Think Max فقط عندما تكون الدقة أهم من التكلفة.
- توصية أخذ العينات من DeepSeek:
temperature=1.0, top_p=1.0. لا تشكك فيها. - استخدم Apidog كعميل API؛ فالصيغة المتوافقة مع OpenAI تعني أن طلبًا واحدًا محفوظًا يعاد تشغيله عبر DeepSeek وOpenAI وAnthropic.

اختر المسار الصحيح لعبء عملك
توجد أربعة مسارات واقعية. كل منها يتفوق في جانب مختلف.
| المسار | التكلفة | وقت الإعداد | الأفضل لـ |
|---|---|---|---|
| chat.deepseek.com | مجاني | 30 ثانية | الاختبارات السريعة، العمل المخصص |
| DeepSeek API | فوترة حسب الرمز | 5 دقائق | الإنتاج، الوكلاء، المهام الدفعية |
| V4-Flash مستضاف ذاتيًا | تكلفة الأجهزة فقط | بضع ساعات | الامتثال في الموقع، الاستدلال دون اتصال |
| V4-Pro مستضاف ذاتيًا | تكلفة المجموعات فقط | يوم واحد | البحث، الضبط الدقيق المخصص |
| OpenRouter / مجمع | فوترة حسب الرمز | دقيقتان | احتياطي متعدد المزودين |
المسار الأول: استخدام V4 في الدردشة عبر الويب
أسرع طريقة لتكوين رأي حول V4 هي واجهة الدردشة الرسمية.
- انتقل إلى chat.deepseek.com.
- سجل الدخول باستخدام البريد الإلكتروني، جوجل، أو وي تشات.
- V4-Pro هو النموذج الافتراضي. يقوم التبديل الموجود في أعلى المحرر بالتبديل بين Non-Think و Think High و Think Max.
- ابدأ الكتابة.

تدعم الدردشة عبر الويب تحميل الملفات، والبحث في الويب، والسياق الكامل بمليون رمز. تطبق حدود المعدل على مستوى الحساب؛ الاستخدام المكثف يمكن أن يبطئ الاستجابات ولكنه نادرًا ما يحظرها تمامًا.
المهام الجيدة لواجهة الويب: لصق تتبع خطأ للتشخيص، تحميل ملف PDF من 200 صفحة للملخص، المقارنة مع نفس المطالبة التي تشغلها عبر GPT-5.5 أو Claude. المهام السيئة: أي شيء تريد أتمتته أو إعادة تشغيله.
المسار الثاني: استخدام DeepSeek API
هذا هو المسار الذي ستعتمده معظم الفرق. واجهة برمجة التطبيقات حية، وشكل الطلب متوافق مع OpenAI، ومعرفات النماذج هي نفسها التي ستحتفظ بها DeepSeek بعد إيقاف deepseek-chat في يوليو 2026.
احصل على مفتاح
- سجل في platform.deepseek.com.
- أضف طريقة دفع. تبدأ عمليات الشحن من 2 دولار.
- أنشئ مفتاح API ضمن API Keys وانسخه مرة واحدة؛ لن ترى السر مرة أخرى.
صدر المفتاح حتى يتمكن كل عميل من التقاطه:
export DEEPSEEK_API_KEY="sk-..."
الطلب الأدنى القابل للتشغيل
يكشف DeepSeek عن عنواني URL أساسيين. الواجهة المتوافقة مع OpenAI هي التي يجب استخدامها افتراضيًا.
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
استبدل deepseek-v4-pro بـ deepseek-v4-flash إذا كنت تريد البديل الأرخص. استبدل thinking بـ non-thinking إذا كنت تريد المسار السريع.
عميل بايثون
يعمل SDK الرسمي لـ openai مع تجاوز واحد لعنوان URL الأساسي. هذه هي الميزة الخفية لنقاط النهاية المتوافقة مع OpenAI؛ فكل مكتبة غلاف، بما في ذلك LangChain وLlamaIndex وDSPy، تعمل دون تغيير.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
عميل Node
نفس النمط على Node:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
توجد تفاصيل نقطة النهاية الكاملة، وجداول المعلمات، ومعالجة الأخطاء في دليل DeepSeek V4 API.
المسار الثالث: التكرار باستخدام Apidog
Curl جيد لطلب واحد. بعد ذلك، كل إعادة تشغيل تهدر الرصيد وتفوض محطتك. يحل Apidog كلا المشكلتين.
- قم بتنزيل Apidog لنظام Mac أو Windows أو Linux.
- أنشئ مشروع API جديدًا، أضف طلب POST موجهًا إلى
https://api.deepseek.com/v1/chat/completions. - أضف
Authorization: Bearer {{DEEPSEEK_API_KEY}}كعنوان (header) وخزّن المفتاح في متغيرات البيئة، وليس في جسم الطلب. - الصق أول نص JSON الخاص بك واحفظه. كل تعديل من هنا هو نقرة واحدة لإعادة التشغيل.
- استخدم عارض الاستجابة المدمج لمقارنة تتبعات الاستدلال بين تشغيل Non-Think و Think Max على نفس المطالبة.
يمكن أن تحتوي نفس المجموعة على طلب OpenAI GPT-5.5، وطلب Claude، وطلب DeepSeek V4 جنبًا إلى جنب. وهذا يجعل اختبار A/B عبر المزودين أمرًا سهلاً ويحافظ على رؤية فواتيرك في نافذة واحدة. بالنسبة للفرق التي تستخدم Apidog بالفعل مع واجهات برمجة تطبيقات AI أخرى، يتطابق سير العمل تمامًا؛ تصبح مجموعة GPT-5.5 API المحفوظة مجموعة V4 بتغيير واحد في عنوان URL الأساسي.
المسار الرابع: استضافة V4-Flash ذاتيًا
إذا كانت متطلبات الامتثال، أو الفجوة الهوائية، أو اقتصاديات الوحدة تدفعك بعيدًا عن واجهات برمجة التطبيقات المستضافة، فإن ترخيص MIT يعني أنك تملك هذا المسار بالكامل.
الأجهزة
- V4-Flash (13 مليار نشط، 284 مليار إجمالي): 2 إلى 4 بطاقات H100 / H200 / MI300X بتقنية FP8. عند التكميم إلى INT4، يتناسب مع بطاقة واحدة بسعة 80 جيجابايت مع دفعات محكمة.
- V4-Pro (49 مليار نشط، 1.6 تيرابايت إجمالي): مجال مجمعات حقيقي. 16 إلى 32 من وحدات H100 هو الحد الأدنى الواقعي للاستدلال في الإنتاج.
الحصول على الأوزان
# Install the CLI once
pip install -U "huggingface_hub[cli]"
# Log in if the repo is gated (V4 is public, but the login helps with rate limits)
huggingface-cli login
# Pull V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
توقع أن يستغرق التنزيل بعض الوقت. يبلغ حجم V4-Flash حوالي 500 جيجابايت بتقنية FP8؛ أما V4-Pro فيتراوح حجمه في نطاق تيرابايت متعددة.
تشغيل الاستدلال
يحتوي مجلد /inference في مستودع النموذج على كود مرجعي. للاختبار السريع، نشرت vLLM و SGLang فروع دعم V4 في غضون يوم من الإصدار.
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
بمجرد تشغيل vLLM، وجه أي عميل متوافق مع OpenAI إلى http://localhost:8000/v1. نفس مجموعة Apidog، عنوان URL أساسي مختلف.
توجيه V4 بفعالية
يستجيب V4 للمطالبات بشكل مختلف عن GPT-5.5 أو Claude. ثلاثة أنماط تعمل.
- اطلب وضع التفكير الذي تريده صراحة. اضبط
thinking_modeليتناسب مع المهمة. لا تعتمد على النموذج ليختار. - استخدم مطالبات النظام للشخصية، وليس لشكل المهمة. يتبع V4-Pro مطالبات النظام بشكل جيد للنبرة والقيود؛ وهو أقل موثوقية عندما تحاول حشر مواصفات المهمة بأكملها في رسالة النظام. ضع المهمة في رسالة المستخدم.
- زوِّد مهام الكود ببيئة اختبار. جاءت درجة 93.5 في LiveCodeBench من تقييمات بحالات اختبار واضحة. ستستفيد مهام الكود الخاصة بك من الشيء نفسه؛ الصق الاختبار الفاشل وسيكتب النموذج كودًا يجعله ينجح في كثير من الأحيان أكثر مما لو طلبت "دالة تقوم بـ X".
للعمل ذي السياق الطويل (مئات الآلاف من الرموز)، احتفظ بالمواد الأكثر صلة بالقرب من أعلى وأسفل نافذة الإدخال. اهتمام V4 الهجين فعال، لكن انحياز الحداثة والأولوية لا يزال يظهر.
التحكم في التكلفة
حتى مع انخفاض أسعار الرموز في V4، يمكن للوكيل الخارج عن السيطرة أن يستنزف الميزانية بسرعة. ثلاثة حواجز وقائية:
- استخدم V4-Flash افتراضيًا. استخدم V4-Pro فقط عندما تكون قد قست فجوة جودة مهمة.
- استخدم Non-Think افتراضيًا. ارتقِ إلى Think High للمهام الصعبة؛ واحتفظ بـ Think Max للأعمال التي تتطلب دقة حاسمة.
- حدد
max_tokens. سياق المليون رمز هو حد أقصى، وليس هدفًا. معظم الإجابات تتسع في 2,000 رمز إخراج.
داخل Apidog، قم بتعيين متغيرات ذات نطاق بيئي لـ DEEPSEEK_API_KEY بحيث تصل عمليات الاختبار إلى حساب فوترة منفصل عن الإنتاج. يسجل Apidog أيضًا عدد الرموز في كل استجابة، وهي أبسط طريقة لتحديد مطالبة طالت بشكل مفرط.
الترحيل من DeepSeek V3 أو نماذج أخرى
تغطي ثلاثة مسارات للترحيل معظم الفرق:
- من
deepseek-chat/deepseek-reasoner: استبدل معرف النموذج بـdeepseek-v4-proأوdeepseek-v4-flash. ستتوقف المعرفات القديمة في 24 يوليو 2026. قم بهذا الترحيل قبل ذلك الحين. - من OpenAI GPT-5.x: قم بتغيير عنوان URL الأساسي إلى
https://api.deepseek.com/v1، غير معرف النموذج، واترك كل شيء آخر كما هو. راجع دليل GPT-5.5 API المطابق لشكل الطلب الموازي. - من Anthropic Claude: وجّه إلى
https://api.deepseek.com/anthropicللحفاظ على تنسيق رسالة Anthropic، أو أعد تشكيلها إلى تنسيق OpenAI واستخدم نقطة النهاية الرئيسية.
الأسئلة الشائعة
- هل أحتاج إلى حساب مدفوع لاستخدام V4؟ الدردشة عبر الويب مجانية. تتطلب واجهة برمجة التطبيقات (API) شحنًا، لكن الحد الأدنى هو 2 دولار. راجع كيفية استخدام DeepSeek V4 مجانًا للمسارات التي لا تتطلب تكلفة.
- ما هو الإصدار الذي يجب أن أستخدمه افتراضيًا؟ ابدأ بـ V4-Flash في وضع Non-Think. قم بقياس الجودة. قم بالتصعيد فقط عندما يكون ذلك مجديًا.
- هل يمكنني تشغيل V4 على جهاز MacBook الخاص بي؟ سيعمل V4-Flash على M3 Max أو M4 Max بسعة 128 جيجابايت من الذاكرة الموحدة مع تكميم عالٍ، ولكن ببطء. لن يعمل V4-Pro. للتجارب على مستوى الكمبيوتر المحمول، التزم بواجهة برمجة التطبيقات أو الدردشة عبر الويب.
- هل يدعم V4 استخدام الأدوات واستدعاء الدوال؟ نعم. تقبل نقطة النهاية المتوافقة مع OpenAI مصفوفة
toolsالقياسية؛ وتحمل الاستجاباتtool_callsبنفس الشكل. تستخدم نقطة النهاية ذات تنسيق Anthropic مخطط استخدام أداة Anthropic الأصلي. - كيف أقوم ببث الاستجابات؟ عيّن
stream: trueفي جسم الطلب. الاستجابة هي تدفق SSE قياسي متوافق مع OpenAI؛ أي مكتبة تتعامل مع بث OpenAI تعمل دون تغييرات. - هل هناك حد للمعدل؟ تنشر واجهة برمجة التطبيقات المستضافة حدودًا لكل مستوى على api-docs.deepseek.com. لا يحتوي V4 المستضاف ذاتيًا على حد لكل طلب يتجاوز قدرة أجهزتك.
