DeepSeek V4, 23 Nisan 2026'da Hugging Face üzerinde MIT lisanslı ağırlıklarıyla yayınlandı. Bu tek lisans tercihi, kendi donanımında ileri düzey yapay zeka isteyen her ekip için matematiği değiştiriyor. V4-Flash (toplam 284B, aktif 13B) FP8'de bir çift H100'e sığar. V4-Pro (toplam 1.6T, aktif 49B) bir küme gerektirir ancak kod ve muhakeme konusunda GPT-5.5 ve Claude Opus 4.6 ile rekabetçi bir şekilde çalışır.
Bu kılavuz, yerel dağıtım rehberidir. Donanım gereksinimlerini, niceleme seçeneklerini, vLLM ve SGLang kurulumlarını, araç kullanımı yapılandırmasını ve üretim trafiğini yönlendirmeden önce yerel sunucuyu doğrulayan Apidog'daki bir test iş akışını kapsar.
button
Ürüne genel bakış için DeepSeek V4 nedir makalesine bakın. Barındırılan API yolu için DeepSeek V4 API nasıl kullanılır makalesine bakın. Maliyet karşılaştırması için DeepSeek V4 API fiyatlandırması makalesine bakın.
TL;DR
- V4-Flash, FP8'de 2 adet H100 80GB veya INT4'te 1 adet H100 üzerinde çalışır. FP8'de ağırlıklar ~500GB'tır.
- V4-Pro, üretim çıktısı için FP8'de 16+ H100 gerektirir; dizüstü bilgisayar modeli değildir.
- vLLM, OpenAI uyumlu bir sunucuya en hızlı yoldur.
vllm>=0.9.0, V4 desteği ekler. - SGLang, daha iyi araç kullanımı ve yapılandırılmış çıktı özellikleri isteyen ekipler için alternatiftir.
- AWQ INT4 veya GPTQ INT4'e niceleme, V4-Flash'i tek bir 80GB karta ~%5 kalite kaybıyla sığdırır.
http://localhost:8000/v1adresine yönlendirmek ve barındırılan API'ye karşı kullandığınız koleksiyonu yeniden kullanmak için Apidog kullanın.
Kimler kendi kendine barındırmalıdır?
V4'ü kendi kendine barındırmak, üç tür ekip için doğru karardır.
- Uyumluluğa bağlı olanlar. Verilerin ağdan ayrılamadığı sağlık, finans, hukuk veya savunma işleri. Açık ağırlıklı MIT lisanslaması, kullanım anlaşması veya sınır ötesi veri akışı olmadığı anlamına gelir.
- Büyük, istikrarlı iş yükleri. Önbellek isabet etmeme oranlarında, V4-Pro API maliyetleri giriş başına 1.74 $ / M ve çıktı başına 3.48 $ / M'dir. Ayda yaklaşık 200 milyar jetonu aşan iş yükleri için, özel donanım jeton başına ödeme ekonomisini geçmeye başlar.
- İnce ayar ve araştırma. Temel kontrol noktaları, özellikle sürekli ön eğitim ve alan uyarlaması için mevcuttur. MIT lisansı, elde edilen modelin ticari yeniden dağıtımını kapsar.
Kimler kendi kendine barındırmamalıdır: prototip geliştiriciler, GPU operasyon deneyimi olmayan ekipler ve iş yükü ayda 200 dolarlık barındırılan API kullanımına sığan herkes. Operasyonel maliyet, küçük ölçekte maliyet tasarruflarını hızla tüketir.
Donanım gereksinimleri
DeepSeek V4, FP4 + FP8 karma hassasiyeti doğal olarak kullanır. Bu, bellek matematiğinin, naif bir parametre sayımı hesaplamasının önerdiğinden daha dostça olduğu anlamına gelir.
| Varyant | Toplam parametre | Aktif parametre | FP8 VRAM | INT4 VRAM | Minimum kart |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) veya 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) veya 8 × H100 (INT4) |
Birkaç açıklama:
- MoE belleği toplamdır, aktif değildir. Her ne kadar jeton başına yalnızca bir alt küme ateşlense de, tüm uzmanlar için yeterli VRAM'e ihtiyacınız vardır. 13B "aktif" figürü yalnızca jeton başına işlem maliyetini yansıtır, belleği değil.
- H200 ve MI300X sorunsuz bir şekilde değiştirilebilir. Kart başına 141GB veya 192GB, aynı model için daha az kart anlamına gelir.
- Tüketici GPU'ları uygun değildir. V4-Flash bile INT4'te 24GB RTX 5090 üzerinde çalışmaz.
- Apple Silicon: 128GB birleşik belleğe sahip M3 Max ve M4 Max, ağır nicelemeyle V4-Flash'i yavaşça çalıştırabilir. Bu bir geliştirme kutusu oyuncağıdır, bir dağıtım hedefi değildir.
Adım 1: Ağırlıkları indirin
Resmi depolar:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Pro- İnce ayar için
deepseek-ai/DeepSeek-V4-Flash-BaseveDeepSeek-V4-Pro-Base.
CLI'yı yükleyin ve çekin:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flash için ~500GB, V4-Pro için birkaç terabayt disk alanı ayırın. ModelScope (modelscope.cn) aynı kontrol noktalarını yansıtır ve Çin'deki kullanıcılar için genellikle daha hızlıdır.
Adım 2: Bir sunum motoru seçin
İki motor önemlidir: vLLM ve SGLang.
- vLLM. En iyi çıktı, en temiz OpenAI uyumlu yüzey, en büyük topluluk. Varsayılan seçim.
- SGLang. Daha iyi araç kullanım ilkeleri, yapılandırılmış çıktı ve uzun bağlamlarda bazı kazançlar. İş yükünüz işlev çağrısına çok dayanıyorsa bunu seçin.
Her ikisi de bu hafta yayınlanan sürümler itibarıyla V4'ü kutudan çıktığı gibi desteklemektedir.
Adım 3: V4-Flash'i vLLM ile sunun
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Bilmeye değer bayraklar:
--tensor-parallel-size 2modeli 2 H100 arasında böler. Daha fazla kart için artırın.--max-model-len 1048576tam 1M jetonluk bağlam penceresini etkinleştirir. Buna ihtiyacınız yoksa 131072'ye düşürün; daha kısa bağlam VRAM'i boşaltır.--enable-prefix-caching, barındırılan API'nin önbellek isabet fiyatlandırmasını yerel olarak yansıtır. Aynı etki: tekrar eden önekler çok daha hızlı çalışır.--dtype auto, V4'ün FP8 karma hassasiyetine uyar.
Sunucu açıldığında, herhangi bir OpenAI uyumlu istemci http://localhost:8000/v1'e karşı çalışır.
Adım 4: V4-Pro'yu vLLM ile sunun
V4-Pro bir küme gerektirir. Komut şekli değişmez, yalnızca paralellik değişir.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Burada bağlam, 16-H100 bir kutuya rahatça sığması için 512K'ye düşürülmüştür; VRAM izin veriyorsa 1M'ye geri itin. Boru hattı paralelliği artı tensör paralelliği, düğümler arası dağıtım için yaygın şekildir.
Adım 5: SGLang ile sunun (araç kullanımı alternatifi)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang, http://localhost:30000/v1 adresinde aynı OpenAI uyumlu arayüzü sunar. lang DSL'si, vLLM'in JSON şema rehberliğinden daha temiz işlev çağırma ve JSON modu ilkelleri sunar.
Adım 6: Tek GPU'lu bir kutu için niceleme yapın
INT4 nicelemesi, V4-Flash'i tek bir 80GB kart üzerinde ölçülebilir ancak küçük bir kalite kaybıyla çalıştırır. İki yol vardır.
AWQ (önerilir)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# GPTQ niceleme tarifini izleyin; AWQ'ye benzer desen.
Niceleme yapılmış kontrol noktasını vLLM ile başlatırken --quantization awq veya --quantization gptq parametresini geçerek sunun.
Adım 7: Apidog ile test edin
Yeni bir yerel sunucuya üretim trafiği göndermeyin. Önce doğrulayın.

- Apidog'u indirin.
http://localhost:8000/v1/chat/completionsadresine yönlendirilmiş bir koleksiyon oluşturun.- Barındırılan API'ye karşı kullandığınız aynı test istemini yapıştırın. Yanıtları yan yana karşılaştırın.
- KV önbelleğinin dayanıp dayanmadığını doğrulamak için uç noktaya 500K jetonluk bir bağlam testi ile vurun.
- Bir aracı döngüsünü bağlamadan önce baştan sona bir araç çağırma akışı çalıştırın.
Barındırılan DeepSeek V4 API'sine karşı kullandığınız koleksiyon, tek bir temel URL değişikliğiyle yerel bir sunucuya karşı çalışır; bu, OpenAI uyumlu uç noktaların getirisidir.
Gözlemlenebilirlik ve izleme
İlk günden itibaren izlenecek dört metrik:
- Saniye başına jeton sayısı. Hem istem hem de üretim. vLLM bunları Prometheus formatında
/metricsüzerinde gösterir. - GPU kullanımı.
nvidia-smiveya DCGM. Sürekli olarak <%70 genellikle toplu iş boyutunuzun yanlış olduğu anlamına gelir. - KV önbellek isabet oranı.
--enable-prefix-cachingile vLLM bunu raporlar; düşen bir isabet oranı, çıktıya mal olan istem değişikliğini işaret eder. - İstek gecikmesi p50/p95/p99. Standart izlemeyi kullanın; istikrarlı p50 ile tırmanan bir p99, bir isteğin sırayı tıkadığını gösterir.
Dördünü de Grafana'ya veya zaten kullandığınız gözlemlenebilirlik yığınına gönderin.
V4 Temel kontrol noktalarında ince ayar yapma
Temel kontrol noktaları, sürekli ön eğitim ve SFT için mevcuttur. Standart boru hattı:
pip install "torch>=2.6" transformers accelerate peft trl
# V4-Flash-Base üzerinde LoRA ile standart SFT
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
V4-Pro üzerinde tam parametre ince ayarı ciddi bir araştırma görevidir. V4-Flash-Base üzerindeki LoRA adaptörleri çoğu ekip için gerçekçi tavan; çok fazla kalite kazancı, işlem gücünün bir kısmı.
Yaygın tuzaklar
- Başlangıçta OOM. Genellikle ya
--max-model-lenVRAM'in izin verdiğinden daha yüksek ayarlanmıştır ya da--tensor-parallel-sizeçok düşüktür. Bağlamı yarıya indirin veya paralelliği iki katına çıkarın. - Yavaş ilk istek. vLLM çekirdekleri tembelce derler. Şekil başına ilk çağrı her zaman yavaştır; sahte bir istekle ısıtın.
- Araç kullanımı ayrıştırma hataları. DeepSeek kodlama şeması OpenAI'den biraz farklıdır. SDK'nızı V4'ü açıkça destekleyen bir sürüme sabitleyin.
- Eski kartlarda FP8 hataları. A100'ler doğal olarak FP8'i desteklemez. Hopper öncesi her şeyde BF16 kullanın; kabaca 2 kat VRAM bekleyin.
Kendi kendine barındırma ne zaman kârlı olur?
Barındırılan DeepSeek V4 fiyatlandırmasına dayalı yaklaşık başabaş matematik:
- V4-Flash ayda 200B giriş jetonu + 20B çıkış jetonu: Barındırılan API'de ~33.6K $. 8 adet H100'lü bir kutunun aylık kirası ~20K $. Kendi kendine barındırma ~%40 kazanır.
- V4-Pro ayda 500B giriş + 50B çıkış: Barındırılan API'de ~1.04M $. 16 adet H100'lü bir kümenin aylık kirası ~35K $. Kendi kendine barındırma %95'in üzerinde kazanır.
V4-Flash için başabaş noktası, üretim karışımlarında ayda yaklaşık 100B jetonda oturur. Bunun altında, barındırılan API daha ucuzdur ve operasyonel maliyet buna değmez.
SSS
V4-Flash'i tek bir A100 üzerinde çalıştırabilir miyim?Yoğun niceleme ve daha kısa bağlamda, evet, ancak yavaşça. 80GB A100'de INT4, 5 ila 15 jeton/sn çalışır. H100, mimarinin gerçekten çalışmak istediği yerdir.
V4, LoRA ince ayarını destekliyor mu?Evet. Temel kontrol noktalarını ve standart TRL veya Axolotl boru hatlarını kullanın. MoE yönlendirmesi LoRA matematiğini değiştirmez.
Yerel sunucu OpenAI uyumlu mu?Evet. vLLM ve SGLang her ikisi de OpenAI istek şekliyle /v1/chat/completions ve /v1/completions'ı ortaya koyar. Barındırılan API kılavuzu, localhost'a karşı değişmeden çalışır.
Yerel olarak düşünme modunu nasıl etkinleştiririm?İstek gövdesine thinking_mode: "thinking" veya "thinking_max" geçirin. vLLM ve SGLang, bayrağı modele iletir.
Yerel bir V4 sunucusundan akış yapabilir miyim?Evet. OpenAI'ye veya barındırılan DeepSeek API'sine karşı olduğu gibi stream: true olarak ayarlayın.
Donanım satın almadan önce deneme yapmanın en ucuz yolu nedir?Birkaç saatliğine RunPod veya Lambda'dan tek bir H100 kiralayın, V4-Flash'i INT4'te çalıştırın ve gerçek istemlerinize karşı çıktıyı ölçün. 10 ila 30 dolarlık bir test, donanım sorusunu bir haftalık planlamadan daha hızlı yanıtlar.
button
