DeepSeek V4'ü Yerel Olarak Nasıl Çalıştırılır?

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4'ü Yerel Olarak Nasıl Çalıştırılır?

Kurumsal Apidog

Şirket İçi Dağıtım

SSO & RBAC

SOC 2 Uyumlu

Apidog Enterprise'ı Keşfet

DeepSeek V4, 23 Nisan 2026'da Hugging Face üzerinde MIT lisanslı ağırlıklarıyla yayınlandı. Bu tek lisans tercihi, kendi donanımında ileri düzey yapay zeka isteyen her ekip için matematiği değiştiriyor. V4-Flash (toplam 284B, aktif 13B) FP8'de bir çift H100'e sığar. V4-Pro (toplam 1.6T, aktif 49B) bir küme gerektirir ancak kod ve muhakeme konusunda GPT-5.5 ve Claude Opus 4.6 ile rekabetçi bir şekilde çalışır.

Bu kılavuz, yerel dağıtım rehberidir. Donanım gereksinimlerini, niceleme seçeneklerini, vLLM ve SGLang kurulumlarını, araç kullanımı yapılandırmasını ve üretim trafiğini yönlendirmeden önce yerel sunucuyu doğrulayan Apidog'daki bir test iş akışını kapsar.

button

Ürüne genel bakış için DeepSeek V4 nedir makalesine bakın. Barındırılan API yolu için DeepSeek V4 API nasıl kullanılır makalesine bakın. Maliyet karşılaştırması için DeepSeek V4 API fiyatlandırması makalesine bakın.

TL;DR

Kimler kendi kendine barındırmalıdır?

V4'ü kendi kendine barındırmak, üç tür ekip için doğru karardır.

  1. Uyumluluğa bağlı olanlar. Verilerin ağdan ayrılamadığı sağlık, finans, hukuk veya savunma işleri. Açık ağırlıklı MIT lisanslaması, kullanım anlaşması veya sınır ötesi veri akışı olmadığı anlamına gelir.
  2. Büyük, istikrarlı iş yükleri. Önbellek isabet etmeme oranlarında, V4-Pro API maliyetleri giriş başına 1.74 $ / M ve çıktı başına 3.48 $ / M'dir. Ayda yaklaşık 200 milyar jetonu aşan iş yükleri için, özel donanım jeton başına ödeme ekonomisini geçmeye başlar.
  3. İnce ayar ve araştırma. Temel kontrol noktaları, özellikle sürekli ön eğitim ve alan uyarlaması için mevcuttur. MIT lisansı, elde edilen modelin ticari yeniden dağıtımını kapsar.

Kimler kendi kendine barındırmamalıdır: prototip geliştiriciler, GPU operasyon deneyimi olmayan ekipler ve iş yükü ayda 200 dolarlık barındırılan API kullanımına sığan herkes. Operasyonel maliyet, küçük ölçekte maliyet tasarruflarını hızla tüketir.

Donanım gereksinimleri

DeepSeek V4, FP4 + FP8 karma hassasiyeti doğal olarak kullanır. Bu, bellek matematiğinin, naif bir parametre sayımı hesaplamasının önerdiğinden daha dostça olduğu anlamına gelir.

Varyant Toplam parametre Aktif parametre FP8 VRAM INT4 VRAM Minimum kart
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) veya 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) veya 8 × H100 (INT4)

Birkaç açıklama:

Adım 1: Ağırlıkları indirin

Resmi depolar:

CLI'yı yükleyin ve çekin:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash için ~500GB, V4-Pro için birkaç terabayt disk alanı ayırın. ModelScope (modelscope.cn) aynı kontrol noktalarını yansıtır ve Çin'deki kullanıcılar için genellikle daha hızlıdır.

Adım 2: Bir sunum motoru seçin

İki motor önemlidir: vLLM ve SGLang.

Her ikisi de bu hafta yayınlanan sürümler itibarıyla V4'ü kutudan çıktığı gibi desteklemektedir.

Adım 3: V4-Flash'i vLLM ile sunun

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Bilmeye değer bayraklar:

Sunucu açıldığında, herhangi bir OpenAI uyumlu istemci http://localhost:8000/v1'e karşı çalışır.

Adım 4: V4-Pro'yu vLLM ile sunun

V4-Pro bir küme gerektirir. Komut şekli değişmez, yalnızca paralellik değişir.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Burada bağlam, 16-H100 bir kutuya rahatça sığması için 512K'ye düşürülmüştür; VRAM izin veriyorsa 1M'ye geri itin. Boru hattı paralelliği artı tensör paralelliği, düğümler arası dağıtım için yaygın şekildir.

Adım 5: SGLang ile sunun (araç kullanımı alternatifi)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang, http://localhost:30000/v1 adresinde aynı OpenAI uyumlu arayüzü sunar. lang DSL'si, vLLM'in JSON şema rehberliğinden daha temiz işlev çağırma ve JSON modu ilkelleri sunar.

Adım 6: Tek GPU'lu bir kutu için niceleme yapın

INT4 nicelemesi, V4-Flash'i tek bir 80GB kart üzerinde ölçülebilir ancak küçük bir kalite kaybıyla çalıştırır. İki yol vardır.

AWQ (önerilir)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# GPTQ niceleme tarifini izleyin; AWQ'ye benzer desen.

Niceleme yapılmış kontrol noktasını vLLM ile başlatırken --quantization awq veya --quantization gptq parametresini geçerek sunun.

Adım 7: Apidog ile test edin

Yeni bir yerel sunucuya üretim trafiği göndermeyin. Önce doğrulayın.

  1. Apidog'u indirin.
  2. http://localhost:8000/v1/chat/completions adresine yönlendirilmiş bir koleksiyon oluşturun.
  3. Barındırılan API'ye karşı kullandığınız aynı test istemini yapıştırın. Yanıtları yan yana karşılaştırın.
  4. KV önbelleğinin dayanıp dayanmadığını doğrulamak için uç noktaya 500K jetonluk bir bağlam testi ile vurun.
  5. Bir aracı döngüsünü bağlamadan önce baştan sona bir araç çağırma akışı çalıştırın.

Barındırılan DeepSeek V4 API'sine karşı kullandığınız koleksiyon, tek bir temel URL değişikliğiyle yerel bir sunucuya karşı çalışır; bu, OpenAI uyumlu uç noktaların getirisidir.

Gözlemlenebilirlik ve izleme

İlk günden itibaren izlenecek dört metrik:

  1. Saniye başına jeton sayısı. Hem istem hem de üretim. vLLM bunları Prometheus formatında /metrics üzerinde gösterir.
  2. GPU kullanımı. nvidia-smi veya DCGM. Sürekli olarak <%70 genellikle toplu iş boyutunuzun yanlış olduğu anlamına gelir.
  3. KV önbellek isabet oranı. --enable-prefix-caching ile vLLM bunu raporlar; düşen bir isabet oranı, çıktıya mal olan istem değişikliğini işaret eder.
  4. İstek gecikmesi p50/p95/p99. Standart izlemeyi kullanın; istikrarlı p50 ile tırmanan bir p99, bir isteğin sırayı tıkadığını gösterir.

Dördünü de Grafana'ya veya zaten kullandığınız gözlemlenebilirlik yığınına gönderin.

V4 Temel kontrol noktalarında ince ayar yapma

Temel kontrol noktaları, sürekli ön eğitim ve SFT için mevcuttur. Standart boru hattı:

pip install "torch>=2.6" transformers accelerate peft trl

# V4-Flash-Base üzerinde LoRA ile standart SFT
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

V4-Pro üzerinde tam parametre ince ayarı ciddi bir araştırma görevidir. V4-Flash-Base üzerindeki LoRA adaptörleri çoğu ekip için gerçekçi tavan; çok fazla kalite kazancı, işlem gücünün bir kısmı.

Yaygın tuzaklar

  1. Başlangıçta OOM. Genellikle ya --max-model-len VRAM'in izin verdiğinden daha yüksek ayarlanmıştır ya da --tensor-parallel-size çok düşüktür. Bağlamı yarıya indirin veya paralelliği iki katına çıkarın.
  2. Yavaş ilk istek. vLLM çekirdekleri tembelce derler. Şekil başına ilk çağrı her zaman yavaştır; sahte bir istekle ısıtın.
  3. Araç kullanımı ayrıştırma hataları. DeepSeek kodlama şeması OpenAI'den biraz farklıdır. SDK'nızı V4'ü açıkça destekleyen bir sürüme sabitleyin.
  4. Eski kartlarda FP8 hataları. A100'ler doğal olarak FP8'i desteklemez. Hopper öncesi her şeyde BF16 kullanın; kabaca 2 kat VRAM bekleyin.

Kendi kendine barındırma ne zaman kârlı olur?

Barındırılan DeepSeek V4 fiyatlandırmasına dayalı yaklaşık başabaş matematik:

V4-Flash için başabaş noktası, üretim karışımlarında ayda yaklaşık 100B jetonda oturur. Bunun altında, barındırılan API daha ucuzdur ve operasyonel maliyet buna değmez.

SSS

V4-Flash'i tek bir A100 üzerinde çalıştırabilir miyim?Yoğun niceleme ve daha kısa bağlamda, evet, ancak yavaşça. 80GB A100'de INT4, 5 ila 15 jeton/sn çalışır. H100, mimarinin gerçekten çalışmak istediği yerdir.

V4, LoRA ince ayarını destekliyor mu?Evet. Temel kontrol noktalarını ve standart TRL veya Axolotl boru hatlarını kullanın. MoE yönlendirmesi LoRA matematiğini değiştirmez.

Yerel sunucu OpenAI uyumlu mu?Evet. vLLM ve SGLang her ikisi de OpenAI istek şekliyle /v1/chat/completions ve /v1/completions'ı ortaya koyar. Barındırılan API kılavuzu, localhost'a karşı değişmeden çalışır.

Yerel olarak düşünme modunu nasıl etkinleştiririm?İstek gövdesine thinking_mode: "thinking" veya "thinking_max" geçirin. vLLM ve SGLang, bayrağı modele iletir.

Yerel bir V4 sunucusundan akış yapabilir miyim?Evet. OpenAI'ye veya barındırılan DeepSeek API'sine karşı olduğu gibi stream: true olarak ayarlayın.

Donanım satın almadan önce deneme yapmanın en ucuz yolu nedir?Birkaç saatliğine RunPod veya Lambda'dan tek bir H100 kiralayın, V4-Flash'i INT4'te çalıştırın ve gerçek istemlerinize karşı çıktıyı ölçün. 10 ila 30 dolarlık bir test, donanım sorusunu bir haftalık planlamadan daha hızlı yanıtlar.

button

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin