Cara Menjalankan DeepSeek V4 Secara Lokal

Ashley Innocent

Ashley Innocent

24 April 2026

Cara Menjalankan DeepSeek V4 Secara Lokal

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

DeepSeek V4 dirilis pada 23 April 2026 dengan bobot berlisensi MIT di Hugging Face. Pilihan lisensi tunggal itu mengubah perhitungan bagi tim mana pun yang menginginkan AI garis depan pada perangkat keras mereka sendiri. V4-Flash (total 284B, aktif 13B) dapat dijalankan pada sepasang H100 di FP8. V4-Pro (total 1.6T, aktif 49B) membutuhkan klaster tetapi berjalan secara kompetitif dengan GPT-5.5 dan Claude Opus 4.6 dalam hal kode dan penalaran.

Panduan ini adalah panduan penerapan lokal. Ini mencakup persyaratan perangkat keras, opsi kuantisasi, pengaturan vLLM dan SGLang, konfigurasi penggunaan alat, dan alur kerja pengujian di Apidog yang memvalidasi server lokal sebelum Anda mengarahkan lalu lintas produksi ke sana.

tombol

Untuk gambaran umum produk, lihat apa itu DeepSeek V4. Untuk jalur API yang dihosting, lihat cara menggunakan DeepSeek V4 API. Untuk perbandingan biaya, lihat harga DeepSeek V4 API.

TL;DR

Siapa yang Seharusnya Melakukan Self-Hosting

Self-hosting V4 adalah pilihan yang tepat untuk tiga jenis tim.

  1. Terikat kepatuhan. Pekerjaan di bidang kesehatan, keuangan, hukum, atau pertahanan di mana data tidak boleh keluar dari jaringan. Lisensi MIT bobot terbuka berarti tidak ada perjanjian penggunaan, tidak ada aliran data lintas batas.
  2. Beban kerja besar dan stabil. Dengan tingkat kegagalan cache, V4-Pro API berharga $1.74 / Juta input dan $3.48 / Juta output. Untuk beban kerja di atas sekitar 200 miliar token per bulan, perangkat keras khusus mulai mengalahkan ekonomi bayar per token.
  3. Fine-tuning dan penelitian. Checkpoint Dasar ada secara khusus untuk pra-pelatihan berkelanjutan dan adaptasi domain. Lisensi MIT mencakup redistribusi komersial dari model yang dihasilkan.

Siapa yang tidak boleh melakukan self-hosting: pembuat prototipe, tim tanpa pengalaman operasi GPU, dan siapa pun yang beban kerjanya sesuai dengan penggunaan API yang dihosting kurang dari $200/bulan. Overhead operasional akan dengan cepat menghabiskan penghematan biaya pada skala kecil.

Persyaratan Perangkat Keras

DeepSeek V4 menggunakan presisi campuran FP4 + FP8 secara native. Itu berarti perhitungan memori lebih ramah daripada yang disarankan oleh perhitungan jumlah parameter yang naif.

Varian Total parameter Parameter aktif VRAM FP8 VRAM INT4 Kartu minimum
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) atau 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) atau 8 × H100 (INT4)

Beberapa klarifikasi:

Langkah 1: Unduh bobot

Repositori resmi:

Instal CLI dan tarik:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Sediakan ~500GB ruang disk untuk V4-Flash dan beberapa terabita untuk V4-Pro. ModelScope (modelscope.cn) mencerminkan checkpoint yang sama dan biasanya lebih cepat untuk pengguna di Tiongkok.

Langkah 2: Pilih mesin penyaji

Ada dua mesin penting: vLLM dan SGLang.

Keduanya mendukung V4 secara langsung pada versi yang dirilis minggu ini.

Langkah 3: Sajikan V4-Flash dengan vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Flag yang perlu diketahui:

Setelah server aktif, setiap klien yang kompatibel dengan OpenAI dapat bekerja dengan http://localhost:8000/v1.

Langkah 4: Sajikan V4-Pro dengan vLLM

V4-Pro membutuhkan klaster. Bentuk perintah tidak berubah, hanya paralelismenya.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Konteks diturunkan menjadi 512K di sini agar pas dengan nyaman di kotak 16-H100; kembalikan ke 1M jika VRAM memungkinkan. Paralelisme pipeline ditambah paralelisme tensor adalah bentuk umum untuk penerapan lintas-node.

Langkah 5: Sajikan dengan SGLang (alternatif penggunaan alat)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang mengekspos antarmuka yang sama yang kompatibel dengan OpenAI di http://localhost:30000/v1. DSL lang-nya memberikan primitif pemanggilan fungsi dan mode JSON yang lebih bersih daripada panduan skema JSON vLLM.

Langkah 6: Kuantisasi untuk kotak GPU tunggal

Kuantisasi INT4 menjalankan V4-Flash pada satu kartu 80GB dengan penurunan kualitas yang terukur namun kecil. Ada dua jalur.

AWQ (direkomendasikan)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Ikuti resep kuantisasi GPTQ; pola serupa dengan AWQ.

Sajikan checkpoint yang telah dikuantisasi dengan vLLM dengan meneruskan --quantization awq atau --quantization gptq saat peluncuran.

Langkah 7: Uji dengan Apidog

Jangan kirim lalu lintas produksi ke server lokal yang baru. Validasi terlebih dahulu.

Apidog menguji server lokal DeepSeek V4
  1. Unduh Apidog.
  2. Buat koleksi yang diarahkan ke http://localhost:8000/v1/chat/completions.
  3. Tempel prompt uji yang sama yang Anda gunakan untuk API yang dihosting. Bandingkan responsnya secara berdampingan.
  4. Akses endpoint dengan uji konteks 500K-token untuk memastikan cache KV berfungsi.
  5. Jalankan alur pemanggilan alat secara end-to-end sebelum Anda menghubungkan loop agen.

Koleksi persis yang Anda gunakan untuk DeepSeek V4 API yang dihosting berfungsi dengan server lokal hanya dengan satu perubahan URL dasar; itulah keuntungan dari endpoint yang kompatibel dengan OpenAI.

Observabilitas dan Pemantauan

Empat metrik yang harus dilacak sejak hari pertama:

  1. Token per detik. Baik prompt maupun generasi. vLLM mengekspos ini di /metrics dalam format Prometheus.
  2. Pemanfaatan GPU. nvidia-smi atau DCGM. Keberlanjutan <70% biasanya berarti ukuran batch Anda salah.
  3. Tingkat hit cache KV. Dengan --enable-prefix-caching, vLLM melaporkan ini; tingkat hit yang menurun menandakan pergantian prompt yang mengurangi throughput.
  4. Latensi permintaan p50/p95/p99. Gunakan pelacakan standar; p99 yang meningkat dengan p50 yang stabil berarti satu bentuk permintaan menghambat antrean.

Kirim keempatnya ke Grafana atau tumpukan observabilitas apa pun yang sudah Anda jalankan.

Fine-tuning Checkpoint Dasar V4

Checkpoint Dasar ada untuk pra-pelatihan berkelanjutan dan SFT. Pipeline standar:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT Standar dengan LoRA pada V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Fine-tuning parameter penuh pada V4-Pro adalah tugas penelitian yang serius. Adaptor LoRA pada V4-Flash-Base adalah batas realistis bagi sebagian besar tim; banyak peningkatan kualitas, dengan sebagian kecil komputasi.

Kesalahan umum

  1. OOM saat mulai. Biasanya --max-model-len diatur lebih tinggi dari yang diizinkan VRAM atau --tensor-parallel-size diatur terlalu rendah. Kurangi konteks menjadi setengahnya atau gandakan paralelisme.
  2. Permintaan pertama lambat. vLLM mengompilasi kernel secara malas. Panggilan pertama per bentuk selalu lambat; panaskan dengan permintaan dummy.
  3. Kesalahan penguraian penggunaan alat. Skema encoding DeepSeek sedikit berbeda dari OpenAI. Sematkan SDK Anda ke versi yang secara eksplisit mendukung V4.
  4. Kesalahan FP8 pada kartu lama. A100 tidak mendukung FP8 secara native. Gunakan BF16 pada apa pun sebelum Hopper; harapkan sekitar 2x VRAM.

Kapan Self-Hosting Menguntungkan

Perhitungan titik impas kasar, berdasarkan harga DeepSeek V4 yang dihosting:

Titik impas untuk V4-Flash berada di sekitar 100B token/bulan pada campuran produksi. Di bawah itu, API yang dihosting lebih murah dan overhead operasionalnya tidak sepadan.

FAQ

Bisakah saya menjalankan V4-Flash pada satu A100?Pada kuantisasi berat dan konteks yang lebih pendek, ya, tetapi lambat. INT4 pada A100 80GB berjalan 5 hingga 15 tok/dtk. H100 adalah tempat arsitektur ini benar-benar ingin berjalan.

Apakah V4 mendukung fine-tuning LoRA?Ya. Gunakan checkpoint Dasar dan pipeline TRL atau Axolotl standar. Perutean MoE tidak mengubah perhitungan LoRA.

Apakah server lokal kompatibel dengan OpenAI?Ya. vLLM dan SGLang keduanya mengekspos /v1/chat/completions dan /v1/completions dengan bentuk permintaan OpenAI. Panduan API yang dihosting berfungsi tanpa perubahan terhadap localhost.

Bagaimana cara mengaktifkan mode berpikir secara lokal?Teruskan thinking_mode: "thinking" atau "thinking_max" dalam badan permintaan. vLLM dan SGLang meneruskan flag tersebut ke model.

Bisakah saya melakukan streaming dari server V4 lokal?Ya. Atur stream: true persis seperti yang Anda lakukan terhadap OpenAI atau DeepSeek API yang dihosting.

Apa cara termurah untuk bereksperimen sebelum membeli perangkat keras?Sewa satu H100 di RunPod atau Lambda selama beberapa jam, jalankan V4-Flash di INT4, dan ukur throughput terhadap prompt Anda yang sebenarnya. Uji coba $10 hingga $30 menjawab pertanyaan perangkat keras lebih cepat daripada perencanaan seminggu penuh.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.