DeepSeek V4 dirilis pada 23 April 2026 dengan bobot berlisensi MIT di Hugging Face. Pilihan lisensi tunggal itu mengubah perhitungan bagi tim mana pun yang menginginkan AI garis depan pada perangkat keras mereka sendiri. V4-Flash (total 284B, aktif 13B) dapat dijalankan pada sepasang H100 di FP8. V4-Pro (total 1.6T, aktif 49B) membutuhkan klaster tetapi berjalan secara kompetitif dengan GPT-5.5 dan Claude Opus 4.6 dalam hal kode dan penalaran.
Panduan ini adalah panduan penerapan lokal. Ini mencakup persyaratan perangkat keras, opsi kuantisasi, pengaturan vLLM dan SGLang, konfigurasi penggunaan alat, dan alur kerja pengujian di Apidog yang memvalidasi server lokal sebelum Anda mengarahkan lalu lintas produksi ke sana.
Untuk gambaran umum produk, lihat apa itu DeepSeek V4. Untuk jalur API yang dihosting, lihat cara menggunakan DeepSeek V4 API. Untuk perbandingan biaya, lihat harga DeepSeek V4 API.
TL;DR
- V4-Flash berjalan pada 2 × H100 80GB di FP8, atau 1 × H100 di INT4. Bobot sekitar ~500GB di FP8.
- V4-Pro membutuhkan 16+ H100 di FP8 untuk throughput produksi; bukan model laptop.
- vLLM adalah jalur tercepat ke server yang kompatibel dengan OpenAI.
vllm>=0.9.0menambahkan dukungan V4. - SGLang adalah alternatif untuk tim yang menginginkan fitur penggunaan alat dan keluaran terstruktur yang lebih baik.
- Kuantisasi ke **AWQ INT4** atau **GPTQ INT4** memungkinkan V4-Flash berjalan pada satu kartu 80GB dengan kehilangan kualitas sekitar ~5%.
- Gunakan Apidog untuk mengarahkan ke
http://localhost:8000/v1dan gunakan kembali koleksi persis yang Anda gunakan untuk API yang dihosting.
Siapa yang Seharusnya Melakukan Self-Hosting
Self-hosting V4 adalah pilihan yang tepat untuk tiga jenis tim.
- Terikat kepatuhan. Pekerjaan di bidang kesehatan, keuangan, hukum, atau pertahanan di mana data tidak boleh keluar dari jaringan. Lisensi MIT bobot terbuka berarti tidak ada perjanjian penggunaan, tidak ada aliran data lintas batas.
- Beban kerja besar dan stabil. Dengan tingkat kegagalan cache, V4-Pro API berharga $1.74 / Juta input dan $3.48 / Juta output. Untuk beban kerja di atas sekitar 200 miliar token per bulan, perangkat keras khusus mulai mengalahkan ekonomi bayar per token.
- Fine-tuning dan penelitian. Checkpoint Dasar ada secara khusus untuk pra-pelatihan berkelanjutan dan adaptasi domain. Lisensi MIT mencakup redistribusi komersial dari model yang dihasilkan.
Siapa yang tidak boleh melakukan self-hosting: pembuat prototipe, tim tanpa pengalaman operasi GPU, dan siapa pun yang beban kerjanya sesuai dengan penggunaan API yang dihosting kurang dari $200/bulan. Overhead operasional akan dengan cepat menghabiskan penghematan biaya pada skala kecil.
Persyaratan Perangkat Keras
DeepSeek V4 menggunakan presisi campuran FP4 + FP8 secara native. Itu berarti perhitungan memori lebih ramah daripada yang disarankan oleh perhitungan jumlah parameter yang naif.
| Varian | Total parameter | Parameter aktif | VRAM FP8 | VRAM INT4 | Kartu minimum |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) atau 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) atau 8 × H100 (INT4) |
Beberapa klarifikasi:
- Memori MoE bersifat total, bukan aktif. Anda membutuhkan VRAM yang cukup untuk semua pakar, meskipun hanya sebagian kecil yang aktif per token. Angka "aktif" 13B hanya mencerminkan biaya komputasi per token, bukan memori.
- H200 dan MI300X dapat digunakan dengan mudah. 141GB atau 192GB per kartu berarti lebih sedikit kartu untuk model yang sama.
- GPU Konsumen tidak cocok. Bahkan V4-Flash di INT4 tidak berjalan di RTX 5090 24GB.
- Apple Silicon: M3 Max dan M4 Max dengan memori terpadu 128GB dapat menjalankan V4-Flash pada kuantisasi berat, tetapi lambat. Ini adalah mainan kotak pengembang, bukan target penerapan.
Langkah 1: Unduh bobot
Repositori resmi:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BasedanDeepSeek-V4-Pro-Baseuntuk fine-tuning.
Instal CLI dan tarik:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Sediakan ~500GB ruang disk untuk V4-Flash dan beberapa terabita untuk V4-Pro. ModelScope (modelscope.cn) mencerminkan checkpoint yang sama dan biasanya lebih cepat untuk pengguna di Tiongkok.
Langkah 2: Pilih mesin penyaji
Ada dua mesin penting: vLLM dan SGLang.
- vLLM. Throughput terbaik, antarmuka yang paling kompatibel dengan OpenAI, komunitas terbesar. Pilihan default.
- SGLang. Primitif penggunaan alat yang lebih baik, keluaran terstruktur, dan beberapa keuntungan pada konteks panjang. Pilih ini jika beban kerja Anda sangat bergantung pada pemanggilan fungsi.
Keduanya mendukung V4 secara langsung pada versi yang dirilis minggu ini.
Langkah 3: Sajikan V4-Flash dengan vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Flag yang perlu diketahui:
--tensor-parallel-size 2membagi model di 2 H100. Tingkatkan untuk lebih banyak kartu.--max-model-len 1048576mengaktifkan jendela konteks 1 juta token penuh. Turunkan ke 131072 jika tidak membutuhkannya; konteks yang lebih pendek membebaskan VRAM.--enable-prefix-cachingmencerminkan harga cache-hit API yang dihosting secara lokal. Efeknya sama: awalan yang berulang berjalan jauh lebih cepat.--dtype automenghormati presisi campuran FP8 dari V4.
Setelah server aktif, setiap klien yang kompatibel dengan OpenAI dapat bekerja dengan http://localhost:8000/v1.
Langkah 4: Sajikan V4-Pro dengan vLLM
V4-Pro membutuhkan klaster. Bentuk perintah tidak berubah, hanya paralelismenya.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Konteks diturunkan menjadi 512K di sini agar pas dengan nyaman di kotak 16-H100; kembalikan ke 1M jika VRAM memungkinkan. Paralelisme pipeline ditambah paralelisme tensor adalah bentuk umum untuk penerapan lintas-node.
Langkah 5: Sajikan dengan SGLang (alternatif penggunaan alat)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang mengekspos antarmuka yang sama yang kompatibel dengan OpenAI di http://localhost:30000/v1. DSL lang-nya memberikan primitif pemanggilan fungsi dan mode JSON yang lebih bersih daripada panduan skema JSON vLLM.
Langkah 6: Kuantisasi untuk kotak GPU tunggal
Kuantisasi INT4 menjalankan V4-Flash pada satu kartu 80GB dengan penurunan kualitas yang terukur namun kecil. Ada dua jalur.
AWQ (direkomendasikan)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Ikuti resep kuantisasi GPTQ; pola serupa dengan AWQ.
Sajikan checkpoint yang telah dikuantisasi dengan vLLM dengan meneruskan --quantization awq atau --quantization gptq saat peluncuran.
Langkah 7: Uji dengan Apidog
Jangan kirim lalu lintas produksi ke server lokal yang baru. Validasi terlebih dahulu.

- Unduh Apidog.
- Buat koleksi yang diarahkan ke
http://localhost:8000/v1/chat/completions. - Tempel prompt uji yang sama yang Anda gunakan untuk API yang dihosting. Bandingkan responsnya secara berdampingan.
- Akses endpoint dengan uji konteks 500K-token untuk memastikan cache KV berfungsi.
- Jalankan alur pemanggilan alat secara end-to-end sebelum Anda menghubungkan loop agen.
Koleksi persis yang Anda gunakan untuk DeepSeek V4 API yang dihosting berfungsi dengan server lokal hanya dengan satu perubahan URL dasar; itulah keuntungan dari endpoint yang kompatibel dengan OpenAI.
Observabilitas dan Pemantauan
Empat metrik yang harus dilacak sejak hari pertama:
- Token per detik. Baik prompt maupun generasi. vLLM mengekspos ini di
/metricsdalam format Prometheus. - Pemanfaatan GPU.
nvidia-smiatau DCGM. Keberlanjutan <70% biasanya berarti ukuran batch Anda salah. - Tingkat hit cache KV. Dengan
--enable-prefix-caching, vLLM melaporkan ini; tingkat hit yang menurun menandakan pergantian prompt yang mengurangi throughput. - Latensi permintaan p50/p95/p99. Gunakan pelacakan standar; p99 yang meningkat dengan p50 yang stabil berarti satu bentuk permintaan menghambat antrean.
Kirim keempatnya ke Grafana atau tumpukan observabilitas apa pun yang sudah Anda jalankan.
Fine-tuning Checkpoint Dasar V4
Checkpoint Dasar ada untuk pra-pelatihan berkelanjutan dan SFT. Pipeline standar:
pip install "torch>=2.6" transformers accelerate peft trl
# SFT Standar dengan LoRA pada V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Fine-tuning parameter penuh pada V4-Pro adalah tugas penelitian yang serius. Adaptor LoRA pada V4-Flash-Base adalah batas realistis bagi sebagian besar tim; banyak peningkatan kualitas, dengan sebagian kecil komputasi.
Kesalahan umum
- OOM saat mulai. Biasanya
--max-model-lendiatur lebih tinggi dari yang diizinkan VRAM atau--tensor-parallel-sizediatur terlalu rendah. Kurangi konteks menjadi setengahnya atau gandakan paralelisme. - Permintaan pertama lambat. vLLM mengompilasi kernel secara malas. Panggilan pertama per bentuk selalu lambat; panaskan dengan permintaan dummy.
- Kesalahan penguraian penggunaan alat. Skema encoding DeepSeek sedikit berbeda dari OpenAI. Sematkan SDK Anda ke versi yang secara eksplisit mendukung V4.
- Kesalahan FP8 pada kartu lama. A100 tidak mendukung FP8 secara native. Gunakan BF16 pada apa pun sebelum Hopper; harapkan sekitar 2x VRAM.
Kapan Self-Hosting Menguntungkan
Perhitungan titik impas kasar, berdasarkan harga DeepSeek V4 yang dihosting:
- V4-Flash dengan 200B token input/bulan + 20B token output/bulan: ~$33.6K pada API yang dihosting. Satu kotak 8 × H100 disewa dengan biaya ~$20K/bulan. Self-hosting menang sekitar ~40%.
- V4-Pro dengan 500B input + 50B output per bulan: ~$1.04M pada API yang dihosting. Sebuah klaster 16 × H100 disewa dengan biaya ~$35K/bulan. Self-hosting menang lebih dari 95%.
Titik impas untuk V4-Flash berada di sekitar 100B token/bulan pada campuran produksi. Di bawah itu, API yang dihosting lebih murah dan overhead operasionalnya tidak sepadan.
FAQ
Bisakah saya menjalankan V4-Flash pada satu A100?Pada kuantisasi berat dan konteks yang lebih pendek, ya, tetapi lambat. INT4 pada A100 80GB berjalan 5 hingga 15 tok/dtk. H100 adalah tempat arsitektur ini benar-benar ingin berjalan.
Apakah V4 mendukung fine-tuning LoRA?Ya. Gunakan checkpoint Dasar dan pipeline TRL atau Axolotl standar. Perutean MoE tidak mengubah perhitungan LoRA.
Apakah server lokal kompatibel dengan OpenAI?Ya. vLLM dan SGLang keduanya mengekspos /v1/chat/completions dan /v1/completions dengan bentuk permintaan OpenAI. Panduan API yang dihosting berfungsi tanpa perubahan terhadap localhost.
Bagaimana cara mengaktifkan mode berpikir secara lokal?Teruskan thinking_mode: "thinking" atau "thinking_max" dalam badan permintaan. vLLM dan SGLang meneruskan flag tersebut ke model.
Bisakah saya melakukan streaming dari server V4 lokal?Ya. Atur stream: true persis seperti yang Anda lakukan terhadap OpenAI atau DeepSeek API yang dihosting.
Apa cara termurah untuk bereksperimen sebelum membeli perangkat keras?Sewa satu H100 di RunPod atau Lambda selama beberapa jam, jalankan V4-Flash di INT4, dan ukur throughput terhadap prompt Anda yang sebenarnya. Uji coba $10 hingga $30 menjawab pertanyaan perangkat keras lebih cepat daripada perencanaan seminggu penuh.
