DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.
Dieser Leitfaden ist die exemplarische Vorgehensweise für die lokale Bereitstellung. Er behandelt Hardware-Anforderungen, Quantisierungsoptionen, vLLM- und SGLang-Setups, die Konfiguration der Tool-Nutzung und einen Test-Workflow in Apidog, der den lokalen Server validiert, bevor Sie Produktionsdaten darauf leiten.
Für eine Produktübersicht siehe was ist DeepSeek V4. Für den gehosteten API-Pfad siehe wie man die DeepSeek V4 API verwendet. Für den Kostenvergleich siehe DeepSeek V4 API-Preise.
TL;DR
- V4-Flash läuft auf 2 × H100 80 GB mit FP8 oder 1 × H100 mit INT4. Die Gewichte betragen bei FP8 ~500 GB.
- V4-Pro benötigt 16+ H100s mit FP8 für den Produktionsdurchsatz; kein Laptop-Modell.
- vLLM ist der schnellste Weg zu einem OpenAI-kompatiblen Server.
vllm>=0.9.0fügt V4-Unterstützung hinzu. - SGLang ist die Alternative für Teams, die bessere Funktionen für die Tool-Nutzung und strukturierte Ausgabe wünschen.
- Quantisierung auf AWQ INT4 oder GPTQ INT4 ermöglicht den Betrieb von V4-Flash auf einer einzelnen 80-GB-Karte mit ~5 % Qualitätsverlust.
- Verwenden Sie Apidog, um auf
http://localhost:8000/v1zu verweisen und genau die Sammlung wiederzuverwenden, die Sie für die gehostete API verwenden.
Wer sollte selbst hosten
Das Selbst-Hosting von V4 ist die richtige Entscheidung für drei Arten von Teams.
- Compliance-pflichtig. Gesundheitswesen, Finanzen, Recht oder Verteidigung, wo Daten das Netzwerk nicht verlassen dürfen. Open-Weights MIT-Lizenzierung bedeutet keine Nutzungsvereinbarung, keine grenzüberschreitenden Datenflüsse.
- Große stabile Workloads. Bei Cache-Miss-Raten kostet die V4-Pro API 1,74 $ / Mio. Eingabe und 3,48 $ / Mio. Ausgabe. Bei Workloads von über etwa 200 Milliarden Tokens pro Monat beginnt dedizierte Hardware, die Pay-per-Token-Wirtschaftlichkeit zu übertreffen.
- Feinabstimmung und Forschung. Die Basis-Checkpoints existieren speziell für fortgesetztes Vortraining und Domänenanpassung. Die MIT-Lizenz deckt die kommerzielle Weiterverteilung des resultierenden Modells ab.
Wer nicht selbst hosten sollte: Prototypenentwickler, Teams ohne Erfahrung im GPU-Betrieb und alle, deren Workload in einem gehosteten API-Nutzungsumfang von 200 $/Monat liegt. Der operative Overhead frisst die Kosteneinsparungen bei kleinem Umfang schnell auf.
Hardware-Anforderungen
DeepSeek V4 verwendet nativ FP4 + FP8 gemischte Präzision. Das bedeutet, dass die Speicherberechnung freundlicher ist, als eine naive Parameteranzahl-Berechnung vermuten lässt.
| Variante | Gesamtparameter | Aktive Parameter | FP8 VRAM | INT4 VRAM | Minimale Karten |
|---|---|---|---|---|---|
| V4-Flash | 284 Mrd. | 13 Mrd. | ~500 GB | ~140 GB | 2 × H100 80 GB (FP8) oder 1 × H100 (INT4) |
| V4-Pro | 1,6 Billionen | 49 Mrd. | ~2,4 TB | ~700 GB | 16 × H100 80 GB (FP8) oder 8 × H100 (INT4) |
Einige Klarstellungen:
- MoE-Speicher ist Gesamt-, nicht Aktivspeicher. Sie benötigen genug VRAM für alle Experten, auch wenn pro Token nur eine Teilmenge aktiv ist. Die Zahl von 13 Mrd. „aktiv“ spiegelt nur die Rechenkosten pro Token wider, nicht den Speicher.
- H200 und MI300X lassen sich sauber austauschen. 141 GB oder 192 GB pro Karte bedeuten weniger Karten für dasselbe Modell.
- Consumer-GPUs sind nicht geeignet. Selbst V4-Flash mit INT4 läuft nicht auf einer 24-GB-RTX 5090.
- Apple Silicon: M3 Max und M4 Max mit 128 GB Unified Memory können V4-Flash mit starker Quantisierung langsam ausführen. Es ist ein Spielzeug für Entwickler, kein Bereitstellungsziel.
Schritt 1: Gewichte herunterladen
Die offiziellen Repositories:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BaseundDeepSeek-V4-Pro-Basezur Feinabstimmung.
CLI installieren und herunterladen:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Reservieren Sie ~500 GB Speicherplatz für V4-Flash und mehrere Terabyte für V4-Pro. ModelScope (modelscope.cn) spiegelt dieselben Checkpoints wider und ist für Benutzer in China normalerweise schneller.
Schritt 2: Eine Serving-Engine auswählen
Zwei Engines sind wichtig: vLLM und SGLang.
- vLLM. Bester Durchsatz, sauberste OpenAI-kompatible Schnittstelle, größte Community. Standardwahl.
- SGLang. Bessere Tool-Nutzungs-Primitive, strukturierte Ausgabe und einige Vorteile bei langem Kontext. Wählen Sie dies, wenn Ihr Workload stark auf Funktionsaufrufe angewiesen ist.
Beide unterstützen V4 ab den diese Woche veröffentlichten Versionen out-of-the-box.
Schritt 3: V4-Flash mit vLLM bereitstellen
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Wichtige Flags:
--tensor-parallel-size 2teilt das Modell auf 2 H100s auf. Erhöhen Sie dies für mehr Karten.--max-model-len 1048576aktiviert das volle 1M-Token-Kontextfenster. Reduzieren Sie auf 131072, wenn Sie es nicht benötigen; kürzerer Kontext gibt VRAM frei.--enable-prefix-cachingspiegelt die Cache-Hit-Preise der gehosteten API lokal wider. Gleicher Effekt: Wiederholte Präfixe laufen viel schneller.--dtype autoberücksichtigt die FP8-Mischpräzision von V4.
Sobald der Server läuft, funktioniert jeder OpenAI-kompatible Client mit http://localhost:8000/v1.
Schritt 4: V4-Pro mit vLLM bereitstellen
V4-Pro benötigt einen Cluster. Die Befehlsstruktur ändert sich nicht, nur die Parallelität.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
Der Kontext wird hier auf 512K reduziert, um bequem auf eine 16-H100-Box zu passen; setzen Sie ihn auf 1M zurück, wenn VRAM dies zulässt. Pipeline-Parallelität plus Tensor-Parallelität ist die gängige Form für die knotenübergreifende Bereitstellung.
Schritt 5: Mit SGLang bereitstellen (die Alternative für die Tool-Nutzung)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang stellt dieselbe OpenAI-kompatible Schnittstelle unter http://localhost:30000/v1 bereit. Seine lang-DSL bietet sauberere Primitive für Funktionsaufrufe und den JSON-Modus als vLLMs JSON-Schema-Anleitung.
Schritt 6: Für eine Single-GPU-Box quantisieren
Die INT4-Quantisierung führt V4-Flash auf einer einzelnen 80-GB-Karte mit einem messbaren, aber geringen Qualitätsverlust aus. Zwei Wege.
AWQ (empfohlen)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Follow the GPTQ quantization recipe; similar pattern to AWQ.
Stellen Sie den quantisierten Checkpoint mit vLLM bereit, indem Sie beim Start --quantization awq oder --quantization gptq übergeben.
Schritt 7: Mit Apidog testen
Senden Sie keinen Produktionsverkehr an einen neuen lokalen Server. Validieren Sie ihn zuerst.

- Apidog herunterladen.
- Erstellen Sie eine Sammlung, die auf
http://localhost:8000/v1/chat/completionsverweist. - Fügen Sie denselben Test-Prompt ein, den Sie für die gehostete API verwenden. Vergleichen Sie die Antworten nebeneinander.
- Greifen Sie den Endpunkt mit einem 500K-Token-Kontexttest an, um zu bestätigen, dass der KV-Cache standhält.
- Führen Sie einen Tool-Calling-Workflow Ende-zu-Ende aus, bevor Sie eine Agenten-Schleife verbinden.
Die genaue Sammlung, die Sie für die gehostete DeepSeek V4 API verwenden, funktioniert mit einer lokalen Server-Instanz durch eine einzige Änderung der Basis-URL; das ist der Vorteil von OpenAI-kompatiblen Endpunkten.
Beobachtbarkeit und Überwachung
Vier Metriken, die Sie von Tag eins an verfolgen sollten:
- Tokens pro Sekunde. Sowohl Prompt als auch Generierung. vLLM stellt diese unter
/metricsim Prometheus-Format bereit. - GPU-Auslastung.
nvidia-smioder DCGM. Eine dauerhafte Auslastung unter 70 % bedeutet normalerweise, dass Ihre Batch-Größe falsch ist. - KV-Cache-Trefferrate. Mit
--enable-prefix-cachingmeldet vLLM dies; eine sinkende Trefferrate deutet auf eine Prompt-Fluktuation hin, die den Durchsatz beeinträchtigt. - Anforderungslatenz p50/p95/p99. Verwenden Sie Standard-Tracing; ein ansteigender p99 bei stabilem p50 bedeutet, dass eine Anforderungsform die Warteschlange blockiert.
Leiten Sie alle vier an Grafana oder Ihren bereits verwendeten Observability-Stack weiter.
Feinabstimmung von V4 Basis-Checkpoints
Die Basis-Checkpoints existieren für fortgesetztes Vortraining und SFT. Die Standard-Pipeline:
pip install "torch>=2.6" transformers accelerate peft trl
# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
Die Feinabstimmung von V4-Pro mit allen Parametern ist eine ernsthafte Forschungsaufgabe. LoRA-Adapter auf V4-Flash-Base sind für die meisten Teams die realistische Obergrenze; viel Qualitätsgewinn bei einem Bruchteil der Rechenleistung.
Häufige Fallstricke
- OOM beim Start. Normalerweise ist entweder
--max-model-lenhöher eingestellt, als VRAM zulässt, oder--tensor-parallel-sizeist zu niedrig eingestellt. Halbieren Sie den Kontext oder verdoppeln Sie die Parallelität. - Langsamer erster Request. vLLM kompiliert Kernel lazy. Der erste Aufruf pro Form ist immer langsam; wärmen Sie ihn mit einem Dummy-Request auf.
- Fehler beim Parsen der Tool-Nutzung. Das DeepSeek-Kodierungsschema unterscheidet sich geringfügig von dem von OpenAI. Fixieren Sie Ihr SDK auf eine Version, die V4 explizit unterstützt.
- FP8-Fehler auf älteren Karten. A100s unterstützen FP8 nicht nativ. Verwenden Sie BF16 für alles vor Hopper; rechnen Sie mit etwa der doppelten VRAM-Menge.
Wann sich das Selbst-Hosting lohnt
Grobe Break-Even-Berechnung, basierend auf den Preisen der gehosteten DeepSeek V4 API:
- V4-Flash bei 200 Mrd. Eingabe-Tokens/Monat + 20 Mrd. Ausgabe-Tokens/Monat: ~33,6 Tsd. $ bei der gehosteten API. Eine 8 × H100 Box kostet ~20 Tsd. $/Monat Miete. Selbst-Hosting gewinnt um ~40 %.
- V4-Pro bei 500 Mrd. Eingabe + 50 Mrd. Ausgabe pro Monat: ~1,04 Mio. $ bei der gehosteten API. Ein 16 × H100 Cluster kostet ~35 Tsd. $/Monat Miete. Selbst-Hosting gewinnt um über 95 %.
Der Break-Even-Punkt für V4-Flash liegt bei etwa 100 Mrd. Tokens/Monat bei Produktions-Mixes. Darunter ist die gehostete API günstiger und der operative Aufwand lohnt sich nicht.
FAQ
Kann ich V4-Flash auf einer einzelnen A100 ausführen? Bei starker Quantisierung und kürzerem Kontext, ja, aber langsam. INT4 auf einer 80-GB-A100 läuft mit 5 bis 15 Tokens/s. Die H100 ist dort, wo die Architektur tatsächlich laufen möchte.
Unterstützt V4 LoRA-Feinabstimmung? Ja. Verwenden Sie die Basis-Checkpoints und die Standard-TRL- oder Axolotl-Pipelines. Das MoE-Routing ändert die LoRA-Mathematik nicht.
Ist der lokale Server OpenAI-kompatibel? Ja. vLLM und SGLang stellen beide /v1/chat/completions und /v1/completions mit der OpenAI-Anforderungsform bereit. Der Leitfaden zur gehosteten API funktioniert unverändert mit localhost.
Wie aktiviere ich den Denkmodus lokal? Übergeben Sie thinking_mode: "thinking" oder "thinking_max" im Anforderungs-Body. vLLM und SGLang leiten das Flag an das Modell weiter.
Kann ich von einem lokalen V4-Server streamen? Ja. Setzen Sie stream: true genau wie bei OpenAI oder der gehosteten DeepSeek API.
Was ist der günstigste Weg, um zu experimentieren, bevor man Hardware kauft? Mieten Sie eine einzelne H100 auf RunPod oder Lambda für ein paar Stunden, führen Sie V4-Flash mit INT4 aus und messen Sie den Durchsatz mit Ihren tatsächlichen Prompts. Ein Test für 10 bis 30 $ beantwortet die Hardware-Frage schneller als eine Woche Planung.
