DeepSeek V4 lokal ausführen: Eine Anleitung

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4 lokal ausführen: Eine Anleitung

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

DeepSeek V4 wurde am 23. April 2026 mit MIT-lizenzierten Gewichten auf Hugging Face veröffentlicht. Diese einzelne Lizenzwahl ändert die Rechnung für jedes Team, das Spitzen-KI auf seiner eigenen Hardware betreiben möchte. V4-Flash (insgesamt 284 Mrd., 13 Mrd. aktiv) passt auf ein Paar H100s bei FP8. V4-Pro (insgesamt 1,6 Billionen, 49 Mrd. aktiv) benötigt einen Cluster, läuft aber bei Code und Reasoning wettbewerbsfähig mit GPT-5.5 und Claude Opus 4.6.

Dieser Leitfaden ist die exemplarische Vorgehensweise für die lokale Bereitstellung. Er behandelt Hardware-Anforderungen, Quantisierungsoptionen, vLLM- und SGLang-Setups, die Konfiguration der Tool-Nutzung und einen Test-Workflow in Apidog, der den lokalen Server validiert, bevor Sie Produktionsdaten darauf leiten.

App herunterladen

Für eine Produktübersicht siehe was ist DeepSeek V4. Für den gehosteten API-Pfad siehe wie man die DeepSeek V4 API verwendet. Für den Kostenvergleich siehe DeepSeek V4 API-Preise.

TL;DR

Wer sollte selbst hosten

Das Selbst-Hosting von V4 ist die richtige Entscheidung für drei Arten von Teams.

  1. Compliance-pflichtig. Gesundheitswesen, Finanzen, Recht oder Verteidigung, wo Daten das Netzwerk nicht verlassen dürfen. Open-Weights MIT-Lizenzierung bedeutet keine Nutzungsvereinbarung, keine grenzüberschreitenden Datenflüsse.
  2. Große stabile Workloads. Bei Cache-Miss-Raten kostet die V4-Pro API 1,74 $ / Mio. Eingabe und 3,48 $ / Mio. Ausgabe. Bei Workloads von über etwa 200 Milliarden Tokens pro Monat beginnt dedizierte Hardware, die Pay-per-Token-Wirtschaftlichkeit zu übertreffen.
  3. Feinabstimmung und Forschung. Die Basis-Checkpoints existieren speziell für fortgesetztes Vortraining und Domänenanpassung. Die MIT-Lizenz deckt die kommerzielle Weiterverteilung des resultierenden Modells ab.

Wer nicht selbst hosten sollte: Prototypenentwickler, Teams ohne Erfahrung im GPU-Betrieb und alle, deren Workload in einem gehosteten API-Nutzungsumfang von 200 $/Monat liegt. Der operative Overhead frisst die Kosteneinsparungen bei kleinem Umfang schnell auf.

Hardware-Anforderungen

DeepSeek V4 verwendet nativ FP4 + FP8 gemischte Präzision. Das bedeutet, dass die Speicherberechnung freundlicher ist, als eine naive Parameteranzahl-Berechnung vermuten lässt.

Variante Gesamtparameter Aktive Parameter FP8 VRAM INT4 VRAM Minimale Karten
V4-Flash 284 Mrd. 13 Mrd. ~500 GB ~140 GB 2 × H100 80 GB (FP8) oder 1 × H100 (INT4)
V4-Pro 1,6 Billionen 49 Mrd. ~2,4 TB ~700 GB 16 × H100 80 GB (FP8) oder 8 × H100 (INT4)

Einige Klarstellungen:

Schritt 1: Gewichte herunterladen

Die offiziellen Repositories:

CLI installieren und herunterladen:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Reservieren Sie ~500 GB Speicherplatz für V4-Flash und mehrere Terabyte für V4-Pro. ModelScope (modelscope.cn) spiegelt dieselben Checkpoints wider und ist für Benutzer in China normalerweise schneller.

Schritt 2: Eine Serving-Engine auswählen

Zwei Engines sind wichtig: vLLM und SGLang.

Beide unterstützen V4 ab den diese Woche veröffentlichten Versionen out-of-the-box.

Schritt 3: V4-Flash mit vLLM bereitstellen

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Wichtige Flags:

Sobald der Server läuft, funktioniert jeder OpenAI-kompatible Client mit http://localhost:8000/v1.

Schritt 4: V4-Pro mit vLLM bereitstellen

V4-Pro benötigt einen Cluster. Die Befehlsstruktur ändert sich nicht, nur die Parallelität.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

Der Kontext wird hier auf 512K reduziert, um bequem auf eine 16-H100-Box zu passen; setzen Sie ihn auf 1M zurück, wenn VRAM dies zulässt. Pipeline-Parallelität plus Tensor-Parallelität ist die gängige Form für die knotenübergreifende Bereitstellung.

Schritt 5: Mit SGLang bereitstellen (die Alternative für die Tool-Nutzung)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang stellt dieselbe OpenAI-kompatible Schnittstelle unter http://localhost:30000/v1 bereit. Seine lang-DSL bietet sauberere Primitive für Funktionsaufrufe und den JSON-Modus als vLLMs JSON-Schema-Anleitung.

Schritt 6: Für eine Single-GPU-Box quantisieren

Die INT4-Quantisierung führt V4-Flash auf einer einzelnen 80-GB-Karte mit einem messbaren, aber geringen Qualitätsverlust aus. Zwei Wege.

AWQ (empfohlen)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Follow the GPTQ quantization recipe; similar pattern to AWQ.

Stellen Sie den quantisierten Checkpoint mit vLLM bereit, indem Sie beim Start --quantization awq oder --quantization gptq übergeben.

Schritt 7: Mit Apidog testen

Senden Sie keinen Produktionsverkehr an einen neuen lokalen Server. Validieren Sie ihn zuerst.

  1. Apidog herunterladen.
  2. Erstellen Sie eine Sammlung, die auf http://localhost:8000/v1/chat/completions verweist.
  3. Fügen Sie denselben Test-Prompt ein, den Sie für die gehostete API verwenden. Vergleichen Sie die Antworten nebeneinander.
  4. Greifen Sie den Endpunkt mit einem 500K-Token-Kontexttest an, um zu bestätigen, dass der KV-Cache standhält.
  5. Führen Sie einen Tool-Calling-Workflow Ende-zu-Ende aus, bevor Sie eine Agenten-Schleife verbinden.

Die genaue Sammlung, die Sie für die gehostete DeepSeek V4 API verwenden, funktioniert mit einer lokalen Server-Instanz durch eine einzige Änderung der Basis-URL; das ist der Vorteil von OpenAI-kompatiblen Endpunkten.

Beobachtbarkeit und Überwachung

Vier Metriken, die Sie von Tag eins an verfolgen sollten:

  1. Tokens pro Sekunde. Sowohl Prompt als auch Generierung. vLLM stellt diese unter /metrics im Prometheus-Format bereit.
  2. GPU-Auslastung. nvidia-smi oder DCGM. Eine dauerhafte Auslastung unter 70 % bedeutet normalerweise, dass Ihre Batch-Größe falsch ist.
  3. KV-Cache-Trefferrate. Mit --enable-prefix-caching meldet vLLM dies; eine sinkende Trefferrate deutet auf eine Prompt-Fluktuation hin, die den Durchsatz beeinträchtigt.
  4. Anforderungslatenz p50/p95/p99. Verwenden Sie Standard-Tracing; ein ansteigender p99 bei stabilem p50 bedeutet, dass eine Anforderungsform die Warteschlange blockiert.

Leiten Sie alle vier an Grafana oder Ihren bereits verwendeten Observability-Stack weiter.

Feinabstimmung von V4 Basis-Checkpoints

Die Basis-Checkpoints existieren für fortgesetztes Vortraining und SFT. Die Standard-Pipeline:

pip install "torch>=2.6" transformers accelerate peft trl

# Standard SFT with LoRA on V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

Die Feinabstimmung von V4-Pro mit allen Parametern ist eine ernsthafte Forschungsaufgabe. LoRA-Adapter auf V4-Flash-Base sind für die meisten Teams die realistische Obergrenze; viel Qualitätsgewinn bei einem Bruchteil der Rechenleistung.

Häufige Fallstricke

  1. OOM beim Start. Normalerweise ist entweder --max-model-len höher eingestellt, als VRAM zulässt, oder --tensor-parallel-size ist zu niedrig eingestellt. Halbieren Sie den Kontext oder verdoppeln Sie die Parallelität.
  2. Langsamer erster Request. vLLM kompiliert Kernel lazy. Der erste Aufruf pro Form ist immer langsam; wärmen Sie ihn mit einem Dummy-Request auf.
  3. Fehler beim Parsen der Tool-Nutzung. Das DeepSeek-Kodierungsschema unterscheidet sich geringfügig von dem von OpenAI. Fixieren Sie Ihr SDK auf eine Version, die V4 explizit unterstützt.
  4. FP8-Fehler auf älteren Karten. A100s unterstützen FP8 nicht nativ. Verwenden Sie BF16 für alles vor Hopper; rechnen Sie mit etwa der doppelten VRAM-Menge.

Wann sich das Selbst-Hosting lohnt

Grobe Break-Even-Berechnung, basierend auf den Preisen der gehosteten DeepSeek V4 API:

Der Break-Even-Punkt für V4-Flash liegt bei etwa 100 Mrd. Tokens/Monat bei Produktions-Mixes. Darunter ist die gehostete API günstiger und der operative Aufwand lohnt sich nicht.

FAQ

Kann ich V4-Flash auf einer einzelnen A100 ausführen? Bei starker Quantisierung und kürzerem Kontext, ja, aber langsam. INT4 auf einer 80-GB-A100 läuft mit 5 bis 15 Tokens/s. Die H100 ist dort, wo die Architektur tatsächlich laufen möchte.

Unterstützt V4 LoRA-Feinabstimmung? Ja. Verwenden Sie die Basis-Checkpoints und die Standard-TRL- oder Axolotl-Pipelines. Das MoE-Routing ändert die LoRA-Mathematik nicht.

Ist der lokale Server OpenAI-kompatibel? Ja. vLLM und SGLang stellen beide /v1/chat/completions und /v1/completions mit der OpenAI-Anforderungsform bereit. Der Leitfaden zur gehosteten API funktioniert unverändert mit localhost.

Wie aktiviere ich den Denkmodus lokal? Übergeben Sie thinking_mode: "thinking" oder "thinking_max" im Anforderungs-Body. vLLM und SGLang leiten das Flag an das Modell weiter.

Kann ich von einem lokalen V4-Server streamen? Ja. Setzen Sie stream: true genau wie bei OpenAI oder der gehosteten DeepSeek API.

Was ist der günstigste Weg, um zu experimentieren, bevor man Hardware kauft? Mieten Sie eine einzelne H100 auf RunPod oder Lambda für ein paar Stunden, führen Sie V4-Flash mit INT4 aus und messen Sie den Durchsatz mit Ihren tatsächlichen Prompts. Ein Test für 10 bis 30 $ beantwortet die Hardware-Frage schneller als eine Woche Planung.

App herunterladen

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen