DeepSeek veröffentlichte V4 am 23. April 2026, und diese Version ist kein kleines Punkt-Release. Das Labor in Hangzhou veröffentlichte gleichzeitig vier Checkpoints, angeführt von DeepSeek-V4-Pro mit insgesamt 1,6 Billionen Parametern, einer MIT-Lizenz und einem Kontextfenster von 1 Million Tokens. Die kleinere Variante, DeepSeek-V4-Flash, verfügt über 284 Milliarden Parameter mit demselben Kontext und denselben offenen Gewichten. Benchmarks zeigen, dass die Pro-Variante auf LiveCodeBench und Codeforces vor Claude Opus 4.6 liegt und auf MMLU-Pro in Reichweite von GPT-5.4 xHigh ist.
Wenn Sie sich entscheiden müssen, ob Sie Claude, GPT-5.5 oder Qwen gegen DeepSeek V4 austauschen sollen, erklärt dieser Leitfaden, was das Modell ist, was sich gegenüber V3.2 geändert hat, welche architektonischen Entscheidungen die Benchmark-Ergebnisse beeinflussen und wo Sie es heute ausführen können.
Für die passenden Entwickler-Walkthroughs haben wir einen DeepSeek V4 API-Leitfaden, einen Leitfaden zum kostenlosen Zugriff und eine vollständige DeepSeek V4 Anwendungsanleitung. Die Anforderungsstruktur passt sauber zu OpenAIs Format, sodass Sie die Sammlung in Apidog vorab erstellen können, bevor ein Schlüssel in Ihrem Posteingang landet.
TL;DR
- DeepSeek V4 ist eine Mixture-of-Experts-Familie, die am 23. April 2026 unter der MIT-Lizenz veröffentlicht wurde.
- Vier Checkpoints werden zum Start ausgeliefert: V4-Pro, V4-Pro-Base, V4-Flash und V4-Flash-Base.
- V4-Pro hat insgesamt 1,6 Billionen Parameter mit 49 Milliarden aktiven; V4-Flash hat insgesamt 284 Milliarden mit 13 Milliarden aktiven.
- Beide Varianten verfügen über ein 1M-Token Kontextfenster und drei Schlussfolgerungsmodi: Non-Think, Think High und Think Max.
- Schlagzeilen-Ergebnisse: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (Pro-Variante).
- Die API ist unter
api.deepseek.comlive mitdeepseek-v4-prounddeepseek-v4-flashals Modell-IDs; Gewichte sind auf Hugging Face und ModelScope verfügbar.
Was DeepSeek V4 tatsächlich ist
DeepSeek V4 ist der Nachfolger der V3- und V3.2-Reihen, die das Labor letztes Jahr zu einem bekannten Namen machten. Die Architektur ist immer noch Mixture-of-Experts, aber die Form des Modells hat sich geändert. V4-Pro aktiviert pro Token nur 49 Milliarden seiner 1,6 Billionen Parameter, sodass die Pro-Token-Rechenkosten eher einem 50B dichten Modell ähneln als einem Frontier-System mit Billionen von Parametern. Lesen Sie den vollständigen technischen Bericht auf der DeepSeek V4 Modellkarte.

Vier Checkpoints werden zum Start ausgeliefert:
- DeepSeek-V4-Pro — das Flaggschiff. Insgesamt 1,6 Billionen, 49 Milliarden aktiv, 1M Kontext. Dies ist die Version, die die meisten Teams über die API aufrufen werden.
- DeepSeek-V4-Pro-Base — die vorab trainierte Basis ohne Nachschulung. Zielgruppe sind Forscher und Teams, die benutzerdefinierte Fine-Tunes erstellen.
- DeepSeek-V4-Flash — die Effizienzvariante. Insgesamt 284 Milliarden, 13 Milliarden aktiv, derselbe 1M Kontext. Zielt auf latenzempfindliche Workloads und die lokale Bereitstellung auf zwei oder drei H100s ab.
- DeepSeek-V4-Flash-Base — der passende Basis-Checkpoint für Flash.
Alle vier fallen unter MIT, was die eigentliche Neuigkeit ist. GPT-5.5 ist geschlossen und kostet 5 US-Dollar pro Million Eingabe-Tokens; Claude Opus 4.6 ist geschlossen und kostet näher an 15 US-Dollar. DeepSeek V4-Pro hat offene Gewichte, die Sie herunterladen, spiegeln, feinabstimmen und auf Ihrer eigenen Hardware ohne Lizenzgebühren bereitstellen können.
Was sich gegenüber V3.2 geändert hat
V3 war bereits bei der Argumentation und beim Code wettbewerbsfähig. V4 schreibt den Attention-Stack und die Trainingspipeline neu, um gleichzeitig lange Kontexte und Effizienz zu fördern.
| Fähigkeit | V3.2 | V4-Pro |
|---|---|---|
| Gesamtparameter | 685B | 1.6T |
| Aktive Parameter | 37B | 49B |
| Kontextfenster | 128K | 1M |
| Inferenz-FLOPs (1M Kontext) | baseline | 27% von V3.2 |
| KV-Cache (1M Kontext) | baseline | 10% von V3.2 |
| Präzision | FP8 | FP4 + FP8 gemischt |
| Lizenz | DeepSeek-Lizenz | MIT |
| Schlussfolgerungsmodi | einzeln | drei |
Drei Dinge treiben den Sprung an. Erstens, ein neuer hybrider Attention-Stack, der Compressed Sparse Attention mit Heavily Compressed Attention paart; daher kommt die 10%-KV-Cache-Zahl. Zweitens, Manifold-Constrained Hyper-Connections, die Gradienten in der Tiefe stabilisieren, die V4 benötigt. Drittens, ein Wechsel zum Muon-Optimierer für schnellere Konvergenz. Der Trainingskorpus wuchs ebenfalls über 32 Billionen Tokens an, und das Post-Training verwendet eine zweistufige Pipeline, die zuerst domänenspezifische Experten kultiviert und sie dann mit On-Policy-Destillation konsolidiert.

Wichtige Benchmarks
DeepSeeks gemeldete Zahlen platzieren V4-Pro an der Spitze für Codierung und Wissen, mit Lücken bei Langkontext-Retrieval.

Für V4-Flash, die kleinere Variante, meldet DeepSeek MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052 und SWE Verified 79.0. Das ist Neuland für ein 13B-aktives Modell, und es ist der Grund, warum Flash der interessante Checkpoint für jeden ist, der auf eigener Hardware bereitstellt. Die vollständige Tabelle finden Sie auf der DeepSeek V4-Flash-Karte.
Die ehrliche Einschätzung: V4-Pro gewinnt bei Code, gewinnt beim offenen faktischen Abruf, liegt bei allgemeinem Wissen hinter Gemini 3.1 Pro und bei den 1M-Token-Abruf-Benchmarks hinter Claude Opus. Wenn Ihre Arbeitslast agentisches Codieren oder reasoning-lastige Analyse ist, ist V4-Pro eine Option. Wenn es um die Nadel im Heuhaufen bei einer Million Tokens geht, hat Claude immer noch die Nase vorn.
Drei Schlussfolgerungsmodi
Jeder V4-Checkpoint bietet drei Schlussfolgerungsstufen, und die Wahl der richtigen ist der größte Kostenhebel.
- Non-Think — schneller Pfad. Einmalige Generierung, keine Gedankenketten, keine zusätzlichen Schlussfolgerungs-Tokens. Verwenden Sie dies für Klassifizierung, Routing, Kurzzusammenfassungen und alles, wo Latenz wichtiger ist als Genauigkeit.
- Think High — der Standard für anspruchsvolle Aufgaben. Das Modell schreibt Schlussfolgerungs-Tokens vor der Antwort, plant Tool-Aufrufe und prüft seine Ausgabe. Entspricht dem, was GPT-5.5 als „Denkmodus“ und Claude als „erweitertes Denken“ bezeichnet.
- Think Max — das Maximum. Längere Schlussfolgerungsspuren, aggressivere Selbstkritik und eine Empfehlung für ein Kontextfenster von mindestens 384K Tokens. Dies ist es, was die LiveCodeBench-Zahl von 93.5 erzeugt; erwarten Sie einen entsprechenden Anstieg der Token-Kosten.
Wechseln Sie zwischen ihnen mit einem einzelnen thinking_mode Parameter in der API oder einem Flag im lokalen Inferenzskript. DeepSeeks Sampling-Empfehlung ist temperature=1.0, top_p=1.0 für alle drei Modi.
Architektur einfach erklärt
Das V4-Architekturpapier ist dicht, aber drei Entscheidungen erklären die Effizienzgeschichte.
- Hybrid-Attention. Die meisten Transformer-Layer verwenden Compressed Sparse Attention, die einen kleinen Pool von hochrelevanten Tokens vollständig berücksichtigt und den Rest komprimiert. Eine Handvoll Layer verwenden Heavily Compressed Attention, die näher an linearen Kosten in Bezug auf die Sequenzlänge liegt. Die Mischung liefert die 27% FLOPs und 10% KV-Cache-Werte bei 1M Tokens.
- Manifold-Constrained Hyper-Connections. Anstatt einfacher Residualverbindungen umhüllt V4 die Residuale jeder Schicht mit einer Beschränkung, die Aktivierungen auf einer stabilen Mannigfaltigkeit hält. Der praktische Effekt ist, dass man mehr Schichten stapeln kann, ohne dass ein Gradientenchaos entsteht.
- Muon-Optimierer. Ersetzt AdamW für den Großteil des Trainings. Muon konvergiert schneller und verarbeitet die riesigen Gradientennormen, die MoE-Modelle erzeugen, besser als AdamW.
Keine dieser Ideen ist für sich genommen brandneu. Der Beitrag von V4 besteht darin, alle drei auf Billionen-Parameter-Skala zusammenarbeiten zu lassen, ohne das Training zu überlasten.
Verfügbarkeit heute
DeepSeek hat alle vier Checkpoints und die API am selben Tag veröffentlicht. Hier ist der Stand vom 24. April 2026.
| Oberfläche | Zugang |
|---|---|
| chat.deepseek.com | Kostenloser Web-Chat, V4-Pro Standard, Anmeldung erforderlich |
| DeepSeek API | Live unter api.deepseek.com; Modell-IDs deepseek-v4-pro, deepseek-v4-flash |
| Hugging Face Gewichte | V4-Pro, V4-Flash, beide MIT |
| ModelScope | Gespiegelte Gewichte für Benutzer in China |
| OpenRouter und Aggregatoren | Innerhalb weniger Tage erwartet; typisches DeepSeek-Startmuster |
deepseek-chat / deepseek-reasoner |
Veraltet am 24. Juli 2026 |
Der Hinweis auf die Veralterung ist hervorzuheben. Wenn Sie deepseek-chat noch in der Produktion verwenden, haben Sie drei Monate Zeit, um auf deepseek-v4-pro oder deepseek-v4-flash zu migrieren.
Wie es sich im Vergleich zu GPT-5.5 und Claude schlägt
Der Drei-Wege-Vergleich, der die meisten Teams wirklich interessiert:
- Kosten. V4-Pro und V4-Flash haben offene Gewichte. GPT-5.5 und Claude Opus 4.6 nicht. Wenn Sie selbst hosten können, gewinnt V4 in der Kosteneffizienz bei jeder ernsthaften Skalierung.
- Codierung. Die 93.5 von V4-Pro auf LiveCodeBench und 3206 auf Codeforces übertreffen sowohl die GPT-5.5-Benchmark-Linie als auch Claude Opus in denselben Suiten.
- Wissensbreite. Gemini 3.1 Pro führt MMLU-Pro immer noch mit 91.0 an. GPT-5.5 und V4-Pro liegen mit 87.5 gleichauf. Bei SimpleQA-Verified schlägt V4 GPT-5.5 und Claude um zweistellige Werte.
- Langkontext-Abruf. Claude Opus gewinnt MRCR 1M mit etwa 9 Punkten Vorsprung. Wenn Ihre Arbeitslast „den einen Satz in einer Million Tokens finden“ ist, ist Claude immer noch die sicherere Wahl.
- Lizenz. MIT bedeutet, dass Sie V4-Pro in einem Produkt ausliefern können, ohne eine Nutzungsvereinbarung. Nichts, was OpenAI oder Anthropic anbieten, kommt dem gleich.
Was man damit bauen kann
Vier Arbeitslasten passen sauber zu V4s Stärken:
- Agentische Codierungs-Loops. Die SWE Verified 79.0 und Codeforces 3206 Zahlen deuten direkt auf Multi-Datei-Debugging, Repository-bewusste Refaktorierungen und autonome Testkorrekturen hin. Kombinieren Sie es mit einem guten API-Client wie Apidog, um jede Anfrage und Antwort zu überprüfen, während Sie Prompts optimieren.
- Argumentation über lange Dokumente. 1 Million Tokens reichen für die meisten Monorepos, die meisten Verträge und die meisten Forschungskorpora. Think High ist der richtige Modus dafür.
- Selbstgehostete KI-Produkte. Wenn Ihre Compliance-Anforderungen eine On-Premise-Inferenz erfordern, ist V4-Flash das erste Open-Weights-Modell, das in Bezug auf die Qualität mit geschlossenen Frontier-APIs konkurrieren kann.
- Forschung und Fine-Tuning. Die Basis-Checkpoints sind speziell für das benutzerdefinierte Training gedacht. Kombinieren Sie sie mit einem Domänendatensatz, und Sie erhalten produktionsreife Spezialmodelle.
Wo es nicht passt: Hochvolumen-Klassifizierung, Embedding-Retrieval oder Kurzprompt-Chat. V4-Flash ist dafür immer noch überdimensioniert, und ältere DeepSeek-Checkpoints kosten weniger.
Preise auf einen Blick
DeepSeek hatte zum Zeitpunkt der Verfassung dieses Artikels keine endgültige API-Preisliste veröffentlicht. V3.2 kostete etwa 0,28 US-Dollar pro Million Eingabe-Tokens und 0,42 US-Dollar pro Million Ausgabe-Tokens, und das Labor hat eine Historie, die Preise der V-Serie nahe diesem Minimum zu halten. Erwarten Sie V4-Flash in derselben Preisspanne und V4-Pro mit einem moderaten Aufschlag. Geschlossene Konkurrenten verlangen 5 bis 15 US-Dollar pro Million Eingabe-Tokens, sodass selbst ein dreifacher Sprung von V3.2 DeepSeek weit unter dem Median der Frontier-APIs lässt. Verfolgen Sie die aktuellen Zahlen auf der DeepSeek Preisgestaltungsseite.
So testen Sie V4 heute
Drei Wege, nach Zeit bis zum ersten Token geordnet.
- Web-Chat. Öffnen Sie chat.deepseek.com und melden Sie sich an. V4-Pro ist die Standardeinstellung; wechseln Sie im UI zu Think High. Kostenlos, keine Karte erforderlich, funktioniert sofort.
- API. Besorgen Sie sich einen Schlüssel, richten Sie Ihren Client auf
https://api.deepseek.comaus, stellen Sie"model": "deepseek-v4-pro"ein und legen Sie los. Die Anforderungsstruktur ist OpenAI-kompatibel, sodass jeder bestehende OpenAI-Client mit einem Austausch der Basis-URL funktioniert. Eine vollständige Anleitung finden Sie im DeepSeek V4 API-Leitfaden. - Lokale Gewichte. Von Hugging Face oder ModelScope herunterladen. V4-Flash läuft auf 2 bis 4 H100s; V4-Pro benötigt einen ernsthaften Cluster. Der Inferenzcode befindet sich im Ordner
/inferencedes Modell-Repositorys.
Für die vollständige Anleitung, einschließlich der Apidog-basierten Prompt-Iteration, siehe wie man DeepSeek V4 verwendet. Um die Ausgaben auf Null zu halten, siehe wie man DeepSeek V4 kostenlos verwendet. Laden Sie Apidog herunter und erstellen Sie Ihre Sammlung vorab; das OpenAI-kompatible Format bedeutet, dass eine Anfrage über DeepSeek, OpenAI und jede andere Frontier-API hinweg funktioniert.
FAQ
Ist DeepSeek V4 wirklich Open Source?Ja. Alle vier Checkpoints verfügen über eine MIT-Lizenz, die kommerzielle Nutzung, Modifikation und Weiterverteilung ohne separate Nutzungsvereinbarung erlaubt.
Benötige ich einen GPU-Cluster, um V4-Flash auszuführen?Sie benötigen zwei bis vier H100s oder H200s für V4-Flash bei voller Präzision, weniger, wenn Sie quantisieren. V4-Pro benötigt einen echten Cluster. Wenn Sie V4 ohne Hardware ausprobieren möchten, nutzen Sie die API oder chat.deepseek.com.
Wann ist V4 in der DeepSeek API verfügbar?Es ist bereits seit dem 23. April 2026 live. Die Modell-IDs sind deepseek-v4-pro und deepseek-v4-flash. Die älteren IDs deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 eingestellt.
Wie vergleicht sich V4 mit Kimi und Qwen?V4-Pro erzielt auf den von DeepSeek gemeldeten Tabellen höhere LiveCodeBench- und Codeforces-Werte als Kimi K2 und Qwen 3 Max. Alle drei sind Open-Weights-MoE-Systeme mit ähnlichen Bereitstellungsprofilen. Wählen Sie basierend auf dem Benchmark, der Ihrer Arbeitslast am nächsten kommt.
Kann ich V4 mit meinen eigenen Daten feinabstimmen?Ja. Die Basis-Checkpoints sind dafür vorgesehen; kombinieren Sie sie mit Ihren Domänendaten und einer standardmäßigen SFT-Pipeline. Die MIT-Lizenz deckt die kommerzielle Weiterverteilung des resultierenden Modells ab.
Funktioniert V4 mit meinen bestehenden OpenAI-kompatiblen Tools?Ja. Die API akzeptiert sowohl OpenAI- als auch Anthropic-Nachrichtenformate unter https://api.deepseek.com bzw. https://api.deepseek.com/anthropic. Die meisten bestehenden OpenAI-Clients funktionieren mit einer einzigen Änderung der Basis-URL. Siehe den passenden GPT-5.5 API-Walkthrough für das parallele Muster.
