DeepSeek V4: Was ist das?

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4: Was ist das?

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

DeepSeek veröffentlichte V4 am 23. April 2026, und diese Version ist kein kleines Punkt-Release. Das Labor in Hangzhou veröffentlichte gleichzeitig vier Checkpoints, angeführt von DeepSeek-V4-Pro mit insgesamt 1,6 Billionen Parametern, einer MIT-Lizenz und einem Kontextfenster von 1 Million Tokens. Die kleinere Variante, DeepSeek-V4-Flash, verfügt über 284 Milliarden Parameter mit demselben Kontext und denselben offenen Gewichten. Benchmarks zeigen, dass die Pro-Variante auf LiveCodeBench und Codeforces vor Claude Opus 4.6 liegt und auf MMLU-Pro in Reichweite von GPT-5.4 xHigh ist.

Wenn Sie sich entscheiden müssen, ob Sie Claude, GPT-5.5 oder Qwen gegen DeepSeek V4 austauschen sollen, erklärt dieser Leitfaden, was das Modell ist, was sich gegenüber V3.2 geändert hat, welche architektonischen Entscheidungen die Benchmark-Ergebnisse beeinflussen und wo Sie es heute ausführen können.

Für die passenden Entwickler-Walkthroughs haben wir einen DeepSeek V4 API-Leitfaden, einen Leitfaden zum kostenlosen Zugriff und eine vollständige DeepSeek V4 Anwendungsanleitung. Die Anforderungsstruktur passt sauber zu OpenAIs Format, sodass Sie die Sammlung in Apidog vorab erstellen können, bevor ein Schlüssel in Ihrem Posteingang landet.

Button

TL;DR

Was DeepSeek V4 tatsächlich ist

DeepSeek V4 ist der Nachfolger der V3- und V3.2-Reihen, die das Labor letztes Jahr zu einem bekannten Namen machten. Die Architektur ist immer noch Mixture-of-Experts, aber die Form des Modells hat sich geändert. V4-Pro aktiviert pro Token nur 49 Milliarden seiner 1,6 Billionen Parameter, sodass die Pro-Token-Rechenkosten eher einem 50B dichten Modell ähneln als einem Frontier-System mit Billionen von Parametern. Lesen Sie den vollständigen technischen Bericht auf der DeepSeek V4 Modellkarte.

Vier Checkpoints werden zum Start ausgeliefert:

Alle vier fallen unter MIT, was die eigentliche Neuigkeit ist. GPT-5.5 ist geschlossen und kostet 5 US-Dollar pro Million Eingabe-Tokens; Claude Opus 4.6 ist geschlossen und kostet näher an 15 US-Dollar. DeepSeek V4-Pro hat offene Gewichte, die Sie herunterladen, spiegeln, feinabstimmen und auf Ihrer eigenen Hardware ohne Lizenzgebühren bereitstellen können.

Was sich gegenüber V3.2 geändert hat

V3 war bereits bei der Argumentation und beim Code wettbewerbsfähig. V4 schreibt den Attention-Stack und die Trainingspipeline neu, um gleichzeitig lange Kontexte und Effizienz zu fördern.

Fähigkeit V3.2 V4-Pro
Gesamtparameter 685B 1.6T
Aktive Parameter 37B 49B
Kontextfenster 128K 1M
Inferenz-FLOPs (1M Kontext) baseline 27% von V3.2
KV-Cache (1M Kontext) baseline 10% von V3.2
Präzision FP8 FP4 + FP8 gemischt
Lizenz DeepSeek-Lizenz MIT
Schlussfolgerungsmodi einzeln drei

Drei Dinge treiben den Sprung an. Erstens, ein neuer hybrider Attention-Stack, der Compressed Sparse Attention mit Heavily Compressed Attention paart; daher kommt die 10%-KV-Cache-Zahl. Zweitens, Manifold-Constrained Hyper-Connections, die Gradienten in der Tiefe stabilisieren, die V4 benötigt. Drittens, ein Wechsel zum Muon-Optimierer für schnellere Konvergenz. Der Trainingskorpus wuchs ebenfalls über 32 Billionen Tokens an, und das Post-Training verwendet eine zweistufige Pipeline, die zuerst domänenspezifische Experten kultiviert und sie dann mit On-Policy-Destillation konsolidiert.

Wichtige Benchmarks

DeepSeeks gemeldete Zahlen platzieren V4-Pro an der Spitze für Codierung und Wissen, mit Lücken bei Langkontext-Retrieval.

Für V4-Flash, die kleinere Variante, meldet DeepSeek MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052 und SWE Verified 79.0. Das ist Neuland für ein 13B-aktives Modell, und es ist der Grund, warum Flash der interessante Checkpoint für jeden ist, der auf eigener Hardware bereitstellt. Die vollständige Tabelle finden Sie auf der DeepSeek V4-Flash-Karte.

Die ehrliche Einschätzung: V4-Pro gewinnt bei Code, gewinnt beim offenen faktischen Abruf, liegt bei allgemeinem Wissen hinter Gemini 3.1 Pro und bei den 1M-Token-Abruf-Benchmarks hinter Claude Opus. Wenn Ihre Arbeitslast agentisches Codieren oder reasoning-lastige Analyse ist, ist V4-Pro eine Option. Wenn es um die Nadel im Heuhaufen bei einer Million Tokens geht, hat Claude immer noch die Nase vorn.

Drei Schlussfolgerungsmodi

Jeder V4-Checkpoint bietet drei Schlussfolgerungsstufen, und die Wahl der richtigen ist der größte Kostenhebel.

Wechseln Sie zwischen ihnen mit einem einzelnen thinking_mode Parameter in der API oder einem Flag im lokalen Inferenzskript. DeepSeeks Sampling-Empfehlung ist temperature=1.0, top_p=1.0 für alle drei Modi.

Architektur einfach erklärt

Das V4-Architekturpapier ist dicht, aber drei Entscheidungen erklären die Effizienzgeschichte.

  1. Hybrid-Attention. Die meisten Transformer-Layer verwenden Compressed Sparse Attention, die einen kleinen Pool von hochrelevanten Tokens vollständig berücksichtigt und den Rest komprimiert. Eine Handvoll Layer verwenden Heavily Compressed Attention, die näher an linearen Kosten in Bezug auf die Sequenzlänge liegt. Die Mischung liefert die 27% FLOPs und 10% KV-Cache-Werte bei 1M Tokens.
  2. Manifold-Constrained Hyper-Connections. Anstatt einfacher Residualverbindungen umhüllt V4 die Residuale jeder Schicht mit einer Beschränkung, die Aktivierungen auf einer stabilen Mannigfaltigkeit hält. Der praktische Effekt ist, dass man mehr Schichten stapeln kann, ohne dass ein Gradientenchaos entsteht.
  3. Muon-Optimierer. Ersetzt AdamW für den Großteil des Trainings. Muon konvergiert schneller und verarbeitet die riesigen Gradientennormen, die MoE-Modelle erzeugen, besser als AdamW.

Keine dieser Ideen ist für sich genommen brandneu. Der Beitrag von V4 besteht darin, alle drei auf Billionen-Parameter-Skala zusammenarbeiten zu lassen, ohne das Training zu überlasten.

Verfügbarkeit heute

DeepSeek hat alle vier Checkpoints und die API am selben Tag veröffentlicht. Hier ist der Stand vom 24. April 2026.

Oberfläche Zugang
chat.deepseek.com Kostenloser Web-Chat, V4-Pro Standard, Anmeldung erforderlich
DeepSeek API Live unter api.deepseek.com; Modell-IDs deepseek-v4-pro, deepseek-v4-flash
Hugging Face Gewichte V4-Pro, V4-Flash, beide MIT
ModelScope Gespiegelte Gewichte für Benutzer in China
OpenRouter und Aggregatoren Innerhalb weniger Tage erwartet; typisches DeepSeek-Startmuster
deepseek-chat / deepseek-reasoner Veraltet am 24. Juli 2026

Der Hinweis auf die Veralterung ist hervorzuheben. Wenn Sie deepseek-chat noch in der Produktion verwenden, haben Sie drei Monate Zeit, um auf deepseek-v4-pro oder deepseek-v4-flash zu migrieren.

Wie es sich im Vergleich zu GPT-5.5 und Claude schlägt

Der Drei-Wege-Vergleich, der die meisten Teams wirklich interessiert:

Was man damit bauen kann

Vier Arbeitslasten passen sauber zu V4s Stärken:

  1. Agentische Codierungs-Loops. Die SWE Verified 79.0 und Codeforces 3206 Zahlen deuten direkt auf Multi-Datei-Debugging, Repository-bewusste Refaktorierungen und autonome Testkorrekturen hin. Kombinieren Sie es mit einem guten API-Client wie Apidog, um jede Anfrage und Antwort zu überprüfen, während Sie Prompts optimieren.
  2. Argumentation über lange Dokumente. 1 Million Tokens reichen für die meisten Monorepos, die meisten Verträge und die meisten Forschungskorpora. Think High ist der richtige Modus dafür.
  3. Selbstgehostete KI-Produkte. Wenn Ihre Compliance-Anforderungen eine On-Premise-Inferenz erfordern, ist V4-Flash das erste Open-Weights-Modell, das in Bezug auf die Qualität mit geschlossenen Frontier-APIs konkurrieren kann.
  4. Forschung und Fine-Tuning. Die Basis-Checkpoints sind speziell für das benutzerdefinierte Training gedacht. Kombinieren Sie sie mit einem Domänendatensatz, und Sie erhalten produktionsreife Spezialmodelle.

Wo es nicht passt: Hochvolumen-Klassifizierung, Embedding-Retrieval oder Kurzprompt-Chat. V4-Flash ist dafür immer noch überdimensioniert, und ältere DeepSeek-Checkpoints kosten weniger.

Preise auf einen Blick

DeepSeek hatte zum Zeitpunkt der Verfassung dieses Artikels keine endgültige API-Preisliste veröffentlicht. V3.2 kostete etwa 0,28 US-Dollar pro Million Eingabe-Tokens und 0,42 US-Dollar pro Million Ausgabe-Tokens, und das Labor hat eine Historie, die Preise der V-Serie nahe diesem Minimum zu halten. Erwarten Sie V4-Flash in derselben Preisspanne und V4-Pro mit einem moderaten Aufschlag. Geschlossene Konkurrenten verlangen 5 bis 15 US-Dollar pro Million Eingabe-Tokens, sodass selbst ein dreifacher Sprung von V3.2 DeepSeek weit unter dem Median der Frontier-APIs lässt. Verfolgen Sie die aktuellen Zahlen auf der DeepSeek Preisgestaltungsseite.

So testen Sie V4 heute

Drei Wege, nach Zeit bis zum ersten Token geordnet.

  1. Web-Chat. Öffnen Sie chat.deepseek.com und melden Sie sich an. V4-Pro ist die Standardeinstellung; wechseln Sie im UI zu Think High. Kostenlos, keine Karte erforderlich, funktioniert sofort.
  2. API. Besorgen Sie sich einen Schlüssel, richten Sie Ihren Client auf https://api.deepseek.com aus, stellen Sie "model": "deepseek-v4-pro" ein und legen Sie los. Die Anforderungsstruktur ist OpenAI-kompatibel, sodass jeder bestehende OpenAI-Client mit einem Austausch der Basis-URL funktioniert. Eine vollständige Anleitung finden Sie im DeepSeek V4 API-Leitfaden.
  3. Lokale Gewichte. Von Hugging Face oder ModelScope herunterladen. V4-Flash läuft auf 2 bis 4 H100s; V4-Pro benötigt einen ernsthaften Cluster. Der Inferenzcode befindet sich im Ordner /inference des Modell-Repositorys.

Für die vollständige Anleitung, einschließlich der Apidog-basierten Prompt-Iteration, siehe wie man DeepSeek V4 verwendet. Um die Ausgaben auf Null zu halten, siehe wie man DeepSeek V4 kostenlos verwendet. Laden Sie Apidog herunter und erstellen Sie Ihre Sammlung vorab; das OpenAI-kompatible Format bedeutet, dass eine Anfrage über DeepSeek, OpenAI und jede andere Frontier-API hinweg funktioniert.

FAQ

Ist DeepSeek V4 wirklich Open Source?Ja. Alle vier Checkpoints verfügen über eine MIT-Lizenz, die kommerzielle Nutzung, Modifikation und Weiterverteilung ohne separate Nutzungsvereinbarung erlaubt.

Benötige ich einen GPU-Cluster, um V4-Flash auszuführen?Sie benötigen zwei bis vier H100s oder H200s für V4-Flash bei voller Präzision, weniger, wenn Sie quantisieren. V4-Pro benötigt einen echten Cluster. Wenn Sie V4 ohne Hardware ausprobieren möchten, nutzen Sie die API oder chat.deepseek.com.

Wann ist V4 in der DeepSeek API verfügbar?Es ist bereits seit dem 23. April 2026 live. Die Modell-IDs sind deepseek-v4-pro und deepseek-v4-flash. Die älteren IDs deepseek-chat und deepseek-reasoner werden am 24. Juli 2026 eingestellt.

Wie vergleicht sich V4 mit Kimi und Qwen?V4-Pro erzielt auf den von DeepSeek gemeldeten Tabellen höhere LiveCodeBench- und Codeforces-Werte als Kimi K2 und Qwen 3 Max. Alle drei sind Open-Weights-MoE-Systeme mit ähnlichen Bereitstellungsprofilen. Wählen Sie basierend auf dem Benchmark, der Ihrer Arbeitslast am nächsten kommt.

Kann ich V4 mit meinen eigenen Daten feinabstimmen?Ja. Die Basis-Checkpoints sind dafür vorgesehen; kombinieren Sie sie mit Ihren Domänendaten und einer standardmäßigen SFT-Pipeline. Die MIT-Lizenz deckt die kommerzielle Weiterverteilung des resultierenden Modells ab.

Funktioniert V4 mit meinen bestehenden OpenAI-kompatiblen Tools?Ja. Die API akzeptiert sowohl OpenAI- als auch Anthropic-Nachrichtenformate unter https://api.deepseek.com bzw. https://api.deepseek.com/anthropic. Die meisten bestehenden OpenAI-Clients funktionieren mit einer einzigen Änderung der Basis-URL. Siehe den passenden GPT-5.5 API-Walkthrough für das parallele Muster.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen

DeepSeek V4: Was ist das?