DeepSeek V4 API Preise

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4 API Preise

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

DeepSeek veröffentlichte die V4-Preise am selben Tag, an dem die Modelle herauskamen, dem 23. April 2026, und die Zahlen setzten den Grundstein für die Frontier-KI neu. V4-Flash kostet $0,14 pro Million Eingabetokens und $0,28 pro Million Ausgabetokens. V4-Pro kostet $1,74 pro Eingabe und $3,48 pro Ausgabe. Beide verfügen über ein 1M-Token-Kontextfenster und bis zu 384K Ausgabetokens. Beide bieten auch einen aggressiven Cache-Hit-Rabatt, der die Eingabekosten bei wiederholten Prompts um 80% bis 90% senkt.

Dieser Leitfaden behandelt die vollständige Preisliste, wie das Kontext-Caching die tatsächlichen Kosten pro Aufruf verändert, einen ehrlichen Vergleich mit GPT-5.5 und Claude Opus sowie vier Möglichkeiten, die Ausgaben in Apidog vorhersehbar zu halten.

Button

Eine Produktübersicht finden Sie unter Was ist DeepSeek V4. Eine Entwickleranleitung finden Sie unter Wie man die DeepSeek V4 API verwendet. Für kostenlose Pfade siehe Wie man DeepSeek V4 kostenlos nutzt.

TL;DR

Die vollständige Preisliste

Modell Eingabe (Cache-Fehlzugriff) Eingabe (Cache-Treffer) Ausgabe Kontext
deepseek-v4-flash $0,14 / M $0,028 / M $0,28 / M 1M / 384K
deepseek-v4-pro $1,74 / M $0,145 / M $3,48 / M 1M / 384K
deepseek-chat (veraltet 24.07.2026) entspricht V4-Flash Non-Thinking
deepseek-reasoner (veraltet 24.07.2026) entspricht V4-Flash Thinking

Drei Details sind wichtiger als die reinen Zahlen.

Erstens sind die Preise gleich, ob Sie sich im Denkmodus oder im Nicht-Denkmodus befinden. Die Modell-ID legt den Tarif fest; der Reasoning-Modus ändert lediglich, wie viele Tokens Sie zu diesem Tarif verbrauchen.

Zweitens ist die Cache-Hit-Preisgestaltung automatisch. Jede Anfrage mit einem wiederholten Präfix für dasselbe Konto profitiert; Sie müssen sich nicht anmelden oder etwas konfigurieren. Präfixe müssen mindestens 1.024 Tokens lang sein und Byte für Byte übereinstimmen.

Drittens werden die älteren IDs deepseek-chat und deepseek-reasoner jetzt als V4-Flash-Aliase abgerechnet. Wenn Sie noch nicht migriert haben, erhalten Sie bereits V4-Flash-Qualität zu V4-Flash-Preisen; die Frist für die Einstellung der ID ist der 24. Juli 2026.

Kontext-Caching einfach erklärt

Caching ist der größte Kostenhebel bei DeepSeek V4. Das Prinzip ist einfach: Alles, was sich über Aufrufe hinweg wiederholt, insbesondere lange System-Prompts, Agenten-Tool-Schemata und RAG-Kontext, wird ab dem zweiten und den folgenden Aufrufen nur noch zu einem Bruchteil des vollen Eingabetarifs abgerechnet.

Ein konkretes Beispiel. Sie führen einen Agenten mit einem 20.000 Token langen System-Prompt aus, der sich nie ändert, und stellen dann 100 verschiedene Benutzerfragen von jeweils 200 Tokens.

Ohne Caching:

Mit Caching (erster Aufruf verfehlt, nächste 99 treffen):

Ungefähr 7x günstiger bei gleicher Arbeitslast. Der Caching-Effekt ist bei V4-Flash, wo der Grundtarif ohnehin niedrig ist, sogar noch dramatischer.

Der Vergleich mit GPT-5.5 und Claude

Der Vergleich, der die meisten Teams tatsächlich interessiert:

Modell Eingabe (Standard) Eingabe (gecached) Ausgabe Kontext
DeepSeek V4-Flash $0,14 / M $0,028 / M $0,28 / M 1M
DeepSeek V4-Pro $1,74 / M $0,145 / M $3,48 / M 1M
GPT-5.5 $5 / M $1,25 / M $30 / M 1M
GPT-5.5 Pro $30 / M $180 / M 1M
Claude Opus 4.6 $15 / M $1,50 / M $75 / M 200K

Drei Interpretationen dieser Tabelle.

  1. Bei den Ausgabetokens ist V4-Pro ungefähr 8,6x günstiger als GPT-5.5 und 21x günstiger als Claude Opus 4.6. Die Ausgabe ist der Bereich, in dem die meisten Agenten-Workloads ihr Budget verbrauchen; der Unterschied potenziert sich.
  2. Bei gecachter Eingabe ist V4-Pro ungefähr 10x günstiger als gecachtes GPT-5.5 und 10x günstiger als gecachtes Claude. Lange System-Prompts, Tool-Schemata und wiederholte RAG-Kontexte wirken sich hier am stärksten aus.
  3. Beim rohen Benchmark-Verhältnis erreicht oder übertrifft V4-Pro GPT-5.5 bei LiveCodeBench (93,5 gegenüber der höchsten Stufe) und Codeforces (3206 gegenüber 3168), während es nur einen Bruchteil kostet. Das ist der Kern des Wertversprechens von Open-Weights. Eine vollständige Benchmark-Tabelle finden Sie unter Was ist DeepSeek V4.

Die ehrlichen Vorbehalte: Claude schlägt V4-Pro immer noch bei Benchmarks für die Abfrage langer Kontexte, und Gemini 3.1 Pro führt immer noch bei MMLU-Pro. Wenn Ihre Arbeitslast auf die Nadel-im-Heuhaufen-Abfrage über eine Million Tokens angewiesen ist, reichen die Token-Einsparungen möglicherweise nicht aus, um den Qualitätsunterschied auszugleichen.

Kostenmodellierung für gängige Workloads

Vier Workloads decken die meisten Anwendungsfälle in der Produktion ab. Hier sind die Kosten für jeden auf V4-Pro (Cache-Fehlzugriffs-Baseline; Cache-Hit-Einsparungen summieren sich zusätzlich).

1. Agenten-Coding-Loop (50K Kontext, 2K Ausgabe, 20 Aufrufe pro Aufgabe)

Vergleich mit GPT-5.5 bei ungefähr $6,20 pro Aufgabe bei gleichem Umfang.

2. Langdokument-Fragen & Antworten (500K Kontext, 1K Ausgabe)

Vergleich mit GPT-5.5 bei ungefähr $2,53 pro Aufruf.

3. Hochvolumige Klassifizierung (2K Kontext, 200 Ausgabe, 10.000 Aufrufe)

Verwenden Sie hier V4-Flash; V4-Pro ist überdimensioniert.

Vergleich mit GPT-5.5 bei ungefähr $110 für den gleichen Lauf.

4. Chatbot mit wiederholtem Prompt (10K System-Prompt, 500 Benutzer-Tokens, 1K Ausgabe, 1.000 Sitzungen)

Vergleich mit GPT-5.5 mit Caching bei ungefähr $26,35 für die gleiche Arbeitslast.

Versteckte Kosten, auf die man achten sollte

Der angegebene Preis ist nicht die ganze Geschichte. Vier Posten belasten Teams nach dem ersten Monat:

  1. Inflation der Tokens im Denkmodus. thinking_max verbraucht 3- bis 10-mal mehr Ausgabetokens als non-thinking bei demselben Prompt. Diese Reasoning-Tokens werden zum Ausgabetarif abgerechnet. Schalten Sie Think Max hinter einem Flag.
  2. Stilles Kontextwachstum. Agenten-Loops speisen oft die gesamte Konversation in jede Runde zurück. Bei 1M-Token-Kontexten bläht sich dies schnell auf. Kürzen oder fassen Sie aggressiv zusammen.
  3. Wiederholungsstürme. Eine fehlerhafte Schleife, die bei jeder 500er-Antwort einen erneuten Versuch startet, kann Ihre Rechnung innerhalb einer Stunde verdoppeln. Fügen Sie eine exponentielle Rücknahme und eine feste Begrenzung der Wiederholungsversuche pro Anfrage hinzu.
  4. Entwicklungsaufwand. Die Iteration an einem Prompt über Curl führt den gesamten Kontext jedes Mal erneut aus. Die Verwendung von Apidog reduziert dies auf nahezu Null, da die Variablensubstitution Prompt-Anpassungen kostenlos wiederholen lässt, ohne die gesamte Payload neu eingeben zu müssen.

Kosten in Apidog verfolgen

Der Workflow, den die meisten Teams anwenden, sobald die Rechnungen ernst werden:

  1. Laden Sie Apidog herunter und speichern Sie DEEPSEEK_API_KEY als geheime Variable pro Umgebung.
  2. Speichern Sie eine einzelne POST-Anfrage an https://api.deepseek.com/v1/chat/completions.
  3. Im Antwortbereich pinnen Sie usage.prompt_tokens, usage.completion_tokens und usage.reasoning_tokens an. Jeder Aufruf zeigt die Kostenberechnung auf demselben Bildschirm wie die Ausgabe an.
  4. Parametrisieren Sie model und thinking_mode, damit Sie V4-Flash vs. V4-Pro und Non-Think vs. Think Max im A/B-Test vergleichen können, ohne Anfragen zu duplizieren.
  5. Spiegeln Sie dieselbe Sammlung für GPT-5.5 (der passende GPT-5.5 API-Leitfaden dokumentiert die Einrichtung). Ein Fenster, beide Anbieter, Kosten sichtbar.

Dieser Workflow fängt ungefähr 80% der Kostenüberraschungen ab, die auf Monatsendabrechnungen auftauchen.

Vier Regeln, die die Ausgaben vorhersehbar halten

  1. Standardmäßig V4-Flash verwenden. Wechseln Sie zu V4-Pro nur, wenn Sie einen Qualitätsunterschied festgestellt haben, der sich auf den Umsatz auswirkt.
  2. Standardmäßig Non-Think verwenden. Erhöhen Sie bei schwierigen Aufgaben auf Think High. Reservieren Sie Think Max für kritische Korrektheitsarbeiten.
  3. max_tokens begrenzen. Die 384K-Ausgabeobergrenze ist eine Sicherheit, kein Ziel. Die meisten Produktionsantworten passen in 2K.
  4. Nutzungstelemetrie bereitstellen. Protokollieren Sie prompt_tokens, completion_tokens und reasoning_tokens bei jedem Aufruf. Alarmieren Sie bei Spitzen von Reasoning-Tokens; sie signalisieren Prompts, die versehentlich in den Think-Max-Bereich geraten sind.

FAQ

Gibt es einen kostenlosen Tarif?Es gibt keinen nutzungsfreien API-Tarif, aber neue Konten erhalten gelegentlich ein kleines Testguthaben. Für kostenlose Pfade außerhalb der API siehe Wie man DeepSeek V4 kostenlos nutzt.

Wie funktioniert die Cache-Hit-Preisgestaltung?Präfixe von 1.024 Tokens oder mehr, die sich über Anfragen innerhalb desselben Kontos wiederholen, werden zum Cache-Hit-Tarif abgerechnet. Der erste Aufruf zahlt den Cache-Miss-Tarif; nachfolgende Aufrufe mit identischem Präfix zahlen den reduzierten Tarif. Das Caching erfolgt automatisch.

Kosten Denkmodi mehr?Der Preis pro Token ist derselbe. Denkmodi verbrauchen mehr Tokens, da das Modell Reasoning-Spuren schreibt. Verfolgen Sie reasoning_tokens im usage-Objekt, um die wahren Kosten zu messen.

Sind die Preise stabil?DeepSeek ändert die Preise regelmäßig. Die V3.2-Tarife galten für den Großteil des Jahres 2025; die V4-Preise haben kein veröffentlichtes Enddatum. Überprüfen Sie die aktuelle Preisseite, bevor Sie budgetieren.

Werden V4-Pro und V4-Flash zum gleichen Ausgabetarif abgerechnet?Nein. Die V4-Pro-Ausgabe kostet $3,48 / M; die V4-Flash-Ausgabe kostet $0,28 / M. Das Verhältnis von 12,4x ist der größte Grund, standardmäßig V4-Flash zu verwenden.

Ändert der Anthropic-Format-Endpunkt die Preisgestaltung?Nein. https://api.deepseek.com/anthropic verwendet dieselben Tarife wie der OpenAI-Format-Endpunkt. Das Format beeinflusst die Abrechnung nicht.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen