DeepSeek hat den aggressivsten temporären Rabatt bei der LLM-Preisgestaltung im Jahr 2026 zur neuen Normalität gemacht. Am 22. Mai gab das Team bekannt, dass das 75%ige DeepSeek-V4-Pro-Angebot, das ursprünglich am 31. Mai 2026 um 15:59 UTC auslaufen sollte, nicht zurückgenommen wird. Der Aktionspreis wird zum dauerhaften Listenpreis. Der Preis für Input sinkt auf 0,435 $ pro Million Token, für Output auf 0,87 $ und für Cache-Hits auf 0,003625 $. Im Folgenden erläutern wir, was sich geändert hat, was gleich geblieben ist und was jeder API-Entwickler diese Woche überdenken sollte.
TL;DR
- Die DeepSeek-V4-Pro API-Preisgestaltung ist nun dauerhaft auf 1/4 des ursprünglichen Listenpreises festgelegt: 0,435 $/MTok für Input, 0,87 $/MTok für Output, 0,003625 $/MTok für Cache-Hits.
- Der 75%ige Aktionsrabatt, der am 31. Mai 2026 enden sollte, ist nun der reguläre Preis. Keine Rücknahme. Kein unerwartetes Ablaufdatum.
- V4-Pro ist nun beim Output etwa 34-mal günstiger als GPT-5.5, während es bei den meisten Coding- und Reasoning-Benchmarks innerhalb von ~95% von GPT-5.5 liegt.
- Der Cache-Hit-Preis von 0,003625 $/MTok, eine Reduzierung um 90% zusätzlich zur Hauptkürzung, ist das unterschätzte Detail. Lange System-Prompts sind nun am Präfix nahezu kostenlos.
- Wenn Sie Ihre KI-Funktionen im letzten Quartal gegen GPT-5.5 oder Claude Opus 4.7 bepreist haben, hat sich die Kalkulation diese Woche verschoben.
Warum das jetzt wichtig ist
Die LLM-Preisgestaltung bewegt sich normalerweise in eine Richtung: nach unten, langsam, mit Fußnoten. DeepSeek hat die Fußnoten übersprungen. Das Team führte eine aggressive Promotion bis Mai durch, sah den Entwicklerverkehr steigen und beschloss, den Preis festzuschreiben, anstatt ihn zurückspringen zu lassen. Das ist ein strukturelles Signal dafür, wohin die Ökonomie der chinesischen Frontier-Modelle steuert, und kein einmaliger PR-Gag.
Wenn Sie ein Produkt ausliefern, das eine LLM in einem Hot-Path (Autovervollständigung, abfragegestützter Chat, Code-Review, Agenten-Loops) aufruft, macht sich der Unterschied zwischen 3,48 $ und 0,87 $ pro Million Output-Tokens diesen Monat auf Ihrer Rechnung bemerkbar. Wenn Sie täglich 50 Millionen Output-Tokens verschicken, eine realistische Last für jeden Agenten mit nicht-trivialen Benutzern, senkt der neue Preis Ihre monatliche LLM-Rechnung von etwa 5.200 $ auf 1.300 $. Das ist eine neue Vertriebsmitarbeiterin oder ein Jahr GPU-Guthaben.
Bauen Sie auf DeepSeek auf? Apidog ermöglicht Ihnen das Generieren, Testen und Überwachen von V4-Pro API-Aufrufen in einem einzigen Arbeitsbereich, einschließlich Streaming, Tool-Aufrufen und JSON-Schema-Validierung. Laden Sie Apidog herunter, und Sie können die Anfragen in diesem Artikel in weniger als einer Minute klonen.
Im weiteren Verlauf dieses Beitrags finden Sie die vollständige neue Preisübersicht, einen direkten Vergleich mit GPT-5.5 und Claude Opus 4.7, die Cache-Hit-Berechnung, die die meisten Artikel übersehen, drei Szenarien für tatsächliche Rechnungen und ein fünfstufiges Entscheidungsmodell, ob Sie heute migrieren sollten.
Was sich geändert hat: die Ankündigung entschlüsselt
DeepSeeks offizielle Preisbekanntmachung ist kurz, aber jede Zeile bewegt eine Zahl. Drei Fakten, die es hervorzuheben gilt:
- Der 75%ige Rabatt ist dauerhaft. Die Promotion, die bis zum 31. Mai 2026, 15:59 UTC lief, sollte am 1. Juni auf den ursprünglichen Listenpreis zurückfallen. Das wird nicht geschehen. Der Aktionspreis ist der neue Listenpreis, rückwirkend zum Start und auf unbestimmte Zeit gültig.
- Die Preissenkung gilt nur für V4-Pro. DeepSeek-V4-Flash, mit 0,14 $ / 0,28 $ pro Million Token, war bereits günstig. V4-Pro, das Frontier-Tier-Modell, ist das, dessen Preis gesenkt wurde. Siehe Was ist DeepSeek V4 für die Aufteilung Flash vs. Pro.
- Der Preis für Cache-Hits wurde auf 1/10 des Startpreises gesenkt, gültig ab 26. April 2026, 12:15 UTC. Dies ist eine separate Änderung von der 75%igen Preissenkung und die beiden kumulieren sich. Das Ergebnis: Cache-Hits zu 0,003625 $/MTok, der niedrigste Cache-Preis eines Frontier-Modells von Erstanbietern auf dem Markt im Jahr 2026.
Zusammengenommen besagt die Ankündigung: DeepSeek ist bereit, Rohertragsmargen beim Flaggschiff-Modell zu opfern, um die Aufmerksamkeit der Entwickler zu behalten. Der Schritt mit den Cache-Hits sagt aus: Sie möchten, dass Sie Agenten und Long-Context-Tools speziell auf V4-Pro aufbauen. Beide Schritte weisen auf dasselbe Spielbuch hin. Gewinnen Sie jetzt die Inferenz-Workload, monetarisieren Sie die Plattform später.
Die neue, dauerhafte Preisliste
Preise pro 1 Million Token, USD, sofort gültig und dauerhaft:
| Token-Typ | Alter Listenpreis | Neuer dauerhafter Preis | Reduzierung |
|---|---|---|---|
| Input (Cache-Miss) | $1.74 | $0.435 | 75% |
| Input (Cache-Hit) | $0.0145 | $0.003625 | 75% |
| Output | $3.48 | $0.87 | 75% |
Einige Erkenntnisse, die die Tabelle verbirgt:
- Die Reduzierung des Output-Preises ist diejenige, die Ihre Rechnung am stärksten beeinflusst, da Output-Token jeden Agenten-Loop dominieren, in dem das Modell argumentiert oder Code schreibt.
- Die Zeile für Cache-Hits sieht winzig aus, weil die absoluten Zahlen winzig sind. Das Verhältnis ist der Bereich, in dem die Einsparungen liegen. Input-Miss zu Input-Hit beträgt ungefähr 120:1. Ein gut konzipierter System-Prompt, der zu 90% Cache-Hits erzielt, zahlt fast nichts für den Input, was der Schlüssel für jeden Agenten mit einem stabilen Gerüst ist.
- Diese Tarife gelten nur für die API. DeepSeeks Web-Chat bleibt für Einzelpersonen kostenlos.
Für einen tieferen historischen Kontext zu den V4-Preiskategorien und den Kompromissen zwischen Flash und Pro, siehe unsere fortlaufende Referenz zur DeepSeek V4 API-Preisgestaltung.
Wie sich V4-Pro jetzt im Vergleich zu GPT-5.5, Claude Opus 4.7 und Gemini 3.5 Flash schlägt
Der interessante Vergleich ist nicht mit dem alten V4-Pro. Es ist der Vergleich mit dem Rest des Frontier-Modellregals.
| Modell | Input ($/MTok) | Output ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (neu) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Zwei Zahlen, die man sich merken sollte. Bei Output-Tokens, dem Posten, der Ihre Rechnung in die Höhe treibt, ist DeepSeek-V4-Pro 34-mal günstiger als GPT-5.5 und 17-mal günstiger als Claude Opus 4.7. Bei Benchmarks liegt V4-Pro bei den meisten öffentlichen Coding- und Reasoning-Evaluierungen innerhalb von 3 bis 7 Prozentpunkten von GPT-5.5, gemäß dem DataCamp-Vergleich.
Wenn Ihre Arbeitslast latenzunempfindlich und die Qualität in diesem kleinen Bereich akzeptabel ist, ist die Migration ein mathematisches Problem mit einer Antwort. Für Arbeitslasten, bei denen die letzten 5 Punkte des Benchmark-Scores eine Rolle spielen (Agenten-Tool-Zuverlässigkeit, langfristige Planung, komplexe Mathematik), ist V4-Pro immer noch günstiger als Entwurfsmodell hinter einem spekulativen Dekodierungs- oder Kritiker-Muster zu verwenden.
Für tiefergehende direkte Vergleiche siehe DeepSeek V4 vs. Claude Opus 4.5 für Coding und GLM-5 vs. DeepSeek V3 vs. GPT-5: Geschwindigkeit, Kosten und praktischer Entwicklervergleich.
Der Cache-Hit-Aspekt, den die meisten Artikel übersehen
Jeder zitiert den Output-Preis von 0,87 $. Wenige erklären, was der Input-Preis von 0,003625 $ für Cache-Hits für das Systemdesign bedeutet.
DeepSeeks Prompt-Cache trifft, wenn das Präfix Ihrer Anfrage byte-identisch mit einer kürzlich vorhergehenden Anfrage ist, innerhalb eines Zeitfensters von etwa 30 Minuten. Bei Chat-Agenten und Retrieval-Pipelines ist das Präfix normalerweise Ihr System-Prompt plus Tool-Definitionen plus Instruktionsgerüst. Das sind typischerweise 4.000 bis 10.000 Token, die sich zwischen den Turns nicht ändern.
Konkretes Beispiel: Angenommen, Ihr Assistent verwendet einen 6.000-Token-System-Prompt und verarbeitet 100.000 Chat-Turns pro Tag, mit einer durchschnittlichen Benutzernachricht von 200 Input-Tokens und einer durchschnittlichen Antwort von 800 Output-Tokens.
- Ohne Cache-Hits: 100.000 Turns × 6.200 Input-Tokens × 0,435 $ / 1.000.000 = 269,70 $ pro Tag allein für den Input.
- Mit 90% dieser System-Prompt-Tokens, die den Cache treffen: die gleichen 100.000 Turns zahlen 200 × 0,435 $ plus 6.000 × (0,9 × 0,003625 $ + 0,1 × 0,435 $) pro Million Token. Das ergibt etwa 32 $ pro Tag. Eine Reduzierung der Input-Kosten um 88%.
Das ist kein Rundungsfehler. Es ist der Unterschied, ob das Modell ein nachhaltiger Kostenpunkt oder ein Luxus ist. Für weitere Informationen darüber, wie Prefix-Caching bei verschiedenen Anbietern funktioniert, erklärt unser Deep Dive zum Prompt-Caching die Mechanik.
Drei Muster, um Cache-Hits bei echten Agenten zu erzielen:
- Fixieren Sie das Präfix. Halten Sie den System-Prompt, Tool-Schemas und Few-Shot-Beispiele in einem einzigen Block am Anfang jeder Anfrage. Fügen Sie keine sitzungsspezifischen Texte in das Präfix ein.
- Sortieren oder hashen Sie dynamischen Kontext. Wenn Sie abgerufene Chunks anhängen, sortieren Sie diese stabil oder hashen Sie die Anfrage und leiten Sie identische Hashes an denselben Knoten weiter. Kleine Verschiebungen im Fingerprint zerstören den Cache.
- Führen Sie einen Warm-up-Call durch. Senden Sie beim Agentenstart eine Anfrage mit dem vollständigen Präfix, um es im Cache des Anbieters zu platzieren, bevor der Benutzerverkehr einsetzt.
Was Sie diese Woche tun sollten
Die Migrationsentscheidung ist nicht binär. Sie hängt davon ab, welche Art von LLM-Workload Sie betreiben. Ein Fünf-Schritte-Framework:
- Messen Sie Ihr aktuelles Output-zu-Input-Verhältnis. Wenn Sie 80% Ihres Token-Budgets für Output ausgeben (jeder Agent, Code-Generator oder Content-Tool), sind die Einsparungen durch V4-Pro groß. Wenn Sie 80% für Input ausgeben (RAG über lange Dokumente), sind die Einsparungen kleiner, aber immer noch real, sobald Cache-Hits erzielt werden.
- Führen Sie eine 100-Stichproben-Evaluierung Ihrer tatsächlichen Arbeitslast durch. Vertrauen Sie nicht auf öffentliche Benchmarks. Nehmen Sie 100 Traces aus Ihrem Produktionsverkehr, führen Sie sie gegen V4-Pro und Ihr aktuelles Modell mit identischen Prompts aus und bewerten Sie sie mit Ihrem eigenen Prüfer. Die meisten Teams stellen fest, dass V4-Pro für 70% bis 85% ihres Verkehrs "gut genug" ist.
- Muster-Matching nach Route. Leiten Sie die 70% bis 85% zu V4-Pro und behalten Sie Ihr Premium-Modell für den schwierigen Rest. Diese einzige Änderung liefert über 70% der Kosteneinsparungen mit einer nahezu null Qualitätseinbuße.
- Fixieren Sie Cache-Präfixe. Überprüfen Sie Ihre System-Prompts. Alles, was pro Anfrage variiert (Zeitstempel, Benutzer-IDs, Sitzungs-IDs), gehört in die Benutzernachricht, nicht in den System-Prompt. Verschieben Sie es.
- Richten Sie Regressionstests ein, bevor Sie ausliefern. Hier verdient Apidog sein Geld. Zeichnen Sie goldene Antworten von Ihrem aktuellen Modell auf, spielen Sie dann dieselben Anfragen gegen V4-Pro ab und vergleichen Sie die Outputs. Apidogs JSON-Schema-Validierung fängt Abweichungen in den Tool-Call-Formen ab, bevor sie in Produktion gehen. Laden Sie Apidog herunter, importieren Sie Ihre OpenAI-kompatible Sammlung, ändern Sie die Basis-URL auf
https://api.deepseek.com, und Sie können einen Side-by-Side-Smoke-Test in weniger als zehn Minuten durchführen.
Für eine praktische Anleitung zur Form des V4-Pro-Endpunkts siehe Wie man die DeepSeek V4 API verwendet.
Wie sich V4-Pro im Vergleich zu anderen Preissenkungen im Jahr 2026 schlägt
DeepSeek ist nicht das einzige Labor, das die Preise senkt. Der LLM-Markt im Jahr 2026 befindet sich in einer klaren Margenkompressionsphase:
- OpenAI O3 sank um 80% Anfang dieses Jahres. Siehe unsere O3-Preisanalyse für die Berechnung.
- Kimi K2 hat die Preise aggressiv angepasst, um mit DeepSeeks V3-Tier zu konkurrieren. Die Kimi K2 API-Preisgestaltung deckt die Details ab.
- Anthropic Claude hielt die Preise für Opus stabil, führte aber günstigere Haiku- und Sonnet-Tiers ein. Die vollständige Claude API-Kostenanalyse erklärt, wo jede Stufe passt.
Die Preissenkung von V4-Pro ist die aggressivste des Jahres, da sie auf das Frontier-Fähigkeitsband abzielt, nicht auf die Budget-Stufe. Deshalb hat diese Ankündigung den Markt neu gesetzt und die anderen nicht.
Die Kalkulation hat sich verschoben
DeepSeek hat den Preis nicht gesenkt. Sie haben die Kurve neu gezeichnet. Frontier-Fähigkeit zu einem Output-Preis unter einem Dollar ist jetzt die Basislinie, nicht der Ausreißer, und der Rest des Marktes wird reagieren. Wenn Sie eine LLM-Funktion aus Kostengründen aufgeschoben haben, überschätzt das im letzten Quartal kalkulierte Budget für 2026 wahrscheinlich Ihren Bedarf um das Vierfache.
Drei nächste Schritte:
- Überprüfen Sie Ihre drei wichtigsten LLM-Workloads anhand des obigen Frameworks und wählen Sie eine aus, die Sie diese Woche migrieren möchten.
- Sichern Sie Ihre Cache-Präfixe. Das ist der günstige Gewinn, unabhängig davon, welches Modell Sie verwenden.
- Richten Sie eine Apidog Regressions-Suite ein, damit die nächste Preissenkung, und es wird eine geben, Stunden statt Wochen zur Bewertung benötigt.
Das Promo-Flag wurde entfernt. Der Rabatt nicht.
