Chinesische Labore haben die LLM-API-Preise im ersten Halbjahr 2026 sechsmal gesenkt, wobei drei dieser Senkungen als dauerhaft deklariert wurden. DeepSeek V4-Pro kostet jetzt 0,87 $ pro Million Output-Tokens. Xiaomi MiMo V2.5 hat seine gestaffelten Preise für lange Kontexte auf pauschal 3 $ pro Output-Token gesenkt. Alibabas Qwen3 Max startet bei 3,90 $. Moonshots Kimi K2.6 hält den niedrigsten Cache-Hit-Preis bei 0,07 $. Zhipus GLM-5 liegt bei 3,20 $ pro Output-Token. Unten finden Sie die vollständige Preisübersicht für die Top-Fünf der führenden APIs aus China im Mai 2026, mit Anmerkungen zu ihren Fähigkeiten und einer Käufermatrix am Ende, damit Sie das Richtige für Ihre Arbeitslast auswählen können.
TL;DR
- Günstigste pro Token (Output): DeepSeek V4-Pro mit 0,87 $/MTok. Etwa 34-mal günstiger als GPT-5.5.
- Günstigste bei 1M Kontext: Xiaomi MiMo V2.5 Pro mit 3 $/MTok Output, pauschal unabhängig von der Eingabelänge.
- Bestes Preis-Leistungs-Verhältnis für den allgemeinen Produktionseinsatz: Alibaba Qwen3 Max mit 3,90 $/MTok Output, 262K Kontext.
- Niedrigstes Cache-Hit-Minimum (lange System-Prompts): Moonshot Kimi K2.6 mit 0,07 $/MTok im Cache.
- Arbeitslasten mit hohem Denkaufwand: Zhipu GLM-5 mit 3,20 $/MTok Output, 200K Kontext, am stärksten bei strukturiertem Chain-of-Thought-Denken.
- Alle fünf Labore konkurrieren über den Preis. Drei (DeepSeek, MiMo, Kimi) betrachten ihre Preissenkungen von 2026 als dauerhaft.
Wie sich der chinesische LLM-Preiskrieg 2026 entwickelte
Das Muster begann im vierten Quartal 2025 und beschleunigte sich im zweiten Quartal 2026. Eine grobe Zeitleiste:
- Q4 2025: DeepSeek V3.2 wird mit 0,28 $/MTok Input eingeführt und unterbietet die US-Spitzenpreise um eine Größenordnung. Kimi K2.6 folgt mit gestaffelten, kontextabhängigen Preisen und einer branchenweit niedrigen Cache-Hit-Rate von 0,07 $/MTok.
- März 2026: Xiaomi stellt MiMo V2-Pro auf OpenRouter zu wettbewerbsfähigen, aber gestaffelten Preisen vor.
- April 2026: DeepSeek V4 wird mit einem Aktionsrabatt von 75 % eingeführt, der am 31. Mai auslaufen sollte.
- 22. Mai 2026: DeepSeek gibt bekannt, dass der Rabatt von 75 % dauerhaft ist. V4-Pro bleibt auf unbestimmte Zeit bei 0,435 $/0,87 $. Die vollständige Aufschlüsselung finden Sie hier.
- 27. Mai 2026: Xiaomi macht die MiMo V2.5-Preise dauerhaft auf 1 $/3 $, wodurch der Multiplikator für lange Kontexte abgeschafft wird. Mehr zur MiMo-Senkung.
Die Senkungen sind nicht zufällig. Jedes Labor zielt auf eine spezifische Wettbewerbslücke ab. DeepSeek konzentriert sich auf die reinen Kosten pro Token. MiMo widmet sich Arbeitslasten mit langem Kontext, die andere Modelle preislich unattraktiv machen. Qwen und GLM halten Preise im mittleren Segment und konkurrieren stattdessen auf Leistungsebene. Kimi konkurriert bei Agenten- und Coding-Workflows über den Cache-Hit-Preis.
Auf einen Blick: Top 5 chinesische LLM-APIs im Mai 2026
| Modell | Eingabe ($/MTok) | Ausgabe ($/MTok) | Cache-Treffer | Kontext | Am besten geeignet für |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Günstigste pro Token, Coding |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG für lange Dokumente, Repository-Agenten |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Produktionsbalance |
| Moonshot Kimi K2.6 | $0.16–$2.00 (gestaffelt) | ~$2.50 | $0.07 | 128K | Lange System-Prompts, Coding-Agenten |
| Zhipu GLM-5 | $1.00 | $3.20 | (anbieterdefiniert) | 200K | Strukturiertes Denken |
Einige Details zur Tabelle:
- DeepSeek und MiMo haben Pauschalpreise. Jedes andere Labor in diesem Set verwendet weiterhin eine Form von gestaffelten Preisen oder Kontext-Multiplikatoren. Pauschalpreise machen die Produktionskapazitätsplanung vorhersehbar. Gestaffelte Preise können Sie bei Monaten mit langem Kontext überraschen.
- Cache-Hit-Raten variieren stark. Kimis K2.6 mit 0,07 $ und DeepSeeks V4-Pro mit 0,003625 $ sind die beiden Ausreißer. Für jeden Agenten mit einem stabilen System-Prompt sollten Sie diese Raten als Benchmark heranziehen, nicht den Listenpreis bei Cache-Fehlern. Eine detaillierte Analyse zum Prompt-Caching erklärt die Mechanik.
- Kontextfenster teilen sich scharf auf. MiMo V2.5 allein bietet Ihnen 1 Million Token in der günstigen Stufe. Das nächstgrößere in diesem Set ist Qwen3 Max mit 262K. Wenn Ihre Arbeitslast >300K Token benötigt, ist MiMo unverzichtbar.
Unten: Jedes Modell erhält einen Abschnitt mit Preisen, Fähigkeiten und der Arbeitslast, für die es am besten geeignet ist.
DeepSeek: die günstigsten pro Token
Modelle: V4-Pro (0,435 $ Eingabe / 0,87 $ Ausgabe / 0,003625 $ Cache-Treffer, 128K Kontext), V4-Flash (0,14 $ / 0,28 $).
DeepSeeks V4-Pro ist die Preisuntergrenze im chinesischen Spitzenbereich. Die dauerhafte Preissenkung vom 22. Mai setzte die Output-Token-Preise auf 0,87 $/MTok fest, was etwa 34-mal günstiger ist als GPT-5.5 und 17-mal günstiger als Claude Opus 4.7. Der Cache-Hit von 0,003625 $/MTok ist die niedrigste Anbieter-Rate von einem großen Labor. Bestätigt auf DeepSeeks offizieller Preisseite.
Wo V4-Pro punktet:
- Ausgabeintensive Arbeitslasten (Codegenerierung, Agentenketten, Content-Tools), bei denen Sie 70 %+ Ihres Token-Budgets für die Ausgabe ausgeben.
- Alles mit einem stabilen System-Prompt von 5K bis 10K Token. Cache-Treffer senken die effektiven Eingabekosten auf nahezu Null.
- Kostenempfindliche Produktion, bei der Sie einen Benchmark-Rückstand von 3 bis 7 Prozentpunkten gegenüber GPT-5.5 verkraften können.
Wo es nicht passt:
- Arbeitslasten mit langen Dokumenten (>128K Kontext). MiMo V2.5 ist die günstigere Wahl in absoluten Zahlen, selbst bei höheren Pro-Token-Raten, da DeepSeek den Prompt nicht verarbeiten kann.
- Latenzkritischer Echtzeit-Chat. V4-Pro ist ein denkendes Modell mit einer "Time-to-First-Token" von 600 bis 900 ms.
Für weitere Informationen: Dauerhafte Preissenkung für DeepSeek V4-Pro, Was ist DeepSeek V4, Wie man die DeepSeek V4 API verwendet.
Xiaomi MiMo: die günstigste 1M-Kontext-Option
Modelle: MiMo V2.5 Pro (1,00 $ Eingabe / 3,00 $ Ausgabe / 0,20 $ Cache, 1M Kontext), MiMo V2 Flash (~0,10 $ / ~0,40 $, 256K Kontext).
Xiaomis dauerhafte Preissenkung vom 27. Mai vereinheitlichte die MiMo V2.5-Preise über alle Kontextfenster hinweg. Die alten gestaffelten Preise für lange Kontexte, die hohe Multiplikatoren über 256K Eingabe-Tokens berechneten, sind Geschichte. Die neue Preisgestaltung wendet denselben 1 $/3 $-Satz an, egal ob Sie 5K oder 950K Token senden. Die offizielle Mitteilung zur Preisaktualisierung bezeichnet die Senkung als „dauerhaft“.
Wo V2.5 Pro punktet:
- RAG für lange Dokumente, code-weite Repository-Analyse, Zusammenfassung mehrerer Dokumente, jede Arbeitslast, die 300K bis 1 Million Token Kontext erfordert.
- Hochvolumige Dokumentenverarbeitung, bei der Preisvorhersehbarkeit wichtiger ist als der absolute Tiefstpreis.
Wo es nicht passt:
- Chat mit kurzen Prompts. V2.5 Pro ist teurer als DeepSeek V4-Pro bei jeder Kontextlänge, die DeepSeek verarbeiten kann.
- Latenzkritische Arbeitslasten. Schnellere chinesische Modelle existieren für Antwortzeiten unter einer Sekunde.
Das 1M Kontextfenster plus die wettbewerbsfähige Cache-Rate verleihen MiMo eine strukturell einzigartige Position auf dem Markt. Bis DeepSeek den Kontext über 128K hinaus erweitert oder Alibaba Qwens Preise vereinheitlicht, beherrscht MiMo das Segment "günstig und lang".
Für weitere Informationen: Wie viel kostet die Nutzung von Xiaomi MiMo V2.5 im Jahr 2026, MiMo V2-Pro & Omni Preise, Xiaomi MiMo Orbit kostenloses 100T Token-Programm.
Alibaba Qwen: das Produktions-Arbeitstier
Modelle: Qwen3 Max (0,78 $ Eingabe / 3,90 $ Ausgabe / 0,156 $ Cache, 262K Kontext). Das neuere Qwen 3.7 Max mit 2,50 $/MTok Eingabe und 1M Kontext wird derzeit eingeführt. Preise verifiziert anhand pricepertoken's Qwen3 Max-Übersicht.
Qwen3 Max ist Alibabas Flaggschiff und das am häufigsten eingesetzte chinesische Modell in der internationalen Produktion. Es liegt auf einem wettbewerbsfähigen, aber nicht auf dem niedrigsten Preisniveau: 1,8-mal DeepSeek V4-Pro bei der Eingabe, 4,5-mal bei der Ausgabe. Der Aufpreis zahlt sich durch das breiteste Tooling-Ökosystem (Anthropic-Protokoll-kompatibel, OpenAI-kompatibel, Alibaba Cloud Enterprise-Hosting) und ein 262K Kontextfenster aus, das die meisten Dokumenten-Workloads von Unternehmen verarbeitet.
Wo Qwen3 Max punktet:
- Mehrsprachige Produktion. Qwens Trainingskorpus ist stark auf Mandarin und asiatische Sprachen ausgerichtet, was es zum stärksten nicht-englischen Modell in diesem Set macht.
- Compliance-Szenarien für Unternehmen. Alibabas Enterprise-SLA und Cloud-Region-Optionen sind die ausgereiftesten aller chinesischen Labore.
- Arbeitslasten, die 200K bis 262K Kontext benötigen, aber MiMos Premium-Qualitätsband nicht rechtfertigen.
Wo es nicht passt:
- Kostenempfindliche, ausgabeintensive Arbeitslasten. Bei 3,90 $/MTok Ausgabe zahlen Sie das 4,5-fache des DeepSeek-Preises. Wenn Ihre Arbeitslast DeepSeeks Qualität toleriert, wechseln Sie.
Für weitere Informationen: Qwen 3 vs. OpenAI & DeepSeek: detaillierter technischer Vergleich für API-Entwickler.
Moonshot Kimi: der Coding-Spezialist
Modelle: Kimi K2.6 mit gestaffelten Eingabepreisen basierend auf dem Kontext (0,16 $ bis 2,00 $/MTok über 8K, 32K, 64K und 128K Bänder), 0,07 $/MTok Cache-Hit-Minimum, Ausgabepreise um 2,50 $/MTok im mittleren Band.
Kimi K2.6 ist der Cache-Hit-Champion. Die Rate von 0,07 $/MTok bei einem Treffer ist die niedrigste Anbieter-Zahl von einem großen Labor. In Kombination mit Kimis starker Tool-Aufruf-Funktion und der Unterstützung für langlebige Agenten ist K2.6 das Modell, das bei Workflows punktet, bei denen Sie einen umfangreichen System-Prompt über viele Interaktionen hinweg wiederverwenden: Coding-Agenten, Kundensupport-Chatbots mit stabilen Persona-Prompts, Retrieval-Pipelines mit stabilen Kontextblöcken.
Wo K2.6 punktet:
- Coding-Agenten (Workflows im Claude Code-Stil). Starke Konformität des Tool-Call-Formats und das niedrigste Cache-Hit-Minimum machen wiederholte Kontextmuster nahezu kostenlos.
- Langlaufende Chat-Sitzungen, bei denen der System-Prompt und die Few-Shot-Beispiele stabil sind.
Wo es nicht passt:
- Stoßweise, variierende Arbeitslasten, bei denen Präfixe bei jeder Anfrage wechseln. Der gestaffelte Eingabepreis bedeutet, dass Überraschungen bei der Kontextlänge Ihre Rechnung in die Höhe treiben können.
- Vorhersehbare Budgetierung. Die Stufenübergänge bei 32K, 64K und 128K Eingabe-Tokens bedeuten, dass derselbe Abfragetyp an einem langen Tag 4-mal mehr kosten kann als an einem kurzen Tag.
Für weitere Informationen: Ist der Kimi K2 API-Preis den Hype für Entwickler im Jahr 2026 wirklich wert?.
Zhipu GLM: der Herausforderer im Bereich Denken
Modelle: GLM-5 (1,00 $ Eingabe / 3,20 $ Ausgabe, 200K Kontext), GLM-5.1 (0,98 $ / 3,08 $, 200K Kontext). Preise verifiziert anhand Z.AI’s offizieller Preisübersicht.
Zhipus GLM-5 wurde mit einer Preiserhöhung von 30 % gegenüber GLM-4.7 eingeführt (ein gegensätzlicher Schritt in einem Markt, der sich einem Preiskampf hingibt), und veröffentlichte dann GLM-5.1 mit einem geringfügigen Rabatt. Die Preisgestaltung spiegelt Zhipus Positionierung wider: nicht der günstigste, aber der stärkste bei strukturiertem Denken und Chain-of-Thought-Aufgaben.
Wo GLM-5 punktet:
- Mathematik, formale Logik, strukturierte Chain-of-Thought-Aufgaben. GLM-5 führt die Bestenliste bei mehreren Benchmarks der GPQA-Klasse unter chinesischen Spitzenmodellen an.
- Arbeitslasten, bei denen die Grenzkosten im Vergleich zu den Kosten falscher Antworten gering sind (Finanzanalyse, juristische Zusammenfassung, wissenschaftliches Denken).
- Mehrstufige Agenten-Workflows, die von sauberen Denkspuren profitieren.
Wo es nicht passt:
- Kostenempfindliche Anwendungen. GLM-5 ist die teuerste Option in diesem Set bei kombinierten Eingabe- und Ausgabekosten. Wenn reine Kosten das sind, was Sie optimieren, suchen Sie woanders.
- Arbeitslasten, die kein starkes Denken belohnen. Für reine Inhaltserstellung oder Zusammenfassung lohnt sich das GLM-Premium nicht.
Für weitere Informationen: GLM-5 vs. DeepSeek V3 vs. GPT-5: Geschwindigkeit, Kosten und praktischer Entwicklervergleich, GLM-5.1 vs. Claude, GPT, Gemini, DeepSeek.
Die Günstigsten pro Arbeitslast: eine Käufermatrix
Für fünf gängige Produktions-Workloads, hier ist, welches Modell gewinnt:
| Arbeitslast | Gewinner | Warum |
|---|---|---|
| Codegenerierung (ausgabeintensiv) | DeepSeek V4-Pro | 0,87 $/MTok Output ist unschlagbar |
| RAG für lange Dokumente (>300K Kontext) | Xiaomi MiMo V2.5 Pro | Einzige pauschalpreisige 1M-Kontext-Option |
| Coding-Agent mit stabilem System-Prompt | Kimi K2.6 | 0,07 $/MTok Cache-Hit-Minimum |
| Mehrsprachiger Kundensupport | Alibaba Qwen3 Max | Stärkste nicht-englische Leistung |
| Mathematik, formale Logik, strukturierte Analyse | Zhipu GLM-5 | Beste Chain-of-Thought-Qualität |
Drei kombinierte Muster, die es hervorzuheben gilt:
- Routing mit zwei Modellen. Viele Produktionsteams leiten 70 bis 85 % des Traffics an DeepSeek V4-Pro weiter und halten ihr zweites Modell am „harten Ende“. Die Einsparungen sind groß und der Qualitätseinbruch ist für die meisten Arbeitslasten gering.
- Langkontext-Segmentierung. Wenn sich Ihre Arbeitslast in kurze und lange Kontexte aufteilt, leiten Sie kurze an DeepSeek und lange an MiMo. Der Schmerz der einheitlichen Abrechnung ist real, aber das Kostenarbitragepotenzial ist zu groß, um es zu ignorieren.
- Konsolidierung der Cache-Präfixe. Egal, welches Modell Sie wählen, überprüfen Sie Ihre System-Prompts. Cache-Treffer sind der günstige Gewinn, der jeden Modellwechsel überlebt.
Qualitäts- und Benchmark-Hinweise
Ein Hinweis zur Qualität, denn Preise bedeuten nichts, wenn das Modell die Aufgabe nicht erfüllen kann.
Laut Artificial Analysis gruppieren sich die fünf Modelle in diesem Vergleich innerhalb von 5 bis 10 Prozentpunkten voneinander bei den meisten öffentlichen Benchmarks. Die interessanten Unterschiede im Detail:
- DeepSeek V4-Pro: Stark beim Coding (SWE-bench Pro um 55 %) und beim Denken (GPQA um 90 %). Leichte Lücke zu GPT-5.5 bei langfristeigen Agentenaufgaben.
- MiMo V2.5 Pro: Stark bei der Abfrage von langen Kontexten (>95 % Needle-Accuracy bei 800K), mittelmäßig beim Coding.
- Qwen3 Max: Beste nicht-englische Leistung, starke allgemeine Produktionsqualität.
- Kimi K2.6: Stärkste Konformität des Tool-Call-Formats, insbesondere bei parallelen Tool-Aufrufen.
- GLM-5: Beste Chain-of-Thought-Denkqualität in diesem Set.
Führen Sie Ihre eigene 100-Muster-Evaluierung durch, bevor Sie sich festlegen. Öffentliche Benchmarks sind richtungsweisend nützlich, aber die Lücke, die zählt, ist die in Ihrem Traffic.
Alle fünf mit Apidog testen
Ein Multi-Modell-Produktions-Deployment benötigt einen Multi-Modell-Test-Harness. Apidog verwaltet alle fünf chinesischen APIs aus einem einzigen Arbeitsbereich, da alle fünf OpenAI Chat Completions Request Bodies akzeptieren, mit geringfügigen Kompatibilitäts-Eigenheiten. Der Workflow:

- Erstellen Sie eine Umgebung pro Anbieter in Apidog:
api.deepseek.com,platform.xiaomimimo.com, Alibaba Cloud Model Studio, Moonshot’sapi.moonshot.cnund Zhipusopen.bigmodel.cn. - Importieren Sie das OpenAI Chat Completion Schema einmal. Ändern Sie die Basis-URL pro Umgebung.
- Führen Sie dasselbe Testszenario mit einem Klick auf allen fünf aus. Vergleichen Sie die Antworten, Scores und Latenzen.
- Implementieren Sie die JSON-Schema-Validierung für
tool_calls-Strukturen, um die streaming-format-spezifischen Eigenheiten jedes Anbieters zu erfassen.
Laden Sie Apidog herunter, importieren Sie Ihre Testfälle, und Sie haben in weniger als fünfzehn Minuten einen funktionierenden Fünf-Wege-Vergleich. Derselbe Workflow, den wir in den detaillierten Modellanalysen empfehlen: Dauerhafte Senkung für DeepSeek V4-Pro, MiMo V2.5-Kosten, Kimi K2-Preise.
Wie es mit dem Preiskrieg weitergeht
Die Preisuntergrenze hat sich im Mai zweimal verschoben. Zwei weitere Verschiebungen sind wahrscheinlich, bevor das dritte Quartal endet.
- Qwen-Antwort. Alibaba war selten der erste, der die Preise senkte, folgt aber konsequent innerhalb weniger Wochen. Erwarten Sie eine Qwen3 Max-Überarbeitung oder eine Qwen 3.8-Ankündigung bis Juli.
- GLM-Antwort. Zhipus 30%ige Preiserhöhung für GLM-5 wirkt zunehmend gegensätzlich. Ein GLM-5.2 mit einer strukturellen Preissenkung ist plausibel.
- Kimis strukturelle Vereinfachung. Gestaffelte Kontextpreise kommen aus der Mode. Moonshot könnte K2.6 vereinheitlichen, um MiMos Struktur anzupassen.
Bauen Sie entsprechend auf. Drei nächste Schritte:
- Überprüfen Sie Ihre drei wichtigsten Arbeitslasten anhand der obigen Käufermatrix. Wählen Sie diese Woche eine für einen Migrationstest aus.
- Sichern Sie Ihre Cache-Präfixe. Das ist der Gewinn, egal für welches Modell Sie sich entscheiden.
- Implementieren Sie eine Apidog-Regressionstestsuite, die auf alle fünf Anbieter verweist, damit die nächste Runde von Preissenkungen in Stunden statt in Wochen bewertet werden kann.
Die Preisuntergrenze ist noch nicht erreicht. Positionieren Sie Ihren Stack für das, was kommt.
