Die Preise für die Xiaomi MiMo V2.5 API sanken am 27. Mai 2026 auf pauschal 1 US-Dollar pro Million Input-Token und 3 US-Dollar pro Million Output-Token, und das Team hat den neuen Tarif dauerhaft gemacht. Die alte Long-Context-Stufe, bei der Prompts über 256K Token einen hohen Multiplikator auf den Basistarif hatten, ist verschwunden. Jetzt gibt es nur noch einen Preis, unabhängig von der Kontextlänge. Für die meisten Workloads lautet die Schlagzeile in einem Satz: MiMo V2.5 ist eines der drei günstigsten 1M-Kontext-Modelle in Produktion, und das bleibt auch so.
Das Wichtigste in Kürze
- Xiaomi MiMo V2.5 dauerhafte Preisgestaltung ab 27. Mai 2026: 1,00 $ Input, 3,00 $ Output, 0,20 $ gecached pro Million Token, mit einem 1M-Token-Kontextfenster.
- Die Behauptung „bis zu 99% Rabatt“ ist bei der Long-Context-Stufe real. Der vorherige Tarif skalierte stark über 256K Input-Token hinaus. Der neue Pauschaltarif eliminiert den Multiplikator.
- Kunden mit Token-Plänen erhielten eine 5- bis 8-fache Quotensteigerung und eine vollständige Rücksetzung der genutzten Credits innerhalb ihres Gültigkeitszeitraums.
- Die Preissenkung ist dauerhaft, nicht werblich. Xiaomis offizielle Mitteilung spricht von einer „dauerhaften Erneuerung des gesamten Modell-Preissystems“.
- Kontext: Xiaomi ist das zweite chinesische Labor, das diese Woche eine dauerhafte Senkung im „Frontier-Tier“ vornimmt. DeepSeek hatte V4-Pro drei Tage zuvor dauerhaft auf 1/4 des Listenpreises festgelegt.
Was sich am 27. Mai 2026 geändert hat
Xiaomis offizielle Mitteilung zur Preisaktualisierung nennt drei Änderungen. Alle drei traten am 27. Mai um 00:00 Uhr Pekinger Zeit in Kraft, was 16:00 Uhr UTC am 26. Mai entspricht.

1. Einheitliche Preisgestaltung über alle Kontextfenster hinweg. Der alte MiMo V2.5-Tarif verwendete gestaffelte Preise: einen Basispreis für Prompts bis zu 32K Input-Token, einen Multiplikator für den Bereich von 32K bis 256K und einen noch steileren Satz über 256K. Der neue Tarif hat eine einzige Zahl pro Token-Typ. Anwendungen mit langem Kontext zahlen keine Long-Context-Gebühr mehr.
2. Dauerhaft, nicht werblich. Die Mitteilung verwendet zweimal die Formulierung „Dauerhafte Preissenkung“ und einmal „das gesamte Modell-Preissystem dauerhaft erneuern“. Kein Ablaufdatum. Keine Rücknahme-Klausel. Betrachten Sie es als den neuen Listenpreis.
3. Rücksetzung der Token-Plan-Belohnungen. Wenn Sie einen Token-Plan (Xiaomis Prepaid-Kontingentsystem) nutzten, wurde Ihr Guthaben um das 5- bis 8-fache erhöht und alle Credits, die Sie bereits innerhalb Ihres Gültigkeitszeitraums verbraucht hatten, wurden erstattet. Der Gültigkeitszeitraum selbst wurde nicht verlängert, sodass bestehende Pläne einen Budget-Zuwachs erhielten, aber nicht mehr Zeit.

Die Schlagzeile „bis zu 99% Rabatt“ bezieht sich speziell auf den Long-Context-Bereich. Der frühere Preis für 256K+ Input-Token war hoch genug, dass die Senkung auf 1 $/M eine Reduzierung von über 90% bewirkt. Für Workloads, die im Basistarif lagen, ist die Senkung kleiner, aber immer noch erheblich.
Das neue dauerhafte Preisblatt
Preise pro 1 Million Token, USD, sofort wirksam und dauerhaft:
| Modell | Input | Output | Gecached | Kontext |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M Tokens |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K Tokens |
Ein paar Details, die die Tabelle nicht offensichtlich macht:
- Der Cache-Rate ($0.20/M für V2.5 Pro) ist 5-mal günstiger als der Input-Rate. Das ist ein schlechteres Verhältnis als DeepSeeks 120:1 Input-Miss-zu-Input-Hit. Xiaomis Cache ist immer noch nützlich für wiederholte System-Prompts, aber die Einsparungen sind absolut gesehen kleiner.
- Das 1M-Kontextfenster ist der Teil, den die meisten Artikel unterbewerten. Die meisten in den USA gehosteten Frontier-Modelle haben eine Obergrenze von 200K bis 400K. MiMo V2.5 Pro nimmt das gesamte Dokument auf.
- Die Mitteilung erwähnt, aber detailliert nicht die V2.5 Omni und TTS Varianten. Überprüfen Sie diese separat auf der Plattform.
Für die ältere V2-Pro-Preisgestaltung als Referenzpunkt, siehe unseren aktuellen MiMo V2-Pro & Omni Preisleitfaden.
Was MiMo V2.5 über die günstigere Preisgestaltung hinaus bietet
Die Ankündigung vom 27. Mai ist ein Preisereignis, aber V2.5 selbst ist auch ein bedeutsames Upgrade gegenüber V2-Pro, das im April eingeführt wurde. Drei erwähnenswerte Änderungen:
- Längerer praktischer Kontext. V2.5 Pro behält das theoretische 1M-Token-Fenster bei, aber Xiaomi hat die Abrufqualität im Bereich von 200K bis 800K verbessert, wo die meisten Long-Context-Modelle an Leistung verlieren. Die Needle-in-Haystack-Genauigkeit bleibt bei über 95% bis zu 800K Token erhalten.
- Bessere Einhaltung des Tool-Call-Formats. V2-Pro hatte bekannte Probleme mit parallelen Tool-Calls, die fehlerhaftes JSON in gestreamten Antworten zurückgaben. V2.5 reduziert diese Fehler, wenn auch nicht auf Null. Planen Sie in jedem Fall eine JSON-Schema-Validierung ein.
- Aktualisierter Trainingskorpus. V2.5 wurde mit Daten bis Q1 2026 trainiert. Zitate und Wissensstand sind ungefähr drei Monate vor V2-Pro.
Keines davon sind Schlagzeilen-Benchmarks, aber es sind die Änderungen, die sich in echten Produktionsumgebungen zeigen. Kombinieren Sie die günstigere Preisgestaltung mit dem längeren, zuverlässigen Kontextfenster und Sie erhalten eine Option, die es vor dem 27. Mai für ernsthafte Arbeiten mit langen Dokumenten nicht gab.
Wie MiMo V2.5 im Vergleich zur Konkurrenz abschneidet
Der interessante Vergleich ist nicht der alte V2.5. Es ist der Vergleich mit den anderen API-Optionen im „Frontier-Tier“, die im Mai 2026 verfügbar sind:
| Modell | Input ($/MTok) | Output ($/MTok) | Kontext |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
Drei Erkenntnisse:
- DeepSeek V4-Pro ist immer noch günstiger als MiMo V2.5 pro Token. Grob 2,3x günstiger beim Input und 3,5x günstiger beim Output. Wenn reine Kosten pro Token Ihr einziges Kriterium sind, gewinnt DeepSeek.
- MiMo V2.5 gewinnt bei 1M-Kontext-Workloads. Gemini 3.5 Flash ist die einzige andere 1M-Kontext-Option in der Tabelle, und es ist 1,5x teurer beim Input und 3x teurer beim Output.
- MiMo V2.5 ist 5x günstiger als GPT-5.5 beim Input und 10x günstiger beim Output, mit vergleichbarer Benchmark-Leistung laut Artificial Analysis.
Für die DeepSeek-Seite dieses Vergleichs siehe DeepSeek V4-Pro 75% Preissenkung ist jetzt dauerhaft. Die beiden Artikel sind Begleitartikel. Beide behandeln die dauerhaften Preissenkungen in der Spitzengruppe der chinesischen Labore dieser Woche.
Drei Workloads, drei neue Rechnungen
Drei konkrete Fälle mit den neuen permanenten Tarifen:
1. Langdokument-RAG über Unternehmens-PDFs. 50.000 Anfragen/Tag, 800K-Token-Kontext pro Anfrage, 1K-Token-Antworten. Alte MiMo V2.5 Long-Context-Stufe (geschätzter effektiver Satz von 50 $/M): ca. 60.000 $/Monat. Neuer Pauschaltarif: ca. 1.225 $/Monat. Ersparnis: 58.775 $/Monat.
2. Code-Review-Agent. 5.000 Pull Requests/Tag, 30K-Token-Repo-Kontext, 2K-Token-Kommentar-Output. Alte GPT-5.5 Monatsrechnung: ca. 5.250 $. Neue MiMo V2.5: ca. 510 $. Ersparnis: 4.740 $/Monat.
3. Kundensupport-Chatbot. 200.000 Züge/Tag, 4K-Token-System-Prompt, 300-Token-Antworten. Alte Claude Opus 4.7 Monatsrechnung: ca. 11.250 $. Neue MiMo V2.5: ca. 805 $. Ersparnis: 10.445 $/Monat.
Workload #1 ist der Punkt, an dem sich MiMo V2.5 vom Rest abhebt. Long-Context-Jobs waren vor dieser Preissenkung bei jeder Frontier-API prohibitiv teuer. Das sind sie nicht mehr. Dieselben Dokumente, die früher an Zusammenfassungs- und Chunking-Pipelines gesendet wurden, können jetzt als Ganzes an das Modell gehen, ohne Token-Budget-Gymnastik.
Ein kurzer Hinweis zu Cache-Hits
Die Cache-Input-Rate von 0,20 $/M ist 5x günstiger als die Cache-Miss-Rate von 1,00 $. Das ist ein kleinerer Cache-Rabatt als das 120:1-Verhältnis von DeepSeek, aber immer noch bedeutsam für jeden Agenten, der einen stabilen System-Prompt wiederverwendet.
Ein Beispiel. Angenommen, Ihr Assistent verwendet einen 6.000-Token-System-Prompt und verarbeitet 80.000 Chat-Turns pro Tag, mit einer durchschnittlichen Benutzernachricht von 250 Input-Tokens und einer durchschnittlichen Antwort von 600 Output-Tokens:
- Ohne Cache-Hits: 80.000 Turns × 6.250 Input × 1,00 $ / 1.000.000 = 500 $ pro Tag nur für den Input.
- Mit 60 % Cache-Hits auf das System-Prompt-Präfix: 80.000 × (250 × 1,00 $ + 6.000 × (0,6 × 0,20 $ + 0,4 × 1,00 $)) / 1.000.000 = etwa 271 $ pro Tag. Eine Reduzierung um 46 %.
Das sind zwar nicht die 88 %, die DeepSeek-Caching liefert, aber bei einem Workload, der 500 $ pro Tag an Input verursacht, ist die Hälfte des Preises bares Geld. Fixieren Sie den System-Prompt, ordnen Sie den abgerufenen Kontext stabil an und fügen Sie keine anfragespezifischen Zeitstempel in das Präfix ein. Dieselben Regeln, die überall sonst zu Cache-Hits führen, gelten auch hier.
Wann MiMo V2.5 die richtige Wahl ist und wann nicht
Die neue Preisgestaltung macht MiMo V2.5 zur Standardwahl für zwei Workload-Klassen und zu einer schlechten Wahl für eine.
Die richtige Wahl:
- Langdokument-RAG, Code-Basis-Agenten, repository-weite Refaktorisierungen. Alles, was natürlich in einen >200K-Token-Kontext passt. Die Pauschalpreise plus das 1M-Fenster sind in der günstigen Stufe unübertroffen.
- Dokumentenverarbeitung mit hohem Volumen. Die Preisgestaltung ist vorhersehbar und die Cache-Rate ($0.20/M) ermöglicht es Ihnen, identische Präfixe günstig zu verarbeiten. Siehe Wie Prompt-Caching die LLM-Leistung steigert und Kosten senkt für die Cache-Mechanismen bei verschiedenen Anbietern.
Die schlechte Wahl:
- Latenzempfindlicher interaktiver Chat. MiMo V2.5 Pro ist nicht das schnellste Modell für den ersten Token. Für Typeahead, Autocomplete oder Chat im Sub-Sekundenbereich bieten DeepSeek V4-Flash oder Gemini 3.5 Flash bessere Latenzprofile zu ähnlichen Kosten.
Vorbehalte:
- Datenresidenz. Anrufe werden über Xiaomis Infrastruktur in China geleitet. Dieselbe Beschaffungsdiskussion wie bei DeepSeek.
- Zuverlässigkeit. Xiaomis First-Party-API hat eine kürzere Betriebsgeschichte als in den USA gehostete Frontier-Modelle. Für SLA-gestützte Produktion leiten Sie Anrufe über OpenRouter oder einen anderen Aggregator.
- Funktionsaufruf-Parität. OpenAI-kompatibel auf Schema-Ebene, mit Randfällen bei gestreamten Tool-Argumenten und parallelen Tool-Aufrufen. Testen Sie, bevor Sie ausliefern.
Für den V2-Pro-Launch-Kontext, der V2.5 vorbereitet, siehe Xiaomi hat gerade sein eigenes KI-Modell veröffentlicht, und es ist auf OpenRouter kostenlos. Für den kostenlosen Einstieg behandelt das Xiaomi MiMo Orbit kostenlose 100T Token-Programm die Berechtigung und Anmeldung.
MiMo V2.5 mit Apidog testen
Die OpenAI-Kompatibilität der Plattform ist gut, aber nicht perfekt. Überprüfen Sie Ihre Integration, bevor Sie den Produktionsverkehr umschalten.

Apidog ermöglicht es Ihnen, eine Chat Completions-Anfrage mit Ihrem MiMo API-Schlüssel an https://platform.xiaomimimo.com/v1 zu richten, und dann:
- Goldene Antworten von V2.5 Pro aufzuzeichnen und sie bei jeder Prompt-Änderung wieder abzuspielen, sodass Abweichungen sichtbar werden, bevor Benutzer sie bemerken.
- `tool_calls`-Strukturen mit JSON-Schema-Assertions zu validieren. Gestreamte Funktionsargumente sind der Punkt, an dem sich die OpenAI-Kompatibilitätsschwächen zeigen.
- Side-by-Side-Vergleiche mit Ihrem aktuellen Modell (GPT-5.5, Claude, DeepSeek V4-Pro) mit demselben Eingabe-Batch mithilfe der Test-Szenarien von Apidog durchzuführen.
Laden Sie Apidog herunter, importieren Sie das OpenAI Chat Completion Schema, ändern Sie die Basis-URL, und Sie haben in weniger als zehn Minuten ein funktionierendes V2.5-Test-Framework. Denselben Workflow haben wir in Wie man die DeepSeek V4 API verwendet empfohlen.
Wie sich der LLM-Preiskampf 2026 entwickelt
MiMo V2.5 ist die zweite dauerhafte Preissenkung in der "Frontier-Tier" von einem chinesischen Labor innerhalb einer Woche. DeepSeek hat V4-Pro am 22. Mai dauerhaft auf 1/4 des Listenpreises festgelegt. Kimi K2 hat bereits früher im 1. Quartal gesenkt. OpenAI O3 sank im Februar um 80%. Das Muster ist klar:
- Chinesische Labore konkurrieren über den Preis. Diese Senkungen sind keine Werbeaktionen. Sie sind strukturell.
- US-Labore konkurrieren über Fähigkeiten und Bündelungen. OpenAI und Anthropic halten ihre Flaggschiff-Preise und liefern Funktionen (Denkmodi, MCP-Server, agentische Workflows), um den Premiumpreis zu rechtfertigen.
- Die Benchmark-Lücke ist klein genug, dass die meisten Workloads neu getestet werden sollten. Öffentliche Benchmarks platzieren MiMo V2.5 laut Artificial Analysis bei den meisten Kodierungs- und Denkaufgaben innerhalb eines einstelligen Prozentbereichs von GPT-5.5.
Für den Rest dieses Bildes:
- DeepSeek V4-Pro dauerhafte Preissenkung behandelt den vergleichbaren Schritt des chinesischen Labors.
- Kimi K2 API-Preise erläutert die dritte große chinesische Preissenkung des Jahres 2026.
- OpenAI O3 Preissenkung behandelt die US-Antwort im Februar.
- Gemini 3.0 API-Kosten zeigt die Tier-Strategie von Google auf.
- Der vollständige Claude API-Kostenaufschlüsselung erklärt, wo Opus, Sonnet und Haiku passen. MiMo-7B sitzt in einer anderen Nische; siehe MiMo-7B-RL Benchmarks für die Seite der kleinen Modelle in Xiaomis Angebot.
Was das für Ihre Entwicklung bedeutet
Die Preissenkung bei MiMo V2.5 ist kein Marketing-Gag. Es ist eine strukturelle Neubewertung der 1M-Kontext-Ebene, und die Senkung ist dauerhaft. Wenn Sie bisher Langdokument-RAG, repository-weite Code-Agenten oder andere Workloads, die einen Kontext von >200K Token benötigen, aus Kostengründen aufgeschoben haben, überschätzt das Budget, das Sie letztes Quartal kalkuliert haben, wahrscheinlich den Bedarf dieses Quartals um eine Größenordnung.
Drei konkrete nächste Schritte:
- Nehmen Sie Ihre drei wichtigsten Workloads nach Token-Volumen und berechnen Sie die Kosten mit dem neuen Pauschaltarif neu. Diejenigen, die lange Kontexte verwenden, werden Sie überraschen.
- Führen Sie eine 100-Stichproben-Evaluierung von V2.5 Pro und Ihrem aktuellen Modell mit identischen Prompts durch. Die meisten Teams stellen fest, dass der Qualitätsbereich für 70 % bis 85 % des Traffics akzeptabel ist.
- Richten Sie eine Apidog-Regressionstest-Suite ein, damit die nächste Preissenkung, und es wird eine geben, in Stunden statt in Wochen bewertet werden kann.
Die Preisuntergrenze hat sich erneut verschoben. Entwickeln Sie entsprechend.
