Le prix de l'API Xiaomi MiMo V2.5 est passé à un tarif forfaitaire de 1 $ par million de jetons d'entrée et 3 $ par million de jetons de sortie le 27 mai 2026, et l'équipe a rendu ce nouveau tarif permanent. L'ancien palier de contexte long, où les requêtes dépassant 256K jetons entraînaient un multiplicateur élevé sur le tarif de base, a disparu. Un seul prix désormais, quelle que soit la longueur du contexte. Pour la plupart des charges de travail, la nouvelle principale tient en une seule phrase : MiMo V2.5 est l'un des trois modèles avec un contexte d'1M les moins chers en production, et il le reste.
En bref
- Tarif permanent de Xiaomi MiMo V2.5 à compter du 27 mai 2026 : 1,00 $ en entrée, 3,00 $ en sortie, 0,20 $ mis en cache par million de jetons, avec une fenêtre de contexte d'1 million de jetons.
- L'affirmation "jusqu'à 99 % de réduction" est réelle sur le palier de contexte long. L'ancien barème augmentait fortement au-delà de 256K jetons d'entrée. Le nouveau tarif forfaitaire supprime le multiplicateur.
- Les clients du plan de jetons ont bénéficié d'une augmentation de leur quota de 5 à 8 fois et d'une réinitialisation complète des crédits utilisés dans leur période de validité.
- La réduction est permanente, non promotionnelle. L'avis officiel de Xiaomi indique "rénover en permanence l'ensemble du système de tarification du modèle".
- Contexte : Xiaomi est le deuxième laboratoire chinois à effectuer une réduction permanente de prix sur un modèle de pointe cette semaine. DeepSeek a rendu V4-Pro permanent à 1/4 de son prix catalogue trois jours plus tôt.
Ce qui a changé le 27 mai 2026
L'avis officiel de mise à jour des prix de Xiaomi présente trois changements. Les trois sont entrés en vigueur le 27 mai à 00h00, heure de Pékin, soit le 26 mai à 16h00 UTC.

1. Tarification forfaitaire pour toutes les fenêtres de contexte. L'ancien barème de MiMo V2.5 utilisait des tarifs échelonnés : un prix de base pour les requêtes jusqu'à 32K jetons d'entrée, un multiplicateur pour la bande de 32K à 256K, et un tarif encore plus élevé au-delà de 256K. Le nouveau barème a un seul chiffre par type de jeton. Les applications à long contexte ne paient plus de taxe sur le long contexte.
2. Permanent, non promotionnel. L'avis utilise deux fois l'expression "Réduction de prix permanente" et une fois "rénover en permanence l'ensemble du système de tarification du modèle". Pas de date d'expiration. Pas de clause de retour en arrière. Considérez-le comme le nouveau prix catalogue.
3. Réinitialisation des récompenses du plan de jetons. Si vous êtes sur un plan de jetons (le système de quota prépayé de Xiaomi), votre solde de crédits a été augmenté de 5 à 8 fois et chaque crédit que vous aviez déjà consommé dans votre période de validité a été remboursé. La période de validité elle-même n'a pas été prolongée, les plans existants ont donc bénéficié d'une aubaine budgétaire mais pas de temps supplémentaire.

L'affirmation phare "jusqu'à 99 % de réduction" s'applique spécifiquement à la bande de contexte long. Le prix antérieur pour plus de 256K jetons d'entrée était suffisamment élevé pour qu'un passage à 1 $/M produise une réduction de plus de 90 %. Pour les charges de travail qui se situaient dans le palier de base, la réduction est plus petite mais toujours significative.
La nouvelle grille tarifaire permanente
Prix par million de jetons, en USD, effectif immédiatement et permanent :
| Modèle | Entrée | Sortie | Mis en cache | Contexte |
|---|---|---|---|---|
| MiMo V2.5 Pro | 1,00 $ | 3,00 $ | 0,20 $ | 1M jetons |
| MiMo V2 Flash | ~0,10 $ | ~0,40 $ | 0,02 $ | 256K jetons |
Quelques détails que le tableau ne rend pas évidents :
- Le taux de cache (0,20 $/M pour V2.5 Pro) est 5 fois le taux d'entrée. C'est un ratio moins bon que celui de DeepSeek (120:1 pour les accès manqués par rapport aux accès réussis en entrée). Le cache de Xiaomi est toujours utile pour les invites système répétées, mais les économies sont plus petites en termes absolus.
- La fenêtre de contexte d'1 million de jetons est le point que la plupart des articles sous-estiment. La plupart des modèles de pointe hébergés aux États-Unis sont limités à 200K à 400K. MiMo V2.5 Pro prend en charge le document entier.
- L'avis mentionne mais ne détaille pas les variantes V2.5 Omni et TTS. Vérifiez celles-ci séparément sur la plateforme.
Pour les anciens tarifs de V2-Pro à titre de référence, consultez notre guide de tarification MiMo V2-Pro & Omni.
Ce qu'apporte MiMo V2.5 au-delà d'une tarification moins chère
L'annonce du 27 mai est un événement tarifaire, mais V2.5 est également une mise à niveau significative par rapport à V2-Pro lancé en avril. Trois changements méritent d'être notés :
- Contexte pratique plus long. V2.5 Pro conserve la fenêtre théorique d'1 million de jetons, mais Xiaomi a amélioré la qualité de récupération dans la bande de 200K à 800K où la plupart des modèles à long contexte se dégradent. La précision de la "recherche d'aiguille dans une botte de foin" se maintient au-dessus de 95 % jusqu'à 800K jetons.
- Meilleure conformité au format d'appel d'outil. V2-Pro avait des problèmes connus avec les appels d'outils parallèles renvoyant du JSON mal formé dans les réponses en streaming. V2.5 réduit ces échecs, bien qu'ils ne soient pas nuls. Prévoyez une validation du schéma JSON dans tous les cas.
- Corpus d'entraînement actualisé. V2.5 a été entraîné avec des données jusqu'au T1 2026. Les citations et la date de coupure des connaissances sont environ trois mois en avance par rapport à V2-Pro.
Aucun de ces points n'est une référence majeure, mais ce sont les changements qui se manifestent dans les déploiements de production réels. Associez la tarification moins chère à la fenêtre de contexte fiable plus longue et vous obtenez une option qui n'existait pas pour les travaux sérieux sur des documents longs avant le 27 mai.
Comment MiMo V2.5 se positionne par rapport à la concurrence
La comparaison intéressante n'est pas avec l'ancien V2.5. C'est avec les autres options d'API de pointe disponibles en mai 2026 :
| Modèle | Entrée ($/MTok) | Sortie ($/MTok) | Contexte |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | 1,00 $ | 3,00 $ | 1M |
| DeepSeek V4-Pro | 0,435 $ | 0,87 $ | 128K |
| GPT-5.5 | 5,00 $ | 30,00 $ | 200K |
| Claude Opus 4.7 | 3,00 $ | 15,00 $ | 200K |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1M |
Trois points à retenir :
- DeepSeek V4-Pro est toujours moins cher que MiMo V2.5 sur une base par jeton. Environ 2,3 fois moins cher en entrée et 3,5 fois moins cher en sortie. Si le coût brut par jeton est votre seule métrique, DeepSeek l'emporte.
- MiMo V2.5 l'emporte sur les charges de travail avec un contexte d'1 million de jetons. Gemini 3.5 Flash est la seule autre option avec un contexte d'1 million de jetons dans le tableau, et il est 1,5 fois plus cher en entrée et 3 fois plus cher en sortie.
- MiMo V2.5 est 5 fois moins cher que GPT-5.5 en entrée et 10 fois moins cher en sortie, avec des performances de référence comparables selon Artificial Analysis.
Pour le côté DeepSeek de cette comparaison, consultez La réduction de prix de 75% de DeepSeek V4-Pro est désormais permanente. Les deux articles sont des lectures complémentaires. Ils couvrent tous deux les réductions permanentes de prix des laboratoires chinois sur leurs modèles de pointe cette semaine.
Trois charges de travail, trois nouvelles factures
Trois cas concrets utilisant les nouveaux tarifs permanents :
1. RAG (Retrieval Augmented Generation) de documents longs sur des PDF d'entreprise. 50 000 requêtes/jour, contexte de 800K jetons par requête, réponses de 1K jetons. Ancien palier de contexte long de MiMo V2.5 (taux effectif estimé à 50 $/M) : environ 60 000 $/mois. Nouveau tarif forfaitaire : environ 1 225 $/mois. Économies : 58 775 $/mois.
2. Agent de révision de code. 5 000 requêtes de tirage/jour, contexte de dépôt de 30K jetons, sortie de commentaires de 2K jetons. Ancienne facture mensuelle GPT-5.5 : environ 5 250 $. Nouveau MiMo V2.5 : environ 510 $. Économies : 4 740 $/mois.
3. Chatbot de support client. 200 000 interactions/jour, invite système de 4K jetons, réponses de 300 jetons. Ancienne facture mensuelle Claude Opus 4.7 : environ 11 250 $. Nouveau MiMo V2.5 : environ 805 $. Économies : 10 445 $/mois.
La charge de travail n°1 est celle où MiMo V2.5 se distingue des autres. Les tâches à long contexte étaient d'un coût prohibitif sur toutes les API de pointe avant cette réduction. Elles ne le sont plus. Les mêmes documents qui étaient auparavant envoyés à des résumateurs et des pipelines de découpage peuvent désormais être transmis au modèle dans leur intégralité, sans gymnastique de budget de jetons.
Une brève note sur les succès du cache
Le taux d'entrée mis en cache de 0,20 $/M est 5 fois moins cher que le taux de 1,00 $ pour les échecs de cache. C'est une réduction de cache plus faible que le ratio 120:1 de DeepSeek (manque d'entrée/succès d'entrée), mais elle reste significative pour tout agent qui réutilise une invite système stable.
Un exemple concret. Supposons que votre assistant utilise une invite système de 6 000 jetons et gère 80 000 interactions de chat par jour, avec un message utilisateur moyen de 250 jetons d'entrée et une réponse moyenne de 600 jetons de sortie :
- Sans succès du cache : 80 000 interactions × 6 250 jetons d'entrée × 1,00 $ / 1 000 000 = 500 $ par jour uniquement pour l'entrée.
- Avec 60 % de succès du cache sur le préfixe de l'invite système : 80 000 × (250 × 1,00 $ + 6 000 × (0,6 × 0,20 $ + 0,4 × 1,00 $)) / 1 000 000 = environ 271 $ par jour. Une réduction de 46 %.
Ce n'est pas la performance de cache de 88 % offerte par DeepSeek, mais sur une charge de travail qui coûte 500 $/jour en entrée, une réduction de moitié représente une somme d'argent réelle. Fixez l'invite système, triez le contexte récupéré de manière stable et n'injectez pas d'horodatages par requête dans le préfixe. Les mêmes règles qui permettent de réussir les accès au cache partout ailleurs s'appliquent également ici.
Quand MiMo V2.5 est le bon choix, et quand il ne l'est pas
La nouvelle tarification fait de MiMo V2.5 le choix par défaut pour deux catégories de charges de travail et un mauvais choix pour une.
Bon choix :
- RAG de documents longs, agents de base de code, refactoring à l'échelle du dépôt. Tout ce qui s'intègre naturellement dans un contexte de >200K jetons. La tarification forfaitaire associée à la fenêtre d'1 million de jetons est inégalée dans le segment économique.
- Traitement de documents à volume élevé. La tarification est prévisible et le taux mis en cache (0,20 $/M) vous permet de traiter par lots des préfixes identiques à moindre coût. Voir Comment la mise en cache des invites suralimente les performances des LLM et réduit les coûts pour la mécanique du cache chez les différents fournisseurs.
Mauvais choix :
- Chat interactif critique en termes de latence. MiMo V2.5 Pro n'est pas le modèle le plus rapide en terme de premier jeton. Pour la saisie semi-automatique, l'autocomplétion ou le chat en moins d'une seconde, DeepSeek V4-Flash ou Gemini 3.5 Flash offrent de meilleurs profils de latence à un coût similaire.
Mises en garde :
- Résidence des données. Les appels passent par l'infrastructure de Xiaomi en Chine. Même discussion d'approvisionnement que pour DeepSeek.
- Fiabilité. L'API propriétaire de Xiaomi a un historique opérationnel plus court que les modèles de pointe hébergés aux États-Unis. Pour une production avec SLA, passez par OpenRouter ou un autre agrégateur.
- Parité des appels de fonctions. Compatible avec OpenAI au niveau du schéma, avec des cas limites concernant les arguments d'outils en streaming et les appels d'outils parallèles. Testez avant de déployer.
Pour le contexte du lancement de V2-Pro qui prépare V2.5, voir Xiaomi vient de lancer son propre modèle d'IA, et il est gratuit sur OpenRouter. Pour l'accès au niveau gratuit, le programme de 100 T jetons gratuits Xiaomi MiMo Orbit couvre l'éligibilité et l'inscription.
Tester MiMo V2.5 avec Apidog
La compatibilité OpenAI de la plateforme est bonne, mais pas parfaite. Vérifiez votre intégration avant de basculer le trafic de production.

Apidog vous permet de diriger une requête de Chat Completions vers https://platform.xiaomimimo.com/v1 avec votre clé API MiMo, puis :
- Enregistrer les réponses "golden" de V2.5 Pro et les rejouer à chaque changement d'invite afin que les déviations apparaissent avant les utilisateurs.
- Valider les formes de
tool_callsavec des assertions de schéma JSON. Les arguments de fonction en streaming sont là où les fissures de compatibilité OpenAI ont tendance à apparaître. - Exécuter des comparaisons côte à côte avec votre modèle actuel (GPT-5.5, Claude, DeepSeek V4-Pro) en utilisant le même lot d'entrée via les scénarios de test d'Apidog.
Téléchargez Apidog, importez le schéma OpenAI Chat Completion, changez l'URL de base, et vous aurez un harnais de test V2.5 fonctionnel en moins de dix minutes. Le même flux de travail que nous avons recommandé dans Comment utiliser l'API DeepSeek V4.
Comment se profile la guerre des prix des LLM en 2026
MiMo V2.5 est la deuxième réduction permanente de prix sur un modèle de pointe d'un laboratoire chinois en une seule semaine. DeepSeek a rendu V4-Pro permanent à 1/4 de son prix catalogue le 22 mai. Kimi K2 a réduit ses prix plus tôt au premier trimestre. OpenAI O3 a chuté de 80 % en février. Le schéma est clair :
- Les laboratoires chinois se font concurrence sur les prix. Ces réductions ne sont pas des promotions. Elles sont structurelles.
- Les laboratoires américains se font concurrence sur les capacités et les offres groupées. OpenAI et Anthropic maintiennent leurs prix de modèles phares et proposent des fonctionnalités (modes de pensée, serveurs MCP, workflows agentiques) pour justifier la prime.
- L'écart de référence est suffisamment faible pour que la plupart des charges de travail devraient être re-testées. Les références publiques placent MiMo V2.5 à quelques points de pourcentage de GPT-5.5 sur la plupart des tâches de codage et de raisonnement, selon Artificial Analysis.
Pour le reste de ce tableau :
- La réduction de prix permanente de DeepSeek V4-Pro couvre le mouvement comparable des laboratoires chinois.
- La tarification de l'API Kimi K2 détaille la troisième réduction majeure chinoise de 2026.
- La baisse des prix de l'API OpenAI O3 couvre la réponse américaine en février.
- Le coût de l'API Gemini 3.0 cartographie la stratégie de palier de Google.
- La ventilation complète des coûts de l'API Claude explique où se situent Opus, Sonnet et Haiku. MiMo-7B occupe une niche différente ; voir les benchmarks de MiMo-7B-RL pour la partie des petits modèles de la gamme de Xiaomi.
Où cela laisse votre construction
La réduction de MiMo V2.5 n'est pas un coup de marketing. C'est une refonte structurelle de la tarification du palier de contexte d'1 million de jetons, et la réduction est permanente. Si vous avez reporté le RAG de documents longs, les agents de code à l'échelle du dépôt, ou toute charge de travail nécessitant un contexte de plus de 200K jetons pour des raisons de coût, le budget que vous avez estimé le trimestre dernier surestime probablement d'un ordre de grandeur le besoin de ce trimestre.
Trois prochaines étapes concrètes :
- Prenez vos trois principales charges de travail par volume de jetons et recalculez leur coût au nouveau tarif forfaitaire. Celles qui utilisent de longs contextes vous surprendront.
- Exécutez une évaluation de 100 échantillons sur V2.5 Pro et votre modèle actuel avec des invites identiques. La plupart des équipes trouvent que la plage de qualité est acceptable pour 70 % à 85 % du trafic.
- Configurez une suite de régression Apidog afin que la prochaine réduction de prix, et il y en aura une, prenne des heures à évaluer au lieu de semaines.
Le seuil de prix a de nouveau bougé. Développez en conséquence.
