Les laboratoires chinois ont baissé les prix de l'API LLM six fois au premier semestre 2026, et trois de ces baisses ont été déclarées permanentes. DeepSeek V4-Pro coûte désormais 0,87 $ par million de jetons de sortie. Xiaomi MiMo V2.5 vient de stabiliser son niveau de contexte long à 3 $ de sortie. Alibaba Qwen3 Max est proposé à 3,90 $. Kimi K2.6 de Moonshot maintient le prix plancher de 0,07 $ pour les résultats en cache. GLM-5 de Zhipu est à 3,20 $ de sortie. Vous trouverez ci-dessous la répartition complète des prix des cinq principales API frontières chinoises en mai 2026, avec des notes sur les capacités et une matrice d'achat à la fin afin que vous puissiez choisir celle qui convient le mieux à votre charge de travail.
En bref
- Moins cher par jeton (sortie) : DeepSeek V4-Pro à 0,87 $/MTok. Environ 34 fois moins cher que GPT-5.5.
- Moins cher pour 1M de contexte : Xiaomi MiMo V2.5 Pro à 3 $/MTok de sortie, prix fixe quelle que soit la longueur d'entrée.
- Meilleur équilibre prix-qualité pour la production générale : Alibaba Qwen3 Max à 3,90 $/MTok de sortie, 262K de contexte.
- Prix plancher le plus bas pour les résultats en cache (prompts système longs) : Moonshot Kimi K2.6 à 0,07 $/MTok mis en cache.
- Charges de travail à forte composante de raisonnement : Zhipu GLM-5 à 3,20 $/MTok de sortie, 200K de contexte, le plus fort en chaîne de pensée structurée.
- Les cinq laboratoires se livrent à une concurrence féroce sur les prix. Trois d'entre eux (DeepSeek, MiMo, Kimi) considèrent leurs baisses de 2026 comme permanentes.
Comment la guerre des prix des LLM chinois de 2026 s'est déroulée
Le modèle a commencé au quatrième trimestre 2025 et s'est accéléré au deuxième trimestre 2026. Voici une chronologie approximative :
- T4 2025 : DeepSeek V3.2 est lancé à 0,28 $/MTok d'entrée, sous-cotant les prix frontières américains d'un ordre de grandeur. Kimi K2.6 suit avec une tarification échelonnée en fonction du contexte et un taux de cache le plus bas de l'industrie à 0,07 $/MTok.
- Mars 2026 : Xiaomi dévoile MiMo V2-Pro sur OpenRouter à des tarifs compétitifs mais basés sur des niveaux.
- Avril 2026 : DeepSeek V4 est lancé avec une réduction promotionnelle de 75 % qui doit expirer le 31 mai.
- 22 mai 2026 : DeepSeek annonce que la réduction de 75 % est permanente. V4-Pro reste indéfiniment à 0,435 $/0,87 $. La répartition complète est ici.
- 27 mai 2026 : Xiaomi rend la tarification de MiMo V2.5 permanente à 1 $/3 $, supprimant le multiplicateur de contexte long. Plus d'informations sur la baisse de MiMo.
Les baisses ne sont pas aléatoires. Chaque laboratoire cible une lacune concurrentielle spécifique. DeepSeek vise le coût brut par jeton. MiMo cible les charges de travail à contexte long que d'autres modèles excluent en raison de leur prix. Qwen et GLM maintiennent des prix de milieu de gamme et rivalisent plutôt sur les capacités. Kimi rivalise sur les flux de travail d'agents et de codage via le prix plancher des résultats en cache.
En un coup d'œil : les 5 principales API LLM chinoises en mai 2026
| Modèle | Entrée ($/MTok) | Sortie ($/MTok) | Cache | Contexte | Le meilleur pour |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | 0,435 $ | 0,87 $ | 0,003625 $ | 128K | Le moins cher par jeton, codage |
| Xiaomi MiMo V2.5 Pro | 1,00 $ | 3,00 $ | 0,20 $ | 1M | RAG de documents longs, agents de dépôt |
| Alibaba Qwen3 Max | 0,78 $ | 3,90 $ | 0,156 $ | 262K | Équilibre de production |
| Moonshot Kimi K2.6 | 0,16–2,00 $ (par niveau) | ~2,50 $ | 0,07 $ | 128K | Prompts système longs, agents de codage |
| Zhipu GLM-5 | 1,00 $ | 3,20 $ | (défini par le fournisseur) | 200K | Raisonnement structuré |
Quelques détails à retenir de ce tableau :
- DeepSeek et MiMo ont un tarif fixe. Tous les autres laboratoires de cet ensemble utilisent encore une forme de tarification échelonnée ou de multiplicateur de contexte. La tarification fixe rend la planification de la capacité de production prévisible. La tarification échelonnée peut vous surprendre les mois à contexte long.
- Les taux de cache varient considérablement. Les 0,07 $ de Kimi K2.6 et 0,003625 $ de DeepSeek V4-Pro sont les deux valeurs aberrantes. Pour tout agent avec un prompt système stable, ce sont les taux par rapport auxquels vous devriez vous référer, et non la liste de prix des "cache-miss". Consultez notre étude approfondie sur la mise en cache des prompts pour les mécanismes.
- Les fenêtres de contexte se divisent nettement. Seul MiMo V2.5 vous offre 1M de jetons au niveau bon marché. Le suivant le plus grand dans cet ensemble est Qwen3 Max à 262K. Si votre charge de travail nécessite >300K jetons, MiMo n'est pas facultatif.
Ci-dessous : chaque modèle obtient une section avec les prix, les capacités et la charge de travail pour laquelle il excelle.
DeepSeek : le moins cher par jeton
Modèles : V4-Pro (0,435 $ en entrée / 0,87 $ en sortie / 0,003625 $ pour les résultats en cache, 128K de contexte), V4-Flash (0,14 $ / 0,28 $).
Le V4-Pro de DeepSeek est le prix plancher de l'étagère chinoise des modèles de pointe. La réduction permanente du 22 mai a fixé les jetons de sortie à 0,87 $/MTok, soit environ 34 fois moins cher que GPT-5.5 et 17 fois moins cher que Claude Opus 4.7. Le coût de 0,003625 $/MTok pour les résultats en cache est le taux le plus bas de tout laboratoire majeur. Confirmé par rapport à la page de tarification officielle de DeepSeek.
Où V4-Pro l'emporte :
- Les charges de travail à forte production (génération de code, chaînes d'agents, outils de contenu) où vous dépensez plus de 70 % de votre budget de jetons en sortie.
- Tout ce qui a un prompt système stable de 5K à 10K jetons. Les résultats en cache ramènent le coût d'entrée effectif à presque zéro.
- La production sensible aux coûts où vous pouvez absorber 3 à 7 points d'écart de référence par rapport à GPT-5.5.
Où il ne convient pas :
- Les charges de travail de documents longs (>128K de contexte). MiMo V2.5 est le choix le moins cher en termes absolus, même à des taux par jeton plus élevés, car DeepSeek ne peut pas s'adapter au prompt.
- Le chat en temps réel critique pour la latence. V4-Pro est un modèle de "réflexion" avec un temps jusqu'au premier jeton de 600 à 900 ms.
Pour une couverture plus approfondie : Baisse de prix permanente de DeepSeek V4-Pro, Qu'est-ce que DeepSeek V4, Comment utiliser l'API DeepSeek V4.
Xiaomi MiMo : l'option la moins chère pour un contexte de 1M
Modèles : MiMo V2.5 Pro (1,00 $ en entrée / 3,00 $ en sortie / 0,20 $ pour le cache, 1M de contexte), MiMo V2 Flash (~0,10 $ / ~0,40 $, 256K de contexte).
La réduction permanente du 27 mai de Xiaomi a stabilisé la tarification de MiMo V2.5 sur toutes les fenêtres de contexte. Les anciens niveaux de contexte long, qui facturaient de forts multiplicateurs au-delà de 256K jetons d'entrée, ont disparu. La nouvelle tarification applique le même taux de 1 $/3 $ que vous envoyiez 5K ou 950K jetons. L'avis officiel de mise à jour des prix qualifie la réduction de "permanente".
Où V2.5 Pro l'emporte :
- RAG de documents longs, analyse de code à l'échelle du dépôt, résumé multi-documents, toute charge de travail qui s'adapte à 300K à 1M de jetons de contexte.
- Traitement de documents à fort volume où la prévisibilité des prix est plus importante que le prix plancher absolu.
Où il ne convient pas :
- Chat à prompt court. V2.5 Pro est plus cher que DeepSeek V4-Pro à n'importe quelle longueur de contexte que DeepSeek peut gérer.
- Charges de travail critiques pour la latence. Des modèles chinois plus rapides existent pour des budgets de réponse inférieurs à la seconde.
La fenêtre de contexte de 1M, associée à un taux de cache compétitif, confère à MiMo une place structurellement unique sur le marché. Jusqu'à ce que DeepSeek étende son contexte au-delà de 128K ou qu'Alibaba stabilise les prix de Qwen, MiMo détient le quadrant "bon marché et long".
Pour une couverture plus approfondie : Combien coûte l'utilisation de Xiaomi MiMo V2.5 en 2026, Tarification MiMo V2-Pro & Omni et comment utiliser l'API, Programme de jetons gratuits Xiaomi MiMo Orbit 100T.
Alibaba Qwen : le cheval de trait de la production
Modèles : Qwen3 Max (0,78 $ en entrée / 3,90 $ en sortie / 0,156 $ pour le cache, 262K de contexte). Le nouveau Qwen 3.7 Max à 2,50 $/MTok d'entrée avec 1M de contexte est en cours de déploiement. Les tarifs sont vérifiés par rapport à la feuille Qwen3 Max de pricepertoken.
Qwen3 Max est le produit phare d'Alibaba et le modèle chinois le plus déployé en production internationale. Il se situe à un prix compétitif mais pas plancher : 1,8x DeepSeek V4-Pro en entrée, 4,5x en sortie. La prime paye pour le plus large écosystème d'outils (compatibilité directe avec le protocole Anthropic, compatibilité OpenAI, hébergement d'entreprise Alibaba Cloud) et une fenêtre de contexte de 262K qui gère la plupart des charges de travail de documents d'entreprise.
Où Qwen3 Max l'emporte :
- Production multilingue. Le corpus d'entraînement de Qwen est fortement orienté vers le mandarin et les langues asiatiques, ce qui en fait le plus performant en dehors de l'anglais dans cet ensemble.
- Scénarios de conformité d'entreprise. Le SLA d'entreprise et les options de région cloud d'Alibaba sont les plus matures de tous les laboratoires chinois.
- Les charges de travail qui nécessitent 200K à 262K de contexte mais ne justifient pas la bande de qualité premium de MiMo.
Où il ne convient pas :
- Les charges de travail à forte production sensibles aux coûts. À 3,90 $/MTok en sortie, vous payez 4,5 fois le taux de DeepSeek. Si votre charge de travail tolère la qualité de DeepSeek, changez.
Pour une couverture plus approfondie : Qwen 3 vs OpenAI & DeepSeek : comparaison technique approfondie pour les développeurs d'API.
Moonshot Kimi : le spécialiste du codage
Modèles : Kimi K2.6 avec une tarification d'entrée échelonnée par contexte (0,16 $ à 2,00 $/MTok sur les bandes 8K, 32K, 64K et 128K), un prix plancher de 0,07 $/MTok pour les résultats en cache, des taux de sortie d'environ 2,50 $/MTok dans la bande médiane.
Kimi K2.6 est le champion des résultats en cache. Le taux de 0,07 $/MTok pour les résultats en cache est le chiffre le plus bas de tout laboratoire majeur. Combiné à la forte capacité d'appel d'outils de Kimi et à la prise en charge des agents de longue durée, K2.6 est le modèle qui gagne sur les flux de travail où vous réutilisez un gros prompt système sur de nombreux tours : agents de codage, chatbots de support client avec des prompts de persona stables, pipelines de récupération avec des blocs de contexte stables.
Où K2.6 l'emporte :
- Agents de codage (flux de travail de type Claude Code). Une forte conformité du format d'appel d'outils et le prix plancher le plus bas pour les résultats en cache rendent les modèles de contexte répétitifs presque gratuits.
- Sessions de chat de longue durée où le prompt système et les exemples few-shot sont stables.
Où il ne convient pas :
- Charges de travail variées et fluctuantes où les préfixes changent à chaque requête. Le prix d'entrée échelonné signifie que des surprises de longueur de contexte peuvent faire grimper votre facture.
- Budgétisation prévisible. Les transitions de niveau à 32K, 64K et 128K jetons d'entrée signifient que le même type de requête peut coûter 4 fois plus cher un long jour qu'un court jour.
Pour une couverture plus approfondie : La tarification de l'API Kimi K2 vaut-elle vraiment le battage médiatique pour les développeurs en 2026.
Zhipu GLM : le challenger du raisonnement
Modèles : GLM-5 (1,00 $ en entrée / 3,20 $ en sortie, 200K de contexte), GLM-5.1 (0,98 $ / 3,08 $, 200K de contexte). Les tarifs sont vérifiés par rapport à l'aperçu officiel des prix de Z.AI.
GLM-5 de Zhipu a été lancé avec une augmentation de prix de 30 % par rapport à GLM-4.7 (un mouvement à contre-courant sur un marché qui court à la baisse), puis a publié GLM-5.1 avec une légère réduction. La tarification reflète le positionnement de Zhipu : pas le moins cher, mais le plus performant pour les tâches de raisonnement structuré et de chaîne de pensée.
Où GLM-5 l'emporte :
- Mathématiques, raisonnement formel, tâches de chaîne de pensée structurées. GLM-5 détient le classement sur plusieurs benchmarks de classe GPQA parmi les modèles frontières chinois.
- Charges de travail où le coût marginal est faible par rapport au coût des mauvaises réponses (analyse financière, résumé juridique, raisonnement scientifique).
- Flux de travail d'agents multi-étapes qui bénéficient de traces de raisonnement claires.
Où il ne convient pas :
- Applications sensibles aux coûts. GLM-5 est l'option la plus chère de cet ensemble, en combinant l'entrée et la sortie. Si le coût brut est ce que vous optimisez, cherchez ailleurs.
- Charges de travail qui ne récompensent pas un raisonnement fort. Pour la génération de contenu ou le résumé pur et simple, la prime GLM n'en vaut pas la peine.
Pour une couverture plus approfondie : GLM-5 vs DeepSeek V3 vs GPT-5 : vitesse, coût et comparaison pratique pour les développeurs, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.
Le moins cher par charge de travail : une matrice d'achat
Pour cinq charges de travail de production courantes, voici quel modèle l'emporte :
| Charge de travail | Gagnant | Pourquoi |
|---|---|---|
| Génération de code (forte sortie) | DeepSeek V4-Pro | 0,87 $/MTok en sortie est imbattable |
| RAG de documents longs (>300K de contexte) | Xiaomi MiMo V2.5 Pro | Seule option à 1M de contexte à prix fixe |
| Agent de codage avec prompt système stable | Kimi K2.6 | Prix plancher de 0,07 $/MTok pour les résultats en cache |
| Support client multilingue | Alibaba Qwen3 Max | La meilleure performance non-anglaise |
| Mathématiques, raisonnement formel, analyse structurée | Zhipu GLM-5 | La meilleure qualité de chaîne de pensée |
Trois modèles combinés méritent d'être signalés :
- Routage à deux modèles. De nombreuses équipes de production acheminent 70 à 85 % du trafic vers DeepSeek V4-Pro et conservent leur modèle secondaire en "hard tail". Les économies sont importantes et l'impact sur la qualité est faible pour la plupart des charges de travail.
- Segmentation de contexte long. Si votre charge de travail se divise entre des contextes courts et longs, acheminez les courts vers DeepSeek et les longs vers MiMo. La difficulté de la facturation unifiée est réelle, mais l'arbitrage des coûts est trop important pour être ignoré.
- Consolidation des préfixes de cache. Quel que soit le modèle que vous choisissez, auditez vos prompts système. Les résultats en cache sont le gain facile qui survit à tout changement de modèle.
Notes sur la qualité et les benchmarks
Une note sur la qualité, car le prix ne signifie rien si le modèle ne peut pas faire le travail.
Selon Artificial Analysis, les cinq modèles de cette comparaison se situent à 5 à 10 points de pourcentage les uns des autres sur la plupart des benchmarks publics. Les différences intéressantes en queue de distribution :
- DeepSeek V4-Pro : Fort en codage (SWE-bench Pro autour de 55 %) et en raisonnement (GPQA autour de 90 %). Léger écart par rapport à GPT-5.5 sur les tâches d'agents à long terme.
- MiMo V2.5 Pro : Fort en récupération de contexte long (précision d'aiguille >95 % à 800K), milieu de peloton en codage.
- Qwen3 Max : Meilleure performance non-anglaise, forte qualité de production générale.
- Kimi K2.6 : La meilleure conformité au format d'appel d'outils, en particulier pour les appels d'outils parallèles.
- GLM-5 : La meilleure qualité de raisonnement en chaîne de pensée de l'ensemble.
Effectuez votre propre évaluation sur 100 échantillons avant de vous engager. Les benchmarks publics sont utiles pour l'orientation, mais l'écart qui compte est celui de votre trafic.
Tester les cinq avec Apidog
Un déploiement de production multi-modèles nécessite un harnais de test multi-modèles. Apidog gère les cinq API chinoises à partir d'un seul espace de travail car toutes acceptent les corps de requête OpenAI Chat Completions, avec des bizarreries de compatibilité mineures. Le flux de travail :

- Créez un environnement par fournisseur dans Apidog :
api.deepseek.com,platform.xiaomimimo.com, Alibaba Cloud Model Studio,api.moonshot.cnde Moonshot, etopen.bigmodel.cnde Zhipu. - Importez le schéma OpenAI Chat Completion une seule fois. Changez l'URL de base par environnement.
- Exécutez le même scénario de test sur les cinq en un seul clic. Différenciez les réponses, les scores et les latences.
- Connectez la validation du schéma JSON aux formes
tool_callspour détecter les particularités de format de streaming propres à chaque fournisseur.
Téléchargez Apidog, importez vos cas de test, et vous aurez une comparaison fonctionnelle des cinq en moins de quinze minutes. C'est le même flux de travail que nous recommandons dans les analyses approfondies par modèle : Baisse permanente de DeepSeek V4-Pro, Coût de MiMo V2.5, Tarification Kimi K2.
Où va la guerre des prix ensuite
Le prix plancher a bougé deux fois en mai. Deux autres mouvements sont probables avant la fin du troisième trimestre.
- Réponse de Qwen. Alibaba a rarement été le premier à couper, mais suit constamment dans les semaines qui suivent. Attendez-vous à une révision de Qwen3 Max ou à l'annonce de Qwen 3.8 d'ici juillet.
- Réponse de GLM. L'augmentation de 30 % de Zhipu sur GLM-5 semble de plus en plus à contre-courant. Un GLM-5.2 avec une coupe structurelle est plausible.
- Simplification structurelle de Kimi. La tarification par niveaux de contexte passe de mode. Moonshot pourrait stabiliser K2.6 pour correspondre à la structure de MiMo.
Construisez en conséquence. Trois prochaines étapes :
- Auditez vos trois principales charges de travail par rapport à la matrice d'achat ci-dessus. Choisissez-en une pour un test de migration cette semaine.
- Verrouillez vos préfixes de cache. C'est la victoire quel que soit le modèle que vous choisissez.
- Mettez en place une suite de régression Apidog qui pointe vers les cinq fournisseurs afin que le prochain cycle de réductions prenne des heures à évaluer au lieu de semaines.
Le prix plancher n'a pas fini de baisser. Positionnez votre pile pour ce qui vient ensuite.
