Guerre des Prix des LLM Chinois 2026: Comparaison des Coûts des 5 Principales API

Ashley Innocent

Ashley Innocent

27 May 2026

Guerre des Prix des LLM Chinois 2026: Comparaison des Coûts des 5 Principales API

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Les laboratoires chinois ont baissé les prix de l'API LLM six fois au premier semestre 2026, et trois de ces baisses ont été déclarées permanentes. DeepSeek V4-Pro coûte désormais 0,87 $ par million de jetons de sortie. Xiaomi MiMo V2.5 vient de stabiliser son niveau de contexte long à 3 $ de sortie. Alibaba Qwen3 Max est proposé à 3,90 $. Kimi K2.6 de Moonshot maintient le prix plancher de 0,07 $ pour les résultats en cache. GLM-5 de Zhipu est à 3,20 $ de sortie. Vous trouverez ci-dessous la répartition complète des prix des cinq principales API frontières chinoises en mai 2026, avec des notes sur les capacités et une matrice d'achat à la fin afin que vous puissiez choisir celle qui convient le mieux à votre charge de travail.

bouton

En bref

Comment la guerre des prix des LLM chinois de 2026 s'est déroulée

Le modèle a commencé au quatrième trimestre 2025 et s'est accéléré au deuxième trimestre 2026. Voici une chronologie approximative :

Les baisses ne sont pas aléatoires. Chaque laboratoire cible une lacune concurrentielle spécifique. DeepSeek vise le coût brut par jeton. MiMo cible les charges de travail à contexte long que d'autres modèles excluent en raison de leur prix. Qwen et GLM maintiennent des prix de milieu de gamme et rivalisent plutôt sur les capacités. Kimi rivalise sur les flux de travail d'agents et de codage via le prix plancher des résultats en cache.

En un coup d'œil : les 5 principales API LLM chinoises en mai 2026

Modèle Entrée ($/MTok) Sortie ($/MTok) Cache Contexte Le meilleur pour
DeepSeek V4-Pro 0,435 $ 0,87 $ 0,003625 $ 128K Le moins cher par jeton, codage
Xiaomi MiMo V2.5 Pro 1,00 $ 3,00 $ 0,20 $ 1M RAG de documents longs, agents de dépôt
Alibaba Qwen3 Max 0,78 $ 3,90 $ 0,156 $ 262K Équilibre de production
Moonshot Kimi K2.6 0,16–2,00 $ (par niveau) ~2,50 $ 0,07 $ 128K Prompts système longs, agents de codage
Zhipu GLM-5 1,00 $ 3,20 $ (défini par le fournisseur) 200K Raisonnement structuré

Quelques détails à retenir de ce tableau :

Ci-dessous : chaque modèle obtient une section avec les prix, les capacités et la charge de travail pour laquelle il excelle.

DeepSeek : le moins cher par jeton

Modèles : V4-Pro (0,435 $ en entrée / 0,87 $ en sortie / 0,003625 $ pour les résultats en cache, 128K de contexte), V4-Flash (0,14 $ / 0,28 $).

Le V4-Pro de DeepSeek est le prix plancher de l'étagère chinoise des modèles de pointe. La réduction permanente du 22 mai a fixé les jetons de sortie à 0,87 $/MTok, soit environ 34 fois moins cher que GPT-5.5 et 17 fois moins cher que Claude Opus 4.7. Le coût de 0,003625 $/MTok pour les résultats en cache est le taux le plus bas de tout laboratoire majeur. Confirmé par rapport à la page de tarification officielle de DeepSeek.

Où V4-Pro l'emporte :

Où il ne convient pas :

Pour une couverture plus approfondie : Baisse de prix permanente de DeepSeek V4-Pro, Qu'est-ce que DeepSeek V4, Comment utiliser l'API DeepSeek V4.

Xiaomi MiMo : l'option la moins chère pour un contexte de 1M

Modèles : MiMo V2.5 Pro (1,00 $ en entrée / 3,00 $ en sortie / 0,20 $ pour le cache, 1M de contexte), MiMo V2 Flash (~0,10 $ / ~0,40 $, 256K de contexte).

La réduction permanente du 27 mai de Xiaomi a stabilisé la tarification de MiMo V2.5 sur toutes les fenêtres de contexte. Les anciens niveaux de contexte long, qui facturaient de forts multiplicateurs au-delà de 256K jetons d'entrée, ont disparu. La nouvelle tarification applique le même taux de 1 $/3 $ que vous envoyiez 5K ou 950K jetons. L'avis officiel de mise à jour des prix qualifie la réduction de "permanente".

Où V2.5 Pro l'emporte :

Où il ne convient pas :

La fenêtre de contexte de 1M, associée à un taux de cache compétitif, confère à MiMo une place structurellement unique sur le marché. Jusqu'à ce que DeepSeek étende son contexte au-delà de 128K ou qu'Alibaba stabilise les prix de Qwen, MiMo détient le quadrant "bon marché et long".

Pour une couverture plus approfondie : Combien coûte l'utilisation de Xiaomi MiMo V2.5 en 2026, Tarification MiMo V2-Pro & Omni et comment utiliser l'API, Programme de jetons gratuits Xiaomi MiMo Orbit 100T.

Alibaba Qwen : le cheval de trait de la production

Modèles : Qwen3 Max (0,78 $ en entrée / 3,90 $ en sortie / 0,156 $ pour le cache, 262K de contexte). Le nouveau Qwen 3.7 Max à 2,50 $/MTok d'entrée avec 1M de contexte est en cours de déploiement. Les tarifs sont vérifiés par rapport à la feuille Qwen3 Max de pricepertoken.

Qwen3 Max est le produit phare d'Alibaba et le modèle chinois le plus déployé en production internationale. Il se situe à un prix compétitif mais pas plancher : 1,8x DeepSeek V4-Pro en entrée, 4,5x en sortie. La prime paye pour le plus large écosystème d'outils (compatibilité directe avec le protocole Anthropic, compatibilité OpenAI, hébergement d'entreprise Alibaba Cloud) et une fenêtre de contexte de 262K qui gère la plupart des charges de travail de documents d'entreprise.

Où Qwen3 Max l'emporte :

Où il ne convient pas :

Pour une couverture plus approfondie : Qwen 3 vs OpenAI & DeepSeek : comparaison technique approfondie pour les développeurs d'API.

Moonshot Kimi : le spécialiste du codage

Modèles : Kimi K2.6 avec une tarification d'entrée échelonnée par contexte (0,16 $ à 2,00 $/MTok sur les bandes 8K, 32K, 64K et 128K), un prix plancher de 0,07 $/MTok pour les résultats en cache, des taux de sortie d'environ 2,50 $/MTok dans la bande médiane.

Kimi K2.6 est le champion des résultats en cache. Le taux de 0,07 $/MTok pour les résultats en cache est le chiffre le plus bas de tout laboratoire majeur. Combiné à la forte capacité d'appel d'outils de Kimi et à la prise en charge des agents de longue durée, K2.6 est le modèle qui gagne sur les flux de travail où vous réutilisez un gros prompt système sur de nombreux tours : agents de codage, chatbots de support client avec des prompts de persona stables, pipelines de récupération avec des blocs de contexte stables.

Où K2.6 l'emporte :

Où il ne convient pas :

Pour une couverture plus approfondie : La tarification de l'API Kimi K2 vaut-elle vraiment le battage médiatique pour les développeurs en 2026.

Zhipu GLM : le challenger du raisonnement

Modèles : GLM-5 (1,00 $ en entrée / 3,20 $ en sortie, 200K de contexte), GLM-5.1 (0,98 $ / 3,08 $, 200K de contexte). Les tarifs sont vérifiés par rapport à l'aperçu officiel des prix de Z.AI.

GLM-5 de Zhipu a été lancé avec une augmentation de prix de 30 % par rapport à GLM-4.7 (un mouvement à contre-courant sur un marché qui court à la baisse), puis a publié GLM-5.1 avec une légère réduction. La tarification reflète le positionnement de Zhipu : pas le moins cher, mais le plus performant pour les tâches de raisonnement structuré et de chaîne de pensée.

Où GLM-5 l'emporte :

Où il ne convient pas :

Pour une couverture plus approfondie : GLM-5 vs DeepSeek V3 vs GPT-5 : vitesse, coût et comparaison pratique pour les développeurs, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.

Le moins cher par charge de travail : une matrice d'achat

Pour cinq charges de travail de production courantes, voici quel modèle l'emporte :

Charge de travail Gagnant Pourquoi
Génération de code (forte sortie) DeepSeek V4-Pro 0,87 $/MTok en sortie est imbattable
RAG de documents longs (>300K de contexte) Xiaomi MiMo V2.5 Pro Seule option à 1M de contexte à prix fixe
Agent de codage avec prompt système stable Kimi K2.6 Prix plancher de 0,07 $/MTok pour les résultats en cache
Support client multilingue Alibaba Qwen3 Max La meilleure performance non-anglaise
Mathématiques, raisonnement formel, analyse structurée Zhipu GLM-5 La meilleure qualité de chaîne de pensée

Trois modèles combinés méritent d'être signalés :

Notes sur la qualité et les benchmarks

Une note sur la qualité, car le prix ne signifie rien si le modèle ne peut pas faire le travail.

Selon Artificial Analysis, les cinq modèles de cette comparaison se situent à 5 à 10 points de pourcentage les uns des autres sur la plupart des benchmarks publics. Les différences intéressantes en queue de distribution :

Effectuez votre propre évaluation sur 100 échantillons avant de vous engager. Les benchmarks publics sont utiles pour l'orientation, mais l'écart qui compte est celui de votre trafic.

Tester les cinq avec Apidog

Un déploiement de production multi-modèles nécessite un harnais de test multi-modèles. Apidog gère les cinq API chinoises à partir d'un seul espace de travail car toutes acceptent les corps de requête OpenAI Chat Completions, avec des bizarreries de compatibilité mineures. Le flux de travail :

  1. Créez un environnement par fournisseur dans Apidog : api.deepseek.com, platform.xiaomimimo.com, Alibaba Cloud Model Studio, api.moonshot.cn de Moonshot, et open.bigmodel.cn de Zhipu.
  2. Importez le schéma OpenAI Chat Completion une seule fois. Changez l'URL de base par environnement.
  3. Exécutez le même scénario de test sur les cinq en un seul clic. Différenciez les réponses, les scores et les latences.
  4. Connectez la validation du schéma JSON aux formes tool_calls pour détecter les particularités de format de streaming propres à chaque fournisseur.

Téléchargez Apidog, importez vos cas de test, et vous aurez une comparaison fonctionnelle des cinq en moins de quinze minutes. C'est le même flux de travail que nous recommandons dans les analyses approfondies par modèle : Baisse permanente de DeepSeek V4-Pro, Coût de MiMo V2.5, Tarification Kimi K2.

Où va la guerre des prix ensuite

Le prix plancher a bougé deux fois en mai. Deux autres mouvements sont probables avant la fin du troisième trimestre.

Construisez en conséquence. Trois prochaines étapes :

Le prix plancher n'a pas fini de baisser. Positionnez votre pile pour ce qui vient ensuite.

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API