DeepSeek a publié les tarifs V4 le jour même du lancement des modèles, le 23 avril 2026, et ces chiffres ont redéfini le plancher pour l'IA de pointe. V4-Flash coûte **0,14 $ par million de jetons d'entrée et 0,28 $ par million de jetons de sortie**. V4-Pro coûte **1,74 $ en entrée et 3,48 $ en sortie**. Les deux versions offrent une fenêtre de contexte de 1 million de jetons et jusqu'à 384 000 jetons de sortie. Elles bénéficient également d'une remise agressive sur les requêtes en cache qui réduit les coûts d'entrée de 80 % à 90 % sur les invites répétées.
Ce guide couvre la grille tarifaire complète, la manière dont la mise en cache du contexte modifie le coût réel par appel, une comparaison honnête avec GPT-5.5 et Claude Opus, et quatre façons de maintenir des dépenses prévisibles au sein d'Apidog.
Pour un aperçu du produit, consultez qu'est-ce que DeepSeek V4. Pour le guide du développeur, consultez comment utiliser l'API DeepSeek V4. Pour les chemins à coût zéro, consultez comment utiliser DeepSeek V4 gratuitement.
En bref
- V4-Flash : 0,14 $ / M en entrée (cache manqué), 0,028 $ / M en entrée (cache réussi), 0,28 $ / M en sortie.
- V4-Pro : 1,74 $ / M en entrée (cache manqué), 0,145 $ / M en entrée (cache réussi), 3,48 $ / M en sortie.
- Fenêtre de contexte : 1 million de jetons en entrée, 384 000 jetons en sortie, pour les deux variantes.
- Remise sur les requêtes en cache : environ 80 % de réduction pour Flash, 92 % de réduction pour Pro sur les préfixes répétés.
deepseek-chatetdeepseek-reasonerseront dépréciés le 24 juillet 2026 ; la facturation correspondra à V4-Flash.- Aux taux de cache manqué, V4-Pro est environ 2,9 fois moins cher que GPT-5.5 en entrée et environ 8,6 fois moins cher en sortie.
La grille tarifaire complète
| Modèle | Entrée (cache manqué) | Entrée (cache réussi) | Sortie | Contexte |
|---|---|---|---|---|
deepseek-v4-flash |
0,14 $ / M | 0,028 $ / M | 0,28 $ / M | 1M / 384K |
deepseek-v4-pro |
1,74 $ / M | 0,145 $ / M | 3,48 $ / M | 1M / 384K |
deepseek-chat (déprécié 2026-07-24) |
correspond à V4-Flash non-réflexion | — | — | — |
deepseek-reasoner (déprécié 2026-07-24) |
correspond à V4-Flash réflexion | — | — | — |
Trois détails importent plus que les chiffres bruts.
- Premièrement, les prix sont les mêmes, que vous soyez en mode réflexion ou en mode non-réflexion. L'ID du modèle définit le tarif ; le mode de raisonnement modifie simplement le nombre de jetons que vous consommez à ce tarif.
- Deuxièmement, la tarification des requêtes en cache est automatique. Chaque requête avec un préfixe répété pour le même compte en bénéficie ; vous n'avez pas besoin d'activer quoi que ce soit. Les préfixes doivent avoir au moins 1 024 jetons et correspondre octet par octet.
- Troisièmement, les anciens IDs
deepseek-chatetdeepseek-reasonersont désormais facturés comme des alias V4-Flash. Si vous n'avez pas migré, vous bénéficiez déjà de la qualité V4-Flash aux prix V4-Flash ; la date limite de dépréciation de l'ID est le 24 juillet 2026.
La mise en cache du contexte en termes simples
La mise en cache est le plus grand levier de coût sur DeepSeek V4. Le schéma est simple : tout ce qui se répète entre les appels, en particulier les longues invites système, les schémas d'outils d'agent et le contexte RAG, est facturé à une fraction du tarif d'entrée complet lors du deuxième appel et des appels suivants.
Un exemple concret. Vous exécutez un agent avec une invite système de 20 000 jetons qui ne change jamais, puis vous posez 100 questions différentes d'utilisateur de 200 jetons chacune.
Sans mise en cache :
- Entrée : 100 appels × 20 200 jetons × 1,74 $ / M = 3,52 $
- Sortie : 100 appels × 500 jetons × 3,48 $ / M = 0,17 $
- Total : 3,69 $
Avec mise en cache (premier appel manqué, les 99 suivants réussis) :
- Entrée du premier appel : 20 200 × 1,74 $ / M = 0,035 $
- 99 préfixes suivants en cache réussi : 99 × 20 000 × 0,145 $ / M = 0,287 $
- 99 requêtes utilisateur suivantes en cache manqué : 99 × 200 × 1,74 $ / M = 0,034 $
- Sortie : 100 × 500 × 3,48 $ / M = 0,174 $
- Total : 0,53 $
Environ 7 fois moins cher pour une charge de travail identique. L'effet de la mise en cache est encore plus spectaculaire sur V4-Flash, où le taux brut est déjà faible.
Comparaison avec GPT-5.5 et Claude
La comparaison qui intéresse le plus les équipes :
| Modèle | Entrée (standard) | Entrée (en cache) | Sortie | Contexte |
|---|---|---|---|---|
| DeepSeek V4-Flash | 0,14 $ / M | 0,028 $ / M | 0,28 $ / M | 1M |
| DeepSeek V4-Pro | 1,74 $ / M | 0,145 $ / M | 3,48 $ / M | 1M |
| GPT-5.5 | 5 $ / M | 1,25 $ / M | 30 $ / M | 1M |
| GPT-5.5 Pro | 30 $ / M | — | 180 $ / M | 1M |
| Claude Opus 4.6 | 15 $ / M | 1,50 $ / M | 75 $ / M | 200K |
Trois interprétations de ce tableau.
- En termes de jetons de sortie, V4-Pro est environ 8,6 fois moins cher que GPT-5.5 et 21 fois moins cher que Claude Opus 4.6. La sortie est l'endroit où la plupart des charges de travail des agents dépensent leur budget ; l'écart se cumule.
- En entrée mise en cache, V4-Pro est environ 10 fois moins cher que GPT-5.5 en cache et 10 fois moins cher que Claude en cache. Les longues invites système, les schémas d'outils et le contexte RAG répété sont les plus impactés ici.
- En termes de ratio de référence brut, V4-Pro égale ou dépasse GPT-5.5 sur LiveCodeBench (93,5 contre le meilleur niveau) et Codeforces (3206 contre 3168) tout en coûtant une petite fraction. C'est le cœur de la proposition de valeur des poids ouverts. Voir qu'est-ce que DeepSeek V4 pour le tableau complet des benchmarks.
Les mises en garde honnêtes : Claude surpasse toujours V4-Pro sur les benchmarks de récupération de contexte long, et Gemini 3.1 Pro est toujours en tête du MMLU-Pro. Si votre charge de travail dépend de la récupération d'informations précises dans un million de jetons, les économies par jeton pourraient ne pas compenser l'écart de qualité.
Modélisation des coûts pour les charges de travail courantes
Quatre charges de travail couvrent la plupart des cas d'utilisation en production. Voici ce que chacune coûte sur V4-Pro (base de référence cache manqué ; les économies de cache réussi s'ajoutent).
1. Boucle de codage d'agent (contexte de 50K, sortie de 2K, 20 appels par tâche)
- Entrée : 50 000 × 20 × 1,74 $ / M = 1,74 $
- Sortie : 2 000 × 20 × 3,48 $ / M = 0,14 $
- Coût par tâche : ~1,88 $
À comparer à GPT-5.5 à environ 6,20 $ par tâche pour la même configuration.
2. Questions-réponses sur documents longs (contexte de 500K, sortie de 1K)
- Entrée : 500 000 × 1,74 $ / M = 0,87 $
- Sortie : 1 000 × 3,48 $ / M = 0,003 $
- Coût par appel : ~0,87 $
À comparer à GPT-5.5 à environ 2,53 $ par appel.
3. Classification à haut volume (contexte de 2K, sortie de 200, 10 000 appels)
Utilisez V4-Flash ici ; V4-Pro est excessif.
- Entrée : 2 000 × 10 000 × 0,14 $ / M = 2,80 $
- Sortie : 200 × 10 000 × 0,28 $ / M = 0,56 $
- Coût d'exécution : ~3,36 $
À comparer à GPT-5.5 à environ 110 $ pour la même exécution.
4. Chatbot à invite répétée (invite système de 10K, 500 jetons utilisateur, 1K sortie, 1 000 sessions)
- Entrée du premier appel : 10 500 × 1,74 $ / M = 0,018 $
- Entrée en cache réussi : 999 × 10 000 × 0,145 $ / M = 1,45 $
- Requêtes utilisateur en cache manqué : 999 × 500 × 1,74 $ / M = 0,87 $
- Sortie : 1 000 × 1 000 × 3,48 $ / M = 3,48 $
- Coût d'exécution de la session : ~5,82 $
À comparer à GPT-5.5 avec mise en cache à environ 26,35 $ pour la même charge de travail.
Coûts cachés à surveiller
Le prix affiché n'est pas toute l'histoire. Quatre éléments de coût peuvent surprendre les équipes après le premier mois :
- Inflation des jetons en mode réflexion.
thinking_maxconsomme 3 à 10 fois plus de jetons de sortie quenon-thinkingpour la même invite. Ces jetons de raisonnement sont facturés au tarif de sortie. Limitez Think Max derrière un drapeau. - Croissance silencieuse du contexte. Les boucles d'agent renvoient souvent toute la conversation à chaque tour. Avec des contextes de 1 million de jetons, cela monte en flèche rapidement. Tronquez ou résumez agressivement.
- Tempêtes de tentatives. Une boucle buggée qui réessaie à chaque réponse 500 peut doubler votre facture en une heure. Ajoutez une temporisation exponentielle et une limite stricte de tentatives par requête.
- Frictions de développement. Itérer sur une invite via curl réexécute le contexte complet à chaque fois. L'utilisation d'Apidog réduit cela à presque zéro car la substitution de variables rend les ajustements d'invite gratuits à réessayer sans retaper la charge utile complète.
Suivre les coûts dans Apidog
Le flux de travail que la plupart des équipes adoptent une fois que les factures deviennent importantes :
- Téléchargez Apidog et stockez
DEEPSEEK_API_KEYcomme variable secrète par environnement. - Enregistrez une seule requête POST vers
https://api.deepseek.com/v1/chat/completions. - Dans le panneau de réponse, épinglez
usage.prompt_tokens,usage.completion_tokensetusage.reasoning_tokens. Chaque appel affiche le calcul des coûts sur le même écran que la sortie. - Paramétrez
modeletthinking_modeafin de pouvoir faire des tests A/B entre V4-Flash et V4-Pro, et entre Non-Think et Think Max, sans dupliquer les requêtes. - Dupliquez la même collection pour GPT-5.5 (le guide API GPT-5.5 correspondant documente la configuration). Une seule fenêtre, les deux fournisseurs, les coûts visibles.
Ce flux de travail permet de détecter environ 80 % des surprises de coûts qui apparaissent sur les factures de fin de mois.
Quatre règles pour des dépenses prévisibles
- Utilisez V4-Flash par défaut. Ne passez à V4-Pro que si vous avez mesuré un écart de qualité qui a un impact sur les revenus.
- Utilisez Non-Think par défaut. Passez à Think High pour les tâches difficiles. Réservez Think Max pour les travaux où la justesse est critique.
- Limitez
max_tokens. Le plafond de sortie de 384 000 jetons est une sécurité, pas un objectif. La plupart des réponses en production tiennent en 2 000 jetons. - Intégrez la télémétrie d'utilisation. Enregistrez
prompt_tokens,completion_tokensetreasoning_tokensà chaque appel. Alertez sur les pics de jetons de raisonnement ; ils signalent des invites qui sont entrées accidentellement en territoire Think Max.
FAQ
Existe-t-il un niveau gratuit ? Il n'y a pas de niveau d'API gratuit, mais les nouveaux comptes reçoivent occasionnellement un petit crédit d'essai. Pour les chemins à coût zéro en dehors de l'API, consultez comment utiliser DeepSeek V4 gratuitement.
Comment fonctionne la tarification des requêtes en cache ? Les préfixes de 1 024 jetons ou plus qui se répètent entre les requêtes au sein du même compte sont facturés au tarif de requête en cache. Le premier appel paie le tarif de cache manqué ; les appels ultérieurs avec un préfixe identique paient le tarif réduit. La mise en cache est automatique.
Les modes de réflexion coûtent-ils plus cher ? Le taux par jeton est le même. Les modes de réflexion consomment plus de jetons car le modèle écrit des traces de raisonnement. Suivez reasoning_tokens dans l'objet usage pour mesurer le coût réel.
La tarification est-elle stable ? DeepSeek modifie périodiquement sa tarification. Les tarifs V3.2 sont restés valables pour la majeure partie de 2025 ; la tarification V4 n'a pas de date de fin publiée. Vérifiez la page de tarification en direct avant d'établir votre budget.
V4-Pro et V4-Flash sont-ils facturés au même tarif de sortie ? Non. La sortie de V4-Pro est de 3,48 $ / M ; la sortie de V4-Flash est de 0,28 $ / M. Le ratio de 12,4x est la principale raison d'utiliser V4-Flash par défaut.
Le point de terminaison au format Anthropic modifie-t-il la tarification ? Non. https://api.deepseek.com/anthropic utilise les mêmes tarifs que le point de terminaison au format OpenAI. Le format n'affecte pas la facturation.
