DeepSeek a transformé la réduction temporaire la plus agressive sur les prix des LLM en 2026 en une nouvelle norme. Le 22 mai, l'équipe a annoncé que l'offre DeepSeek-V4-Pro à -75%, initialement prévue pour expirer le 31 mai 2026 à 15:59 UTC, ne serait pas annulée. Le tarif promotionnel devient le prix catalogue permanent. L'entrée passe à 0,435 $ par million de tokens, la sortie à 0,87 $, et les "cache hits" à 0,003625 $. Ci-dessous, nous détaillons ce qui a changé, ce qui est resté pareil, et ce que chaque développeur d'API devrait reconsidérer cette semaine.
En bref
- Le prix de l'API DeepSeek-V4-Pro est désormais permanent à 1/4 du prix catalogue original : 0,435 $/MTok pour l'entrée, 0,87 $/MTok pour la sortie, 0,003625 $/MTok pour les "cache hits".
- La réduction promotionnelle de 75% qui devait se terminer le 31 mai 2026 est maintenant le tarif normal. Pas de retour en arrière. Pas d'expiration surprise.
- V4-Pro est désormais environ 34 fois moins cher que GPT-5.5 sur la sortie, tout en atteignant environ 95% des performances de GPT-5.5 sur la plupart des benchmarks de codage et de raisonnement.
- Le prix de 0,003625 $/MTok pour les "cache hits", une réduction de 90% en plus de la réduction principale, est le détail sous-estimé. Les longs prompts système sont désormais presque gratuits au niveau du préfixe.
- Si vous avez évalué vos fonctionnalités IA par rapport à GPT-5.5 ou Claude Opus 4.7 le trimestre dernier, les calculs de coûts ont changé cette semaine.
Pourquoi cela importe maintenant
Les prix des LLM évoluent généralement dans une seule direction : à la baisse, lentement, avec des notes de bas de page. DeepSeek a sauté les notes de bas de page. L'équipe a mené une promotion agressive en mai, a observé le trafic des développeurs augmenter, et a décidé de bloquer le prix au lieu de le laisser remonter. C'est un signal structurel sur la direction que prennent les économies des modèles de pointe chinois, et non un coup de pub ponctuel.
Si vous lancez un produit qui fait appel à un LLM sur un chemin critique (autocomplétion, chat augmenté par récupération, revue de code, boucles d'agents), la différence entre 3,48 $ et 0,87 $ par million de tokens de sortie apparaîtra sur votre facture ce mois-ci. Livrez 50 millions de tokens de sortie par jour, une charge réaliste pour tout agent avec des utilisateurs non triviaux, et le nouveau prix réduit votre facture mensuelle de LLM d'environ 5 200 $ à 1 300 $. Cela représente l'embauche d'un commercial, ou un an de crédits GPU.
Vous développez avec DeepSeek ? Apidog vous permet de générer, tester et surveiller les appels d'API V4-Pro dans un seul espace de travail, y compris le streaming, les appels d'outils et la validation de schémas JSON. Téléchargez Apidog et vous pourrez cloner les requêtes de cet article en moins d'une minute.
bouton
Dans le reste de cet article, vous trouverez la nouvelle grille tarifaire complète, une comparaison directe avec GPT-5.5 et Claude Opus 4.7, le calcul des "cache hits" que la plupart des articles omettent, trois scénarios de facturation réels, et un cadre de décision en cinq étapes pour savoir s'il faut migrer dès aujourd'hui.
Ce qui a changé : l'annonce décodée
L'avis de tarification officiel de DeepSeek est concis, mais chaque ligne représente un changement. Trois faits méritent d'être soulignés :
- La réduction de 75% est permanente. La promotion, qui devait durer jusqu'au 31 mai 2026 à 15:59 UTC, était censée revenir au prix catalogue de lancement le 1er juin. Elle ne le fera pas. Le taux promotionnel est le nouveau taux catalogue, rétroactif au lancement et applicable indéfiniment.
- La réduction ne s'applique qu'à V4-Pro. DeepSeek-V4-Flash, à 0,14 $ / 0,28 $ par million de tokens, était déjà bon marché. C'est V4-Pro, le modèle de pointe, qui a vu son prix chuter. Voir Qu'est-ce que DeepSeek V4 pour la distinction Flash vs Pro.
- Le prix des "cache hits" a été réduit à 1/10 du prix de lancement, effectif le 26 avril 2026 à 12:15 UTC. Il s'agit d'un changement distinct de la réduction principale de 75%, et les deux s'additionnent. Résultat : les "cache hits" à 0,003625 $/MTok, le prix de cache de modèle de pointe le plus bas du marché en 2026.
Ensemble, l'annonce signifie : DeepSeek est prêt à absorber la marge brute sur le modèle phare pour maintenir l'intérêt des développeurs. La mesure concernant les "cache hits" indique qu'ils veulent que vous développiez spécifiquement des agents et des outils à contexte long sur V4-Pro. Ces deux mouvements s'inscrivent dans la même stratégie. Gagner la charge de travail d'inférence maintenant, monétiser la plateforme plus tard.
La nouvelle grille tarifaire permanente
| Type de token | Ancien prix | Nouveau prix permanent | Réduction |
|---|---|---|---|
| Entrée (cache manqué) | $1.74 | $0.435 | 75% |
| Entrée (cache réussi) | $0.0145 | $0.003625 | 75% |
| Sortie | $3.48 | $0.87 | 75% |
Quelques points clés que le tableau ne met pas en évidence :
- La baisse du prix de sortie est celle qui impacte le plus votre facture, car les tokens de sortie dominent toute boucle d'agent où le modèle raisonne ou écrit du code.
- La ligne des "cache hits" semble insignifiante car les chiffres absolus sont minimes. Le ratio est l'endroit où se trouvent les économies. Le ratio cache manqué/cache réussi est d'environ 120:1. Un prompt système bien conçu qui réussit le cache 90% du temps ne coûte presque rien en entrée, ce qui est la clé pour tout agent doté d'une structure stable.
- Ces tarifs s'appliquent uniquement à l'API. Le chat web de DeepSeek reste gratuit pour les particuliers.
Pour un contexte historique plus approfondi sur les niveaux de prix V4 et les compromis Flash vs Pro, consultez notre référence permanente Tarification API DeepSeek V4.
Comment V4-Pro se compare désormais à GPT-5.5, Claude Opus 4.7 et Gemini 3.5 Flash
La comparaison intéressante n'est pas avec l'ancien V4-Pro. C'est avec le reste des modèles de pointe.
| Modèle | Entrée ($/MTok) | Sortie ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (nouveau) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Deux chiffres à retenir. Pour les tokens de sortie, le poste qui fait grimper votre facture, DeepSeek-V4-Pro est 34 fois moins cher que GPT-5.5 et 17 fois moins cher que Claude Opus 4.7. Sur les benchmarks, V4-Pro se situe à 3 à 7 points de pourcentage de GPT-5.5 sur la plupart des évaluations publiques de codage et de raisonnement, selon la comparaison de DataCamp.
Si votre charge de travail tolère la latence et que la qualité est acceptable dans cette petite fourchette, la migration est un problème mathématique avec une seule réponse. Pour les charges de travail où les 5 derniers points de score du benchmark comptent (fiabilité des outils d'agent, planification à long terme, mathématiques complexes), V4-Pro est toujours moins cher à utiliser comme modèle de brouillon derrière un schéma de décodage spéculatif ou de critique.
Pour des analyses comparatives plus approfondies, consultez DeepSeek V4 vs Claude Opus 4.5 pour le codage et GLM-5 vs DeepSeek V3 vs GPT-5 : vitesse, coût et comparaison pratique pour les développeurs.
L'angle des "cache hits" que la plupart des articles omettent
Tout le monde cite le chiffre de 0,87 $ pour la sortie. Peu expliquent l'impact du prix de 0,003625 $ pour l'entrée des "cache hits" sur la conception des systèmes.
Le cache de prompts de DeepSeek est utilisé lorsque le préfixe de votre requête est identique, au byte près, à une requête antérieure récente, dans un délai d'environ 30 minutes. Pour les agents de chat et les pipelines de récupération, le préfixe est généralement votre prompt système, plus les définitions d'outils, plus l'échafaudage d'instructions. Cela représente généralement 4 000 à 10 000 tokens qui ne changent pas entre les tours.
Exemple concret. Supposons que votre assistant utilise un prompt système de 6 000 tokens et gère 100 000 tours de chat par jour, avec un message utilisateur moyen de 200 tokens d'entrée et une réponse moyenne de 800 tokens de sortie.
- Sans "cache hits" : 100 000 tours × 6 200 tokens d'entrée × 0,435 $ / 1 000 000 = 269,70 $ par jour rien que pour l'entrée.
- Avec 90% de ces tokens de prompt système réussissant le cache : les mêmes 100 000 tours coûtent 200 × 0,435 $ plus 6 000 × (0,9 × 0,003625 $ + 0,1 × 0,435 $) par million de tokens. Cela revient à environ 32 $ par jour. Une réduction de 88% sur le coût d'entrée.
Ce n'est pas une erreur d'arrondi. C'est la différence entre un modèle étant une dépense durable et une dépense de luxe. Pour en savoir plus sur le fonctionnement du caching de préfixes chez les différents fournisseurs, notre analyse approfondie du caching de prompts explique les mécanismes.
Trois schémas pour obtenir des "cache hits" dans de vrais agents :
- Épingler le préfixe. Gardez le prompt système, les schémas d'outils et les exemples "few-shot" dans un seul bloc au début de chaque requête. Ne pas intercaler de texte spécifique à la session dans le préfixe.
- Trier ou hacher le contexte dynamique. Si vous ajoutez des fragments récupérés, triez-les de manière stable ou hachez la requête et dirigez les hachages identiques vers le même nœud. De petits changements d'empreinte suppriment le cache.
- Exécuter un appel de préchauffage. Au démarrage de l'agent, envoyez une requête avec le préfixe complet pour l'insérer dans le cache du fournisseur avant que le trafic utilisateur n'arrive.
Ce que vous devriez faire cette semaine
La décision de migration n'est pas binaire. Elle dépend du type de charge de travail LLM que vous exécutez. Un cadre en cinq étapes :
- Mesurez votre ratio sortie:entrée actuel. Si vous dépensez 80% de votre budget de tokens en sortie (tout agent, générateur de code ou outil de contenu), les économies de V4-Pro sont importantes. Si vous dépensez 80% en entrée (RAG sur de longs documents), les économies sont moindres mais toujours réelles une fois que les "cache hits" sont pris en compte.
- Effectuez une évaluation de 100 échantillons sur votre charge de travail réelle. Ne faites pas confiance aux benchmarks publics. Prenez 100 traces de votre trafic de production, exécutez-les sur V4-Pro et votre modèle actuel avec des prompts identiques, et évaluez-les avec votre propre juge. La plupart des équipes trouvent que V4-Pro est "suffisamment bon" pour 70% à 85% de leur trafic.
- Faites correspondre les modèles par route. Dirigez 70% à 85% vers V4-Pro et conservez votre modèle premium pour les cas les plus difficiles. Ce seul changement permet de réaliser plus de 70% d'économies de coûts avec une régression de qualité quasi nulle.
- Verrouillez les préfixes de cache. Auditez vos prompts système. Tout ce qui varie par requête (horodatages, ID utilisateur, ID de session) doit se trouver dans le message de l'utilisateur, et non dans le prompt système. Déplacez-le.
- Mettez en place des tests de régression avant de déployer. C'est là qu'Apidog prend toute sa valeur. Enregistrez les réponses de référence de votre modèle actuel, puis rejouez les mêmes requêtes contre V4-Pro et comparez les sorties. La validation de schémas JSON d'Apidog détecte les dérives dans les formes d'appels d'outils avant qu'elles n'atteignent la production. Téléchargez Apidog, importez votre collection compatible OpenAI, changez l'URL de base en
https://api.deepseek.com, et vous pourrez effectuer un test de fumée côte à côte en moins de dix minutes.
Pour une présentation pratique de la forme du point de terminaison V4-Pro, consultez Comment utiliser l'API DeepSeek V4.
Comment V4-Pro se positionne face aux autres baisses de prix de 2026
DeepSeek n'est pas le seul laboratoire à baisser ses prix. Le marché des LLM en 2026 est dans une phase claire de compression des marges :
- OpenAI O3 a baissé de 80% plus tôt cette année. Voir notre analyse de la tarification O3 pour les détails.
- Kimi K2 a revu ses prix de manière agressive pour concurrencer le niveau V3 de DeepSeek. La tarification API Kimi K2 couvre les détails.
- Anthropic Claude a maintenu les prix d'Opus mais a introduit des niveaux Haiku et Sonnet moins chers. Le détail complet des coûts de l'API Claude explique où chaque niveau se situe.
La réduction de V4-Pro est la plus agressive de l'année car elle vise la gamme de capacités de pointe, et non le niveau économique. C'est pourquoi cette annonce a réinitialisé le marché et pas les autres.
Les calculs de développement ont changé
DeepSeek n'a pas seulement baissé le prix. Ils ont redessiné la courbe. Une capacité de pointe à un prix de sortie inférieur à un dollar est désormais la norme, et non l'exception, et le reste du marché réagira. Si vous avez reporté une fonctionnalité LLM pour des raisons de coût, le budget 2026 que vous avez estimé le trimestre dernier surestime probablement vos besoins d'un facteur 4.
Trois prochaines étapes :
- Auditez vos trois principales charges de travail LLM par rapport au cadre ci-dessus et choisissez-en une à migrer cette semaine.
- Verrouillez vos préfixes de cache. C'est la victoire facile, quel que soit le modèle que vous utilisez.
- Mettez en place une suite de régression Apidog pour que la prochaine baisse de prix, et il y en aura une, prenne des heures à évaluer au lieu de semaines.
Le drapeau promo a été retiré. La réduction, non.
bouton
