Baisse de Prix Permanente de 75% DeepSeek V4-Pro : Impact Développeurs (2026)

Ashley Innocent

Ashley Innocent

25 May 2026

Baisse de Prix Permanente de 75% DeepSeek V4-Pro : Impact Développeurs (2026)

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

DeepSeek a transformé la réduction temporaire la plus agressive sur les prix des LLM en 2026 en une nouvelle norme. Le 22 mai, l'équipe a annoncé que l'offre DeepSeek-V4-Pro à -75%, initialement prévue pour expirer le 31 mai 2026 à 15:59 UTC, ne serait pas annulée. Le tarif promotionnel devient le prix catalogue permanent. L'entrée passe à 0,435 $ par million de tokens, la sortie à 0,87 $, et les "cache hits" à 0,003625 $. Ci-dessous, nous détaillons ce qui a changé, ce qui est resté pareil, et ce que chaque développeur d'API devrait reconsidérer cette semaine.

En bref

Pourquoi cela importe maintenant

Les prix des LLM évoluent généralement dans une seule direction : à la baisse, lentement, avec des notes de bas de page. DeepSeek a sauté les notes de bas de page. L'équipe a mené une promotion agressive en mai, a observé le trafic des développeurs augmenter, et a décidé de bloquer le prix au lieu de le laisser remonter. C'est un signal structurel sur la direction que prennent les économies des modèles de pointe chinois, et non un coup de pub ponctuel.

Si vous lancez un produit qui fait appel à un LLM sur un chemin critique (autocomplétion, chat augmenté par récupération, revue de code, boucles d'agents), la différence entre 3,48 $ et 0,87 $ par million de tokens de sortie apparaîtra sur votre facture ce mois-ci. Livrez 50 millions de tokens de sortie par jour, une charge réaliste pour tout agent avec des utilisateurs non triviaux, et le nouveau prix réduit votre facture mensuelle de LLM d'environ 5 200 $ à 1 300 $. Cela représente l'embauche d'un commercial, ou un an de crédits GPU.

Vous développez avec DeepSeek ? Apidog vous permet de générer, tester et surveiller les appels d'API V4-Pro dans un seul espace de travail, y compris le streaming, les appels d'outils et la validation de schémas JSON. Téléchargez Apidog et vous pourrez cloner les requêtes de cet article en moins d'une minute.

bouton

Dans le reste de cet article, vous trouverez la nouvelle grille tarifaire complète, une comparaison directe avec GPT-5.5 et Claude Opus 4.7, le calcul des "cache hits" que la plupart des articles omettent, trois scénarios de facturation réels, et un cadre de décision en cinq étapes pour savoir s'il faut migrer dès aujourd'hui.

Ce qui a changé : l'annonce décodée

L'avis de tarification officiel de DeepSeek est concis, mais chaque ligne représente un changement. Trois faits méritent d'être soulignés :

  1. La réduction de 75% est permanente. La promotion, qui devait durer jusqu'au 31 mai 2026 à 15:59 UTC, était censée revenir au prix catalogue de lancement le 1er juin. Elle ne le fera pas. Le taux promotionnel est le nouveau taux catalogue, rétroactif au lancement et applicable indéfiniment.
  2. La réduction ne s'applique qu'à V4-Pro. DeepSeek-V4-Flash, à 0,14 $ / 0,28 $ par million de tokens, était déjà bon marché. C'est V4-Pro, le modèle de pointe, qui a vu son prix chuter. Voir Qu'est-ce que DeepSeek V4 pour la distinction Flash vs Pro.
  3. Le prix des "cache hits" a été réduit à 1/10 du prix de lancement, effectif le 26 avril 2026 à 12:15 UTC. Il s'agit d'un changement distinct de la réduction principale de 75%, et les deux s'additionnent. Résultat : les "cache hits" à 0,003625 $/MTok, le prix de cache de modèle de pointe le plus bas du marché en 2026.

Ensemble, l'annonce signifie : DeepSeek est prêt à absorber la marge brute sur le modèle phare pour maintenir l'intérêt des développeurs. La mesure concernant les "cache hits" indique qu'ils veulent que vous développiez spécifiquement des agents et des outils à contexte long sur V4-Pro. Ces deux mouvements s'inscrivent dans la même stratégie. Gagner la charge de travail d'inférence maintenant, monétiser la plateforme plus tard.

La nouvelle grille tarifaire permanente

Type de token Ancien prix Nouveau prix permanent Réduction
Entrée (cache manqué) $1.74 $0.435 75%
Entrée (cache réussi) $0.0145 $0.003625 75%
Sortie $3.48 $0.87 75%

Quelques points clés que le tableau ne met pas en évidence :

Pour un contexte historique plus approfondi sur les niveaux de prix V4 et les compromis Flash vs Pro, consultez notre référence permanente Tarification API DeepSeek V4.

Comment V4-Pro se compare désormais à GPT-5.5, Claude Opus 4.7 et Gemini 3.5 Flash

La comparaison intéressante n'est pas avec l'ancien V4-Pro. C'est avec le reste des modèles de pointe.

Modèle Entrée ($/MTok) Sortie ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro (nouveau) $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

Deux chiffres à retenir. Pour les tokens de sortie, le poste qui fait grimper votre facture, DeepSeek-V4-Pro est 34 fois moins cher que GPT-5.5 et 17 fois moins cher que Claude Opus 4.7. Sur les benchmarks, V4-Pro se situe à 3 à 7 points de pourcentage de GPT-5.5 sur la plupart des évaluations publiques de codage et de raisonnement, selon la comparaison de DataCamp.

Si votre charge de travail tolère la latence et que la qualité est acceptable dans cette petite fourchette, la migration est un problème mathématique avec une seule réponse. Pour les charges de travail où les 5 derniers points de score du benchmark comptent (fiabilité des outils d'agent, planification à long terme, mathématiques complexes), V4-Pro est toujours moins cher à utiliser comme modèle de brouillon derrière un schéma de décodage spéculatif ou de critique.

Pour des analyses comparatives plus approfondies, consultez DeepSeek V4 vs Claude Opus 4.5 pour le codage et GLM-5 vs DeepSeek V3 vs GPT-5 : vitesse, coût et comparaison pratique pour les développeurs.

L'angle des "cache hits" que la plupart des articles omettent

Tout le monde cite le chiffre de 0,87 $ pour la sortie. Peu expliquent l'impact du prix de 0,003625 $ pour l'entrée des "cache hits" sur la conception des systèmes.

Le cache de prompts de DeepSeek est utilisé lorsque le préfixe de votre requête est identique, au byte près, à une requête antérieure récente, dans un délai d'environ 30 minutes. Pour les agents de chat et les pipelines de récupération, le préfixe est généralement votre prompt système, plus les définitions d'outils, plus l'échafaudage d'instructions. Cela représente généralement 4 000 à 10 000 tokens qui ne changent pas entre les tours.

Exemple concret. Supposons que votre assistant utilise un prompt système de 6 000 tokens et gère 100 000 tours de chat par jour, avec un message utilisateur moyen de 200 tokens d'entrée et une réponse moyenne de 800 tokens de sortie.

Ce n'est pas une erreur d'arrondi. C'est la différence entre un modèle étant une dépense durable et une dépense de luxe. Pour en savoir plus sur le fonctionnement du caching de préfixes chez les différents fournisseurs, notre analyse approfondie du caching de prompts explique les mécanismes.

Trois schémas pour obtenir des "cache hits" dans de vrais agents :

Ce que vous devriez faire cette semaine

La décision de migration n'est pas binaire. Elle dépend du type de charge de travail LLM que vous exécutez. Un cadre en cinq étapes :

  1. Mesurez votre ratio sortie:entrée actuel. Si vous dépensez 80% de votre budget de tokens en sortie (tout agent, générateur de code ou outil de contenu), les économies de V4-Pro sont importantes. Si vous dépensez 80% en entrée (RAG sur de longs documents), les économies sont moindres mais toujours réelles une fois que les "cache hits" sont pris en compte.
  2. Effectuez une évaluation de 100 échantillons sur votre charge de travail réelle. Ne faites pas confiance aux benchmarks publics. Prenez 100 traces de votre trafic de production, exécutez-les sur V4-Pro et votre modèle actuel avec des prompts identiques, et évaluez-les avec votre propre juge. La plupart des équipes trouvent que V4-Pro est "suffisamment bon" pour 70% à 85% de leur trafic.
  3. Faites correspondre les modèles par route. Dirigez 70% à 85% vers V4-Pro et conservez votre modèle premium pour les cas les plus difficiles. Ce seul changement permet de réaliser plus de 70% d'économies de coûts avec une régression de qualité quasi nulle.
  4. Verrouillez les préfixes de cache. Auditez vos prompts système. Tout ce qui varie par requête (horodatages, ID utilisateur, ID de session) doit se trouver dans le message de l'utilisateur, et non dans le prompt système. Déplacez-le.
  5. Mettez en place des tests de régression avant de déployer. C'est là qu'Apidog prend toute sa valeur. Enregistrez les réponses de référence de votre modèle actuel, puis rejouez les mêmes requêtes contre V4-Pro et comparez les sorties. La validation de schémas JSON d'Apidog détecte les dérives dans les formes d'appels d'outils avant qu'elles n'atteignent la production. Téléchargez Apidog, importez votre collection compatible OpenAI, changez l'URL de base en https://api.deepseek.com, et vous pourrez effectuer un test de fumée côte à côte en moins de dix minutes.

Pour une présentation pratique de la forme du point de terminaison V4-Pro, consultez Comment utiliser l'API DeepSeek V4.

Comment V4-Pro se positionne face aux autres baisses de prix de 2026

DeepSeek n'est pas le seul laboratoire à baisser ses prix. Le marché des LLM en 2026 est dans une phase claire de compression des marges :

La réduction de V4-Pro est la plus agressive de l'année car elle vise la gamme de capacités de pointe, et non le niveau économique. C'est pourquoi cette annonce a réinitialisé le marché et pas les autres.

Les calculs de développement ont changé

DeepSeek n'a pas seulement baissé le prix. Ils ont redessiné la courbe. Une capacité de pointe à un prix de sortie inférieur à un dollar est désormais la norme, et non l'exception, et le reste du marché réagira. Si vous avez reporté une fonctionnalité LLM pour des raisons de coût, le budget 2026 que vous avez estimé le trimestre dernier surestime probablement vos besoins d'un facteur 4.

Trois prochaines étapes :

Le drapeau promo a été retiré. La réduction, non.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API