Claude Opus 4.8 coûte 5 $ par million de jetons d'entrée et 25 $ par million de jetons de sortie en mode standard. C'est le même tarif que pour Opus 4.7, donc si vous avez déjà budgétisé pour 4.7, rien ne change lors de la mise à niveau. La partie intéressante est tout ce qui entoure ce chiffre clé : un mode plus rapide, un cadran de dépense de jetons, la mise en cache et des réductions de lot qui influencent bien plus votre facture réelle que le tarif de base.
Ce guide détaille ce que vous payez réellement, avec des exemples concrets. Pour un aperçu du modèle, consultez qu'est-ce que Claude Opus 4.8. Pour commencer à construire, consultez le guide API.
La grille tarifaire
| Mode | Entrée (par 1M de jetons) | Sortie (par 1M de jetons) | Vitesse |
|---|---|---|---|
| Standard | 5 $ | 25 $ | référence |
| Rapide | 10 $ | 50 $ | Sortie 2,5x plus rapide |
Deux choses se démarquent. Premièrement, les jetons de sortie coûtent cinq fois plus cher que les jetons d'entrée, de sorte que la longueur des réponses de Claude détermine votre facture, et non la taille de vos invites. Deuxièmement, le mode rapide double le tarif pour une sortie 2,5 fois plus rapide. Anthropic note que le mode rapide est environ trois fois moins cher que l'équivalent sur les modèles précédents, de sorte que la prime pour la vitesse a diminué génération après génération.
Vous pouvez confirmer les tarifs actuels dans la documentation tarifaire d'Anthropic.
À quoi sert le mode rapide
Le mode standard est le mode par défaut et le bon choix pour la plupart des charges de travail. Le mode rapide existe pour les cas où la latence est le produit : assistants de codage en direct, agents interactifs, tout ce où un utilisateur observe le curseur. Vous payez le double par jeton pour une sortie qui diffuse 2,5 fois plus vite.
La décision est simple. Si un humain attend la réponse en temps réel, le mode rapide peut en valoir la peine. Si le travail s'exécute en arrière-plan, une boucle d'agent, un travail par lots, une tâche planifiée, restez en mode standard et économisez de l'argent.
Comment l'effort modifie votre facture
C'est le levier que la plupart des équipes ignorent. Le paramètre `effort` d'Opus 4.8 contrôle le nombre de jetons que le modèle dépense pour l'ensemble de la réponse, y compris les appels d'outils. Étant donné que la sortie est la partie coûteuse, réduire l'effort pour un travail qui ne nécessite pas de raisonnement approfondi diminue directement les coûts.
Les cinq niveaux, du moins cher au plus cher en termes de jetons :
- `low` : réponses concises, moins d'appels d'outils, dépense la plus faible
- `medium` : équilibré
- `high` : par défaut, approfondi
- `xhigh` : raisonnement approfondi, plus d'appels d'outils, recommandé pour le codage
- `max` : pas de contraintes, dépense la plus élevée
Une tâche de classification avec un effort `low` pourrait utiliser un dixième des jetons de sortie qu'elle utiliserait avec un effort `high`. Même modèle, même tarif, une fraction de la facture. Le guide d'effort d'Anthropic explique où chaque niveau maintient la qualité. Le point à retenir : adaptez l'effort à la tâche au lieu de payer pour un effort `high` partout.
Scénarios de coûts détaillés
Tous les chiffres utilisent la tarification standard (5 $ d'entrée, 25 $ de sortie par million de jetons). Ils sont illustratifs ; votre nombre réel de jetons variera.
Scénario 1 : un tour de chatbot. 1 000 jetons d'entrée, 500 jetons de sortie.
- Entrée : 1 000 / 1 000 000 x 5 $ = 0,005 $
- Sortie : 500 / 1 000 000 x 25 $ = 0,0125 $
- Total : environ 0,018 $ par tour
Avec un effort `low`, la sortie diminue, ramenant le coût par tour sous un centime.
Scénario 2 : une tâche de codage agentique. 50 000 jetons d'entrée de contexte de dépôt, 8 000 jetons de sortie en `xhigh`.
- Entrée : 50 000 / 1 000 000 x 5 $ = 0,25 $
- Sortie : 8 000 / 1 000 000 x 25 $ = 0,20 $
- Total : environ 0,45 $ par tâche
Si ce contexte de 50K se répète sur plusieurs appels, la mise en cache des invites réduit le coût d'entrée à environ 0,025 $, ramenant le total à environ 0,23 $.
Scénario 3 : un travail par lots nocturne. 1 000 000 jetons d'entrée, 200 000 jetons de sortie, exécutés via l'API Batch avec une réduction de 50 %.
- Entrée : 1 000 000 / 1 000 000 x 5 $ x 0,5 = 2,50 $
- Sortie : 200 000 / 1 000 000 x 25 $ x 0,5 = 2,50 $
- Total : environ 5,00 $ pour l'ensemble du lot
Pour comparer avec des modèles moins chers, consultez le détail des prix de Gemini 3.5 Flash et le coût de l'API Xiaomi MiMo v2.5.
Mise en cache des invites : la plus grande économie
Si vous envoyez la même invite système, le même document ou le même code de base à chaque appel, vous payez le prix d'entrée plein pour des jetons que le modèle a déjà vus. La mise en cache des invites corrige cela. Les lectures d'entrée mises en cache sont facturées à une fraction du tarif d'entrée normal, environ un dixième, après l'écriture initiale du cache.
Les agents à contexte long sont ceux qui économisent le plus. Une invite système de 50 000 jetons facturée au tarif plein à chaque appel est coûteuse ; mise en cache, la partie répétée ne coûte presque rien. Le premier appel écrit le cache, chaque appel ultérieur le lit à faible coût.
API de traitement par lots et sorties volumineuses
L'API de traitement par lots exécute les tâches à prix réduit lorsque vous n'avez pas besoin d'une réponse en temps réel. Soumettez un ensemble de requêtes, obtenez les résultats dans la fenêtre de traitement par lots, et payez moins par jeton. Elle augmente également le plafond de sortie : Opus 4.8 prend en charge jusqu'à 300K jetons de sortie via l'API de traitement par lots avec l'en-tête bêta `output-300k-2026-03-24`, contre 128K sur le point de terminaison synchrone.
Utilisez-le pour les évaluations, la synthèse en masse, l'étiquetage de données et tout pipeline où quelques minutes de latence n'ont pas d'importance.
Tarification d'Opus à travers les générations
Opus 4.8 maintient la ligne des prix. L'histoire est de savoir à quel point la ligne a chuté il y a deux générations :
| Modèle | Entrée (par 1M) | Sortie (par 1M) |
|---|---|---|
| Opus 4.1 | 15 $ | 75 $ |
| Opus 4.5 | 5 $ | 25 $ |
| Opus 4.6 | 5 $ | 25 $ |
| Opus 4.7 | 5 $ | 25 $ |
| Opus 4.8 | 5 $ | 25 $ |
Opus est passé de 15 $/75 $ à 5 $/25 $ à partir de la génération 4.5 et y est resté depuis, tandis que le modèle derrière le prix continue de s'améliorer. Vous obtenez la qualité de 4.8 au tarif de 4.5. Pour une comparaison directe avec les modèles phares d'autres fournisseurs, consultez Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Une liste de contrôle pour l'optimisation des coûts
Avant de déployer Opus 4.8 à grande échelle, parcourez cette liste :
- Définissez l'effort par tâche. Ne payez pas `high` pour une classification ou `xhigh` pour une recherche.
- Mettez en cache le contexte répété. Les invites système, les documents et les bases de code doivent être mis en cache.
- Regroupez ce qui n'est pas urgent. Déplacez les évaluations et les tâches en vrac vers l'API Batch.
- Limitez `max_tokens` judicieusement. Cela limite le coût de sortie dans le pire des cas par appel.
- Restez en mode standard à moins qu'un humain n'attende en temps réel.
- Surveillez les paliers d'utilisation. Les limites de débit et les dépenses augmentent ensemble ; le changement des limites hebdomadaires de Claude Code est un rappel pour suivre les quotas.
Suivez vos dépenses réelles avec Apidog
Les coûts estimés et les coûts réels divergent rapidement une fois en production, car les réponses réelles varient en longueur et en nombre d'appels d'outils. La meilleure façon de rester transparent est d'inspecter l'objet `usage` que chaque réponse de l'API Messages renvoie, qui indique le nombre de jetons d'entrée et de sortie par appel.

Apidog rend cela visible :
- Envoyez une requête Opus 4.8 réelle et lisez le bloc `usage` dans la réponse
- Comparez les nombres de jetons entre les niveaux d'`effort` sur la même invite pour voir directement la différence de coût
- Enregistrez les requêtes pour chaque charge de travail et réexécutez-les au fur et à mesure que vos invites changent
- Simulez le point de terminaison afin de pouvoir construire et tester sans dépenser un seul jeton
Téléchargez Apidog, pointez une requête vers le point de terminaison Messages et exécutez la même invite avec les niveaux `low`, `high` et `xhigh`. Les comptes de jetons vous indiquent exactement ce que coûte chaque niveau d'effort avant de vous y engager en production.
FAQ
Combien coûte Claude Opus 4.8 ? 5 $ par million de jetons d'entrée et 25 $ par million de jetons de sortie en mode standard. Le mode rapide coûte 10 $ et 50 $ pour une sortie 2,5 fois plus rapide.
Opus 4.8 est-il plus cher qu'Opus 4.7 ? Non. Les tarifs par jeton sont identiques, donc la mise à niveau de 4.7 ne modifie pas votre facture.
Quelle est la différence entre la tarification du mode standard et du mode rapide ? Le mode rapide double le tarif par jeton en échange d'une sortie qui diffuse environ 2,5 fois plus vite. Ne l'utilisez que lorsque la latence est importante pour un utilisateur en attente.
Comment réduire mes coûts Opus 4.8 ? Diminuez le niveau d'`effort` pour les tâches plus simples, mettez en cache le contenu répété des invites, traitez par lots les tâches non urgentes et maintenez `max_tokens` restreint. Les jetons de sortie sont le principal facteur de coût.
La mise en cache des invites permet-elle vraiment d'économiser de l'argent ? Oui. Après que le premier appel ait écrit le cache, l'entrée répétée est lue à environ un dixième du tarif d'entrée normal. Les agents à contexte long sont ceux qui économisent le plus.
Combien de jetons de sortie Opus 4.8 peut-il produire ? Jusqu'à 128K via l'API Messages synchrone, et jusqu'à 300K via l'API Batch avec l'en-tête bêta `output-300k-2026-03-24`.
Où puis-je voir l'utilisation des jetons par appel ? Dans l'objet `usage` de chaque réponse de l'API Messages. Des outils comme Apidog l'affichent pour que vous puissiez comparer les coûts entre les niveaux d'effort.
