Quel est le vrai prix de Claude Sonnet 4.6 ?

Ashley Innocent

Ashley Innocent

18 February 2026

Quel est le vrai prix de Claude Sonnet 4.6 ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

En bref

Claude Sonnet 4.6 coûte **3 $ par million de tokens d'entrée et 15 $ par million de tokens de sortie** — le même prix que Sonnet 4.5, tout en offrant des performances proches d'Opus. Avec la mise en cache des invites (prompt caching), les lectures de cache descendent à **0,30 $/MTok** (90 % d'économies). L'API Batch réduit les coûts de moitié à **1,50 $/7,50 $ par MTok**. La fenêtre contextuelle de 1 million de tokens (bêta) déclenche une tarification de contexte long à **6 $/22,50 $ par MTok** pour les requêtes de plus de 200 000 tokens.

Tarification de base de Claude Sonnet 4.6

Claude Sonnet 4.6 maintient le même niveau de prix que son prédécesseur tout en offrant des résultats significativement meilleurs. Voici un aperçu de la tarification principale :

Niveau de tarification Tokens d'entrée Tokens de sortie
Standard 3,00 $ / MTok 15,00 $ / MTok
API Batch 1,50 $ / MTok 7,50 $ / MTok
Écritures cache (5 min) 3,75 $ / MTok
Écritures cache (1 heure) 6,00 $ / MTok
Lectures cache 0,30 $ / MTok
Contexte long >200K (standard) 6,00 $ / MTok 22,50 $ / MTok
Contexte long >200K (batch) 3,00 $ / MTok 11,25 $ / MTok

MTok = million de tokens. Tous les prix sont en USD.

La proposition de valeur est difficile à ignorer. Les premiers testeurs ont préféré Sonnet 4.6 au modèle premium précédent Opus 4.5 dans 59 % des comparaisons directes — pour 60 % du coût.

Benchmark de Sonnet 4.6

Pour la plupart des tâches de codage, d'analyse et d'agent, vous n'avez plus besoin de payer les prix d'Opus pour obtenir des résultats de niveau Opus.

💡
Tester ces requêtes avant d'écrire du code de production permet d'économiser de l'argent à grande échelle. Téléchargez Apidog pour exécuter des appels d'API d'essai avec Claude Sonnet 4.6, inspecter l'utilisation réelle des tokens par requête et estimer votre budget avec précision avant de vous engager.
télécharger l'application

Répartition complète de la tarification par fonctionnalité

Tarification de l'API Standard

Les tarifs standards s'appliquent à tous les appels d'API synchrones effectués via l'API Anthropic :

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Summarize this document."}]
)

# Check exact token usage
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")

# Calculate cost
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")

Pour un appel d'API typique avec une entrée de 500 tokens et une sortie de 300 tokens, le coût est d'environ 0,0060 $. C'est moins d'un centime par requête aux tarifs standards.

Tarification de la mise en cache des invites (Prompt Caching)

La mise en cache des invites est le levier de coût le plus efficace de Sonnet 4.6. Elle stocke des portions de votre invite côté serveur et facture considérablement moins lors des accès au cache.

Taux d'écriture du cache :- **Cache de 5 minutes** : 3,75 $/MTok (1,25× prix d'entrée de base) - **Cache d'1 heure** : 6,00 $/MTok (2× prix d'entrée de base)

Taux de lecture du cache :- **0,30 $/MTok** — un dixième du prix d'entrée standard

Si votre invite système fait 10 000 tokens et que vous traitez 1 000 requêtes par jour : - Sans mise en cache : 10 000 × 1 000 × 3 $/MTok = **30 $/jour** - Avec mise en cache (écriture unique, 999 lectures) : 3,75 $ + (999 × 0,30) × 10 000/MTok ≈ **3,04 $/jour**

C'est une **réduction de 90 %** pour une invite système statique seulement.

import anthropic

client = anthropic.Anthropic()

# Mark expensive static content for caching
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
            "cache_control": {"type": "ephemeral"}  # Cache this block
        }
    ],
    messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)

# Check what came from cache vs fresh tokens
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens:  {usage.cache_read_input_tokens}")
print(f"Uncached tokens:    {usage.input_tokens}")

Quand utiliser quelle durée de cache :- **Cache de 5 minutes** : Appels haute fréquence, trafic en rafales, fenêtres de conversation courtes - **Cache d'1 heure** : Pipelines de traitement en arrière-plan, tâches batch avec des intervalles plus longs, boucles d'agents

Tarification de l'API Batch

L'API Batch offre une réduction forfaitaire de 50 % sur les tokens d'entrée et de sortie en échange d'un traitement asynchrone (résultats disponibles sous 24 heures, généralement beaucoup plus tôt).

Standard API Batch
Entrée 3,00 $/MTok 1,50 $/MTok
Sortie 15,00 $/MTok 7,50 $/MTok

Meilleurs cas d'utilisation pour l'API Batch :- Pipelines de modération de contenu - Classification de documents à grande échelle - Enrichissement de données nocturne - Génération d'embeddings ou de résumés pour de grands ensembles de données - Tout traitement non interactif où la latence n'est pas critique

À 1,50 $/7,50 $/MTok, le traitement d'un million de documents, chacun avec 500 tokens d'entrée et 100 tokens de sortie, coûte : - Entrée : 500M tokens × 1,50 $/MTok = **750 $** - Sortie : 100M tokens × 7,50 $/MTok = **750 $** - **Total : 1 500 $ pour 1 million de documents** (~0,0015 $ par document)

API Batch : 50 % de réduction pour les charges de travail non temps réel

Le traitement par lots est simple : soumettez des requêtes, obtenez des résultats de manière asynchrone à moitié prix. Le compromis est la latence — les résultats arrivent dans les 24 heures, bien que généralement beaucoup plus rapidement.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """Classifie une liste de textes aux tarifs de l'API Batch."""

    # Submit batch
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # Poll until complete
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # Collect results in order
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

Tarification du Contexte Long (1M de Tokens)

Lorsque vous activez la fenêtre contextuelle de 1 million de tokens via l'en-tête bêta `context-1m-2025-08-07`, les requêtes dépassant 200 000 tokens d'entrée sont facturées à un tarif plus élevé.

Tableau des Tarifs du Contexte Long

Tokens d'entrée Prix d'entrée Prix de sortie
≤ 200K 3,00 $/MTok 15,00 $/MTok
> 200K 6,00 $/MTok 22,50 $/MTok

Le seuil de 200 000 est basé sur le **total des tokens d'entrée**, qui comprend : - `input_tokens` (entrée standard) - `cache_creation_input_tokens` (si utilisation de la mise en cache des invites) - `cache_read_input_tokens` (si utilisation de la mise en cache des invites)

Si le total dépasse 200 000, **tous les tokens de cette requête** sont facturés au tarif supérieur.

Contexte Long + API Batch

La réduction de 50 % de l'API Batch **se cumule avec la tarification du contexte long** :

Scénario Taux d'entrée Taux de sortie
Standard 3,00 $/MTok 15,00 $/MTok
Contexte long (>200K) 6,00 $/MTok 22,50 $/MTok
API Batch 1,50 $/MTok 7,50 $/MTok
Contexte long + Batch 3,00 $/MTok 11,25 $/MTok

Le traitement de documents volumineux en masse via l'API Batch permet de maintenir les coûts du contexte long à un niveau gérable.

Tarification des Outils et Fonctionnalités

Plusieurs outils entraînent des frais distincts en plus des coûts des tokens.

Outil de Recherche Web

10,00 $ pour 1 000 recherches
+ coûts standard des tokens pour le contenu généré par la recherche

Chaque appel de recherche web compte comme une utilisation, quel que soit le nombre de résultats renvoyés. Aucun frais si la recherche échoue.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Recherches Web utilisées : {search_count.get('web_search_requests', 0)}")
# Chaque recherche : 0,01 $

Outil d'Exécution de Code

Gratuit lorsqu'il est inclus avec la recherche web ou la récupération web (en utilisant les versions d'outil `web_search_20260209` ou `web_fetch_20260209`).

Lorsqu'il est utilisé seul : - **1 550 heures gratuites** par organisation et par mois - **0,05 $ par heure par conteneur** au-delà du niveau gratuit - Unité de facturation minimale : 5 minutes

Pour la plupart des charges de travail de développement et de test, le niveau gratuit est plus que suffisant.

Outil de Récupération Web

Pas de frais supplémentaires. Vous ne payez que les coûts standards des tokens pour le contenu qui entre dans la conversation.

Outil Coût additionnel Notes
Recherche web 10 $/1K recherches Frais par recherche
Récupération web Gratuit Coûts des tokens uniquement
Exécution de code (avec outils web) Gratuit Inclus
Exécution de code (autonome) 0,05 $/heure après 1 550 heures gratuites/mois Par conteneur
Coût indirect d'utilisation de l'ordinateur ~735 tokens d'entrée supplémentaires Par définition d'outil
Coût indirect de l'éditeur de texte ~700 tokens d'entrée supplémentaires Par définition d'outil

Coût Indirect d'Utilisation de l'Ordinateur

L'utilisation de l'ordinateur ajoute un coût indirect fixe en tokens : - **Ajout d'invite système** : 466–499 tokens - **Tokens de définition d'outil** : 735 tokens par outil (modèles Claude 4.x)

Pour une session d'utilisation d'ordinateur de 100 tours à 200 tokens/tour plus des captures d'écran : - Coût indirect d'outil : 735 tokens × 3 $/MTok = 0,0022 $ (négligeable) - Les tokens de capture d'écran dépendent de la résolution ; prévoir environ 2 000 à 5 000 tokens par capture d'écran

Claude Sonnet 4.6 vs Tous les Modèles : Comparaison Complète

Tarification Actuelle des Modèles

Modèle Entrée Sortie Lecture Cache Entrée Batch Sortie Batch
Claude Sonnet 4.6 3,00 $ 15,00 $ 0,30 $ 1,50 $ 7,50 $
Claude Haiku 4.5 1,00 $ 5,00 $ 0,10 $ 0,50 $ 2,50 $
Claude Opus 4.6 5,00 $ 25,00 $ 0,50 $ 2,50 $ 12,50 $
Claude Opus 4.5 5,00 $ 25,00 $ 0,50 $ 2,50 $ 12,50 $
Claude Opus 4.1 15,00 $ 75,00 $ 1,50 $ 7,50 $ 37,50 $

Tous les prix sont en USD par million de tokens.

Sonnet 4.6 vs Opus 4.6 : La Question de la Valeur

Claude Sonnet 4.6 Claude Opus 4.6
Prix d'entrée 3 $/MTok 5 $/MTok
Prix de sortie 15 $/MTok 25 $/MTok
Coût relatif 1,67×
SWE-bench Vérifié 79,6 % ~80,8 %
OSWorld (utilisation d'ordinateur) 72,5 % 72,7 %
Préférence utilisateur vs Sonnet 4.5 70 % N/A
Préférence utilisateur vs Opus 4.5 59 % N/A
Fenêtre de contexte de 1M Oui (bêta) Oui (bêta)
Pensée adaptative Oui Oui
Sortie max. 64K tokens 128K tokens

Pour la grande majorité des tâches — codage, analyse, traitement de documents, workflows d'agent — Sonnet 4.6 égale les performances d'Opus à 60 % du prix. Opus 4.6 vaut le coût supplémentaire lorsque vous avez besoin de 128 000 tokens de sortie ou du maximum absolu sur les tâches de raisonnement novatrices.

Sonnet 4.6 vs Haiku 4.5 : Quand utiliser chacun

Cas d'utilisation Sonnet 4.6 Haiku 4.5
Génération de code complexe ⚠️
Classification simple ⚠️ Surdimensionné
Résumé de document
Tâches d'agent multi-étapes
Grand volume faible complexité ❌ Coûteux
Appel d'outils / utilisation de fonctions
Longues chaînes de raisonnement
Applications sensibles à la latence ✅ Rapide ✅ Le plus rapide

Le schéma intelligent : utilisez Haiku 4.5 pour le routage, la classification et l'extraction simple ; dirigez les tâches complexes vers Sonnet 4.6. Cette approche hybride coûte généralement 60 à 80 % moins cher que l'utilisation de Sonnet 4.6 pour tout.

Tester les Coûts avec Apidog avant la Mise en Production

Avant de déployer en production, vous voulez savoir exactement ce que coûte chaque requête. Le client API visuel d'Apidog vous permet de tester les appels de Claude Sonnet 4.6, d'inspecter la réponse complète incluant l'objet `usage`, et de suivre le nombre de tokens par requête.

Interface Apidog

Configurer la Visibilité des Coûts dans Apidog

  1. Créez une nouvelle requête POST vers `https://api.anthropic.com/v1/messages`
  2. Ajoutez les en-têtes : `x-api-key`, `anthropic-version: 2023-06-01`, `Content-Type: application/json`
  3. Définissez le corps avec votre modèle et vos messages
  4. Exécutez la requête — l'objet `usage` de la réponse affiche le nombre exact de tokens
{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

À partir de ces chiffres, calculez le coût réel : - Entrée : 523 tokens × 3 $/MTok = 0,00157 $ - Écriture cache : 5 000 tokens × 3,75 $/MTok = 0,01875 $ - Sortie : 312 tokens × 15 $/MTok = 0,00468 $ - **Total premier appel : 0,025 $** (appels ultérieurs avec accès au cache : ~0,006 $)

Vous pouvez enregistrer ces requêtes comme une collection dans Apidog, les partager avec votre équipe et effectuer des estimations de coûts sur différentes variations d'invites avant de finaliser votre conception de production.

Prêt à commencer à construire ? Téléchargez Apidog gratuitement pour tester visuellement les appels d'API de Claude Sonnet 4.6, inspecter l'utilisation des tokens par requête et estimer vos coûts avec précision avant le déploiement.

télécharger l'application

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API