Claude Sonnet 5 Benchmarks : Ce que les chiffres révèlent vraiment

Claude Sonnet 5 a été lancé le 30 juin 2026, et la principale affirmation d'Anthropic est audacieuse : des performances agenciennes proches d'Opus 4.8 à un prix bien inférieur. Cet article passe en revue les scores de référence rapportés lors du lancement, explique la signification réelle du modèle et montre où les chiffres cessent d'être utiles. Si vous souhaitez d'abord un aperçu complet du modèle, commencez par le guide pilier de Claude Sonnet 5. Pour les chiffres bruts directement de la source, Anthropic les a publiés sur la page d'annonce officielle.

Voici la version courte. Sur les tâches où le modèle utilise des outils, Sonnet 5 se situe à quelques points d'Opus 4.8. Pour le raisonnement pur sans support, l'écart se creuse à environ six points. Ce modèle unique explique la plupart des décisions d'achat, et c'est le fil conducteur que nous suivons ci-dessous.

Tous les chiffres de cet article sont les références de lancement d'Anthropic, corroborées par plusieurs articles de presse du jour du lancement. Considérez-les comme des chiffres rapportés, et non comme nos propres tests indépendants.

Le tableau des références

Trois références racontent l'histoire. Voici les scores rapportés pour Sonnet 5, son prédécesseur Sonnet 4.6, et le fleuron Opus 4.8.

Référence	Ce qu'elle mesure	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Codage agentique sur de vrais dépôts	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Achèvement de tâches en ligne de commande	80.4%	non rapporté	82.7%
OSWorld-Verified	Utilisation d'ordinateur, tâches GUI	81.2%	78.5%	83.4%

Plusieurs choses ressortent.

Sonnet 5 bat Sonnet 4.6 sur toutes les références où les deux ont été rapportés. Le bond de SWE-bench Pro de 58.1% à 63.2% représente plus de cinq points, ce qui est un réel gain générationnel pour le codage agentique. OSWorld-Verified passe de 78.5% à 81.2%.

Face à Opus 4.8, Sonnet 5 est en retrait de 6.0 points sur SWE-bench Pro, 2.3 points sur Terminal-Bench 2.1 et 2.2 points sur OSWorld-Verified. L'écart est le plus faible sur les deux tâches qui s'appuient le plus sur les outils et le terminal.

Le modèle qui compte

Relisez le tableau en gardant à l'esprit une question : dans quelle mesure le modèle peut-il utiliser des outils pour résoudre le problème ?

Sur Terminal-Bench 2.1 et OSWorld-Verified, le modèle exécute des commandes, lit les sorties et s'adapte. Il reçoit un retour de l'environnement à chaque étape. Sonnet 5 se situe à environ un à trois points d'Opus 4.8 sur les deux.

SWE-bench Pro est également agentique, mais il met l'accent sur un raisonnement plus approfondi sur de grandes bases de code, et là l'écart se creuse à six points. Lorsque la tâche récompense le raisonnement brut plutôt que les boucles d'outils, Opus prend le dessus.

Le propre cadre d'Anthropic le confirme. Ils appellent Sonnet 5 le modèle Sonnet le plus agentique à ce jour, et le positionnent comme proche d'Opus 4.8 sur les tâches agentiques et d'utilisation d'outils, tandis qu'Opus conserve son avance sur le raisonnement pur. Les références correspondent au marketing ici, ce qui n'est pas toujours le cas.

La lecture pratique est donc simple. Si votre charge de travail implique des outils, des agents, des assistants de codage, l'utilisation d'ordinateurs, Sonnet 5 vous offre la plupart des capacités d'Opus 4.8. Si votre charge de travail est une seule passe de raisonnement difficile sans outils pour corriger le tir, Opus justifie son prix premium. Pour une comparaison complète incluant le prix et le contexte, voir Claude Sonnet 5 vs Opus 4.8.

Le prix modifie la façon dont vous lisez ces scores

Les benchmarks isolés flattent le modèle le plus cher. Ajoutez le prix et l'image change.

Sonnet 5 est proposé au prix de lancement de 2 $ par million de tokens d'entrée et 10 $ par million de tokens de sortie jusqu'au 31 août 2026, puis passe aux tarifs standard de 3 $ / 15 $. Opus 4.8 est à 5 $ / 25 $. Ainsi, aux tarifs standard, Sonnet 5 coûte 60 % du prix d'entrée et 60 % du prix de sortie d'Opus, et encore moins pendant la période de lancement.

Maintenant, réévaluez le tableau. Un écart de 2,3 points sur Terminal-Bench 2.1 coûte beaucoup moins cher à combler en choisissant Opus qu'un écart de 6 points. Pour les travaux agentiques et à forte utilisation d'outils, payer le premium d'Opus pour récupérer deux ou trois points n'en vaut souvent pas la peine. C'est tout l'argument de valeur de Sonnet 5, et les benchmarks sont ce qui le rend crédible.

Un hic que les scores purs masquent : Sonnet 5 utilise un nouveau tokenizer qui produit environ 30 % de tokens en plus pour le même texte d'entrée. Le prix par token est inchangé par rapport à Sonnet 4.6, mais le coût d'une requête équivalente peut augmenter car il y a plus de tokens à facturer. La précision du benchmark ne dit rien à ce sujet. Modélisez votre coût réel avec le comptage des tokens plutôt que de supposer une parité plate. La ventilation complète se trouve dans le guide tarifaire de Claude Sonnet 5.

Ce que les benchmarks oublient

Les benchmarks publics sont utiles pour classer les modèles. Ils sont faibles pour prédire comment un modèle se comportera sur votre travail spécifique. Trois lacunes se distinguent.

Votre charge de travail n'est pas SWE-bench. Si vous écrivez du TypeScript contre une API privée avec des conventions internes, un benchmark de résolution de dépôts sur des projets Python publics est au mieux un proxy approximatif. Le classement relatif a tendance à tenir, mais le nombre absolu ne correspondra pas à ce que vous voyez.

Le coût par tâche résolue l'emporte sur la précision brute. Un modèle qui marque deux points de moins mais coûte 40 % de moins peut résoudre plus de tâches pour le même budget. Lorsque vous exécutez des agents en volume, le coût par succès est la métrique qui paie les factures, et aucun classement ne la rapporte pour vos requêtes.

La latence et le débit n'apparaissent pas. Les benchmarks mesurent si la réponse est correcte, pas à quelle vitesse elle arrive ou comment le modèle se comporte sous une pensée adaptative, qui est activée par défaut dans Sonnet 5. Pour les outils interactifs, une réponse correcte plus lente peut perdre face à une réponse suffisamment bonne plus rapide.

La conclusion honnête est de traiter ces scores comme un filtre de départ, puis de mener votre propre évaluation. Le benchmarking sur les tâches qui vous importent réellement est le seul test qui reflète vos résultats.

Sécurité, en bref

Les tableaux de référence incluent rarement la sécurité, mais cela fait partie de la façon dont ces chiffres doivent être lus.

Anthropic rapporte que Sonnet 5 a un taux global plus faible de comportements indésirables que Sonnet 4.6, avec moins d'hallucinations et moins de sycophancie. C'est le premier modèle de la gamme Sonnet avec des mesures de cybersécurité en temps réel. Les requêtes concernant des sujets cyber interdits ou à haut risque peuvent être refusées, et un refus est renvoyé comme une réponse HTTP 200 réussie avec stop_reason: "refusal", et non une erreur, il faut donc prévoir ce cas.

Soyez honnête aussi sur les mises en garde. Lors de l'audit comportemental automatisé d'Anthropic, Sonnet 5 a montré des taux de comportement mal aligné plus élevés qu'Opus 4.8. En matière de capacité cyber, il se situe en dessous des modèles Opus, et aucun modèle Sonnet n'a pu développer un exploit fonctionnel, rapporté à 0.0%. Une capacité plus faible dans ce domaine est une caractéristique, pas un défaut. Tous les détails sont disponibles dans le centre de transparence d'Anthropic.

Reproduisez les chiffres sur vos propres tâches

Le benchmark le plus précieux est celui qui s'exécute sur vos propres requêtes. Pour ce faire de manière fiable, vous devez appeler l'API Sonnet 5 de la même manière à chaque fois, enregistrer les requêtes et comparer les réponses entre les exécutions.

C'est le travail d'un client API. Apidog vous permet de construire une requête vers l'API Anthropic Messages, de la sauvegarder dans une collection réutilisable, de stocker votre clé API comme variable d'environnement, et d'exécuter le même appel à plusieurs reprises avec des assertions sur la réponse. Lorsque vous voulez comparer Sonnet 5 à Opus 4.8 ou Sonnet 4.6 sur vos propres entrées, vous changez une variable, l'ID du modèle, et réexécutez la collection.

Voici la forme de requête que vous sauvegarderiez. L'ID du modèle est la chaîne exacte claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Pour un benchmark A/B d'une requête sur plusieurs modèles, gardez le corps identique et échangez "model" entre claude-sonnet-5, claude-opus-4-8 et claude-sonnet-4-6. Dans Apidog, vous stockeriez le modèle comme variable d'environnement afin qu'une seule modification bascule chaque requête de l'exécution. Ajoutez une assertion de test pour vérifier stop_reason et la longueur de la réponse, puis exécutez la collection dans le CI afin que votre évaluation soit reproductible. Si vous n'avez jamais configuré de tests API de cette manière, le guide de test sans Postman vous guide à travers le workflow.

Une note de migration lorsque vous scriptes les comparaisons : Sonnet 5 n'accepte pas les valeurs non par défaut pour temperature, top_p, ou top_k, et il rejette l'ancien champ thinking: {type: "enabled", budget_tokens: N}. Les deux renvoient une erreur 400. Supprimez ces paramètres avant de faire le benchmark, sinon votre exécution échouera avant de mesurer quoi que ce soit.

Téléchargez Apidog pour construire la requête une fois et la réutiliser sur chaque modèle que vous souhaitez évaluer.

FAQ

Quel est le score de Claude Sonnet 5 sur SWE-bench Pro ? Les chiffres de lancement d'Anthropic rapportent 63,2 % pour Sonnet 5, contre 58,1 % pour Sonnet 4.6 et 69,2 % pour Opus 4.8. C'est un gain générationnel de cinq points sur le codage agentique, et environ six points derrière le fleuron.

Sonnet 5 est-il meilleur qu'Opus 4.8 ? Pas sur les scores bruts. Opus 4.8 domine chaque référence rapportée. Mais Sonnet 5 se situe à un à trois points sur les tâches à forte utilisation d'outils pour 60 % du prix, ce qui en fait le meilleur rapport qualité-prix pour les agents et les boucles de codage. La comparaison complète se trouve dans Claude Sonnet 5 vs Opus 4.8.

Ces chiffres de référence proviennent-ils de tests indépendants ? Non. Ce sont les propres références de lancement d'Anthropic, corroborées par plusieurs articles de presse du jour du lancement. Considérez-les comme des chiffres rapportés et validez-les sur votre propre charge de travail avant de vous engager.

Pourquoi Sonnet 5 est-il relativement meilleur sur les tâches d'outils que sur les tâches de raisonnement ? Lorsque le modèle peut exécuter des commandes et lire les résultats, il corrige ses propres erreurs étape par étape. Ce feedback réduit l'écart avec Opus. Lors d'une seule passe de raisonnement sans outils, il n'y a rien à corriger, donc le raisonnement plus profond d'Opus se manifeste par une avance plus large.

Comment puis-je évaluer Sonnet 5 sur mes propres requêtes ? Appelez l'API Anthropic Messages avec l'ID de modèle claude-sonnet-5, enregistrez la requête dans un outil comme Apidog, ajoutez des assertions, et réexécutez-la sur différents modèles en échangeant l'ID du modèle. Cela vous donne le coût par tâche et la latence, ce que les classements publics ne rapportent jamais.