Claude Fable 5 Benchmarks : Ce que les chiffres révèlent

Lorsqu'Anthropic a lancé Claude Fable 5 le 9 juin 2026, il a qualifié le modèle de pointe sur presque tous les benchmarks qu'il a testés. Si vous êtes venu ici à la recherche de benchmarks Claude Fable 5 clairs avec des chiffres précis à côté de chaque évaluation, voici une mise en garde honnête d'emblée : l'annonce d'Anthropic a rapporté des *classements* de benchmarks (où Fable 5 se situe par rapport à d'autres modèles de pointe) plutôt que des tableaux de scores numériques complets dans son texte, et plusieurs des graphiques principaux sont arrivés sous forme d'images plutôt que de tableaux copiables-collables. Ce tour d'horizon se concentre donc sur ce que les classements signifient réellement, où se situe Fable 5, et comment vous pouvez exécuter votre propre évaluation rapide si vous voulez des chiffres que vous contrôlez. Pour une comparaison plus large de la frontière actuelle, notre analyse d'Opus 4.8 par rapport à GPT-5.5 et Gemini 3.5 est un complément utile.

Fable 5 est proposé à 10 $ par million de tokens d'entrée et 50 $ par million de tokens de sortie, sous l'identifiant de modèle claude-fable-5. Il se situe un cran au-dessus d'Opus 4.8 en termes de capacités et de prix, et Anthropic le positionne comme le Claude le plus puissant disponible publiquement pour l'ingénierie logicielle, le travail du savoir, la vision et la recherche scientifique.

En bref

Claude Fable 5 se classe premier parmi les modèles de pointe sur FrontierCode et FrontierBench (tous deux de Cognition), est à la pointe de la technologie sur CursorBench et obtient le score le plus élevé sur le Finance Benchmark de Hebbia. Il montre une force claire sur les travaux autonomes à long terme. Anthropic a rapporté ces informations sous forme de classements, de sorte que les scores publics exacts sont limités. Traitez les classements comme des indicateurs directionnels, non définitifs.

Le résultat phare

La phrase unique qui encadre toute discussion sur les benchmarks de Claude Fable 5 : Anthropic décrit le modèle comme étant à la pointe de la technologie sur presque tous les benchmarks qu'il a exécutés, couvrant l'ingénierie logicielle, le travail du savoir, la vision et la recherche scientifique. C'est une affirmation générale, et les affirmations générales méritent une lecture attentive.

« À la pointe de la technologie sur presque tous les benchmarks » signifie que Fable 5 se classe en tête du classement ou se situe au niveau supérieur sur la plupart des évaluations qu'Anthropic a choisi de rapporter. Cela ne signifie pas que Fable 5 remporte chaque test avec une large marge, et cela ne signifie pas que des laboratoires indépendants ont reproduit chaque résultat. Ce que cela signale, c'est la cohérence : un modèle qui est le meilleur de sa catégorie en codage mais médiocre en raisonnement documentaire ne mériterait pas cette expression. Fable 5 semble conserver la première place dans des catégories qui s'échangent généralement.

Cette étendue est plus importante que n'importe quel graphique. De nombreux modèles excellent sur un benchmark favori et faiblissent ailleurs. Un modèle qui reste proche du sommet en matière de codage, de finance, de vision et de science est plus difficile à manipuler, car vous ne pouvez pas optimiser quatre compétences sans rapport en même temps sans une réelle capacité sous-jacente. Si vous décidez si Fable 5 vaut le coût par rapport à un niveau moins cher, l'étendue des classements est l'élément à prendre en compte. Pour un aperçu complet du modèle lui-même, consultez ce qu'est Claude Fable 5.

Un deuxième thème traverse les résultats : le travail à long terme. Anthropic affirme que Fable 5 « reste concentré sur des millions de tokens dans des tâches de longue durée » et fonctionne de manière autonome plus longtemps que n'importe quel Claude précédent. Plusieurs des classements ci-dessous ne sont pas des tests de précision ponctuels. Ils récompensent un modèle capable de maintenir un plan cohérent sur des milliers d'étapes sans dériver. C'est là que l'avance rapportée de Fable 5 est la plus large, et c'est aussi la capacité la plus difficile à saisir en un seul chiffre.

Benchmarks de codage : FrontierCode et CursorBench

Le codage est le domaine où l'histoire des benchmarks de Fable 5 est la plus forte et la plus concrète.

Sur **FrontierCode**, une évaluation de codage de Cognition (l'équipe derrière l'agent de codage Devin), Anthropic rapporte que Fable 5 est le modèle de pointe ayant obtenu le meilleur score, et qu'il maintient cette avance même à *effort moyen*. Le qualificatif « effort » mérite une pause. De nombreux modèles de pointe peuvent être poussés à une plus grande précision en dépensant plus de calcul d'inférence (plus de tokens de raisonnement, plus de tentatives, des paramètres d'effort plus élevés). Un modèle qui est déjà en tête à effort moyen atteint le sommet sans la configuration la plus coûteuse, un meilleur signal pour une utilisation quotidienne qu'un chiffre qui n'apparaît qu'à dépense maximale.

Sur **CursorBench**, Anthropic décrit Fable 5 comme étant à la pointe de la technologie et encadre le résultat autour de la portée plutôt que d'un chiffre de précision unique. La phrase de l'annonce est que Fable 5 « a ouvert une classe de problèmes à long terme qui étaient hors de portée » pour les modèles précédents. CursorBench s'oriente vers le travail d'ingénierie multi-fichiers et multi-étapes qu'exigent les bases de code réelles, de sorte qu'un classement de pointe ici parle davantage de codage agentique que d'écriture de fonctions isolées.

Les deux résultats vont dans la même direction : Fable 5 est conçu pour l'ingénierie durable, pas pour la complétion de snippets. Si vous passez votre journée dans un agent de codage qui planifie, édite des fichiers, exécute des tests et itère, ce sont les benchmarks qui correspondent à votre flux de travail. Un modèle qui domine FrontierCode à effort moyen et pousse CursorBench sur de nouveaux territoires devrait tenir le coup lors de longues sessions d'agent plutôt que de s'effilocher après quelques tours.

Connaissances et finance : Finance Benchmark (Hebbia)

En dehors du code, le résultat le plus clair en matière de travail du savoir provient du **Finance Benchmark** créé par Hebbia, une entreprise spécialisée dans l'IA pour les travaux financiers et juridiques riches en documents.

Anthropic rapporte que Fable 5 obtient le score le plus élevé de tous les modèles sur ce benchmark, avec des gains concentrés dans trois domaines : le raisonnement documentaire, les graphiques et les tableaux. Cette combinaison est révélatrice. L'analyse financière est rarement une question de trivialité. Il s'agit de lire un long dossier, de suivre un chiffre sur plusieurs pages, de réconcilier un graphique avec le texte qui le décrit, et d'extraire la bonne cellule d'un tableau dense sans mal interpréter la colonne. Ce sont précisément les compétences que le Finance Benchmark met en évidence, et celles qui piègent les modèles forts en prose mais faibles en données structurées.

L'angle de la vision compte également ici. Les graphiques et les tableaux sont souvent des images ou des mises en page mixtes, de sorte qu'un score élevé au Finance Benchmark est en partie un résultat de vision. Cela correspond à l'affirmation plus large d'Anthropic selon laquelle Fable 5 est performant en vision, et suggère que le modèle gère les documents désordonnés du monde réel avec lesquels les travailleurs du savoir traitent, plutôt que des entrées textuelles propres.

Pour les développeurs, la lecture pratique est que Fable 5 est un candidat pour les pipelines d'extraction de documents, les outils d'analyse financière et tout flux de travail où l'entrée est un PDF rempli de chiffres plutôt qu'une charge utile JSON ordonnée. Si votre produit lit des contrats, des relevés ou des rapports et doit être précis sur les chiffres, c'est le placement à surveiller. Validez sur vos propres documents avant de faire confiance à un benchmark pour prédire vos résultats.

Raisonnement à long terme : FrontierBench (Cognition)

La deuxième évaluation de Cognition, **FrontierBench**, est là où l'histoire de l'autonomie se transforme en classement de benchmark. Anthropic rapporte que Fable 5 est le modèle ayant obtenu le score le plus élevé sur FrontierBench et désigne le raisonnement à long terme comme la raison.

Le raisonnement à long terme est la capacité à maintenir un objectif et un plan cohérents sur une longue tâche : de nombreuses étapes, de nombreux tokens, de nombreuses chances de perdre le fil. La plupart des benchmarks récompensent une réponse correcte à une question circonscrite. FrontierBench, selon la formulation d'Anthropic, récompense un modèle capable de rester sur sa tâche pendant que la fenêtre contextuelle se remplit de son propre travail intermédiaire. C'est un muscle différent, et celui auquel Anthropic ne cesse de se référer avec des expressions comme « reste concentré sur des millions de tokens ».

C'est aussi le classement le plus difficile à vérifier de l'extérieur, précisément parce qu'il est difficile à mesurer. Une évaluation à long terme doit définir ce que signifie « rester sur la tâche », comment les progrès partiels sont scorés et comment empêcher un modèle de manipuler la métrique en temporisant. Traitez donc le classement FrontierBench comme un signal directionnel fort indiquant que Fable 5 est conçu pour des agents autonomes et de longue durée, tout en gardant à l'esprit que la notation à long terme est un domaine en évolution où la méthodologie varie encore entre les laboratoires. Pris ensemble avec CursorBench, l'histoire est cohérente : l'avantage de Fable 5 est moins de répondre à une question difficile que de ne pas s'effondrer sur une longue période.

Performances réelles au-delà des benchmarks

Les benchmarks sont une proxy. Les deux résultats mis en évidence par Anthropic à partir de déploiements réels sont sans doute plus informatifs que n'importe quel classement, car ils montrent le modèle accomplissant un travail plutôt que de passer un test.

Le premier est une **migration de codebase Stripe**. Anthropic rapporte que Fable 5 a migré une codebase Ruby de 50 millions de lignes pour Stripe en une seule journée, un travail que l'équipe avait estimé prendre deux mois ou plus. Lisez cela attentivement. Une migration de 50 millions de lignes n'est pas un casse-tête de codage. C'est un travail étendu, répétitif, lourd en contexte, à travers des milliers de fichiers, où de petites incohérences se transforment en builds cassés. Le signal n'est pas que Fable 5 est intelligent ; c'est qu'il peut maintenir des modifications correctes et cohérentes à une échelle énorme sans dériver, la capacité à long terme que les benchmarks suggèrent, démontrée sur un véritable système de production.

Le second est un **test Slay the Spire**. Slay the Spire est un roguelike de construction de deck, et Anthropic l'a utilisé pour sonder la mémoire plutôt que le codage. Avec une mémoire de fichier persistante activée, Fable 5 a montré une amélioration de 3x par rapport à Opus 4.8 dans le jeu. Le mécanisme est la partie intéressante : le gain est venu du fait de laisser le modèle écrire des notes dans des fichiers et les relire entre les exécutions, accumulant une stratégie comme le ferait un joueur humain. Cela indique un modèle qui s'améliore de manière significative lorsque vous lui donnez une mémoire durable, au lieu de démarrer à froid à chaque session.

Que vous disent ces éléments que les benchmarks ne vous disent pas ? Deux choses. Premièrement, l'endurance à l'échelle : une question de benchmark est petite par conception, et le résultat Stripe montre un comportement à une échelle qu'aucune évaluation standard n'atteint. Deuxièmement, la mémoire et l'utilisation d'outils comme multiplicateurs de force. Le résultat Slay the Spire ne concerne pas le QI brut du modèle, mais la façon dont le modèle s'améliore lorsqu'il est câblé dans un environnement avec un état persistant. Ce sont deux propriétés que l'on ne voit que lorsqu'un modèle est intégré dans un système réel, et c'est aussi pourquoi elles sont plus difficiles à comparer entre les fournisseurs. Si vous évaluez Fable 5 pour un agent qui fonctionne pendant des heures et conserve ses propres notes, ces signaux importent plus qu'un simple pourcentage de précision.

Comment lire ces résultats

Un tour d'horizon des benchmarks qui ne fait que flatter n'est pas utile. Voici les mises en garde à prendre en compte avec les classements.

Les propriétaires des benchmarks sont des partenaires. FrontierCode et FrontierBench proviennent de Cognition, et le Finance Benchmark de Hebbia. Ce sont des organisations crédibles qui élaborent des évaluations sérieuses, et leur implication est un plus, pas un signal d'alarme. Mais ce sont aussi des partenaires dans le récit de lancement, et un benchmark conçu par une partie tend à récompenser les capacités qui intéressent cette partie. Cela ne rend pas les résultats faux ; cela signifie que vous devriez souhaiter une reproduction indépendante avant de les considérer comme acquis. Croisez les informations avec des comparaisons neutres comme notre examen de MiniMax M3 contre Opus 4.7 et GPT-5.5 pour voir comment les modèles d'Anthropic se comportent par rapport à d'autres cadres.
Les paramètres d'« effort » changent la donne. Le résultat de FrontierCode a été rapporté à effort moyen, ce qui est encourageant. Mais l'effort est une variable réelle à travers ces évaluations. Deux modèles comparés à des niveaux d'effort différents ne sont pas comparés équitablement, et un chiffre cité sans son paramètre d'effort est incomplet. Lorsque vous voyez un score Fable 5 en ligne, vérifiez quel effort et combien de tentatives l'ont produit avant de le comparer à quoi que ce soit.
Les scores publics sont limités. L'annonce d'Anthropic s'est appuyée sur des classements, et les graphiques détaillés sont arrivés sous forme d'images, c'est pourquoi cet article reste qualitatif sur les évaluations spécifiques. Des sources secondaires ont comblé le vide avec des chiffres, mais ces chiffres varient et ne sont pas tous traçables à une source primaire, ils ne devraient donc pas encore ancrer une décision d'achat. Lorsque Cognition et Hebbia publieront leurs propres classements, préférez ceux-là.
Le classement n'est pas la marge. « Meilleur score » vous indique le rang, pas l'écart. Un modèle peut mener d'un point ou de vingt, et les deux signifient des choses différentes quant à savoir si la mise à niveau vaut le prix de 10 $/50 $. Sans les scores sous-jacents, traitez l'avance comme réelle mais non quantifiée.

Rien de tout cela n'est une raison de rejeter les résultats. Fable 5 en tête en matière de codage, de finance, de vision et de raisonnement à long terme, ainsi que les déploiements Stripe et Slay the Spire, présente une image forte et cohérente. C'est une raison de vérifier sur votre propre charge de travail avant de vous engager, la bonne approche avec tout nouveau modèle, quelle que soit son origine. L'aperçu des modèles est l'endroit où confirmer les identifiants, les prix et les limites de contexte actuels avant de configurer quoi que ce soit.

Exécutez votre propre benchmark avec Apidog

Le benchmark le plus fiable est celui qui utilise vos prompts et votre définition de « bon ». Vous n'avez pas besoin d'un banc d'essai de recherche pour obtenir une lecture utile. Construisez une évaluation DIY légère en envoyant un prompt de test fixe à l'API Fable 5 et en comparant la réponse à Opus 4.8 sur trois axes que vous pouvez mesurer directement : qualité de la sortie, latence et coût des tokens.

Voici une façon simple de le faire avec Apidog, une plateforme API pour concevoir, tester et documenter des requêtes. L'idée est de créer une requête dans Apidog, de la diriger vers chaque modèle, et de lire la réponse, le temps et l'utilisation des tokens côte à côte.

Configurez une requête POST vers le point de terminaison des messages Claude et enregistrez-la comme une requête réutilisable dans Apidog afin de pouvoir la réexécuter sans retaper quoi que ce soit.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Donnez-lui un corps avec une tâche fixe. Choisissez un prompt qui ressemble à votre travail réel, pas à un jouet. Une instruction de type migration est un bon test de stress pour un modèle de codage :

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactorisez cette méthode Ruby pour utiliser des arguments nommés et ajouter des tests RSpec. Ne renvoyez que le code mis à jour :\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Exécutez-le une fois contre `claude-fable-5`. Ensuite, dupliquez la requête, changez le champ `model` en `claude-opus-4-8`, et exécutez le même prompt. Puisque l'entrée est identique, toute différence dans la sortie est due au modèle, pas au prompt.

Maintenant, lisez les trois signaux qu'Apidog affiche pour chaque appel :

Qualité. Évaluez visuellement les deux réponses par rapport à votre propre grille d'évaluation. Le test a-t-il couvert les cas limites ? Le refactoring est-il resté correct ? Notez les deux avant de regarder quel modèle a produit quoi.
Latence. Apidog affiche le temps de réponse pour chaque requête. Pour un outil interactif, un modèle deux fois plus précis mais quatre fois plus lent peut quand même être le mauvais choix.
Coût des tokens. La réponse de Claude inclut un bloc usage avec input_tokens et output_tokens. Multipliez par les tarifs publiés (10 $ et 50 $ par million pour Fable 5, 5 $ et 25 $ pour Opus 4.8) pour obtenir le coût réel de chaque réponse.

Répétez cela sur cinq ou dix prompts qui reflètent votre utilisation réelle, et vous aurez un petit benchmark honnête qui vous dira ce que les classements publics ne peuvent pas : si l'avantage de Fable 5 se manifeste sur *vos* tâches à un prix que vous êtes prêt à payer. Vous pouvez télécharger Apidog et configurer cela en quelques minutes. Pour une analyse plus approfondie des coûts, notre guide de tarification de Fable 5 fait le calcul.

button