Claude Fable 5 Benchmarks: O que os números dizem

Quando a Anthropic lançou o Claude Fable 5 em 9 de junho de 2026, ela classificou o modelo como estado da arte em quase todos os benchmarks que testou. Se você veio aqui procurando benchmarks limpos do Claude Fable 5 com números concretos ao lado de cada avaliação, há uma ressalva honesta desde o início: o anúncio da Anthropic relatou o posicionamento nos benchmarks (onde o Fable 5 se classifica em relação a outros modelos de fronteira) mais do que placares numéricos completos em seu texto, e vários dos gráficos principais chegaram como imagens, em vez de tabelas que pudessem ser copiadas e coladas. Portanto, este resumo foca no que os posicionamentos realmente significam, onde o Fable 5 se encaixa e como você pode fazer sua própria avaliação rápida se quiser números que você controla. Para uma comparação mais ampla da fronteira atual, nossa análise de Opus 4.8 contra GPT-5.5 e Gemini 3.5 é um companheiro útil.

O Fable 5 está disponível por US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, sob o ID de modelo claude-fable-5. Ele se posiciona um nível acima do Opus 4.8 em capacidade e preço, e a Anthropic o posiciona como o Claude publicamente disponível mais forte para engenharia de software, trabalho de conhecimento, visão computacional e pesquisa científica.

Em resumo

O Claude Fable 5 ocupa o primeiro lugar entre os modelos de fronteira no FrontierCode e no FrontierBench (ambos da Cognition), é estado da arte no CursorBench e alcança a pontuação mais alta no Finance Benchmark da Hebbia. Ele demonstra clara força em trabalhos autônomos de longo prazo. A Anthropic relatou esses resultados como posicionamentos, portanto, as pontuações públicas exatas são limitadas. Considere as classificações como direcionais, não finais.

O resultado principal

A única frase que enquadra toda a discussão sobre os benchmarks do Claude Fable 5: a Anthropic descreve o modelo como estado da arte em quase todos os benchmarks que executou, abrangendo engenharia de software, trabalho de conhecimento, visão computacional e pesquisa científica. É uma afirmação abrangente, e afirmações abrangentes merecem uma leitura cuidadosa.

"Estado da arte em quase todos os benchmarks" significa que o Fable 5 ou lidera a tabela de classificação ou está no nível superior na maioria das avaliações que a Anthropic escolheu relatar. Não significa que o Fable 5 vença todos os testes por uma ampla margem, e não significa que laboratórios independentes reproduziram cada resultado. O que ele sinaliza é consistência: um modelo que é o melhor da categoria em codificação, mas medíocre no raciocínio de documentos, não ganharia essa frase. O Fable 5 parece manter a primeira posição em categorias que geralmente se equilibram.

Essa amplitude importa mais do que qualquer gráfico isolado. Muitos modelos se destacam em um benchmark favorito e falham em outros. Um modelo que permanece perto do topo em codificação, finanças, visão computacional e ciência é mais difícil de manipular, porque você não pode otimizar para quatro habilidades não relacionadas ao mesmo tempo sem uma capacidade genuína por trás. Se você está decidindo se o Fable 5 vale o salto de um nível mais barato, a amplitude dos posicionamentos é a parte a ser ponderada. Para o guia completo sobre o modelo em si, consulte o que é o Claude Fable 5.

Um segundo tema permeia os resultados: trabalho de longo prazo. A Anthropic afirma que o Fable 5 "mantém o foco em milhões de tokens em tarefas de longa duração" e trabalha autonomamente por mais tempo do que qualquer Claude anterior. Vários dos posicionamentos abaixo não são testes de precisão de tiro único. Eles recompensam um modelo que consegue manter um plano coeso em milhares de etapas sem se desviar. É aí que a liderança relatada do Fable 5 é mais ampla, e é também a capacidade mais difícil de capturar em um único número.

Benchmarks de codificação: FrontierCode e CursorBench

A codificação é onde a história do benchmark do Fable 5 é mais forte e concreta.

No FrontierCode, uma avaliação de codificação da Cognition (a equipe por trás do agente de codificação Devin), a Anthropic relata que o Fable 5 é o modelo de fronteira com maior pontuação, e ele mantém essa liderança mesmo com esforço médio. O qualificador "esforço" vale a pena ser analisado. Muitos modelos de fronteira podem ser impulsionados a maior precisão gastando mais computação de inferência (mais tokens de raciocínio, mais tentativas, configurações de esforço mais altas). Um modelo que já lidera com esforço médio está atingindo o topo sem a configuração mais cara, um sinal melhor para o uso diário do que um número que só aparece no gasto máximo.

No CursorBench, a Anthropic descreve o Fable 5 como estado da arte e enquadra o resultado em torno do escopo, em vez de uma única figura de precisão. A frase do anúncio é que o Fable 5 "abriu uma classe de problemas de longo prazo que estavam fora do alcance" dos modelos anteriores. O CursorBench inclina-se para o trabalho de engenharia de múltiplos arquivos e múltiplas etapas que bases de código reais exigem, então um posicionamento de estado da arte aqui fala sobre codificação agêntica mais do que sobre escrita isolada de funções.

Ambos os resultados apontam na mesma direção: o Fable 5 é construído para engenharia sustentada, não para conclusão de trechos de código. Se você passa o dia em um agente de codificação que planeja, edita em vários arquivos, executa testes e itera, esses são os benchmarks que mapeiam para o seu fluxo de trabalho. Um modelo que lidera o FrontierCode com esforço médio e leva o CursorBench para um novo território deve resistir a longas sessões de agente em vez de se desgastar após algumas rodadas.

Conhecimento e finanças: Finance Benchmark (Hebbia)

Fora do código, o resultado mais claro para trabalho de conhecimento vem do Finance Benchmark, desenvolvido pela Hebbia, uma empresa focada em IA para trabalhos financeiros e jurídicos com muitos documentos.

A Anthropic relata que o Fable 5 atinge a pontuação mais alta de qualquer modelo neste benchmark, com ganhos concentrados em três áreas: raciocínio de documentos, gráficos e tabelas. Essa combinação é reveladora. A análise financeira raramente é uma pergunta trivial. É ler um documento longo, rastrear um número em várias páginas, reconciliar um gráfico com o texto que o descreve e extrair a célula correta de uma tabela densa sem ler errado a coluna. Essas são exatamente as habilidades que o Finance Benchmark enfatiza, e as que confundem modelos que são fortes em prosa, mas fracos em dados estruturados.

O ângulo da visão computacional também importa aqui. Gráficos e tabelas são frequentemente imagens ou layouts mistos, então uma alta pontuação no Finance Benchmark é parcialmente um resultado de visão computacional. Isso se alinha à afirmação mais ampla da Anthropic de que o Fable 5 é forte em visão computacional, e sugere que o modelo lida com os documentos bagunçados e do mundo real com os quais os trabalhadores do conhecimento lidam, em vez de entradas de texto limpas.

Para desenvolvedores, a leitura prática é que o Fable 5 é um candidato para pipelines de extração de documentos, ferramentas de análise financeira e qualquer fluxo de trabalho onde a entrada é um PDF cheio de números, em vez de um payload JSON organizado. Se o seu produto lê contratos, extratos ou relatórios e precisa estar certo sobre os valores, este é o posicionamento a ser observado. Valide em seus próprios documentos antes de confiar em um benchmark para prever seus resultados.

Raciocínio de longo prazo: FrontierBench (Cognition)

A segunda avaliação da Cognition, FrontierBench, é onde a história da autonomia se transforma em um posicionamento de benchmark. A Anthropic relata o Fable 5 como o modelo com maior pontuação no FrontierBench e destaca o raciocínio de longo prazo como a razão.

Raciocínio de longo prazo é a capacidade de manter um objetivo e um plano coerentes em uma tarefa longa: muitos passos, muitos tokens, muitas chances de perder o fio. A maioria dos benchmarks recompensa uma resposta correta para uma pergunta contida. O FrontierBench, segundo a abordagem da Anthropic, recompensa um modelo que consegue permanecer na tarefa enquanto a janela de contexto se preenche com seu próprio trabalho intermediário. Esse é um músculo diferente, e o que a Anthropic continua apontando com frases como "mantém o foco em milhões de tokens".

Este é também o posicionamento mais difícil de verificar de fora, precisamente porque é difícil de medir. Uma avaliação de longo prazo precisa definir o que "permanecer na tarefa" significa, como o progresso parcial é pontuado e como impedir que um modelo manipule a métrica ao travar. Portanto, trate o posicionamento do FrontierBench como um forte sinal direcional de que o Fable 5 é construído para agentes autônomos e de longa duração, lembrando que a pontuação de longo prazo é uma área em evolução onde a metodologia ainda varia entre os laboratórios. Em conjunto com o CursorBench, a história é consistente: a vantagem do Fable 5 é menos sobre responder a uma pergunta difícil e mais sobre não desmoronar em uma tarefa longa.

Desempenho no mundo real além dos benchmarks

Benchmarks são um proxy. Os dois resultados que a Anthropic destacou de implantações reais são indiscutivelmente mais informativos do que qualquer tabela de classificação, porque eles mostram o modelo realizando um trabalho em vez de passando em um teste.

O primeiro é uma migração de base de código da Stripe. A Anthropic relata que o Fable 5 migrou uma base de código Ruby de 50 milhões de linhas para a Stripe em um único dia, trabalho que a equipe estimou que levaria dois meses ou mais. Leia isso com atenção. Uma migração de 50 milhões de linhas não é um quebra-cabeça de codificação. É um trabalho árduo, repetitivo e com muito contexto, espalhado por milhares de arquivos, onde pequenas inconsistências se acumulam em builds quebradas. O sinal não é que o Fable 5 seja inteligente; é que ele pode sustentar edições corretas e consistentes em uma escala enorme sem se desviar, a capacidade de longo prazo que os benchmarks sugerem, mostrada em um sistema de produção genuíno.

O segundo é um teste de Slay the Spire. Slay the Spire é um roguelike de construção de baralho, e a Anthropic o usou para avaliar a memória, em vez de codificação. Com a memória de arquivo persistente habilitada, o Fable 5 mostrou uma melhoria de 3 vezes em relação ao Opus 4.8 no jogo. O mecanismo é a parte interessante: o ganho veio de permitir que o modelo escrevesse anotações em arquivos e os lesse de volta em várias execuções, acumulando estratégia como um jogador humano faria. Isso aponta para um modelo que melhora significativamente quando você lhe dá memória durável, em vez de começar do zero a cada sessão.

O que isso lhe diz que os benchmarks não dizem? Duas coisas. Primeiro, resistência em escala: uma pergunta de benchmark é pequena por design, e o resultado da Stripe mostra um comportamento em uma escala que nenhuma avaliação padrão alcança. Segundo, memória e uso de ferramentas como multiplicadores de força. O resultado de Slay the Spire não é sobre o QI bruto do modelo, é sobre como o modelo melhora quando conectado a um ambiente com estado persistente. Ambas são propriedades que você só vê quando um modelo é incorporado em um sistema real, razão pela qual também são mais difíceis de comparar entre fornecedores. Se você está avaliando o Fable 5 para um agente que executa por horas e mantém suas próprias anotações, esses sinais importam mais do que uma única porcentagem de precisão.

Como interpretar esses resultados

Um resumo de benchmark que apenas elogia não é útil. Aqui estão as ressalvas a serem consideradas junto com os posicionamentos.

Os proprietários dos benchmarks são parceiros. FrontierCode e FrontierBench vêm da Cognition, e o Finance Benchmark vem da Hebbia. São organizações credíveis que constroem avaliações sérias, e o envolvimento delas é um ponto positivo, não uma bandeira vermelha. Mas eles também são parceiros na narrativa de lançamento, e um benchmark projetado por uma parte tende a recompensar as capacidades que essa parte valoriza. Isso não torna os resultados errados; significa que você deveria querer uma reprodução independente antes de tratá-los como resolvidos. Faça uma referência cruzada com comparações neutras, como nossa análise de MiniMax M3 versus Opus 4.7 versus GPT-5.5 para ver como os modelos da Anthropic se sustentam contra outras abordagens.

As configurações de "esforço" mudam o cenário. O resultado do FrontierCode foi relatado com esforço médio, o que é encorajador. Mas o esforço é uma variável real nessas avaliações. Dois modelos comparados em diferentes níveis de esforço não estão sendo comparados de forma justa, e um número citado sem sua configuração de esforço está incompleto. Quando você vir uma pontuação do Fable 5 online, verifique qual esforço e quantas tentativas a produziram antes de compará-la com qualquer coisa.

As pontuações públicas são limitadas. O anúncio da Anthropic se baseou em posicionamentos, e os gráficos detalhados chegaram como imagens, razão pela qual este artigo permanece qualitativo nas avaliações específicas. Meios secundários preencheram a lacuna com números, mas esses valores variam e nem todos são rastreáveis a uma fonte primária, portanto, não devem ancorar uma decisão de compra ainda. Quando a Cognition e a Hebbia publicarem suas próprias tabelas de classificação, prefira essas.

Posicionamento não é margem. "Maior pontuação" informa a classificação, não a diferença. Um modelo pode liderar por um ponto ou por vinte, e os dois significam coisas diferentes para saber se a atualização vale o preço de US$ 10/US$ 50. Sem as pontuações subjacentes, trate a liderança como real, mas não quantificada.

Nada disso é motivo para descartar os resultados. O Fable 5 liderando em codificação, finanças, visão computacional e raciocínio de longo prazo, além das implantações da Stripe e Slay the Spire, é um quadro forte e coerente. É um motivo para verificar em sua própria carga de trabalho antes de se comprometer, o movimento certo com qualquer novo modelo, independentemente de quem o fez. A visão geral dos modelos é o local para confirmar os IDs, preços e limites de contexto atuais antes de conectar qualquer coisa.

Execute seu próprio benchmark com o Apidog

O benchmark mais confiável é aquele que usa seus prompts e sua definição de "bom". Você não precisa de uma estrutura de pesquisa para obter uma leitura útil. Construa uma avaliação DIY leve enviando um prompt de teste fixo para a API do Fable 5 e comparando a resposta com o Opus 4.8 em três eixos que você pode medir diretamente: qualidade da saída, latência e custo do token.

Aqui está uma maneira simples de fazer isso com o Apidog, uma plataforma API para projetar, testar e documentar requisições. A ideia é criar uma requisição no Apidog, apontá-la para cada modelo e ler a resposta, o tempo e o uso de tokens lado a lado.

Configure uma requisição POST para o endpoint de mensagens do Claude e salve-a como uma requisição reutilizável no Apidog para que você possa executá-la novamente sem digitar nada.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Dê a ela um corpo com uma tarefa fixa. Escolha um prompt que se pareça com seu trabalho real, não um brinquedo. Uma instrução estilo migração é um bom teste de estresse para um modelo de codificação:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refatorar este método Ruby para usar argumentos de palavra-chave e adicionar testes RSpec. Retorne apenas o código atualizado:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Execute-o uma vez contra claude-fable-5. Em seguida, duplique a requisição, altere o campo model para claude-opus-4-8 e execute o mesmo prompt. Como a entrada é idêntica, qualquer diferença na saída é do modelo, não do prompt.

Agora, leia os três sinais que o Apidog exibe para cada chamada:

Qualidade. Avalie visualmente ambas as respostas contra sua própria rubrica. O teste cobriu casos de borda? A refatoração permaneceu correta? Pontue ambos antes de ver qual modelo produziu qual.
Latência. O Apidog mostra o tempo de resposta para cada requisição. Para uma ferramenta interativa, um modelo duas vezes mais preciso, mas quatro vezes mais lento, ainda pode ser a escolha errada.
Custo do token. A resposta do Claude inclui um bloco usage com input_tokens e output_tokens. Multiplique pelas taxas publicadas (US$ 10 e US$ 50 por milhão para o Fable 5, US$ 5 e US$ 25 para o Opus 4.8) para obter o custo real de cada resposta.

Repita isso em cinco ou dez prompts que espelham seu uso real, e você terá um pequeno e honesto benchmark que lhe diz o que as tabelas de classificação públicas não podem: se a vantagem do Fable 5 aparece em suas tarefas a um preço que você está disposto a pagar. Você pode baixar o Apidog e configurá-lo em poucos minutos. Para um detalhamento mais profundo de custos, nosso guia de preços do Fable 5 faz as contas.

button