Benchmarks do Claude Sonnet 5: O que os números realmente revelam

O Claude Sonnet 5 foi lançado em 30 de junho de 2026, e a afirmação principal da Anthropic é ousada: desempenho agêntico próximo ao do Opus 4.8 a um preço muito mais baixo. Este artigo detalha as pontuações de benchmark relatadas no lançamento, explica o que o padrão realmente significa e mostra onde os números deixam de ser úteis. Se você deseja primeiro a visão geral completa do modelo, comece com o guia pilar do Claude Sonnet 5. Para os dados brutos diretamente da fonte, a Anthropic os publicou na página oficial de anúncio.

Aqui está a versão resumida. Em tarefas onde o modelo usa ferramentas, o Sonnet 5 fica a poucos pontos do Opus 4.8. No raciocínio puro, sem nada para se apoiar, a lacuna se amplia para cerca de seis pontos. Esse padrão único explica a maioria das decisões de compra, e é o que abordaremos a seguir.

Todos os números neste artigo são benchmarks de lançamento da Anthropic, corroborados em várias publicações do dia do lançamento. Trate-os como dados relatados, e não como nossos próprios testes independentes.

A tabela de benchmarks

Três benchmarks contam a história. Aqui estão as pontuações relatadas para o Sonnet 5, seu predecessor Sonnet 4.6 e o carro-chefe Opus 4.8.

Benchmark	O que ele mede	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Codificação agêntica em repositórios reais	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Conclusão de tarefas de linha de comando	80.4%	não relatado	82.7%
OSWorld-Verified	Uso de computador, tarefas de GUI	81.2%	78.5%	83.4%

Alguns pontos se destacam.

O Sonnet 5 supera o Sonnet 4.6 em todos os benchmarks onde ambos foram relatados. O salto do SWE-bench Pro de 58.1% para 63.2% é de mais de cinco pontos, o que representa um ganho geracional real para a codificação agêntica. O OSWorld-Verified passa de 78.5% para 81.2%.

Em comparação com o Opus 4.8, o Sonnet 5 fica atrás por 6.0 pontos no SWE-bench Pro, 2.3 pontos no Terminal-Bench 2.1 e 2.2 pontos no OSWorld-Verified. A diferença é menor nas duas tarefas que dependem mais fortemente de ferramentas e do terminal.

O padrão que importa

Leia a tabela novamente com uma pergunta em mente: o quanto o modelo pode usar ferramentas para resolver o problema?

No Terminal-Bench 2.1 e no OSWorld-Verified, o modelo executa comandos, lê a saída e se ajusta. Ele recebe feedback do ambiente a cada passo. O Sonnet 5 fica a aproximadamente um a três pontos do Opus 4.8 em ambos.

O SWE-bench Pro também é agêntico, mas enfatiza um raciocínio mais profundo sobre grandes bases de código, e aí a lacuna se abre para seis pontos. Quando a tarefa recompensa o raciocínio puro em vez de ciclos de ferramentas, o Opus se adianta.

A própria abordagem da Anthropic apoia isso. Eles chamam o Sonnet 5 de o modelo Sonnet mais agêntico até agora, e o posicionam como próximo ao Opus 4.8 em tarefas agênticas e de uso de ferramentas, enquanto o Opus mantém sua liderança no raciocínio puro. Os benchmarks correspondem ao marketing aqui, o que nem sempre é o caso.

Portanto, a leitura prática é simples. Se sua carga de trabalho envolve ferramentas no ciclo, agentes, assistentes de codificação, uso de computador, o Sonnet 5 oferece a maior parte da capacidade do Opus 4.8. Se sua carga de trabalho é uma única passagem de raciocínio difícil sem ferramentas para corrigir o curso, o Opus justifica seu preço premium. Para uma comparação completa lado a lado, incluindo preço e contexto, consulte Claude Sonnet 5 vs Opus 4.8.

O preço muda como você interpreta essas pontuações

Benchmarks isolados favorecem o modelo mais caro. Adicione o preço e a imagem muda.

O Sonnet 5 opera com um preço introdutório de US$ 2 por milhão de tokens de entrada e US$ 10 por milhão de tokens de saída até 31 de agosto de 2026, passando então para o padrão de US$ 3 / US$ 15. O Opus 4.8 custa US$ 5 / US$ 25. Assim, nas taxas padrão, o Sonnet 5 custa 60% da entrada do Opus e 60% da saída do Opus, e ainda menos durante o período de introdução.

Agora, reavalie a tabela. Uma diferença de 2.3 pontos no Terminal-Bench 2.1 custa muito menos para ser compensada escolhendo o Opus do que uma diferença de 6 pontos. Para trabalho agêntico e com muitas ferramentas, pagar o prêmio do Opus para recuperar dois ou três pontos muitas vezes não compensa. Esse é todo o argumento de valor para o Sonnet 5, e os benchmarks são o que o tornam credível.

Uma ressalva que as pontuações puras escondem: o Sonnet 5 usa um novo tokenizador que produz aproximadamente 30% mais tokens para o mesmo texto de entrada. O preço por token não mudou em relação ao Sonnet 4.6, mas o custo de uma solicitação equivalente pode aumentar porque há mais tokens para cobrar. A precisão do benchmark não diz nada sobre isso. Modele seu custo real com a contagem de tokens, em vez de assumir uma paridade. O detalhamento completo está no guia de preços do Claude Sonnet 5.

O que os benchmarks não abordam

Benchmarks públicos são úteis para classificar modelos. Eles são fracos em prever como um modelo se comporta em seu trabalho específico. Três lacunas se destacam.

Sua carga de trabalho não é SWE-bench. Se você escreve TypeScript contra uma API privada com convenções internas, um benchmark de resolução de repositórios em projetos Python públicos é, na melhor das hipóteses, uma estimativa aproximada. O ranking relativo tende a se manter, mas o número absoluto não corresponderá ao que você vê.

O custo por tarefa resolvida supera a precisão bruta. Um modelo que pontua dois pontos a menos, mas custa 40% menos, pode resolver mais tarefas com o mesmo orçamento. Quando você executa agentes em volume, o custo por sucesso é a métrica que paga as contas, e nenhuma classificação a relata para seus prompts.

Latência e throughput não aparecem. Benchmarks medem se a resposta está correta, não o quão rápido ela chega ou como o modelo se comporta sob pensamento adaptativo, que está ativado por padrão no Sonnet 5. Para ferramentas interativas, uma resposta correta mais lenta pode perder para uma resposta boa o suficiente mais rápida.

A conclusão honesta é tratar essas pontuações como um filtro inicial e, em seguida, realizar sua própria avaliação. Fazer benchmarks em tarefas que realmente importam para você é o único teste que reflete seus resultados.

Segurança, resumidamente

Tabelas de benchmarks raramente incluem segurança, mas ela faz parte de como esses números devem ser lidos.

A Anthropic relata que o Sonnet 5 tem uma taxa geral menor de comportamentos indesejados do que o Sonnet 4.6, com menos alucinações e menos bajulação. É o primeiro modelo da camada Sonnet com salvaguardas de cibersegurança em tempo real. Solicitações que abordam tópicos cibernéticos proibidos ou de alto risco podem ser recusadas, e uma recusa é retornada como uma resposta HTTP 200 bem-sucedida com stop_reason: "refusal", e não um erro, então construa para esse caso.

Seja honesto sobre as ressalvas também. Na auditoria comportamental automatizada da Anthropic, o Sonnet 5 apresentou taxas de comportamento desalinhado mais altas do que o Opus 4.8. Em termos de capacidade cibernética, ele fica abaixo dos modelos Opus, e nenhum modelo Sonnet conseguiu desenvolver um exploit funcional, relatado como 0.0%. Uma capacidade menor nesse quesito é uma característica, não uma lacuna. Detalhes completos estão no hub de transparência da Anthropic.

Reproduza os números em suas próprias tarefas

O benchmark mais valioso é aquele que é executado contra seus próprios prompts. Para fazer isso de forma confiável, você precisa chamar a API do Sonnet 5 da mesma forma todas as vezes, salvar as solicitações e comparar as respostas entre as execuções.

Essa é uma tarefa para um cliente de API. O Apidog permite que você construa uma solicitação para a API de Mensagens da Anthropic, salve-a em uma coleção reutilizável, armazene sua chave de API como uma variável de ambiente e execute a mesma chamada repetidamente com asserções na resposta. Quando você quiser comparar o Sonnet 5 com o Opus 4.8 ou o Sonnet 4.6 em suas próprias entradas, basta alterar uma variável, o ID do modelo, e executar a coleção novamente.

Aqui está o formato da solicitação que você salvaria. O ID do modelo é a string exata claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Para fazer um teste A/B de um prompt de benchmark entre modelos, mantenha o corpo idêntico e troque "model" entre claude-sonnet-5, claude-opus-4-8 e claude-sonnet-4-6. No Apidog, você armazenaria o modelo como uma variável de ambiente para que uma única edição alterne todas as solicitações na execução. Adicione uma asserção de teste para verificar stop_reason e o comprimento da resposta, e então execute a coleção no CI para que sua avaliação seja repetível. Se você nunca configurou testes de API dessa forma, o guia de teste sem Postman detalha o fluxo de trabalho.

Uma nota de migração ao comparar scripts: o Sonnet 5 não aceita temperature, top_p ou top_k não padrão, e rejeita o campo antigo thinking: {type: "enabled", budget_tokens: N}. Ambos retornam um erro 400. Remova esses parâmetros antes de fazer o benchmark, ou sua execução falhará antes de medir qualquer coisa.

Baixe o Apidog para construir a solicitação uma vez e reutilizá-la em todos os modelos que você deseja pontuar.

FAQ

Qual é a pontuação do Claude Sonnet 5 no SWE-bench Pro? Os números de lançamento da Anthropic relatam 63.2% para o Sonnet 5, em comparação com 58.1% para o Sonnet 4.6 e 69.2% para o Opus 4.8. É um ganho geracional de cinco pontos na codificação agêntica, e cerca de seis pontos atrás do carro-chefe.

O Sonnet 5 é melhor que o Opus 4.8? Não em pontuações brutas. O Opus 4.8 lidera todos os benchmarks relatados. Mas o Sonnet 5 fica a um a três pontos em tarefas que exigem muitas ferramentas, custando 60% do preço, o que o torna a melhor opção para agentes e loops de codificação. A comparação completa está em Claude Sonnet 5 vs Opus 4.8.

Esses números de benchmark são de testes independentes? Não. Eles são os próprios benchmarks de lançamento da Anthropic, corroborados em várias publicações do dia do lançamento. Trate-os como dados relatados e valide-os em sua própria carga de trabalho antes de se comprometer.

Por que o Sonnet 5 se sai relativamente melhor em tarefas com ferramentas do que em tarefas de raciocínio? Quando o modelo pode executar comandos e ler os resultados, ele corrige seus próprios erros passo a passo. Esse feedback diminui a diferença para o Opus. Em uma única passagem de raciocínio sem ferramentas, não há nada para corrigir, então o raciocínio mais profundo do Opus se manifesta como uma liderança maior.

Como faço benchmark do Sonnet 5 em meus próprios prompts? Chame a API de Mensagens da Anthropic com o ID do modelo claude-sonnet-5, salve a solicitação em uma ferramenta como Apidog, adicione asserções e execute-o novamente entre os modelos, trocando o ID do modelo. Isso lhe dá o custo por tarefa e a latência, que as classificações públicas nunca relatam.