クロードソネット 5 ベンチマーク：数値が明かす実際の性能

Claude Sonnet 5は2026年6月30日にリリースされ、Anthropicからの主要な主張は大胆なものです。それは、はるかに低い価格でOpus 4.8に近いエージェント性能を持つというものです。この記事では、リリース時に報告されたベンチマークスコアを順に説明し、そのパターンが実際に何を意味するのかを解説し、数値がどこで有用性を失うのかを示します。まずモデルの全体像を知りたい場合は、Claude Sonnet 5ピラーガイドから始めてください。元のソースからの生データについては、Anthropicが公式発表ページで公開しています。

簡単に言うと、モデルがツールを使用するタスクでは、Sonnet 5はOpus 4.8と数ポイントの差に収まります。頼るものが何もない純粋な推論では、その差は約6ポイントに広がります。この単一のパターンがほとんどの購入決定を説明しており、以下で掘り下げていきます。

この記事のすべての数値は、Anthropicが発表したベンチマークであり、複数のリリース日の記事で裏付けられています。これらは報告された数値として扱い、当社独自の独立したテスト結果ではない点にご留意ください。

ベンチマーク表

3つのベンチマークがその物語を語ります。以下に、Sonnet 5、その前身であるSonnet 4.6、そしてフラッグシップモデルのOpus 4.8の報告スコアを示します。

ベンチマーク	測定対象	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	実リポジトリでのエージェントコーディング	63.2%	58.1%	69.2%
Terminal-Bench 2.1	コマンドラインタスクの完了	80.4%	未報告	82.7%
OSWorld-Verified	コンピューター使用、GUIタスク	81.2%	78.5%	83.4%

いくつか注目すべき点があります。

Sonnet 5は、両方のスコアが報告されたすべてのベンチマークでSonnet 4.6を上回っています。SWE-bench Proのスコアは58.1%から63.2%へと5ポイント以上向上しており、これはエージェントコーディングにおける真の世代的進歩と言えます。OSWorld-Verifiedも78.5%から81.2%に上昇しています。

Opus 4.8に対しては、Sonnet 5はSWE-bench Proで6.0ポイント、Terminal-Bench 2.1で2.3ポイント、OSWorld-Verifiedで2.2ポイント劣っています。この差は、ツールやターミナルに最も依存する2つのタスクで最も小さくなっています。

重要なパターン

ある質問を念頭に置いて、もう一度表を読んでみてください。その質問とは、『モデルは問題解決のためにどれだけツールを使用できるか？』です。

Terminal-Bench 2.1とOSWorld-Verifiedでは、モデルはコマンドを実行し、出力を読み取り、調整します。あらゆるステップで環境からフィードバックを得ます。Sonnet 5はこれら両方でOpus 4.8とほぼ1～3ポイント差に収まっています。

SWE-bench Proもエージェント型ですが、大規模なコードベースに関するより深い推論が求められるため、ここでは差が6ポイントに開きます。タスクがツールループよりも純粋な推論を重視する場合、Opusが優位に立ちます。

Anthropic自身の表現もこれを裏付けています。彼らはSonnet 5をこれまでのSonnetモデルの中で最もエージェント型であると呼び、純粋な推論ではOpusがリードを保つ一方で、エージェント型およびツール使用タスクではOpus 4.8に近い位置づけをしています。ベンチマークはここのマーケティングと一致しており、常にそうであるとは限りません。

したがって、実践的な解釈は単純です。もしワークロードがツールループ、エージェント、コーディングアシスタント、コンピューターの使用などを含むものであれば、Sonnet 5はOpus 4.8の能力のほとんどを提供します。もしワークロードが、軌道を修正するためのツールがない単一の困難な推論パスである場合、Opusはそれに見合うプレミアム価値があります。価格とコンテキストを含む詳細な比較については、Claude Sonnet 5 vs Opus 4.8をご覧ください。

価格がスコアの読み方を変える

ベンチマークは単独で見ると、最も高価なモデルを優遇しがちです。価格を加えると、状況は変わります。

Sonnet 5は、2026年8月31日まで、入力トークン100万あたり2ドル、出力トークン100万あたり10ドルの導入価格で提供され、その後は標準価格の3ドル/15ドルに移行します。Opus 4.8は5ドル/25ドルです。したがって、標準料金ではSonnet 5はOpusの入力コストの60%、出力コストの60%となり、導入期間中はさらに安くなります。

ここで再び表を評価してみましょう。Terminal-Bench 2.1での2.3ポイントの差は、6ポイントの差をOpusで埋めるよりもはるかに少ないコストで済みます。エージェント型やツールを多用する作業の場合、2、3ポイントを取り戻すためにOpusのプレミアムを支払うことは、多くの場合、価値がありません。それがSonnet 5の全体的な価値の主張であり、ベンチマークがその信頼性を高めています。

純粋なスコアが隠している一つの落とし穴があります。Sonnet 5は新しいトークナイザーを使用しており、同じ入力テキストに対して約30%多くのトークンを生成します。トークンあたりの価格はSonnet 4.6から変更ありませんが、請求されるトークン数が増えるため、同等のリクエストのコストは上昇する可能性があります。ベンチマークの精度はこれについて何も語っていません。均一なパリティを仮定するのではなく、トークン数をカウントして実際のコストをモデル化してください。詳細な内訳はClaude Sonnet 5の価格ガイドに記載されています。

ベンチマークが見落とすもの

公開されているベンチマークは、モデルをランキングするのに役立ちます。しかし、特定の作業でモデルがどのように動作するかを予測する点では弱いです。3つのギャップが際立っています。

あなたのワークロードはSWE-benchではありません。社内規約のあるプライベートAPIに対してTypeScriptを記述する場合、公開Pythonプロジェクトでのリポジトリ解決ベンチマークは、せいぜい大まかな目安にしかなりません。相対的なランキングは維持される傾向がありますが、絶対的な数値はあなたが目にするものとは一致しないでしょう。

解決されたタスクあたりのコストは、生の精度よりも重要です。スコアが2ポイント低くてもコストが40%低いモデルは、同じ予算でより多くのタスクを解決できます。エージェントを大量に実行する場合、成功あたりのコストが収益を左右する指標であり、どのリーダーボードもあなたのプロンプトに対するその指標を報告していません。

レイテンシーとスループットは考慮されていません。ベンチマークは回答が正しいかどうかを測定するものであり、それがどれだけ速く届くか、またはSonnet 5でデフォルトでオンになっている適応的思考の下でモデルがどのように動作するかは測定しません。インタラクティブなツールでは、遅い正しい回答よりも、速くても十分に良い回答の方が優位に立つことがあります。

正直な結論として、これらのスコアは最初のフィルターとして扱い、その後は独自の評価を行うべきです。実際にあなたが重要視するタスクでベンチマークを行うことだけが、あなたの結果を反映する唯一のテストです。

安全性（概要）

ベンチマーク表に安全性が含まれることは稀ですが、これらの数値をどのように読み解くべきかの一部です。

Anthropicは、Sonnet 5がSonnet 4.6と比較して、望ましくない行動の全体的な発生率が低く、ハルシネーションや追従性が少ないと報告しています。これは、リアルタイムのサイバーセキュリティ保護機能を備えた初のSonnetティアモデルです。禁止されている、または高リスクなサイバー関連トピックに触れるリクエストは拒否される可能性があり、その拒否はエラーではなく、stop_reason: "refusal" を伴う成功したHTTP 200応答として返されるため、そのケースに備える必要があります。

注意点についても正直になりましょう。Anthropicの自動行動監査では、Sonnet 5はOpus 4.8よりも高いミスアラインメント行動率を示しました。サイバー能力においてはOpusモデルを下回っており、どちらのSonnetモデルも機能するエクスプロイトを全く開発できませんでした（0.0%と報告）。ここでの能力の低さは、ギャップではなく機能です。詳細については、Anthropicの透明性ハブをご覧ください。

独自のタスクで数値を再現する

最も価値のあるベンチマークは、あなたのプロンプトに対して実行されるものです。それを確実に行うには、Sonnet 5 APIを常に同じ方法で呼び出し、リクエストを保存し、複数の実行で応答を比較する必要があります。

それはAPIクライアントの仕事です。Apidogを使用すると、Anthropic Messages APIへのリクエストを作成し、再利用可能なコレクションに保存し、APIキーを環境変数として格納し、応答に対するアサーションを設定して同じ呼び出しを繰り返し実行できます。独自の入力でSonnet 5とOpus 4.8またはSonnet 4.6を比較したい場合は、モデルIDという1つの変数を変更し、コレクションを再実行するだけです。

これが保存するリクエストの形式です。モデルIDは正確な文字列 claude-sonnet-5 です。

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

モデル間でベンチマークプロンプトのA/Bテストを行うには、ボディを同じに保ち、"model"をclaude-sonnet-5、claude-opus-4-8、claude-sonnet-4-6の間で切り替えます。Apidogでは、モデルを環境変数として保存することで、1回の編集で実行内のすべてのリクエストを切り替えることができます。stop_reasonと応答長をチェックするテストアサーションを追加し、CIでコレクションを実行して評価を再現可能にします。このようなAPIテストを設定したことがない場合は、Postmanなしでのテストガイドでワークフローを詳しく説明しています。

比較をスクリプト化する際の移行に関する注意点があります。Sonnet 5はデフォルト以外のtemperature、top_p、top_kを受け付けず、また古いthinking: {type: "enabled", budget_tokens: N}フィールドを拒否します。これらは両方とも400エラーを返します。ベンチマークを行う前にこれらのパラメータを削除しないと、測定を行う前に実行が失敗します。

リクエストを一度作成し、評価したいすべてのモデルで再利用するには、Apidogをダウンロードしてください。

よくある質問

Claude Sonnet 5のSWE-bench Proスコアはどのくらいですか？ Anthropicの発表データによると、Sonnet 5は63.2%で、Sonnet 4.6の58.1%、Opus 4.8の69.2%と比較されます。これはエージェントコーディングにおいて5ポイントの世代的向上であり、フラッグシップモデルに約6ポイント差です。

Sonnet 5はOpus 4.8よりも優れていますか？ 生のスコアではそうではありません。Opus 4.8は報告されているすべてのベンチマークでリードしています。しかし、Sonnet 5はツールを多用するタスクで1～3ポイント差に迫り、価格は60%であるため、エージェントやコーディングループにとってはより良い価値を提供します。完全な比較はClaude Sonnet 5 vs Opus 4.8にあります。

これらのベンチマーク数値は独立したテストによるものですか？ いいえ。これらはAnthropic独自の発表ベンチマークであり、複数のリリース日の記事で裏付けられています。これらは報告された数値として扱い、導入を決定する前にご自身のワークロードで検証してください。

Sonnet 5は推論タスクよりもツールタスクで相対的に優れているのはなぜですか？ モデルがコマンドを実行し、その結果を読み取ることができる場合、段階的に自身の誤りを修正します。このフィードバックがOpusとの差を縮めます。ツールなしの単一の推論パスでは、修正するものがないため、Opusのより深い推論がより大きなリードとして現れます。

自分のプロンプトでSonnet 5のベンチマークを行うにはどうすればよいですか？ モデルID claude-sonnet-5 を使用してAnthropic Messages APIを呼び出し、Apidogのようなツールにリクエストを保存し、アサーションを追加し、モデルIDを入れ替えることで複数のモデルに対して再実行します。これにより、公開リーダーボードでは報告されないタスクあたりのコストとレイテンシーが得られます。