要約
Claude Sonnet 4.6の価格は、入力トークン100万件あたり**3ドル**、出力トークン100万件あたり**15ドル**です。Sonnet 4.5と同じ価格でありながら、Opusに近いパフォーマンスを実現しています。プロンプトキャッシングを利用すると、キャッシュ読み取りは**0.30ドル/MTok**にまで下がり(90%の節約)、バッチAPIでは、コストが半額の**1.50ドル/MTok**(入力)/**7.50ドル/MTok**(出力)になります。1Mトークンのコンテキストウィンドウ(ベータ版)では、20万トークンを超えるリクエストに対して、長文コンテキスト料金として**6ドル/MTok**(入力)/**22.50ドル/MTok**(出力)が適用されます。
Claude Sonnet 4.6の基本料金
Claude Sonnet 4.6は、前モデルと同じ価格帯を維持しながら、大幅に改善された結果を提供します。主な料金は以下のとおりです。
| 料金ティア | 入力トークン | 出力トークン |
|---|---|---|
| 標準 | 3.00ドル / MTok | 15.00ドル / MTok |
| バッチAPI | 1.50ドル / MTok | 7.50ドル / MTok |
| キャッシュ書き込み (5分) | 3.75ドル / MTok | — |
| キャッシュ書き込み (1時間) | 6.00ドル / MTok | — |
| キャッシュ読み取り | 0.30ドル / MTok | — |
| 長文コンテキスト 20万超 (標準) | 6.00ドル / MTok | 22.50ドル / MTok |
| 長文コンテキスト 20万超 (バッチ) | 3.00ドル / MTok | 11.25ドル / MTok |
MTok = 100万トークン。すべての価格は米ドルです。
ここでの価値提案は無視できません。早期テスターは、Opus 4.5という以前のプレミアムモデルよりもSonnet 4.6を59%の直接比較で好み、しかもコストは60%でした。

ほとんどのコーディング、分析、エージェントタスクにおいて、Opusレベルの結果を得るためにOpusの料金を支払う必要はなくなりました。
機能別の詳細料金
標準API料金
標準料金は、Anthropic APIを通じて行われるすべての同期APIコールに適用されます。
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "このドキュメントを要約してください。"}]
)
# 正確なトークン使用量を確認
print(f"入力トークン数: {response.usage.input_tokens}")
print(f"出力トークン数: {response.usage.output_tokens}")
# コストを計算
input_cost = response.usage.input_tokens / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"リクエストコスト: ${input_cost + output_cost:.6f}")
一般的なAPIコールで入力500トークン、出力300トークンを使用する場合、コストは約0.0060ドルです。これは、標準料金で1リクエストあたり1セント未満です。
プロンプトキャッシング料金
プロンプトキャッシングは、Sonnet 4.6の最も効果的なコスト削減手段です。プロンプトの一部をサーバー側に保存し、キャッシュヒット時の料金を大幅に引き下げます。
キャッシュ書き込み料金:
- 5分キャッシュ: 3.75ドル/MTok(基本入力料金の1.25倍)
- 1時間キャッシュ: 6.00ドル/MTok(基本入力料金の2倍)
キャッシュ読み取り料金:
- 0.30ドル/MTok — 標準入力料金の10分の1
システムプロンプトが10,000トークンで、1日あたり1,000件のリクエストを処理する場合:
- キャッシングなしの場合: 10,000 × 1,000 × 3ドル/MTok = 1日あたり30ドル
- キャッシングありの場合(1回書き込み、999回読み取り): 3.75ドル + (999 × 0.30) × 10,000/MTok ≈ 1日あたり3.04ドル
静的なシステムプロンプトだけで**90%の削減**になります。
import anthropic
client = anthropic.Anthropic()
# 高価な静的コンテンツをキャッシュ用にマーク
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "あなたはPython、FastAPI、分散システムを専門とするシニアコードレビュアーです。当社のコーディング標準とレビューガイドラインは以下の通りです:[標準テキストの大きなブロック]...",
"cache_control": {"type": "ephemeral"} # このブロックをキャッシュする
}
],
messages=[{"role": "user", "content": "このプルリクエストをレビューしてください: [PRコンテンツ]"}]
)
# キャッシュから来たものと新しいトークンを確認
usage = response.usage
print(f"キャッシュ書き込みトークン数: {usage.cache_creation_input_tokens}")
print(f"キャッシュ読み取りトークン数: {usage.cache_read_input_tokens}")
print(f"キャッシュされていないトークン数: {usage.input_tokens}")
どちらのキャッシュ期間を使用するか:
- 5分キャッシュ: 高頻度呼び出し、バーストトラフィック、短い会話ウィンドウ
- 1時間キャッシュ: バックグラウンド処理パイプライン、間隔の長いバッチジョブ、エージェントループ
バッチAPI料金
バッチAPIは、非同期処理(結果は24時間以内、通常ははるかに早く利用可能)と引き換えに、入力トークンと出力トークンの両方で一律50%の割引を提供します。
| 標準 | バッチAPI | |
|---|---|---|
| 入力 | 3.00ドル/MTok | 1.50ドル/MTok |
| 出力 | 15.00ドル/MTok | 7.50ドル/MTok |
バッチAPIの最適なユースケース:
- コンテンツモデレーションパイプライン
- 大規模な文書分類
- 夜間データエンリッチメント
- 大規模データセットの埋め込みまたは要約の生成
- レイテンシが問題とならない非インタラクティブな処理全般
1.50ドル/MTok(入力)/7.50ドル/MTok(出力)で、各500入力トークン、100出力トークンの100万件のドキュメントを処理する場合の費用:
- 入力: 500Mトークン × 1.50ドル/MTok = 750ドル
- 出力: 100Mトークン × 7.50ドル/MTok = 750ドル
- 合計: 100万ドキュメントで1,500ドル(ドキュメントあたり約0.0015ドル)
バッチAPI: 非リアルタイムワークロードに対する50%割引
バッチ処理は簡単です。リクエストを送信し、非同期で半額で結果を受け取ります。トレードオフはレイテンシで、結果は通常はるかに早く届きますが、24時間以内に到着します。
import anthropic, time
client = anthropic.Anthropic()
def batch_classify(texts: list[str]) -> list[str]:
"""Batch API料金でテキストリストを分類します。"""
# バッチを送信
requests = [
{
"custom_id": f"item-{i}",
"params": {
"model": "claude-sonnet-4-6",
"max_tokens": 20,
"messages": [{
"role": "user",
"content": f"POSITIVE、NEGATIVE、またはNEUTRALに分類してください。一単語のみで返信してください。\n\n{text}"
}]
}
}
for i, text in enumerate(texts)
]
batch = client.messages.batches.create(requests=requests)
# 完了するまでポーリング
while True:
status = client.messages.batches.retrieve(batch.id)
if status.processing_status == "ended":
break
time.sleep(60)
# 結果を順番に収集
results = {}
for result in client.messages.batches.results(batch.id):
if result.result.type == "succeeded":
results[result.custom_id] = result.result.message.content[0].text.strip()
return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]
長文コンテキスト (1Mトークン) 料金
`context-1m-2025-08-07` ベータヘッダーを通じて1Mトークンのコンテキストウィンドウを有効にすると、20万入力トークンを超えるリクエストは高料金で課金されます。
長文コンテキスト料金表
| 入力トークン | 入力料金 | 出力料金 |
|---|---|---|
| 20万以下 | 3.00ドル/MTok | 15.00ドル/MTok |
| 20万超 | 6.00ドル/MTok | 22.50ドル/MTok |
20万トークンのしきい値は、以下を含む**総入力トークン**に基づいています。
- `input_tokens`(標準入力)
- `cache_creation_input_tokens`(プロンプトキャッシングを使用する場合)
- `cache_read_input_tokens`(プロンプトキャッシングを使用する場合)
合計が20万トークンを超えた場合、**そのリクエストのすべてのトークン**が高料金で課金されます。
長文コンテキスト + バッチAPI
バッチAPIの50%割引は、**長文コンテキスト料金と併用可能**です。
| シナリオ | 入力料金 | 出力料金 |
|---|---|---|
| 標準 | 3.00ドル/MTok | 15.00ドル/MTok |
| 長文コンテキスト (20万超) | 6.00ドル/MTok | 22.50ドル/MTok |
| バッチAPI | 1.50ドル/MTok | 7.50ドル/MTok |
| 長文コンテキスト + バッチ | 3.00ドル/MTok | 11.25ドル/MTok |
バッチAPIを介して大量のドキュメントを一括処理することで、長文コンテキストのコストを管理しやすくなります。
ツールと機能の料金
いくつかのツールには、トークンコストとは別に料金が発生します。
ウェブ検索ツール
検索1,000件あたり10.00ドル
+ 検索で生成されたコンテンツに対する標準トークン料金
各ウェブ検索コールは、結果の数に関わらず1回の使用としてカウントされます。検索がエラーになった場合は課金されません。
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
betas=["code-execution-web-tools-2026-02-09"],
tools=[{"type": "web_search_20260209", "name": "web_search"}],
messages=[{"role": "user", "content": "今週の最新のLLMベンチマークニュースは何ですか?"}]
)
usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"使用されたウェブ検索数: {search_count.get('web_search_requests', 0)}")
# 各検索: 0.01ドル
コード実行ツール
ウェブ検索またはウェブフェッチとバンドルされている場合は無料(`web_search_20260209`または`web_fetch_20260209`ツールバージョンを使用する場合)。
スタンドアロンで使用する場合:
- 組織あたり月間**1,550時間無料**
- 無料枠を超えると、コンテナあたり1時間あたり**0.05ドル**
- 最低課金単位: 5分
ほとんどの開発およびテストワークロードでは、無料枠で十分です。
ウェブフェッチツール
追加料金なし。会話に入力されるコンテンツに対しては標準トークン料金のみが課金されます。
| ツール | 追加コスト | 備考 |
|---|---|---|
| ウェブ検索 | 検索1,000件あたり10ドル | 検索ごとの料金 |
| ウェブフェッチ | 無料 | トークン料金のみ |
| コード実行(ウェブツールと併用) | 無料 | バンドル |
| コード実行(スタンドアロン) | 月間1,550時間無料後、1時間あたり0.05ドル | コンテナあたり |
| コンピュータ使用のオーバーヘッド | 約735の追加入力トークン | ツール定義あたり |
| テキストエディタのオーバーヘッド | 約700の追加入力トークン | ツール定義あたり |
コンピュータ使用のオーバーヘッド
コンピュータの使用には固定のトークンオーバーヘッドが発生します。
- システムプロンプトの追加: 466〜499トークン
- ツール定義トークン: ツールあたり735トークン(Claude 4.xモデル)
1ターンあたり200トークン、100ターンのコンピュータ使用セッションにスクリーンショットが加わった場合:
- ツールオーバーヘッド: 735トークン × 3ドル/MTok = 0.0022ドル(ごくわずか)
- スクリーンショットトークンは解像度に依存します。スクリーンショット1枚あたり約2,000〜5,000トークンを見込んでください。
Claude Sonnet 4.6と全モデルの比較: 完全版
現行モデルの料金
| モデル | 入力 | 出力 | キャッシュ読み取り | バッチ入力 | バッチ出力 |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | 3.00ドル | 15.00ドル | 0.30ドル | 1.50ドル | 7.50ドル |
| Claude Haiku 4.5 | 1.00ドル | 5.00ドル | 0.10ドル | 0.50ドル | 2.50ドル |
| Claude Opus 4.6 | 5.00ドル | 25.00ドル | 0.50ドル | 2.50ドル | 12.50ドル |
| Claude Opus 4.5 | 5.00ドル | 25.00ドル | 0.50ドル | 2.50ドル | 12.50ドル |
| Claude Opus 4.1 | 15.00ドル | 75.00ドル | 1.50ドル | 7.50ドル | 37.50ドル |
すべての価格は100万トークンあたりの米ドルです。
Sonnet 4.6 vs Opus 4.6: 価値の問い
| Claude Sonnet 4.6 | Claude Opus 4.6 | |
|---|---|---|
| 入力料金 | 3ドル/MTok | 5ドル/MTok |
| 出力料金 | 15ドル/MTok | 25ドル/MTok |
| 相対コスト | 1× | 1.67× |
| SWE-bench 検証済み | 79.6% | 約80.8% |
| OSWorld (コンピュータ使用) | 72.5% | 72.7% |
| Sonnet 4.5に対するユーザーの好み | 70% | 該当なし |
| Opus 4.5に対するユーザーの好み | 59% | 該当なし |
| 1Mコンテキストウィンドウ | はい(ベータ版) | はい(ベータ版) |
| 適応的思考 | はい | はい |
| 最大出力 | 64Kトークン | 128Kトークン |
コーディング、分析、ドキュメント処理、エージェントワークフローといった大半のタスクにおいて、Sonnet 4.6はOpusのパフォーマンスを60%の価格で提供します。128Kの出力トークンや、斬新な推論タスクで絶対的な最大値を必要とする場合、Opus 4.6はプレミアムを支払う価値があります。
Sonnet 4.6 vs Haiku 4.5: それぞれの使い分け
| ユースケース | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|
| 複雑なコード生成 | ✅ | ⚠️ |
| シンプルな分類 | ⚠️ オーバースペック | ✅ |
| ドキュメント要約 | ✅ | ✅ |
| 多段階エージェントタスク | ✅ | ❌ |
| 大量低複雑度 | ❌ 高価 | ✅ |
| ツール呼び出し / 関数利用 | ✅ | ✅ |
| 長い推論チェーン | ✅ | ❌ |
| レイテンシに敏感なアプリ | ✅ 高速 | ✅ 最速 |
賢いパターン:ルーティング、分類、シンプルな抽出にはHaiku 4.5を使用し、複雑なタスクはSonnet 4.6に振り分ける。このハイブリッドアプローチは、Sonnet 4.6ですべてを処理するよりも通常60〜80%コストを削減できます。
本番稼働前のApidogでのコストテスト
本番環境にデプロイする前に、各リクエストにかかる正確なコストを知りたいはずです。ApidogのビジュアルAPIクライアントを使用すると、Claude Sonnet 4.6の呼び出しをテストし、`usage`オブジェクトを含む完全なレスポンスを検査し、リクエストごとのトークン数を追跡できます。

Apidogでコスト可視性を設定する
- `https://api.anthropic.com/v1/messages`への新しいPOSTリクエストを作成します
- ヘッダーを追加します: `x-api-key`、`anthropic-version: 2023-06-01`、`Content-Type: application/json`
- モデルとメッセージでボディを設定します
- リクエストを実行すると、レスポンスの`usage`オブジェクトに正確なトークン数が表示されます
{
"usage": {
"input_tokens": 523,
"cache_creation_input_tokens": 5000,
"cache_read_input_tokens": 0,
"output_tokens": 312
}
}
これらの数値から、実際のコストを計算します:
- 入力: 523トークン × 3ドル/MTok = 0.00157ドル
- キャッシュ書き込み: 5,000トークン × 3.75ドル/MTok = 0.01875ドル
- 出力: 312トークン × 15ドル/MTok = 0.00468ドル
- 最初の呼び出し合計: 0.025ドル(キャッシュヒット後の後続呼び出し: 約0.006ドル)
これらのリクエストをApidogにコレクションとして保存し、チームと共有し、本番環境の設計を確定する前に、さまざまなプロンプトのバリエーションでコスト見積もりを実行できます。
構築を開始する準備はできましたか?Apidogを無料でダウンロードして、Claude Sonnet 4.6 APIコールを視覚的にテストし、リクエストごとのトークン使用量を検査し、デプロイ前にコストを正確に見積もってください。
