Claude Opus 4.8の料金は、標準モードで入力トークン100万件あたり5ドル、出力トークン100万件あたり25ドルです。これはOpus 4.7と同じ料金なので、すでに4.7の予算を組んでいる場合、アップグレードしても何も変わりません。興味深いのは、その見出しの数字を取り巻くすべてです。より高速なモード、トークン消費ダイヤル、キャッシュ、そしてバッチ割引は、基本料金よりもはるかに実際の請求額を左右します。
このガイドでは、実際の費用を具体的な例を挙げて詳しく説明します。モデルの概要については、Claude Opus 4.8とは何かをご覧ください。構築を開始するには、APIガイドをご覧ください。
料金表
| モード | 入力(100万トークンあたり) | 出力(100万トークンあたり) | 速度 |
|---|---|---|---|
| 標準 | $5 | $25 | ベースライン |
| 高速 | $10 | $50 | 2.5倍高速な出力 |
2つの点が際立っています。第一に、出力トークンは入力トークンの5倍の費用がかかるため、プロンプトのサイズではなく、Claudeの応答の長さが請求額を決定します。第二に、高速モードは2.5倍高速な出力のために料金を2倍にします。Anthropicは、高速モードが以前のモデルでの同等の機能よりも約3倍安価になったと指摘しており、速度のプレミアムは世代を追うごとに低下しています。
現在の料金は、Anthropicの料金ドキュメントで確認できます。
高速モードの用途
標準モードはデフォルトであり、ほとんどのワークロードに適した選択肢です。高速モードは、レイテンシーが製品の価値を左右する場合に存在します。例えば、ライブコーディングアシスタント、インタラクティブエージェント、ユーザーがカーソルを待っているようなあらゆる場面です。2.5倍高速なストリーミング出力に対して、トークンあたりの料金は2倍になります。
意思決定は簡単です。人間がリアルタイムで応答を待っている場合、高速モードは価値があります。作業がバックグラウンドで実行される場合(エージェントループ、バッチジョブ、スケジュールされたタスクなど)は、標準モードを維持して費用を節約しましょう。
effortが請求額に与える影響
これはほとんどのチームが見落としているレバーです。Opus 4.8の`effort`パラメータは、ツール呼び出しを含む応答全体でモデルが消費するトークン数を制御します。出力は高価な部分なので、深い推論を必要としない作業でeffortを下げると、コストが直接削減されます。
トークンあたりの費用が最も安いものから高いものへの5つのレベルは次のとおりです。
low: 簡潔な回答、最も少ないツール呼び出し、最も低い消費量medium: バランスが取れているhigh: デフォルト、徹底的xhigh: 深い推論、より多くのツール呼び出し、コーディングに推奨max: 制約なし、最も高い消費量
low effortでの分類タスクは、high effortの場合と比較して出力トークンが10分の1になる可能性があります。同じモデル、同じ料金でも、請求額は大幅に削減されます。Anthropicのeffortガイドラインには、各レベルがどの程度の品質を維持するかが説明されています。要点は、すべてのタスクにhighを適用するのではなく、タスクに合わせてeffortを調整することです。
コスト試算シナリオ
すべての数値は標準料金(入力100万トークンあたり5ドル、出力100万トークンあたり25ドル)を使用しています。これらは例示であり、実際のトークン数は異なります。
シナリオ1:チャットボットの1ターン。入力トークン1,000、出力トークン500。
- 入力: 1,000 / 1,000,000 x $5 = $0.005
- 出力: 500 / 1,000,000 x $25 = $0.0125
- 合計: 1ターンあたり約$0.018
low effortの場合、出力は縮小し、1ターンあたりのコストは1セント未満になります。
シナリオ2:エージェントによるコーディングタスク。リポジトリコンテキストの入力トークン50,000、xhighでの出力トークン8,000。
- 入力: 50,000 / 1,000,000 x $5 = $0.25
- 出力: 8,000 / 1,000,000 x $25 = $0.20
- 合計: 1タスクあたり約$0.45
この5万トークンのコンテキストが複数回の呼び出しで繰り返される場合、プロンプトキャッシュにより入力コストは約0.025ドルに下がり、合計は約0.23ドルに削減されます。
シナリオ3:夜間バッチジョブ。入力トークン1,000,000、出力トークン200,000。バッチAPIを通じて50%割引で実行。
- 入力: 1,000,000 / 1,000,000 x $5 x 0.5 = $2.50
- 出力: 200,000 / 1,000,000 x $25 x 0.5 = $2.50
- 合計: バッチ全体で約$5.00
より安価なモデルとの比較検討については、Gemini 3.5 Flashの料金内訳とXiaomi MiMo v2.5 APIのコストをご覧ください。
プロンプトキャッシュ:最大の単一節約
同じシステムプロンプト、ドキュメント、またはコードベースをすべての呼び出しで送信している場合、モデルがすでに認識しているトークンに対して全額の入力料金を支払っています。プロンプトキャッシュはこれを解決します。キャッシュされた入力読み取りは、最初のキャッシュ書き込み後、通常の入力料金の約10分の1というわずかな料金で課金されます。
長文コンテキストのエージェントは最も恩恵を受けます。5万トークンのシステムプロンプトがすべての呼び出しで全額課金されるのは高価ですが、キャッシュされると、繰り返される部分はほとんど費用がかかりません。最初の呼び出しでキャッシュが書き込まれ、それ以降のすべての呼び出しでは安価に読み込まれます。
Batch APIと大規模出力
Batch APIは、リアルタイムの応答を必要としない場合に割引料金でジョブを実行します。一連のリクエストを送信し、バッチ処理時間内に結果を受け取ることができ、トークンあたりの料金も安くなります。また、出力の上限も引き上げられ、Opus 4.8はBatch APIを通じてoutput-300k-2026-03-24ベータヘッダーを使用することで、同期エンドポイントの128Kに対し、最大300Kの出力トークンをサポートします。
評価、一括要約、データラベリング、および数分程度の遅延が問題にならないあらゆるパイプラインにこれを使用してください。
世代間のOpus料金
Opus 4.8は料金を据え置いています。注目すべきは、2世代前に料金がどれだけ下がったかです。
| モデル | 入力(100万件あたり) | 出力(100万件あたり) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opusは4.5世代で15ドル/75ドルから5ドル/25ドルに下がり、それ以降は据え置きのまま、価格に見合うモデルは改善され続けています。4.5世代の料金で4.8の品質を得られるのです。他ベンダーの主要製品との直接比較については、Opus 4.8 vs GPT-5.5 vs Gemini 3.5をご覧ください。
コスト最適化チェックリスト
Opus 4.8をスケールする前に、このリストを確認してください。
- タスクごとにeffortを設定します。分類に
highを、検索にxhighを支払わないでください。 - 繰り返されるコンテキストをキャッシュします。システムプロンプト、ドキュメント、およびコードベースはキャッシュされるべきです。
- 緊急でないものをバッチ処理します。評価や一括ジョブをBatch APIに移行します。
max_tokensを賢明に上限設定します。これにより、呼び出しあたりの最悪の出力コストを制限できます。- 人間がリアルタイムで待っていない限り、標準モードを使用し続けてください。
- 使用量ティアに注意してください。レート制限と支出は同時に増加します。Claude Codeの週間制限の変更は、クォータを追跡することの重要性を示しています。
Apidogで実際の支出を追跡
実際の応答の長さやツール呼び出しの数が異なるため、本番環境に入ると、見積もりコストと実際のコストは急速に乖離します。正直なところ、すべてのMessages API応答が返すusageオブジェクトを検査することです。これには、呼び出しごとの入力および出力トークン数が報告されます。

Apidogはそれを可視化します。
- 実際のOpus 4.8リクエストを送信し、応答の
usageブロックを読み取ります。 - 同じプロンプトで
effortレベル間のトークン数を比較し、コスト差を直接確認します。 - 各ワークロードのリクエストを保存し、プロンプトが変更されたら再実行します。
- エンドポイントをモックして、トークンを消費せずに構築およびテストできるようにします。
Apidogをダウンロードし、Messagesエンドポイントにリクエストを送信し、同じプロンプトをlow、high、xhighで実行してみてください。トークン数が、本番環境でコミットする前に各effortレベルがどれくらいのコストがかかるかを正確に教えてくれます。
よくある質問
Claude Opus 4.8の費用はどれくらいですか? 標準モードで入力トークン100万件あたり5ドル、出力トークン100万件あたり25ドルです。高速モードでは、2.5倍高速な出力に対して10ドルと50ドルです。
Opus 4.8はOpus 4.7より高価ですか? いいえ。トークンあたりの料金は同じなので、4.7からアップグレードしても請求額は変わりません。
標準モードと高速モードの料金の違いは何ですか? 高速モードは、約2.5倍速いストリーミング出力と引き換えに、トークンあたりの料金を2倍にします。レイテンシーが待っているユーザーにとって重要な場合にのみ使用してください。
Opus 4.8のコストを削減するにはどうすればよいですか? 簡単なタスクではeffortレベルを下げ、繰り返されるプロンプトコンテンツをキャッシュし、緊急でないジョブをバッチ処理し、max_tokensを厳しく設定します。出力トークンが主なコスト要因です。
プロンプトキャッシュは本当にコストを節約できますか? はい。最初の呼び出しでキャッシュが書き込まれた後、繰り返される入力は通常の入力料金の約10分の1で読み込まれます。長文コンテキストのエージェントが最も恩恵を受けます。
Opus 4.8はいくつの出力トークンを生成できますか? 同期Messages APIでは最大128K、output-300k-2026-03-24ベータヘッダーを使用するBatch APIでは最大300Kです。
呼び出しごとのトークン使用量はどこで確認できますか? すべてのMessages API応答のusageオブジェクトにあります。Apidogのようなツールはそれを表示するため、effortレベル間でコストを比較できます。
