DeepSeekは、モデルがリリースされた2026年4月23日にV4の価格を発表し、その価格は最先端AIの最低ラインを塗り替えました。V4-Flashは、入力トークン100万あたり$0.14、出力トークン100万あたり$0.28で動作します。V4-Proは、入力が$1.74、出力が$3.48です。どちらも100万トークンのコンテキストウィンドウと、最大384Kの出力トークンを備えています。また、どちらのモデルも、繰り返されるプロンプトに対して入力コストを80%から90%削減する、積極的なキャッシュヒット割引が適用されます。
このガイドでは、完全な料金表、コンテキストキャッシュが実際の呼び出しごとのコストをどのように変更するか、GPT-5.5およびClaude Opusとの公正な比較、Apidog内で支出を予測可能に保つ4つの方法について説明します。
製品の概要については、DeepSeek V4とはをご覧ください。開発者向けの詳細については、DeepSeek V4 APIの使用方法をご覧ください。ゼロコストで利用する方法については、DeepSeek V4を無料で利用する方法をご覧ください。
TL;DR
- V4-Flash: 入力 (キャッシュミス) $0.14 / M、入力 (キャッシュヒット) $0.028 / M、出力 $0.28 / M。
- V4-Pro: 入力 (キャッシュミス) $1.74 / M、入力 (キャッシュヒット) $0.145 / M、出力 $3.48 / M。
- コンテキストウィンドウ: 両方のバリアントで、入力1Mトークン、出力384Kトークン。
- キャッシュヒット割引: 繰り返されるプレフィックスに対して、Flashは約80%オフ、Proは約92%オフ。
deepseek-chatおよびdeepseek-reasonerは2026年7月24日に非推奨になります。料金はV4-Flashにマッピングされます。- キャッシュミス料金では、V4-Proは入力でGPT-5.5よりも約2.9倍安く、出力で約8.6倍安いです。
完全な料金表
| モデル | 入力 (キャッシュミス) | 入力 (キャッシュヒット) | 出力 | コンテキスト |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (2026-07-24非推奨) |
V4-Flash 非思考モードにマッピング | — | — | — |
deepseek-reasoner (2026-07-24非推奨) |
V4-Flash 思考モードにマッピング | — | — | — |
生データよりも重要な3つの詳細があります。
第一に、思考モードであろうと非思考モードであろうと、価格は同じです。モデルIDが料金を設定し、推論モードはその料金で消費するトークンの量を変更するだけです。
第二に、キャッシュヒット料金は自動的に適用されます。同じアカウントに対して繰り返されるプレフィックスを持つすべてのリクエストが恩恵を受けます。オプトインや特別な設定は不要です。プレフィックスは少なくとも1,024トークン長で、バイト単位で完全に一致する必要があります。
第三に、以前のdeepseek-chatおよびdeepseek-reasoner IDは、現在V4-Flashのエイリアスとして課金されます。まだ移行していない場合でも、V4-Flashの品質をV4-Flashの価格で既に利用できます。IDの非推奨化期限は2026年7月24日です。
分かりやすい言葉で説明するコンテキストキャッシング
キャッシングは、DeepSeek V4における最大のコスト削減要因です。そのパターンは単純です。呼び出し間で繰り返されるもの、特に長いシステムプロンプト、エージェントツールスキーマ、およびRAGコンテキストは、2回目以降の呼び出しでは、完全な入力料金のごく一部で課金されます。
具体的な例を挙げます。変更されない20,000トークンのシステムプロンプトを持つエージェントを実行し、その後、それぞれ200トークンの異なるユーザーからの質問を100回行います。
キャッシングなしの場合:
- 入力: 100回 × 20,200トークン × $1.74 / M = $3.52
- 出力: 100回 × 500トークン × $3.48 / M = $0.17
- 合計: $3.69
キャッシングありの場合 (最初の呼び出しはミス、次の99回はヒット):
- 最初の呼び出しの入力: 20,200 × $1.74 / M = $0.035
- 次の99回のキャッシュヒットプレフィックス: 99 × 20,000 × $0.145 / M = $0.287
- 次の99回のキャッシュミスユーザーターン: 99 × 200 × $1.74 / M = $0.034
- 出力: 100回 × 500トークン × $3.48 / M = $0.174
- 合計: $0.53
同じワークロードで約7倍安くなります。V4-Flashでは、元の料金が既に低いため、キャッシング効果はさらに劇的です。
GPT-5.5およびClaudeとの比較
ほとんどのチームが実際に気にする比較は次のとおりです:
| モデル | 入力 (通常) | 入力 (キャッシュ済み) | 出力 | コンテキスト |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
この表から読み取れる3つのこと。
- 出力トークンでは、V4-ProはGPT-5.5よりも約8.6倍、Claude Opus 4.6よりも21倍安価です。出力はほとんどのエージェントワークロードが予算を費やす場所であり、この差は大きくなります。
- キャッシュされた入力では、V4-ProはGPT-5.5 (キャッシュ済み) よりも約10倍、Claude (キャッシュ済み) よりも10倍安価です。長いシステムプロンプト、ツールスキーマ、繰り返されるRAGコンテキストがここで最も大きな影響を受けます。
- 生のベンチマーク比では、V4-ProはLiveCodeBench (93.5対最上位) およびCodeforces (3206対3168) でGPT-5.5と同等かそれを上回り、かつコストはごく一部です。これがオープンウェイトの価値提案の核となります。完全なベンチマーク表については、DeepSeek V4とはをご覧ください。
正直な注意点: Claudeは依然として長文コンテキスト検索ベンチマークでV4-Proを上回り、Gemini 3.1 ProはMMLU-Proでリードしています。ワークロードが100万トークンにわたる針の山から針を見つけるような検索に依存する場合、トークンあたりの節約は品質のギャップを埋められない可能性があります。
一般的なワークロードのコストモデリング
4つのワークロードがほとんどのプロダクションユースケースをカバーします。V4-Proでの各コストは次のとおりです(キャッシュミスがベースライン。キャッシュヒットによる節約はこれに上乗せされます)。
1. エージェントによるコーディングループ (50Kコンテキスト、2K出力、タスクあたり20回呼び出し)
- 入力: 50,000 × 20 × $1.74 / M = $1.74
- 出力: 2,000 × 20 × $3.48 / M = $0.14
- タスクあたりのコスト: 約$1.88
同じ形式でのGPT-5.5のタスクあたり約$6.20と比較してください。
2. 長文ドキュメントQ&A (500Kコンテキスト、1K出力)
- 入力: 500,000 × $1.74 / M = $0.87
- 出力: 1,000 × $3.48 / M = $0.003
- 呼び出しあたりのコスト: 約$0.87
GPT-5.5の呼び出しあたり約$2.53と比較してください。
3. 大量分類 (2Kコンテキスト、200出力、10,000回呼び出し)
ここではV4-Flashを使用してください。V4-Proではオーバースペックです。
- 入力: 2,000 × 10,000 × $0.14 / M = $2.80
- 出力: 200 × 10,000 × $0.28 / M = $0.56
- 実行コスト: 約$3.36
同じ実行でのGPT-5.5の約$110と比較してください。
4. 繰り返しプロンプトチャットボット (10Kシステムプロンプト、500ユーザー・トークン、1K出力、1,000セッション)
- 初回呼び出し入力: 10,500 × $1.74 / M = $0.018
- キャッシュヒット入力: 999 × 10,000 × $0.145 / M = $1.45
- キャッシュミスユーザーターン: 999 × 500 × $1.74 / M = $0.87
- 出力: 1,000 × 1,000 × $3.48 / M = $3.48
- セッション実行コスト: 約$5.82
同じワークロードでのキャッシングありのGPT-5.5の約$26.35と比較してください。
注意すべき隠れたコスト
表示価格がすべてではありません。最初の1ヶ月後にチームを悩ませる4つの項目があります。
- 思考モードでのトークン増加。
thinking_maxは、同じプロンプトに対してnon-thinkingよりも3倍から10倍多くの出力トークンを消費します。これらの推論トークンは出力料金で課金されます。Think Maxはフラグの背後に設定してください。 - サイレントなコンテキストの増加。エージェントのループは、多くの場合、会話全体を各ターンにフィードバックします。1Mトークンのコンテキストでは、これは急速に膨れ上がります。積極的に切り詰めるか、要約してください。
- リトライの嵐。500応答ごとにリトライするバグのあるループは、1時間で請求額を2倍にする可能性があります。指数バックオフと、リクエストあたりの厳格なリトライ上限を追加してください。
- 開発の混乱。curlを介してプロンプトを反復する場合、毎回完全なコンテキストが再実行されます。Apidogを使用すると、変数置換により、ペイロード全体を再入力することなくプロンプトの微調整を無料でリトライできるため、これをほぼゼロに削減できます。
Apidogでコストを追跡する
請求が現実のものとなったときに、ほとんどのチームが採用するワークフローは次のとおりです。
- Apidogをダウンロードし、環境ごとに
DEEPSEEK_API_KEYをシークレット変数として保存します。 https://api.deepseek.com/v1/chat/completionsへの単一のPOSTリクエストを保存します。- 応答パネルで、
usage.prompt_tokens、usage.completion_tokens、およびusage.reasoning_tokensをピン留めします。すべての呼び出しで、出力と同じ画面にコスト計算が表示されます。 - リクエストを重複させることなく、V4-Flash対V4-Pro、および非思考モード対Think MaxをA/Bテストできるように、
modelとthinking_modeをパラメータ化します。 - GPT-5.5についても同じコレクションをミラーリングします(対応するGPT-5.5 APIガイドがセットアップを説明しています)。1つのウィンドウで、両方のプロバイダーのコストが確認できます。
このワークフローにより、月末の請求書に現れるコストの驚きの約80%を捕捉できます。
支出を予測可能にする4つのルール
- V4-Flashをデフォルトにする。収益に影響する品質のギャップを測定した場合にのみ、V4-Proに切り替えます。
- 非思考モードをデフォルトにする。困難なタスクではThink Highにエスカレートします。正確性が重要な作業にはThink Maxを確保してください。
max_tokensを上限設定する。384Kの出力上限は安全策であり、目標ではありません。ほとんどのプロダクション応答は2Kに収まります。- 利用状況のテレメトリーを送信する。すべての呼び出しで
prompt_tokens、completion_tokens、およびreasoning_tokensをログに記録します。推論トークンの急増は警告し、それが誤ってThink Maxの領域に迷い込んだプロンプトを示しています。
よくある質問
無料枠はありますか?無料のAPIティアはありませんが、新しいアカウントには時折少額のトライアルクレジットが付与されます。API外で無料で利用する方法については、DeepSeek V4を無料で利用する方法をご覧ください。
キャッシュヒット料金はどのように機能しますか?同じアカウント内でリクエスト間で繰り返される1,024トークン以上のプレフィックスは、キャッシュヒット料金で課金されます。最初の呼び出しはキャッシュミス料金で支払われ、その後の同じプレフィックスの呼び出しは割引料金で支払われます。キャッシングは自動です。
思考モードはより高価ですか?トークンあたりの料金は同じです。思考モードは、モデルが推論トレースを記述するため、より多くのトークンを消費します。実際のコストを測定するには、usageオブジェクト内のreasoning_tokensを追跡してください。
料金は安定していますか?DeepSeekは定期的に料金を変更します。V3.2の料金は2025年のほとんどの間維持されました。V4の料金には公開された終了日がありません。予算を組む前に、ライブ料金ページを確認してください。
V4-ProとV4-Flashは同じ出力料金で課金されますか?いいえ。V4-Proの出力は$3.48 / M、V4-Flashの出力は$0.28 / Mです。この12.4倍の比率が、V4-Flashをデフォルトにする最大の理由です。
Anthropic形式のエンドポイントは料金を変更しますか?いいえ。https://api.deepseek.com/anthropicは、OpenAI形式のエンドポイントと同じ料金を使用します。形式は課金に影響しません。
