DeepSeekは、2026年のLLM価格において最も積極的な一時的割引を新しい常識に変えました。5月22日、同チームは、もともと2026年5月31日15:59 UTCに期限が切れる予定だったDeepSeek-V4-Proの75%割引オファーが撤回されないことを発表しました。このプロモーション価格が恒久的な定価になります。入力は100万トークンあたり0.435ドルに、出力は0.87ドルに、キャッシュヒットは0.003625ドルに下がります。以下では、何が変わり、何が変わらなかったのか、そしてすべてのAPI開発者が今週再考すべき点について掘り下げます。
TL;DR
- DeepSeek-V4-Pro APIの価格は、元の定価の1/4である、入力100万トークンあたり0.435ドル、出力100万トークンあたり0.87ドル、キャッシュヒット100万トークンあたり0.003625ドルで恒久化されました。
- 2026年5月31日に終了予定だった75%のプロモーション割引が、通常の料金になりました。元に戻ることはありません。突然の期限切れもありません。
- V4-Proは、ほとんどのコーディングおよび推論ベンチマークでGPT-5.5の約95%の性能を達成しつつ、出力ではGPT-5.5より約34倍安くなりました。
- キャッシュヒット価格の100万トークンあたり0.003625ドル(見出し割引に加えて90%の割引)は、過小評価されがちな詳細です。長いシステムプロンプトは、プレフィックスであればほぼ無料になります。
- もし先月、AI機能をGPT-5.5やClaude Opus 4.7と比較して価格設定していたなら、今週、構築の計算式が変わりました。
なぜ今これが重要なのか
LLMの価格は通常、ゆっくりと、注釈付きで一方向に動きます。つまり下がります。DeepSeekは注釈をスキップしました。同チームは5月を通して積極的なプロモーションを実施し、開発者トラフィックの増加を見守り、価格を元に戻すのではなく固定することを決定しました。これは、中国の最先端モデル経済がどこに向かっているかを示す構造的なシグナルであり、一時的なものではありません。
ホットパスでLLMを呼び出す製品(オートコンプリート、検索拡張チャット、コードレビュー、エージェントループ)を出荷している場合、$3.48と$0.87という100万出力トークンあたりの違いが、今月の請求書に現れます。非自明なユーザーを持つエージェントにとって現実的な負荷である1日あたり5,000万出力トークンを処理する場合、新しい価格は月々のLLM費用を約5,200ドルから1,300ドルに削減します。これは営業担当者1人分の雇用、あるいは1年分のGPUクレジットに相当します。
DeepSeek上に構築していますか? Apidogを使用すると、ストリーミング、ツール呼び出し、JSONスキーマ検証などを含むV4-Pro API呼び出しを、単一のワークスペースで生成、テスト、監視できます。Apidogをダウンロードすれば、この記事のリクエストを1分以内にクローンできます。
ボタン
この記事の残りの部分では、新しい完全な料金表、GPT-5.5とClaude Opus 4.7との直接比較、ほとんどの記事が見逃しているキャッシュヒットの計算、3つの実際の請求シナリオ、そして今すぐ移行すべきかどうかを判断するための5段階の意思決定フレームワークについて説明します。
何が変わったのか:発表の解読
DeepSeekの公式料金通知は短いですが、各行が数字を動かしています。引き出すべき3つの事実:
- 75%割引は恒久的です。2026年5月31日15:59 UTCまで実施されていたプロモーションは、6月1日にローンチ時の定価に戻る予定でした。しかし、そうはなりません。プロモーション料金は、ローンチに遡って、そして無期限に適用される新しい定価となります。
- 割引はV4-Proにのみ適用されます。DeepSeek-V4-Flashは、100万トークンあたり0.14ドル/0.28ドルで既に安価でした。最先端層モデルであるV4-Proが値下げされました。FlashとProの区別については、DeepSeek V4とはをご覧ください。
- キャッシュヒット価格は、2026年4月26日12:15 UTCより、ローンチ時の10分の1に削減されました。これは、主要な75%割引とは別の変更であり、両方が積み重なります。その結果、キャッシュヒットは100万トークンあたり0.003625ドルとなり、2026年の市場で最も安価な一次プロバイダーの最先端モデルのキャッシュ価格となります。
発表を総合すると、DeepSeekは、主要モデルの粗利を吸収してでも開発者の関心を維持しようとしている、と言えます。キャッシュヒットの動きは、V4-Pro専用にエージェントや長文コンテキストツールを構築してもらいたいという意図を示しています。どちらの動きも同じ戦略を指しています。今すぐ推論ワークロードを獲得し、後でプラットフォームを収益化する、というものです。
新しい恒久的な料金表
100万トークンあたりの料金、米ドル、即時適用および恒久的:
| トークンタイプ | 旧定価 | 新恒久料金 | 割引率 |
|---|---|---|---|
| 入力(キャッシュミス) | $1.74 | $0.435 | 75% |
| 入力(キャッシュヒット) | $0.0145 | $0.003625 | 75% |
| 出力 | $3.48 | $0.87 | 75% |
この表には隠されたいくつかのポイントがあります:
- 出力の低下は、請求書に最も大きく影響します。なぜなら、モデルが推論したりコードを書いたりするエージェントループでは、出力トークンが圧倒的に多いためです。
- キャッシュヒットの行は、絶対数が非常に小さいため、取るに足らないように見えます。節約は比率の中にあります。入力ミスと入力ヒットの比率は約120:1です。安定した足場を持つエージェントにとって、キャッシュヒットが90%発生するよう設計されたシステムプロンプトは、入力にほとんど費用がかからないため、大きなブレークスルーとなります。
- これらの料金はAPIにのみ適用されます。DeepSeekのウェブチャットは、個人向けには引き続き無料です。
V4の料金体系やFlashとProのトレードオフに関する詳細な歴史的背景については、当社の常設DeepSeek V4 API料金の参考文献をご覧ください。
V4-ProがGPT-5.5、Claude Opus 4.7、Gemini 3.5 Flashとどう比較されるか
興味深い比較は、V4-Proの旧バージョンとの比較ではありません。最先端モデル群全体との比較です。
| モデル | 入力 ($/MTok) | 出力 ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (新) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
覚えておくべき2つの数字。請求額を増やす項目である出力トークンにおいて、DeepSeek-V4-ProはGPT-5.5より34倍安く、Claude Opus 4.7より17倍安いです。ベンチマークでは、DataCampの比較によると、V4-Proはほとんどの公開コーディングおよび推論評価でGPT-5.5から3〜7パーセンテージポイント以内に収まります。
ワークロードが遅延許容性があり、その小さな範囲で品質が許容できる場合、移行は1つの答えを持つ数学の問題です。ベンチマークスコアの最後の5点が重要となるワークロード(エージェントツールの信頼性、長期的な計画、複雑な数学)の場合、V4-Proは推測デコードまたはクリティックパターンでドラフトモデルとして使用する方が依然として安価です。
詳細な直接比較レビューについては、コーディングにおけるDeepSeek V4とClaude Opus 4.5の比較およびGLM-5 vs DeepSeek V3 vs GPT-5:速度、コスト、実践的な開発者比較をご覧ください。
ほとんどの記事が見逃しているキャッシュヒットの側面
誰もが0.87ドルの出力価格を引用しますが、0.003625ドルのキャッシュヒット入力価格がシステム設計にどのような影響を与えるかを説明する人はほとんどいません。
DeepSeekのプロンプトキャッシュは、リクエストのプレフィックスが、約30分以内の直前のリクエストとバイト単位で同一である場合にヒットします。チャットエージェントや検索パイプラインでは、プレフィックスは通常、システムプロンプトにツール定義と指示の足場を加えたものです。これは通常、ターン間で変わらない4,000〜10,000トークンです。
具体的な例を挙げます。アシスタントが6,000トークンのシステムプロンプトを使用し、1日あたり10万回のチャットターンを処理し、平均ユーザーメッセージが200入力トークン、平均応答が800出力トークンであるとします。
- キャッシュヒットがない場合:100,000ターン × 6,200入力トークン × $0.435 / 1,000,000 = 入力だけで1日あたり$269.70。
- そのシステムプロンプトトークンの90%がキャッシュヒットした場合:同じ100,000ターンで、200 × $0.435 + 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) / 1,000,000ドルの料金がかかります。これは約1日あたり$32になります。入力コストが88%削減されます。
これは誤差ではありません。モデルが持続可能な項目になるか、贅沢品になるかの違いです。プロバイダー全体でプレフィックスキャッシングがどのように機能するかについては、当社のプロンプトキャッシングの詳細解説でメカニズムを詳しく説明しています。
実際のAagentでキャッシュヒットを得るための3つのパターン:
- プレフィックスを固定する。システムプロンプト、ツールスキーマ、少数の例を、すべてのリクエストの先頭に単一のブロックとして保持します。セッション固有のテキストをプレフィックスに織り交ぜないでください。
- 動的なコンテキストをソートまたはハッシュする。取得したチャンクを追加する場合は、安定してソートするか、リクエストをハッシュして同一のハッシュを同じノードにルーティングします。小さなフィンガープリントの変化がキャッシュを破壊します。
- ウォームアップ呼び出しを実行する。エージェントの起動時に、完全なプレフィックスを持つ1つのリクエストを送信し、ユーザーからのトラフィックが来る前にプロバイダーのキャッシュにそれを配置します。
今週すべきこと
移行の決定は二者択一ではありません。どのような種類のLLMワークロードを実行しているかによって異なります。5段階のフレームワーク:
1. 現在の出力:入力比率を測定する。トークン予算の80%を出力に費やしている場合(任意のエージェント、コード生成器、コンテンツツール)、V4-Proによる節約は大きいです。80%を入力に費やしている場合(長文ドキュメントに対するRAG)、キャッシュヒットが適用されれば節約は小さいながらも現実的です。
2. 実際のワークロードで100サンプルの評価を実行する。公開ベンチマークを信用しないでください。本番トラフィックから100のトレースを抽出し、V4-Proと現在のモデルに対して同一のプロンプトで実行し、独自の評価者でスコアを付けます。ほとんどのチームは、V4-Proがトラフィックの70%から85%で「十分な品質」であると判断しています。
3. ルートごとにパターンマッチングする。70%から85%をV4-Proにルーティングし、残りのプレミアムモデルはハードテールに維持します。この単一の変更により、品質の低下をほとんど伴わずにコストを70%以上削減できます。
4. キャッシュプレフィックスを固定する。システムプロンプトを監査します。リクエストごとに変化する情報(タイムスタンプ、ユーザーID、セッションID)は、システムプロンプトではなくユーザーメッセージに含めます。それを移動させます。
5. 出荷前に回帰テストをセットアップする。ここでApidogが役に立ちます。現在のモデルからのゴールデンレスポンスを記録し、V4-Proに対して同じリクエストを再生し、出力を比較します。ApidogのJSONスキーマ検証は、ツール呼び出しの形状におけるドリフトが本番環境に到達する前に検出します。Apidogをダウンロードし、OpenAI互換コレクションをインポートし、ベースURLを`https://api.deepseek.com`に変更すると、10分以内にサイドバイサイドの簡易テストを実行できます。
V4-Proエンドポイントの形状に関する実用的な解説については、DeepSeek V4 APIの使用方法をご覧ください。
V4-Proが他の2026年値下げと比較してどうなのか
DeepSeekだけが値下げしているわけではありません。2026年のLLM市場は明確なマージン圧縮フェーズにあります。
- OpenAI O3は今年初めに80%値下げしました。その計算については、当社のO3価格分析をご覧ください。
- Kimi K2は、DeepSeekのV3層と競合するために大幅に価格を改定しました。Kimi K2 API価格で詳細を説明しています。
- Anthropic ClaudeはOpusの価格を維持しましたが、より安価なHaikuとSonnet層を導入しました。Claude APIのコスト詳細では、各層がどこに位置するかを説明しています。
V4-Proの値下げは、予算層ではなく最先端の能力帯をターゲットとしているため、今年最も積極的なものです。だからこそ、この発表が市場をリセットし、他の発表はそうならなかったのです。
構築の計算式が変わった
DeepSeekは価格を下げたのではありません。彼らはカーブを描き直しました。1ドル以下の出力価格で最先端の能力が提供されることが、もはや例外ではなく標準となり、市場の他の企業もこれに追随するでしょう。コストを理由にLLM機能の導入を延期していたのであれば、先四半期に見積もった2026年の予算は、おそらく実際の必要量を4倍も過大評価しているでしょう。
次に取るべき3つのステップ:
- 上記のフレームワークに基づいて、上位3つのLLMワークロードを監査し、今週移行するものを1つ選択します。
- キャッシュプレフィックスを固定します。これは、どのモデルを使用するかにかかわらず、容易に得られるメリットです。
- Apidog回帰スイートをセットアップして、次の値下げ(必ずあるでしょう)の評価が数週間ではなく数時間で済むようにします。
プロモーションの旗は降ろされました。しかし割引は終わりませんでした。
ボタン
