DeepSeekは2026年4月23日にV4をリリースしました。これは軽微なポイントリリースではありません。杭州の研究室は、DeepSeek-V4-Proを筆頭に、合計1.6兆のパラメーター、MITライセンス、100万トークンのコンテキストウィンドウを持つ4つのチェックポイントを一度に公開しました。より小型の兄弟モデルであるDeepSeek-V4-Flashは、2,840億のパラメーターを持ち、同じコンテキストとオープンウェイトを備えています。ベンチマークでは、Pro版はLiveCodeBenchとCodeforcesでClaude Opus 4.6を上回り、MMLU-ProではGPT-5.4 xHighに肉薄しています。
DeepSeek V4にClaude、GPT-5.5、またはQwenを置き換えるかどうかを検討している場合、このガイドでは、モデルがどのようなものか、V3.2から何が変わったか、ベンチマークの結果を左右するアーキテクチャの選択、そして今日どこで実行できるかを解説します。
開発者向けの対応するチュートリアルとして、DeepSeek V4 APIガイド、無料アクセスガイド、および完全なDeepSeek V4使用チュートリアルを用意しています。リクエスト形式はOpenAIのフォーマットにきれいにマッピングされるため、APIキーが届く前にApidogでコレクションを事前に構築できます。
要約
- DeepSeek V4は、2026年4月23日にMITライセンスの下でリリースされたMixture-of-Expertsファミリーです。
- リリース時には、V4-Pro、V4-Pro-Base、V4-Flash、V4-Flash-Baseの4つのチェックポイントが出荷されます。
- V4-Proは合計1.6兆のパラメーターを持ち、そのうち490億がアクティブです。V4-Flashは合計2,840億のパラメーターを持ち、そのうち130億がアクティブです。
- 両方のバリアントは100万トークンのコンテキストウィンドウと、Non-Think、Think High、Think Maxの3つの推論モードを備えています。
- 主要なスコア: LiveCodeBench 93.5、Codeforces 3206、MMLU-Pro 87.5 (Proバリアント)。
- APIは`api.deepseek.com`で稼働しており、モデルIDは`deepseek-v4-pro`と`deepseek-v4-flash`です。ウェイトはHugging FaceとModelScopeで公開されています。
DeepSeek V4の正体
DeepSeek V4は、昨年研究室を有名にしたV3およびV3.2シリーズの後継モデルです。アーキテクチャは引き続きMixture-of-Expertsですが、モデルの形状が変更されました。V4-Proは、1.6兆のパラメーターのうちトークンあたりわずか490億しかアクティブにしないため、トークンあたりの計算コストは、数兆パラメーターの最先端システムというよりも、500億パラメーターの密なモデルに近いものになっています。詳細な技術レポートはDeepSeek V4モデルカードでご確認ください。

リリース時には4つのチェックポイントが出荷されます:
- DeepSeek-V4-Pro — フラッグシップモデル。合計1.6兆、アクティブ490億、100万トークンのコンテキスト。ほとんどのチームがAPIを通じて呼び出すのはこれでしょう。
- DeepSeek-V4-Pro-Base — 後処理なしの事前学習済みベースモデル。研究者やカスタムのファインチューニングを構築するチーム向けです。
- DeepSeek-V4-Flash — 効率重視のバリアント。合計2,840億、アクティブ130億、同じ100万トークンのコンテキスト。低レイテンシのワークロードや、2〜3台のH100でのローカル展開をターゲットとしています。
- DeepSeek-V4-Flash-Base — Flashにマッチするベースチェックポイント。
これら4つすべてがMITライセンスの下でリリースされることは、ひそかに重要なニュースです。GPT-5.5はクローズドで入力トークン100万あたり5ドルかかります。Claude Opus 4.6もクローズドで、価格は15ドルに近いです。DeepSeek V4-Proはオープンウェイトであり、ライセンス料なしでダウンロード、ミラーリング、ファインチューニング、そして自身のハードウェアへのデプロイが可能です。
V3.2からの変更点
V3はすでに推論とコードにおいて競争力がありました。V4は、アテンションスタックとトレーニングパイプラインを書き換え、長文コンテキストと効率性を同時に向上させています。
| 機能 | V3.2 | V4-Pro |
|---|---|---|
| 総パラメーター数 | 6850億 | 1.6兆 |
| アクティブパラメーター数 | 370億 | 490億 |
| コンテキストウィンドウ | 12万8千 | 100万 |
| 推論FLOPs (100万コンテキスト) | ベースライン | V3.2の27% |
| KVキャッシュ (100万コンテキスト) | ベースライン | V3.2の10% |
| 精度 | FP8 | FP4 + FP8混合 |
| ライセンス | DeepSeekライセンス | MIT |
| 推論モード | シングル | 3つ |
この飛躍を牽引する3つの要因があります。1つ目は、Compressed Sparse AttentionとHeavily Compressed Attentionを組み合わせた新しいハイブリッドアテンションスタックです。これがKVキャッシュの10%という数字の源泉です。2つ目は、V4が必要とする深さで勾配を安定させるManifold-Constrained Hyper-Connectionsです。3つ目は、より速い収束のためにMuonオプティマイザーへの切り替えです。トレーニングコーパスも32兆トークンを超えて拡大し、後処理では2段階のパイプラインが使用され、まずドメイン固有のエキスパートを育成し、その後オンポリシー蒸留によってそれらを統合します。

重要なベンチマーク
DeepSeekが報告した数値によると、V4-Proはコーディングと知識の最先端に位置しますが、長文コンテキスト検索にはまだギャップがあります。

より小型のバリアントであるV4-Flashについて、DeepSeekはMMLU-Pro 86.2、GPQA Diamond 88.1、LiveCodeBench 91.6、Codeforces 3052、SWE Verified 79.0を報告しています。これは130億アクティブパラメーターのモデルとしては最先端の領域であり、自社ハードウェアにデプロイを考えている人にとってFlashが興味深いチェックポイントである理由です。全表はDeepSeek V4-Flashカードをご覧ください。
正直な評価をすると、V4-Proはコードとオープンエンドな事実の想起で優れていますが、一般的な知識ではGemini 3.1 Proに、100万トークン検索ベンチマークではClaude Opusに劣ります。あなたのワークロードがエージェント的なコーディングや推論重視の分析であれば、V4-Proは選択肢に入ります。もし100万トークンの中から「干し草の山から針を探す」ような検索であれば、Claudeが依然として優位です。
3つの推論モード
すべてのV4チェックポイントは3つの推論モードを提供しており、適切なモードを選択することが最大のコストレバーとなります。
- Non-Think — 高速パス。シングルパス生成、思考の連鎖なし、追加の推論トークンなし。分類、ルーティング、短い要約、および精度よりもレイテンシが重要なあらゆる場面で使用します。
- Think High — 難しい作業のデフォルト。モデルは回答の前に推論トークンを書き出し、ツール呼び出しを計画し、その出力をチェックします。GPT-5.5が「思考モード」、Claudeが「拡張思考」と呼ぶものに相当します。
- Think Max — 上限。より長い推論トレース、より積極的な自己批判、そして最低38万4千トークンのコンテキストウィンドウを推奨します。これがLiveCodeBenchで93.5という数値を出すものであり、トークンコストもそれに応じて跳ね上がると予想されます。
APIの`thinking_mode`パラメーターまたはローカル推論スクリプトのフラグ1つで、これらのモードを切り替えることができます。DeepSeekのサンプリング推奨値は、3つのモードすべてで`temperature=1.0, top_p=1.0`です。
分かりやすい言葉で説明するアーキテクチャ
V4のアーキテクチャに関する論文は難解ですが、3つの選択がその効率性の秘密を説明しています。
- ハイブリッドアテンション。 ほとんどのTransformer層はCompressed Sparse Attentionを使用しており、これは少数の高価値トークンに完全にアテンションを集中させ、残りを圧縮します。一部の層はHeavily Compressed Attentionを使用しており、これはシーケンス長に対して線形コストに近い動作をします。この組み合わせが、100万トークンで27%のFLOPsと10%のKVキャッシュという数値を実現しています。
- 多様体制約型ハイパーコネクション。 単純な残差接続の代わりに、V4は各層の残差を、アクティベーションを安定した多様体上に保つ制約で包みます。実用的な効果としては、勾配の乱れなくより多くの層を積み重ねることができる点です。
- Muonオプティマイザー。 トレーニングのほとんどでAdamWを置き換えます。Muonはより速く収束し、MoEモデルが生成する巨大な勾配ノルムをAdamWよりも適切に処理します。
これらのアイデア自体はどれも真新しいものではありません。V4の貢献は、これら3つすべてを、トレーニングを破綻させることなく数兆パラメーターの規模で連携させたことにあります。
現在の利用可能性
DeepSeekは、これら4つのチェックポイントすべてとAPIを同日にリリースしました。2026年4月24日時点のスナップショットを以下に示します。
| サービス | アクセス方法 |
|---|---|
| chat.deepseek.com | 無料ウェブチャット、V4-Proがデフォルト、ログインが必要 |
| DeepSeek API | `api.deepseek.com`で稼働中、モデルIDは`deepseek-v4-pro`、`deepseek-v4-flash` |
| Hugging Faceウェイト | V4-Pro、V4-Flash、両方ともMITライセンス |
| ModelScope | 中国のユーザー向けにミラーリングされたウェイト |
| OpenRouterおよびアグリゲーター | 数日中に対応予定、DeepSeekの典型的なリリースパターン |
| `deepseek-chat` / `deepseek-reasoner` | 2026年7月24日に非推奨化 |
非推奨化の通知には注目すべきです。本番環境でまだ`deepseek-chat`を呼び出している場合、`deepseek-v4-pro`または`deepseek-v4-flash`への移行に3ヶ月の猶予があります。
GPT-5.5およびClaudeとの比較
ほとんどのチームが実際に気にしている3者比較:
- コスト。 V4-ProとV4-Flashはオープンウェイトです。GPT-5.5とClaude Opus 4.6はそうではありません。もしセルフホストできるなら、真剣な規模ではV4が単位経済で優位に立ちます。
- コーディング。 V4-ProのLiveCodeBenchでの93.5とCodeforcesでの3206は、同じスイートでのGPT-5.5のベンチマークラインとClaude Opusの両方を上回っています。
- 知識の幅。 Gemini 3.1 ProはMMLU-Proで91.0を維持し、依然としてトップです。GPT-5.5とV4-Proは87.5で同点です。SimpleQA-Verifiedでは、V4はGPT-5.5とClaudeを二桁差で上回っています。
- 長文コンテキスト検索。 Claude OpusはMRCR 1Mで約9ポイントの差をつけて勝利しています。もしあなたのワークロードが「100万トークンの中から1つの文を見つける」ことであれば、Claudeの方が依然として安全な選択肢です。
- ライセンス。 MITライセンスは、V4-Proを使用許諾契約なしで製品に組み込んで出荷できることを意味します。OpenAIやAnthropicが提供するもので、これに匹敵するものはありません。
これで何を作るか
V4の強みにぴったり合う4つのワークロード:
- エージェント的コーディングループ。 SWE Verified 79.0とCodeforces 3206の数値は、マルチファイルデバッグ、リポジトリを意識したリファクタリング、自律的なテスト修正に直接貢献します。プロンプトを調整しながらすべてのリクエストとレスポンスを検査するために、Apidogのような優れたAPIクライアントと組み合わせて使用してください。
- 長文ドキュメントに対する推論。 100万トークンは、ほとんどのモノレポ、契約書、研究コーパスに十分です。これにはThink Highモードが適切です。
- セルフホスト型AI製品。 コンプライアンスの要件としてオンプレミスでの推論が必要な場合、V4-Flashはクローズドな最先端APIと品質で競合する初のオープンウェイトモデルです。
- 研究とファインチューニング。 ベースチェックポイントは、カスタムトレーニングのために特別に用意されています。これらをドメインデータセットと組み合わせることで、本番レベルの専門モデルが構築できます。
適さない用途: 大量の分類、埋め込み検索、または短いプロンプトのチャット。V4-Flashはこれらの用途にはまだオーバースペックであり、以前のDeepSeekのチェックポイントの方が安価です。
一言で言えば価格
DeepSeekは本記事執筆時点では最終的なAPI料金表を公開していません。V3.2は入力トークン100万あたり約0.28ドル、出力トークン100万あたり0.42ドルで動作しており、DeepSeekはVシリーズの価格をその下限に近い水準に維持してきた実績があります。V4-Flashも同じ範囲で、V4-Proは控えめなプレミアム価格になると予想されます。クローズドな競合他社は入力トークン100万あたり5ドルから15ドルで価格設定しているため、V3.2から3倍に跳ね上がったとしても、DeepSeekは最先端APIの中央値をはるかに下回るでしょう。最新の数値はDeepSeekの料金ページでご確認ください。
今日V4をテストする方法
ファーストトークンまでの時間でランク付けされた3つのパス:
- ウェブチャット。 chat.deepseek.comを開いてサインインします。V4-Proがデフォルトです。UIでThink Highに切り替えてください。無料で、カード不要、今すぐ動作します。
- API。 キーを取得し、クライアントを`https://api.deepseek.com`に向け、`"model": "deepseek-v4-pro"`を設定して使用を開始します。リクエスト形式はOpenAI互換であるため、既存のOpenAIクライアントはベースURLを変更するだけで動作します。DeepSeek V4 APIガイドで詳細なウォークスルーをご確認ください。
- ローカルウェイト。 Hugging FaceまたはModelScopeから取得します。V4-Flashは2〜4台のH100で動作します。V4-Proには本格的なクラスターが必要です。推論コードはモデルリポジトリの`/inference`フォルダーにあります。
Apidogベースのプロンプト反復を含む完全なウォークスルーについては、DeepSeek V4の使用方法をご覧ください。費用をゼロに抑えるには、DeepSeek V4を無料で使う方法をご覧ください。Apidogをダウンロードしてコレクションを事前に構築してください。OpenAI互換フォーマットは、DeepSeek、OpenAI、および他のすべての最先端APIで1つのリクエストが機能することを意味します。
よくある質問
DeepSeek V4は本当にオープンソースですか?はい。4つのチェックポイントすべてにMITライセンスが付与されており、個別の利用規約なしで商用利用、変更、再配布が許可されています。
V4-Flashを実行するにはGPUクラスターが必要ですか?V4-Flashをフル精度で実行するには2〜4台のH100またはH200が必要です。量子化すればそれより少なくて済みます。V4-Proには本格的なクラスターが必要です。ハードウェアなしでV4を試したい場合は、APIまたはchat.deepseek.comをご利用ください。
V4はいつDeepSeek APIで利用可能になりますか?2026年4月23日現在、すでに利用可能です。モデルIDは`deepseek-v4-pro`と`deepseek-v4-flash`です。古い`deepseek-chat`と`deepseek-reasoner`のIDは2026年7月24日に非推奨となります。
V4はKimiやQwenと比較してどうですか?DeepSeekが報告した表によると、V4-ProはKimi K2やQwen 3 MaxよりもLiveCodeBenchとCodeforcesで高い数値を記録しています。これら3つはすべてオープンウェイトのMoEシステムであり、同様のデプロイメントプロファイルを持っています。あなたのワークロードに最も近いベンチマークに基づいて選択してください。
V4を自分のデータでファインチューニングできますか?はい。ベースチェックポイントはそのためにも存在します。ドメインデータと標準的なSFTパイプラインと組み合わせてください。MITライセンスは、結果として得られるモデルの商用再配布をカバーしています。
V4は既存のOpenAI互換ツールで動作しますか?はい。APIは`https://api.deepseek.com`でOpenAIメッセージ形式を、`https://api.deepseek.com/anthropic`でAnthropicメッセージ形式を受け入れます。ほとんどの既存のOpenAIクライアントは、ベースURLを1つ変更するだけで動作します。対応するGPT-5.5 APIウォークスルーで同様のパターンをご確認ください。
