DeepSeek V4が2026年4月23日にリリースされ、Hugging FaceでMITライセンスのウェイトが公開されました。このライセンス選択一つで、自社ハードウェアで最先端AIを運用したいあらゆるチームにとって状況が変わります。V4-Flash(合計284B、アクティブ13B)は、FP8でH100を2枚使用して動作します。V4-Pro(合計1.6T、アクティブ49B)はクラスターが必要ですが、コードと推論においてGPT-5.5およびClaude Opus 4.6と競合する性能を発揮します。
このガイドは、ローカル環境でのデプロイ手順を解説します。ハードウェア要件、量子化オプション、vLLMとSGLangのセットアップ、ツール使用の設定、および本番トラフィックを向ける前にローカルサーバーを検証するためのApidogでのテストワークフローについて説明します。
製品概要については、DeepSeek V4とはをご覧ください。ホスト型APIの利用方法については、DeepSeek V4 APIの利用方法をご覧ください。コスト比較については、DeepSeek V4 APIの料金をご覧ください。
要点(TL;DR)
- V4-Flashは、FP8で2つのH100 80GB、またはINT4で1つのH100で動作します。FP8の場合のウェイトは約500GBです。
- V4-Proは、本番環境のスループットを確保するためにFP8で16台以上のH100が必要です。ラップトップ向けモデルではありません。
- vLLMは、OpenAI互換サーバーを構築する最速の方法です。`vllm>=0.9.0`でV4のサポートが追加されました。
- SGLangは、より優れたツール使用や構造化出力機能を求めるチーム向けの代替手段です。
- AWQ INT4またはGPTQ INT4への量子化により、V4-Flashは80GBの単一カードで動作し、品質の低下は約5%に抑えられます。
- Apidogを使用して`http://localhost:8000/v1`を指し、ホスト型APIに対して使用するのと同じコレクションを再利用してください。
自己ホストを検討すべきチーム
V4の自己ホストは、次の3種類のチームにとって適切な選択です。
- コンプライアンス要件のあるチーム。ネットワーク外にデータを出せない医療、金融、法律、防衛関連の業務。オープンウェイトのMITライセンスは、利用規約や国境を越えたデータフローがないことを意味します。
- 大規模で安定したワークロード。キャッシュミス率を考慮すると、V4-Pro APIは入力100万トークンあたり1.74ドル、出力100万トークンあたり3.48ドルかかります。月間約2,000億トークンを超えるワークロードの場合、専用ハードウェアの方がトークンあたりの料金体系よりも経済的になります。
- ファインチューニングと研究。ベースチェックポイントは、継続的な事前学習とドメイン適応のために特別に存在します。MITライセンスは、結果として得られるモデルの商業的再配布をカバーします。
自己ホストを避けるべきチーム:プロトタイプ開発者、GPU運用経験のないチーム、月額200ドル以内でホスト型APIを使用できるワークロードのチーム。小規模な場合、運用コストがすぐにコスト削減分を上回ってしまいます。
ハードウェア要件
DeepSeek V4はFP4 + FP8混合精度をネイティブに使用します。これは、単純なパラメータ数計算が示唆するよりもメモリ計算が優しいことを意味します。
| バリアント | 総パラメータ数 | アクティブパラメータ数 | FP8 VRAM | INT4 VRAM | 最小カード数 |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | H100 80GBを2枚 (FP8) またはH100を1枚 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | H100 80GBを16枚 (FP8) またはH100を8枚 (INT4) |
いくつかの補足事項:
- MoEメモリはアクティブではなく合計です。トークンごとにサブセットしか発動しないとしても、すべてのエキスパートに対して十分なVRAMが必要です。13Bの「アクティブ」という数値は、トークンごとの計算コストのみを反映しており、メモリは含まれません。
- H200とMI300Xはスムーズに交換できます。カードあたり141GBまたは192GBのVRAMがあれば、同じモデルに対して必要なカード数が少なくなります。
- 消費者向けGPUは適していません。INT4のV4-Flashでさえ、24GBのRTX 5090では動作しません。
- Apple Silicon: 128GBユニファイドメモリを搭載したM3 MaxおよびM4 Maxは、重い量子化でV4-Flashを動作させることができますが、速度は遅いです。これは開発ボックスのおもちゃであり、デプロイターゲットではありません。
ステップ1:ウェイトをダウンロードする
公式リポジトリ:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Pro- ファインチューニング用には`deepseek-ai/DeepSeek-V4-Flash-Base`と`DeepSeek-V4-Pro-Base`。
CLIをインストールしてプルします:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flashには約500GB、V4-Proには数テラバイトのディスク容量を確保してください。ModelScope (modelscope.cn) は同じチェックポイントをミラーしており、中国のユーザーにとっては通常より高速です。
ステップ2:サービングエンジンを選択する
重要なエンジンは2つあります:vLLMとSGLangです。
- vLLM。最高のスループット、最もクリーンなOpenAI互換インターフェース、最大のコミュニティ。デフォルトの選択肢です。
- SGLang。より優れたツール使用プリミティブ、構造化出力、および長いコンテキストでのいくつかの利点があります。ワークロードが関数呼び出しに大きく依存する場合はこれを選択してください。
今週リリースされたバージョンでは、どちらもすぐにV4をサポートしています。
ステップ3:vLLMでV4-Flashをサーブする
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
知っておくべきフラグ:
- `--tensor-parallel-size 2` はモデルを2つのH100に分割します。より多くのカードを使用する場合はこの値を増やしてください。
- `--max-model-len 1048576` は、1Mトークンの完全なコンテキストウィンドウを有効にします。必要ない場合は131072に下げてください。コンテキストが短いほどVRAMが解放されます。
- `--enable-prefix-caching` は、ホスト型APIのキャッシュヒット課金をローカルで再現します。同じ効果として、繰り返されるプレフィックスがはるかに高速に実行されます。
- `--dtype auto` はV4のFP8混合精度に対応します。
サーバーが起動すれば、あらゆるOpenAI互換クライアントが `http://localhost:8000/v1` に対して動作します。
ステップ4:vLLMでV4-Proをサーブする
V4-Proにはクラスターが必要です。コマンドの形式は変わりませんが、並列処理の設定が異なります。
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
ここでは、16台のH100ボックスに快適に収まるようにコンテキストを512Kに下げています。VRAMが許せば1Mに戻してください。パイプライン並列処理とテンソル並列処理の組み合わせは、ノード間デプロイメントの一般的な形式です。
ステップ5:SGLangでサーブする(ツール使用の代替手段)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLangは `http://localhost:30000/v1` で同じOpenAI互換インターフェースを公開します。その `lang` DSLは、vLLMのJSONスキーマガイダンスよりもクリーンな関数呼び出しとJSONモードプリミティブを提供します。
ステップ6:シングルGPUボックス向けに量子化する
INT4量子化により、V4-Flashは80GBの単一カードで動作し、わずかですが測定可能な品質低下を伴います。2つの方法があります。
AWQ(推奨)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# GPTQ量子化のレシピに従います。AWQと同様のパターンです。
量子化されたチェックポイントは、起動時に `--quantization awq` または `--quantization gptq` を渡すことでvLLMでサーブできます。
ステップ7:Apidogでテストする
新しく起動したローカルサーバーにいきなり本番トラフィックを送らないでください。まず検証してください。

- Apidogをダウンロードします。
- `http://localhost:8000/v1/chat/completions` を指すコレクションを作成します。
- ホスト型APIに対して使用するのと同じテストプロンプトを貼り付けます。応答を並べて比較します。
- 50万トークンのコンテキストテストでエンドポイントをヒットし、KVキャッシュが保持されることを確認します。
- エージェントループを接続する前に、ツール呼び出しフローをエンドツーエンドで実行します。
ホスト型DeepSeek V4 APIに対して使用する正確なコレクションは、ベースURLを1つ変更するだけでローカルサーバーに対して動作します。これがOpenAI互換エンドポイントの利点です。
可観測性と監視
初日から追跡すべき4つのメトリクス:
- 1秒あたりのトークン数。プロンプトと生成の両方。vLLMはこれらをPrometheus形式で `/metrics` に公開します。
- GPU使用率。`nvidia-smi` またはDCGM。継続的に70%未満の場合、通常はバッチサイズが間違っています。
- KVキャッシュヒット率。`--enable-prefix-caching` を使用すると、vLLMがこれを報告します。ヒット率の低下は、スループットを低下させているプロンプトの変動を示します。
- リクエストレイテンシ p50/p95/p99。標準的なトレーシングを使用してください。p50が安定しているのにp99が上昇している場合、特定の要求形状がキューを停滞させていることを意味します。
これら4つすべてをGrafanaまたは現在使用している可観測性スタックに送信してください。
V4ベースチェックポイントのファインチューニング
ベースチェックポイントは、継続的な事前学習とSFTのために存在します。標準的なパイプラインは次のとおりです。
pip install "torch>=2.6" transformers accelerate peft trl
# V4-Flash-BaseでのLoRAによる標準的なSFT
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
V4-Proでのフルパラメータファインチューニングは、本格的な研究課題です。ほとんどのチームにとって、V4-Flash-BaseでのLoRAアダプタが現実的な上限であり、多くの品質向上が少ない計算量で得られます。
よくある落とし穴
- 起動時のOOM(メモリ不足)。通常、`--max-model-len` がVRAM許容量よりも高く設定されているか、`--tensor-parallel-size` が低く設定されすぎているかのどちらかです。コンテキストを半分にするか、並列処理を2倍にしてください。
- 最初のリクエストが遅い。vLLMはカーネルを遅延コンパイルします。形状ごとの最初の呼び出しは常に遅いため、ダミーのリクエストでウォームアップしてください。
- ツール使用の解析エラー。DeepSeekのエンコーディングスキームはOpenAIのものと若干異なります。SDKをV4を明示的にサポートするバージョンに固定してください。
- 古いカードでのFP8エラー。A100はFP8をネイティブにサポートしていません。Hopper以前のカードではBF16を使用してください。その場合、VRAMは約2倍必要になると予想されます。
自己ホストが採算が取れる時
ホスト型DeepSeek V4の料金に基づいた、おおよその損益分岐点計算:
- V4-Flashを月間2000億入力トークン + 200億出力トークンで使用する場合:ホスト型APIでは約33,600ドル。8台のH100ボックスのレンタル料は約月20,000ドル。自己ホストの方が約40%有利です。
- V4-Proを月間5000億入力トークン + 500億出力トークンで使用する場合:ホスト型APIでは約104万ドル。16台のH100クラスターのレンタル料は約月35,000ドル。自己ホストの方が95%以上有利です。
V4-Flashの損益分岐点は、本番環境の混合使用で月間約1,000億トークンです。それ以下の場合、ホスト型APIの方が安価であり、運用コストに見合いません。
よくある質問
V4-FlashをシングルA100で実行できますか?重い量子化と短いコンテキストであれば可能です。ただし、速度は遅いです。80GBのA100でINT4は5~15トークン/秒で動作します。このアーキテクチャが実際に意図しているのはH100での実行です。
V4はLoRAファインチューニングをサポートしていますか?はい、サポートしています。ベースチェックポイントと標準のTRLまたはAxolotlパイプラインを使用してください。MoEルーティングはLoRAの計算に影響しません。
ローカルサーバーはOpenAI互換ですか?はい。vLLMとSGLangは両方とも、OpenAIリクエスト形式で `/v1/chat/completions` および `/v1/completions` を公開します。ホスト型APIガイドは、localhostに対しても変更なく動作します。
ローカルで思考モードを有効にするにはどうすればよいですか?リクエストボディに `thinking_mode: "thinking"` または `"thinking_max"` を渡します。vLLMとSGLangはそのフラグをモデルに転送します。
ローカルのV4サーバーからストリーミングできますか?はい。OpenAIまたはホスト型DeepSeek APIに対して行うのとまったく同じように `stream: true` を設定してください。
ハードウェアを購入する前に試す最も安価な方法は?RunPodやLambdaでH100を数時間レンタルし、INT4でV4-Flashを実行し、実際のプロンプトに対するスループットを測定してください。10ドルから30ドルのテストで、1週間の計画よりも早くハードウェアの疑問を解決できます。
