DeepSeek V4 ローカル実行方法

Ashley Innocent

Ashley Innocent

24 4月 2026

DeepSeek V4 ローカル実行方法

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

DeepSeek V4が2026年4月23日にリリースされ、Hugging FaceでMITライセンスのウェイトが公開されました。このライセンス選択一つで、自社ハードウェアで最先端AIを運用したいあらゆるチームにとって状況が変わります。V4-Flash(合計284B、アクティブ13B)は、FP8でH100を2枚使用して動作します。V4-Pro(合計1.6T、アクティブ49B)はクラスターが必要ですが、コードと推論においてGPT-5.5およびClaude Opus 4.6と競合する性能を発揮します。

このガイドは、ローカル環境でのデプロイ手順を解説します。ハードウェア要件、量子化オプション、vLLMとSGLangのセットアップ、ツール使用の設定、および本番トラフィックを向ける前にローカルサーバーを検証するためのApidogでのテストワークフローについて説明します。

ボタン

製品概要については、DeepSeek V4とはをご覧ください。ホスト型APIの利用方法については、DeepSeek V4 APIの利用方法をご覧ください。コスト比較については、DeepSeek V4 APIの料金をご覧ください。

要点(TL;DR)

自己ホストを検討すべきチーム

V4の自己ホストは、次の3種類のチームにとって適切な選択です。

  1. コンプライアンス要件のあるチーム。ネットワーク外にデータを出せない医療、金融、法律、防衛関連の業務。オープンウェイトのMITライセンスは、利用規約や国境を越えたデータフローがないことを意味します。
  2. 大規模で安定したワークロード。キャッシュミス率を考慮すると、V4-Pro APIは入力100万トークンあたり1.74ドル、出力100万トークンあたり3.48ドルかかります。月間約2,000億トークンを超えるワークロードの場合、専用ハードウェアの方がトークンあたりの料金体系よりも経済的になります。
  3. ファインチューニングと研究。ベースチェックポイントは、継続的な事前学習とドメイン適応のために特別に存在します。MITライセンスは、結果として得られるモデルの商業的再配布をカバーします。

自己ホストを避けるべきチーム:プロトタイプ開発者、GPU運用経験のないチーム、月額200ドル以内でホスト型APIを使用できるワークロードのチーム。小規模な場合、運用コストがすぐにコスト削減分を上回ってしまいます。

ハードウェア要件

DeepSeek V4はFP4 + FP8混合精度をネイティブに使用します。これは、単純なパラメータ数計算が示唆するよりもメモリ計算が優しいことを意味します。

バリアント 総パラメータ数 アクティブパラメータ数 FP8 VRAM INT4 VRAM 最小カード数
V4-Flash 284B 13B ~500GB ~140GB H100 80GBを2枚 (FP8) またはH100を1枚 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB H100 80GBを16枚 (FP8) またはH100を8枚 (INT4)

いくつかの補足事項:

ステップ1:ウェイトをダウンロードする

公式リポジトリ:

CLIをインストールしてプルします:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flashには約500GB、V4-Proには数テラバイトのディスク容量を確保してください。ModelScope (modelscope.cn) は同じチェックポイントをミラーしており、中国のユーザーにとっては通常より高速です。

ステップ2:サービングエンジンを選択する

重要なエンジンは2つあります:vLLMとSGLangです。

今週リリースされたバージョンでは、どちらもすぐにV4をサポートしています。

ステップ3:vLLMでV4-Flashをサーブする

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

知っておくべきフラグ:

サーバーが起動すれば、あらゆるOpenAI互換クライアントが `http://localhost:8000/v1` に対して動作します。

ステップ4:vLLMでV4-Proをサーブする

V4-Proにはクラスターが必要です。コマンドの形式は変わりませんが、並列処理の設定が異なります。

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

ここでは、16台のH100ボックスに快適に収まるようにコンテキストを512Kに下げています。VRAMが許せば1Mに戻してください。パイプライン並列処理とテンソル並列処理の組み合わせは、ノード間デプロイメントの一般的な形式です。

ステップ5:SGLangでサーブする(ツール使用の代替手段)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLangは `http://localhost:30000/v1` で同じOpenAI互換インターフェースを公開します。その `lang` DSLは、vLLMのJSONスキーマガイダンスよりもクリーンな関数呼び出しとJSONモードプリミティブを提供します。

ステップ6:シングルGPUボックス向けに量子化する

INT4量子化により、V4-Flashは80GBの単一カードで動作し、わずかですが測定可能な品質低下を伴います。2つの方法があります。

AWQ(推奨)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# GPTQ量子化のレシピに従います。AWQと同様のパターンです。

量子化されたチェックポイントは、起動時に `--quantization awq` または `--quantization gptq` を渡すことでvLLMでサーブできます。

ステップ7:Apidogでテストする

新しく起動したローカルサーバーにいきなり本番トラフィックを送らないでください。まず検証してください。

Apidogの画面例
  1. Apidogをダウンロードします。
  2. `http://localhost:8000/v1/chat/completions` を指すコレクションを作成します。
  3. ホスト型APIに対して使用するのと同じテストプロンプトを貼り付けます。応答を並べて比較します。
  4. 50万トークンのコンテキストテストでエンドポイントをヒットし、KVキャッシュが保持されることを確認します。
  5. エージェントループを接続する前に、ツール呼び出しフローをエンドツーエンドで実行します。

ホスト型DeepSeek V4 APIに対して使用する正確なコレクションは、ベースURLを1つ変更するだけでローカルサーバーに対して動作します。これがOpenAI互換エンドポイントの利点です。

可観測性と監視

初日から追跡すべき4つのメトリクス:

  1. 1秒あたりのトークン数。プロンプトと生成の両方。vLLMはこれらをPrometheus形式で `/metrics` に公開します。
  2. GPU使用率。`nvidia-smi` またはDCGM。継続的に70%未満の場合、通常はバッチサイズが間違っています。
  3. KVキャッシュヒット率。`--enable-prefix-caching` を使用すると、vLLMがこれを報告します。ヒット率の低下は、スループットを低下させているプロンプトの変動を示します。
  4. リクエストレイテンシ p50/p95/p99。標準的なトレーシングを使用してください。p50が安定しているのにp99が上昇している場合、特定の要求形状がキューを停滞させていることを意味します。

これら4つすべてをGrafanaまたは現在使用している可観測性スタックに送信してください。

V4ベースチェックポイントのファインチューニング

ベースチェックポイントは、継続的な事前学習とSFTのために存在します。標準的なパイプラインは次のとおりです。

pip install "torch>=2.6" transformers accelerate peft trl

# V4-Flash-BaseでのLoRAによる標準的なSFT
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

V4-Proでのフルパラメータファインチューニングは、本格的な研究課題です。ほとんどのチームにとって、V4-Flash-BaseでのLoRAアダプタが現実的な上限であり、多くの品質向上が少ない計算量で得られます。

よくある落とし穴

  1. 起動時のOOM(メモリ不足)。通常、`--max-model-len` がVRAM許容量よりも高く設定されているか、`--tensor-parallel-size` が低く設定されすぎているかのどちらかです。コンテキストを半分にするか、並列処理を2倍にしてください。
  2. 最初のリクエストが遅い。vLLMはカーネルを遅延コンパイルします。形状ごとの最初の呼び出しは常に遅いため、ダミーのリクエストでウォームアップしてください。
  3. ツール使用の解析エラー。DeepSeekのエンコーディングスキームはOpenAIのものと若干異なります。SDKをV4を明示的にサポートするバージョンに固定してください。
  4. 古いカードでのFP8エラー。A100はFP8をネイティブにサポートしていません。Hopper以前のカードではBF16を使用してください。その場合、VRAMは約2倍必要になると予想されます。

自己ホストが採算が取れる時

ホスト型DeepSeek V4の料金に基づいた、おおよその損益分岐点計算:

V4-Flashの損益分岐点は、本番環境の混合使用で月間約1,000億トークンです。それ以下の場合、ホスト型APIの方が安価であり、運用コストに見合いません。

よくある質問

V4-FlashをシングルA100で実行できますか?重い量子化と短いコンテキストであれば可能です。ただし、速度は遅いです。80GBのA100でINT4は5~15トークン/秒で動作します。このアーキテクチャが実際に意図しているのはH100での実行です。

V4はLoRAファインチューニングをサポートしていますか?はい、サポートしています。ベースチェックポイントと標準のTRLまたはAxolotlパイプラインを使用してください。MoEルーティングはLoRAの計算に影響しません。

ローカルサーバーはOpenAI互換ですか?はい。vLLMとSGLangは両方とも、OpenAIリクエスト形式で `/v1/chat/completions` および `/v1/completions` を公開します。ホスト型APIガイドは、localhostに対しても変更なく動作します。

ローカルで思考モードを有効にするにはどうすればよいですか?リクエストボディに `thinking_mode: "thinking"` または `"thinking_max"` を渡します。vLLMとSGLangはそのフラグをモデルに転送します。

ローカルのV4サーバーからストリーミングできますか?はい。OpenAIまたはホスト型DeepSeek APIに対して行うのとまったく同じように `stream: true` を設定してください。

ハードウェアを購入する前に試す最も安価な方法は?RunPodやLambdaでH100を数時間レンタルし、INT4でV4-Flashを実行し、実際のプロンプトに対するスループットを測定してください。10ドルから30ドルのテストで、1週間の計画よりも早くハードウェアの疑問を解決できます。

ボタン

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる