DeepSeek V4は2026年4月23日に、4つのチェックポイント、ライブAPI、そしてHugging Face上のMITライセンスのウェイトと共にリリースされました。この組み合わせは、単一の「正しい」使用方法がないことを意味します。最適なパスは、即座のアクセス、本番APIコール、またはオンプレミスデプロイメントのいずれを望むかによって異なります。このガイドでは、これら3つすべてについて、トレードオフ、落とし穴、そして再利用可能な本番対応プロンプトワークフローを説明します。
製品レベルの概要だけを知りたい場合は、まずDeepSeek V4とは何かをお読みください。純粋なAPIのウォークスルーについては、DeepSeek V4 APIガイドをご覧ください。費用のかからないパスについては、DeepSeek V4を無料で使う方法をご覧ください。実際の要求をテストする準備ができたら、Apidogを入手し、コレクションを事前に構築してください。
要約
- 最速パス: chat.deepseek.com。無料ウェブチャット、V4-Proがデフォルト、3つの推論モード。
- 本番パス: モデルID
deepseek-v4-proまたはdeepseek-v4-flashを用いたhttps://api.deepseek.com/v1/chat/completions。 - セルフホストパス: Hugging Faceからウェイトをプルし、リポジトリ内の
/inferenceスクリプトを実行。 - ルーティングと分類にはNon-Think、コードと分析にはThink High、精度がコストよりも重要な場合にのみThink Maxを選択してください。
- DeepSeekからのサンプリング推奨:
temperature=1.0, top_p=1.0。これを疑ってはいけません。 - APIクライアントとしてApidogを使用してください。OpenAI互換の形式は、保存されたリクエストがDeepSeek、OpenAI、Anthropic間で再利用可能であることを意味します。

ワークロードに適したパスを選択する
実現可能な4つのパスがあります。それぞれ異なる状況で優位性を発揮します。
| パス | コスト | セットアップ時間 | 最適用途 |
|---|---|---|---|
| chat.deepseek.com | 無料 | 30秒 | クイックテスト、アドホックな作業 |
| DeepSeek API | トークンごとの課金 | 5分 | 本番、エージェント、バッチ処理 |
| セルフホスト型V4-Flash | ハードウェアコストのみ | 数時間 | オンプレミスコンプライアンス、オフライン推論 |
| セルフホスト型V4-Pro | クラスタコストのみ | 1日 | 研究、カスタムファインチューニング |
| OpenRouter / アグリゲーター | トークンごとの課金 | 2分 | 複数プロバイダーフォールバック |
パス1: ウェブチャットでV4を使用する
V4について意見を形成する最も速い方法は、公式チャットインターフェースを利用することです。
- chat.deepseek.comにアクセスします。
- メール、Google、またはWeChatでサインインします。
- V4-Proがデフォルトモデルです。コンポーザー上部のトグルで、Non-Think、Think High、Think Maxを切り替えます。
- 入力を開始します。

ウェブチャットは、ファイルアップロード、ウェブ検索、および1Mトークン全体のコンテキストをサポートしています。レート制限はアカウントレベルで適用されます。大量の使用は応答を遅くする可能性がありますが、完全にブロックされることはめったにありません。
ウェブUIに適したタスク:エラー追跡を貼り付けて診断する、200ページのPDFをアップロードして要約する、GPT-5.5やClaudeで実行するのと同じプロンプトでベンチマークを取る。適さないタスク:自動化または再実行したいもの。
パス2: DeepSeek APIを使用する
これはほとんどのチームが選択するパスです。APIは稼働しており、リクエストの形式はOpenAI互換で、モデルIDはDeepSeekが2026年7月のdeepseek-chatの非推奨化後も維持するものです。
キーを取得する
- platform.deepseek.comでサインアップします。
- 支払い方法を追加します。チャージは2ドルから開始です。
- API Keysの下でAPIキーを作成し、一度コピーします。このシークレットは二度と表示されません。
すべてのクライアントがキーを認識できるようにエクスポートします。
export DEEPSEEK_API_KEY="sk-..."
最小限の有効なリクエスト
DeepSeekは2つのベースURLを公開しています。OpenAI互換のインターフェースがデフォルトで使用すべきものです。
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
より安価なバリアントを希望する場合は、deepseek-v4-proをdeepseek-v4-flashに置き換えてください。高速パスを希望する場合は、thinkingをnon-thinkingに置き換えてください。
Pythonクライアント
公式のopenai SDKは、単一のベースURLオーバーライドで動作します。これがOpenAI互換エンドポイントの隠れた利点であり、LangChain、LlamaIndex、DSPyを含むすべてのラッパーライブラリが変更なしで動作します。
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Nodeクライアント
Nodeでも同様のパターンです:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
エンドポイントの詳細、パラメータテーブル、エラーハンドリングについては、DeepSeek V4 APIガイドをご覧ください。
パス3: Apidogで反復する
Curlは一度の呼び出しには問題ありません。しかし、その後は再実行するたびにクレジットを無駄にし、ターミナルを散らかします。Apidogは両方の問題を解決します。
- Mac、Windows、またはLinux版のApidogをダウンロードします。
- 新しいAPIプロジェクトを作成し、
https://api.deepseek.com/v1/chat/completionsに向けたPOSTリクエストを追加します。 Authorization: Bearer {{DEEPSEEK_API_KEY}}をヘッダーとして追加し、キーはリクエストボディではなく環境変数に保存します。- 最初のJSONボディを貼り付けて保存します。ここからの微調整は、ワンクリックで再実行できます。
- 組み込みの応答ビューアを使用して、同じプロンプトでのNon-ThinkとThink Maxの実行における推論トレースを比較します。
同じコレクション内に、OpenAI GPT-5.5リクエスト、Claudeリクエスト、DeepSeek V4リクエストを並べて保持できます。これにより、プロバイダー間のA/Bテストが簡単になり、課金状況が1つのウィンドウで確認できます。他のAI APIでApidogをすでに使用しているチームの場合、ワークフローは1対1で対応し、保存されたGPT-5.5 APIコレクションは、ベースURLを一度変更するだけでV4コレクションになります。
パス4: V4-Flashをセルフホストする
コンプライアンス、エアギャップ要件、またはユニットエコノミクスによりホスト型APIから移行する必要がある場合、MITライセンスはあなたがこのパスを完全に所有することを意味します。
ハードウェア
- V4-Flash (アクティブ13B、合計284B): FP8で2~4枚のH100 / H200 / MI300Xカード。INT4に量子化すると、タイトなバッチ処理で単一の80GBカードに収まります。
- V4-Pro (アクティブ49B、合計1.6T): 真のクラスタ領域。本番推論には16~32枚のH100が現実的な最低ラインです。
ウェイトを取得する
# CLIを一度インストール
pip install -U "huggingface_hub[cli]"
# リポジトリがゲートされている場合にログイン (V4は公開だが、ログインはレート制限に役立つ)
huggingface-cli login
# V4-Flashをプル
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
ダウンロードには時間がかかると予想されます。V4-FlashはFP8で約500GB、V4-Proはマルチテラバイトの範囲です。
推論を実行する
モデルリポジトリの/inferenceフォルダにはリファレンスコードがあります。迅速なテストのため、vLLMとSGLangはリリース後1日以内にV4サポートブランチを公開しています。
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
vLLMが起動したら、OpenAI互換のクライアントをhttp://localhost:8000/v1に向けます。同じApidogコレクションでも、ベースURLが異なります。
V4を効果的にプロンプトする
V4は、GPT-5.5やClaudeとは異なる方法でプロンプトに応答します。効果的な3つのパターンを紹介します。
- 明示的に希望する推論モードを要求する。タスクに合わせて
thinking_modeを設定します。モデルが選択することに頼らないでください。 - システムプロンプトはペルソナに使い、タスクの形式には使わない。V4-Proはトーンや制約に関してシステムプロンプトによく従いますが、タスク仕様全体をシステムメッセージに押し込もうとすると信頼性が低下します。タスクはユーザーメッセージに含めます。
- コードタスクにはテストハーネスを提供する。LiveCodeBenchの93.5というスコアは、明確なテストケースを用いた評価から得られました。「Xを行う関数」を要求するよりも、失敗するテストを貼り付けることで、モデルはより頻繁にそのテストをパスするコードを作成します。
長文コンテキストの作業(数十万トークン)の場合、最も関連性の高い資料を入力ウィンドウの上部と下部に近づけてください。V4のハイブリッドアテンションは効率的ですが、新近性バイアスと初頭効果バイアスは依然として現れます。
コスト管理
V4の低いトークン価格であっても、暴走したエージェントはすぐに予算を使い果たしてしまう可能性があります。3つのガードレールがあります。
- V4-Flashをデフォルトとする。重要な品質差を測定した場合にのみV4-Proを使用します。
- Non-Thinkをデフォルトとする。難しいタスクにはThink Highにエスカレートし、正確性が最も重要な作業にはThink Maxを予約します。
max_tokensを上限設定する。1Mのコンテキストは上限であり、目標ではありません。ほとんどの回答は2,000出力トークンに収まります。
Apidog内でDEEPSEEK_API_KEYに環境スコープの変数を設定し、テスト実行が本番とは別の課金アカウントにヒットするようにします。Apidogはすべての応答のトークン数も記録するため、長すぎるプロンプトを検出する最も簡単な方法です。
DeepSeek V3または他のモデルからの移行
ほとんどのチームに対応する3つの移行パスがあります。
deepseek-chat/deepseek-reasonerから: モデルIDをdeepseek-v4-proまたはdeepseek-v4-flashに交換してください。古いIDは2026年7月24日に非推奨となります。それまでにこの移行を行ってください。- OpenAI GPT-5.xから: ベースURLを
https://api.deepseek.com/v1に変更し、モデルIDを変更し、他はそのままにしてください。並列リクエストの形式については、対応するGPT-5.5 APIガイドを参照してください。 - Anthropic Claudeから: Anthropicメッセージ形式を維持するには
https://api.deepseek.com/anthropicに向け、あるいはOpenAI形式に再構築してメインエンドポイントを使用します。
よくある質問
V4を使用するには有料アカウントが必要ですか?ウェブチャットは無料です。APIにはチャージが必要ですが、最低料金は2ドルです。費用のかからないパスについては、DeepSeek V4を無料で使う方法をご覧ください。
どのバリアントをデフォルトにすべきですか?Non-ThinkモードのV4-Flashから始めてください。品質を測定し、効果がある場合にのみエスカレートしてください。
MacBookでV4を実行できますか?V4-Flashは、重い量子化を施せば、128GBのユニファイドメモリを搭載したM3 MaxまたはM4 Maxで低速ながら動作します。V4-Proは動作しません。ノートPCレベルの実験には、APIまたはウェブチャットを利用してください。
V4はツール利用と関数呼び出しをサポートしていますか?はい。OpenAI互換のエンドポイントは標準のtools配列を受け入れます。応答は同じ形式でtool_callsを返します。Anthropic形式のエンドポイントは、ネイティブのAnthropicツール利用スキーマを使用します。
応答をストリーミングするにはどうすればよいですか?リクエストボディでstream: trueを設定します。応答は標準的なOpenAI互換のSSEストリームです。OpenAIストリーミングを処理するあらゆるライブラリが変更なしで動作します。
レート制限はありますか?ホスト型APIは、api-docs.deepseek.comでティアごとの制限を公開しています。セルフホスト型V4には、ハードウェアの制限を超えるリクエストごとの制限はありません。
