DeepSeek V4 เปิดตัวเมื่อวันที่ 23 เมษายน 2026 พร้อมด้วยสี่เช็คพอยต์, API ที่ใช้งานได้จริง, และน้ำหนักโมเดลที่ได้รับอนุญาตแบบ MIT บน Hugging Face การผสมผสานนี้หมายความว่าไม่มี "วิธีที่ถูกต้อง" เพียงวิธีเดียวในการใช้งาน เส้นทางที่ดีที่สุดขึ้นอยู่กับว่าคุณต้องการการเข้าถึงทันที การเรียกใช้ API สำหรับการผลิต หรือการปรับใช้แบบ On-Premise คู่มือนี้จะแนะนำทั้งสามวิธี พร้อมข้อดีข้อเสีย ข้อควรระวัง และเวิร์กโฟลว์พร้อมใช้งานสำหรับ Production ที่คุณสามารถนำไปใช้ซ้ำได้
หากคุณต้องการภาพรวมระดับผลิตภัณฑ์ ให้ลองอ่าน DeepSeek V4 คืออะไร ก่อน สำหรับคำแนะนำการใช้งาน API โดยละเอียด โปรดดูที่ คู่มือ DeepSeek V4 API สำหรับเส้นทางที่ไม่มีค่าใช้จ่าย โปรดดูที่ วิธีใช้ DeepSeek V4 ฟรี เมื่อคุณพร้อมที่จะทดสอบคำขอจริง ให้ดาวน์โหลด Apidog และสร้างคอลเลกชันไว้ล่วงหน้า
TL;DR
- เส้นทางที่เร็วที่สุด: chat.deepseek.com แชทบนเว็บฟรี, V4-Pro เป็นค่าเริ่มต้น, มีสามโหมดการให้เหตุผล
- เส้นทางสำหรับการผลิต:
https://api.deepseek.com/v1/chat/completionsพร้อม model IDsdeepseek-v4-proหรือdeepseek-v4-flash - เส้นทางแบบ Self-hosted: ดึงน้ำหนักโมเดลจาก Hugging Face, รันสคริปต์
/inferenceใน repo - เลือก Non-Think สำหรับการกำหนดเส้นทางและการจัดหมวดหมู่, Think High สำหรับโค้ดและการวิเคราะห์, Think Max เฉพาะเมื่อความแม่นยำสำคัญกว่าค่าใช้จ่าย
- คำแนะนำการสุ่มตัวอย่างจาก DeepSeek:
temperature=1.0, top_p=1.0ไม่ต้องสงสัยในคำแนะนำนี้ - ใช้ Apidog เป็น API client; รูปแบบที่เข้ากันได้กับ OpenAI หมายความว่าคำขอที่บันทึกไว้สามารถเล่นซ้ำได้กับ DeepSeek, OpenAI และ Anthropic

เลือกเส้นทางที่เหมาะสมกับปริมาณงานของคุณ
มีสี่เส้นทางที่เป็นไปได้ แต่ละเส้นทางมีความโดดเด่นในด้านที่แตกต่างกัน
| เส้นทาง | ค่าใช้จ่าย | เวลาในการตั้งค่า | เหมาะที่สุดสำหรับ |
|---|---|---|---|
| chat.deepseek.com | ฟรี | 30 วินาที | การทดสอบอย่างรวดเร็ว, งานเฉพาะกิจ |
| DeepSeek API | คิดค่าบริการต่อโทเค็น | 5 นาที | การผลิต, เอเจนต์, งานแบบกลุ่ม |
| V4-Flash แบบ Self-hosted | เฉพาะค่าใช้จ่ายฮาร์ดแวร์ | ไม่กี่ชั่วโมง | การปฏิบัติตามข้อกำหนดภายในองค์กร, การอนุมานแบบออฟไลน์ |
| V4-Pro แบบ Self-hosted | เฉพาะค่าใช้จ่ายคลัสเตอร์ | หนึ่งวัน | การวิจัย, การปรับแต่งโมเดลเฉพาะ |
| OpenRouter / ตัวรวบรวม | คิดค่าบริการต่อโทเค็น | 2 นาที | การสำรองข้อมูลหลายผู้ให้บริการ |
เส้นทางที่ 1: ใช้ V4 ในเว็บแชท
วิธีที่เร็วที่สุดในการทำความเข้าใจ V4 คือผ่านอินเทอร์เฟซแชทอย่างเป็นทางการ
- ไปที่ chat.deepseek.com
- ลงชื่อเข้าใช้ด้วยอีเมล, Google, หรือ WeChat
- V4-Pro เป็นโมเดลเริ่มต้น สวิตช์ที่ด้านบนของกล่องข้อความจะสลับระหว่าง Non-Think, Think High และ Think Max
- เริ่มพิมพ์

เว็บแชทรองรับการอัปโหลดไฟล์, การค้นหาเว็บ, และบริบทขนาด 1M โทเค็นเต็มรูปแบบ มีการจำกัดอัตราการใช้งานในระดับบัญชี การใช้งานหนักอาจทำให้การตอบสนองช้าลง แต่ไม่ค่อยบล็อกการใช้งานโดยสิ้นเชิง
งานที่ดีสำหรับเว็บ UI: วางร่องรอยข้อผิดพลาดเพื่อวินิจฉัย, อัปโหลดไฟล์ PDF 200 หน้าเพื่อสรุป, เปรียบเทียบกับพรอมต์เดียวกันที่คุณใช้กับ GPT-5.5 หรือ Claude งานที่ไม่ดี: สิ่งที่คุณต้องการทำให้เป็นอัตโนมัติหรือเล่นซ้ำ
เส้นทางที่ 2: ใช้ DeepSeek API
นี่คือเส้นทางที่ทีมส่วนใหญ่จะเลือกใช้ API ใช้งานได้จริง รูปแบบคำขอเข้ากันได้กับ OpenAI และ Model ID ก็เป็นแบบเดียวกับที่ DeepSeek จะใช้ต่อไปหลังจากวันที่ 24 กรกฎาคม 2026 ที่จะมีการเลิกใช้งาน deepseek-chat
รับคีย์
- ลงทะเบียนที่ platform.deepseek.com
- เพิ่มวิธีการชำระเงิน การเติมเงินเริ่มต้นที่ $2
- สร้าง API key ใต้ API Keys และคัดลอกทันที; คุณจะไม่เห็นรหัสลับอีก
ส่งออกคีย์เพื่อให้ไคลเอนต์ทุกตัวนำไปใช้:
export DEEPSEEK_API_KEY="sk-..."
คำขอขั้นต่ำที่ใช้งานได้
DeepSeek มี Base URL สองแบบ พื้นผิวที่เข้ากันได้กับ OpenAI เป็นค่าเริ่มต้นที่ควรเลือกใช้
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
เปลี่ยน deepseek-v4-pro เป็น deepseek-v4-flash หากคุณต้องการรุ่นที่ราคาถูกกว่า เปลี่ยน thinking เป็น non-thinking หากคุณต้องการเส้นทางที่รวดเร็ว
ไคลเอนต์ Python
SDK อย่างเป็นทางการของ openai สามารถทำงานได้ด้วยการกำหนด Base URL เพียงครั้งเดียว นั่นคือข้อดีที่เงียบงันของปลายทางที่เข้ากันได้กับ OpenAI; ไลบรารี wrapper ทุกตัว รวมถึง LangChain, LlamaIndex และ DSPy สามารถทำงานได้โดยไม่ต้องแก้ไข
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
ไคลเอนต์ Node
รูปแบบเดียวกันใน Node:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
รายละเอียดปลายทาง, ตารางพารามิเตอร์, และการจัดการข้อผิดพลาดฉบับสมบูรณ์มีอยู่ใน คู่มือ DeepSeek V4 API
เส้นทางที่ 3: ทำซ้ำด้วย Apidog
Curl เหมาะสำหรับการเรียกใช้งานครั้งเดียว หลังจากนั้น การเรียกใช้งานซ้ำทุกครั้งจะสิ้นเปลืองเครดิตและทำให้เทอร์มินัลของคุณรก Apidog ช่วยแก้ปัญหาทั้งสองนี้ได้
- ดาวน์โหลด Apidog สำหรับ Mac, Windows, หรือ Linux
- สร้างโปรเจกต์ API ใหม่, เพิ่มคำขอ POST ไปยัง
https://api.deepseek.com/v1/chat/completions - เพิ่ม
Authorization: Bearer {{DEEPSEEK_API_KEY}}เป็น Header และเก็บคีย์ไว้ในตัวแปรสภาพแวดล้อม ไม่ใช่ในส่วนเนื้อหาของคำขอ - วางเนื้อหา JSON แรกของคุณแล้วบันทึก การปรับแต่งแต่ละครั้งหลังจากนี้เพียงแค่คลิกเดียวเพื่อเล่นซ้ำ
- ใช้โปรแกรมดูการตอบสนองในตัวเพื่อเปรียบเทียบร่องรอยการให้เหตุผลระหว่างการรัน Non-Think และ Think Max บนพรอมต์เดียวกัน
คอลเลกชันเดียวกันสามารถเก็บคำขอ OpenAI GPT-5.5, คำขอ Claude และคำขอ DeepSeek V4 ได้พร้อมกัน ซึ่งทำให้การทดสอบ A/B ระหว่างผู้ให้บริการต่าง ๆ เป็นเรื่องง่าย และทำให้คุณสามารถมองเห็นการเรียกเก็บเงินทั้งหมดได้ในหน้าต่างเดียว สำหรับทีมที่ใช้ Apidog กับ API AI อื่น ๆ อยู่แล้ว เวิร์กโฟลว์จะทำงานแบบหนึ่งต่อหนึ่ง; คอลเลกชัน GPT-5.5 API ที่บันทึกไว้จะกลายเป็นคอลเลกชัน V4 ด้วยการเปลี่ยน Base URL เพียงครั้งเดียว
เส้นทางที่ 4: Self-host V4-Flash
หากข้อกำหนดด้านการปฏิบัติตามกฎระเบียบ, ข้อกำหนดด้าน Air-gap, หรือเศรษฐศาสตร์หน่วยผลักดันให้คุณไม่ใช้ Hosted API ใบอนุญาต MIT หมายความว่าคุณเป็นเจ้าของเส้นทางนี้โดยสมบูรณ์
ฮาร์ดแวร์
- V4-Flash (ใช้งาน 13B, รวม 284B): การ์ด H100 / H200 / MI300X จำนวน 2 ถึง 4 ใบที่ FP8 เมื่อถูกควอนไทซ์เป็น INT4 จะสามารถทำงานบนการ์ด 80GB เพียงใบเดียวพร้อมแบทช์ที่แน่นหนา
- V4-Pro (ใช้งาน 49B, รวม 1.6T): เป็นขอบเขตของคลัสเตอร์อย่างแท้จริง การ์ด H100 จำนวน 16 ถึง 32 ใบเป็นจำนวนขั้นต่ำที่สมจริงสำหรับการอนุมานในการผลิต
รับน้ำหนักโมเดล
# Install the CLI once
pip install -U "huggingface_hub[cli]"
# Log in if the repo is gated (V4 is public, but the login helps with rate limits)
huggingface-cli login
# Pull V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
คาดว่าการดาวน์โหลดจะใช้เวลาสักครู่ V4-Flash มีขนาดประมาณ 500GB ที่ FP8; V4-Pro อยู่ในช่วงหลายเทราไบต์
เรียกใช้การอนุมาน
โฟลเดอร์ /inference ในโมเดล repo มีโค้ดอ้างอิง สำหรับการทดสอบอย่างรวดเร็ว vLLM และ SGLang ได้เผยแพร่สาขาที่รองรับ V4 ภายในหนึ่งวันหลังจากเปิดตัว
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
เมื่อ vLLM พร้อมใช้งาน ให้ชี้ไคลเอนต์ที่เข้ากันได้กับ OpenAI ไปยัง http://localhost:8000/v1 คอลเลกชัน Apidog เดียวกัน แต่มี Base URL ที่แตกต่างกัน
การใช้พรอมต์ V4 อย่างมีประสิทธิภาพ
V4 ตอบสนองต่อพรอมต์แตกต่างจาก GPT-5.5 หรือ Claude มีสามรูปแบบที่ใช้งานได้ดี
- ระบุโหมดการให้เหตุผลที่คุณต้องการอย่างชัดเจน กำหนด
thinking_modeให้ตรงกับงาน อย่าพึ่งพาให้โมเดลเลือกเอง - ใช้ System Prompt สำหรับ Persona ไม่ใช่สำหรับรูปแบบงาน V4-Pro จะทำตาม System Prompt ได้ดีสำหรับน้ำเสียงและข้อจำกัด แต่จะเชื่อถือได้น้อยลงหากคุณพยายามใส่รายละเอียดงานทั้งหมดลงในข้อความ System Prompt ควรใส่รายละเอียดงานในข้อความ User Prompt
- มอบงานโค้ดพร้อม Test Harness คะแนน 93.5 จาก LiveCodeBench มาจากการประเมินด้วย Test Case ที่ชัดเจน งานโค้ดของคุณจะได้รับประโยชน์เช่นกัน หากคุณวาง Test Case ที่ไม่ผ่าน โมเดลจะเขียนโค้ดที่ทำให้ผ่านได้บ่อยกว่าการที่คุณแค่ขอ "ฟังก์ชันที่ทำ X"
สำหรับงานที่มีบริบทขนาดยาว (หลายแสนโทเค็น) ให้เก็บเนื้อหาที่เกี่ยวข้องมากที่สุดไว้ใกล้ส่วนบนและส่วนล่างของหน้าต่างป้อนข้อมูล แม้ว่า Hybrid Attention ของ V4 จะมีประสิทธิภาพ แต่ก็ยังคงแสดงอคติจากความใหม่และตำแหน่งแรก
การควบคุมค่าใช้จ่าย
แม้ว่าราคาโทเค็นของ V4 จะต่ำ แต่เอเจนต์ที่ทำงานโดยไม่มีการควบคุมก็สามารถใช้จ่ายงบประมาณได้อย่างรวดเร็ว มีสามแนวทางป้องกัน:
- เริ่มต้นด้วย V4-Flash เป็นค่าเริ่มต้น ใช้ V4-Pro เฉพาะเมื่อคุณวัดพบช่องว่างด้านคุณภาพที่สำคัญเท่านั้น
- เริ่มต้นด้วย Non-Think เป็นค่าเริ่มต้น เพิ่มระดับเป็น Think High สำหรับงานที่ยาก; สงวน Think Max ไว้สำหรับงานที่ต้องการความถูกต้องแม่นยำสูง
- จำกัด
max_tokensบริบท 1M เป็นขีดจำกัดสูงสุด ไม่ใช่เป้าหมาย การตอบกลับส่วนใหญ่พอดีกับเอาต์พุต 2,000 โทเค็น
ภายใน Apidog ให้ตั้งค่าตัวแปรที่ครอบคลุมเฉพาะสภาพแวดล้อมสำหรับ DEEPSEEK_API_KEY เพื่อให้การทดสอบเรียกใช้บัญชีการเรียกเก็บเงินที่แยกจาก Production Apidog ยังบันทึกจำนวนโทเค็นในการตอบกลับทุกครั้ง ซึ่งเป็นวิธีที่ง่ายที่สุดในการสังเกตพรอมต์ที่ยาวเกินไป
การย้ายจาก DeepSeek V3 หรือโมเดลอื่น ๆ
มีสามเส้นทางการย้ายข้อมูลที่ครอบคลุมทีมส่วนใหญ่:
- จาก
deepseek-chat/deepseek-reasoner: เปลี่ยน Model ID เป็นdeepseek-v4-proหรือdeepseek-v4-flashModel ID เดิมจะถูกเลิกใช้งานในวันที่ 24 กรกฎาคม 2026 โปรดดำเนินการย้ายข้อมูลก่อนหน้านั้น - จาก OpenAI GPT-5.x: เปลี่ยน Base URL เป็น
https://api.deepseek.com/v1, เปลี่ยน Model ID, และปล่อยส่วนอื่น ๆ ไว้เหมือนเดิม ดู คู่มือ GPT-5.5 API ที่เกี่ยวข้องสำหรับรูปแบบคำขอที่สอดคล้องกัน - จาก Anthropic Claude: ชี้ไปที่
https://api.deepseek.com/anthropicเพื่อรักษารูปแบบข้อความ Anthropic หรือปรับรูปแบบให้เข้ากับ OpenAI และใช้ปลายทางหลัก
คำถามที่พบบ่อย
ฉันจำเป็นต้องมีบัญชีแบบชำระเงินเพื่อใช้ V4 หรือไม่? เว็บแชทนั้นฟรี API จำเป็นต้องมีการเติมเงิน แต่ขั้นต่ำคือ 2 ดอลลาร์ ดู วิธีใช้ DeepSeek V4 ฟรี สำหรับเส้นทางที่ไม่มีค่าใช้จ่าย
ฉันควรใช้รุ่นใดเป็นค่าเริ่มต้น? เริ่มต้นด้วย V4-Flash ในโหมด Non-Think วัดคุณภาพ เพิ่มระดับเฉพาะเมื่อคุ้มค่า
ฉันสามารถรัน V4 บน MacBook ของฉันได้หรือไม่? V4-Flash จะทำงานบน M3 Max หรือ M4 Max ที่มีหน่วยความจำรวม 128GB ด้วยการควอนไทซ์สูง แต่จะช้ามาก V4-Pro จะไม่ทำงาน สำหรับการทดลองในระดับแล็ปท็อป ให้ใช้ API หรือเว็บแชท
V4 รองรับการใช้เครื่องมือและการเรียกฟังก์ชันหรือไม่? ใช่ ปลายทางที่เข้ากันได้กับ OpenAI รับอาร์เรย์ tools มาตรฐาน; การตอบกลับจะส่ง tool_calls กลับมาในรูปแบบเดียวกัน ปลายทางรูปแบบ Anthropic ใช้สคีมาการใช้เครื่องมือแบบเนทีฟของ Anthropic
ฉันจะสตรีมการตอบกลับได้อย่างไร? ตั้งค่า stream: true ในเนื้อหาคำขอ การตอบกลับจะเป็น SSE stream มาตรฐานที่เข้ากันได้กับ OpenAI; ไลบรารีใด ๆ ที่จัดการการสตรีมของ OpenAI จะทำงานได้โดยไม่ต้องแก้ไข
มีการจำกัดอัตราการใช้งานหรือไม่? Hosted API เผยแพร่ขีดจำกัดต่อระดับบน api-docs.deepseek.com V4 แบบ Self-hosted ไม่มีขีดจำกัดต่อคำขอนอกเหนือจากขีดจำกัดของฮาร์ดแวร์ของคุณ
