DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล คือวันที่ 23 เมษายน 2026 และตัวเลขเหล่านี้ได้กำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคาอยู่ที่ $0.14 ต่อโทเค็นนำเข้าหนึ่งล้านโทเค็น และ $0.28 ต่อโทเค็นส่งออกหนึ่งล้านโทเค็น V4-Pro มีราคาอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมีหน้าต่างบริบท (context window) ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K นอกจากนี้ ทั้งสองรุ่นยังมีส่วนลดสำหรับการเรียกใช้ซ้ำ (cache-hit discount) ที่ลดต้นทุนการนำเข้าลง 80% ถึง 90% สำหรับคำสั่ง (prompt) ที่ซ้ำกัน
คู่มือนี้ครอบคลุมอัตราค่าบริการทั้งหมด วิธีที่การแคชบริบท (context caching) เปลี่ยนแปลงต้นทุนต่อการเรียกใช้จริง การเปรียบเทียบอย่างตรงไปตรงมากับ GPT-5.5 และ Claude Opus และสี่วิธีในการควบคุมค่าใช้จ่ายให้คาดการณ์ได้ภายใน Apidog
สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคำแนะนำสำหรับนักพัฒนา ดู วิธีใช้ DeepSeek V4 API สำหรับเส้นทางที่ไม่มีค่าใช้จ่าย ดู วิธีใช้ DeepSeek V4 ฟรี
สรุปโดยย่อ
- V4-Flash: $0.14 / M สำหรับนำเข้า (ไม่พบในแคช), $0.028 / M สำหรับนำเข้า (พบในแคช), $0.28 / M สำหรับส่งออก
- V4-Pro: $1.74 / M สำหรับนำเข้า (ไม่พบในแคช), $0.145 / M สำหรับนำเข้า (พบในแคช), $3.48 / M สำหรับส่งออก
- หน้าต่างบริบท (Context window): นำเข้า 1 ล้านโทเค็น, ส่งออก 384K โทเค็น, สำหรับทั้งสองรุ่น
- ส่วนลดสำหรับการเรียกใช้ซ้ำ (Cache-hit discount): ประมาณ ลด 80% สำหรับ Flash, ลด 92% สำหรับ Pro ในส่วนนำหน้า (prefixes) ที่ซ้ำกัน
deepseek-chatและdeepseek-reasonerจะเลิกใช้ในวันที่ 24 กรกฎาคม 2026; การเรียกเก็บเงินจะอ้างอิงกับ V4-Flash- ที่อัตราการไม่พบในแคช (cache-miss rates), V4-Pro มีราคาถูกกว่า GPT-5.5 ประมาณ 2.9 เท่า สำหรับนำเข้า และถูกกว่าประมาณ 8.6 เท่า สำหรับส่งออก
ตารางอัตราค่าบริการทั้งหมด
| โมเดล | นำเข้า (ไม่พบในแคช) | นำเข้า (พบในแคช) | ส่งออก | บริบท |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (จะเลิกใช้ 2026-07-24) |
อ้างอิง V4-Flash (โหมดไม่คิด) | — | — | — |
deepseek-reasoner (จะเลิกใช้ 2026-07-24) |
อ้างอิง V4-Flash (โหมดคิด) | — | — | — |
สามรายละเอียดนี้สำคัญกว่าตัวเลขดิบ
ประการแรก ราคาจะเท่ากันไม่ว่าคุณจะอยู่ในโหมด "คิด" (thinking mode) หรือ "ไม่คิด" (non-thinking mode) รหัสโมเดล (model ID) เป็นตัวกำหนดอัตรา ส่วนโหมดการให้เหตุผลเพียงแค่เปลี่ยนจำนวนโทเค็นที่คุณใช้ในอัตรานั้น
ประการที่สอง การคิดราคาแบบพบในแคช (cache-hit pricing) เป็นไปโดยอัตโนมัติ ทุกคำขอที่มีส่วนนำหน้า (prefix) ซ้ำกันในบัญชีเดียวกันจะได้รับประโยชน์ คุณไม่จำเป็นต้องเลือกใช้หรือตั้งค่าใดๆ ส่วนนำหน้าต้องมีความยาวอย่างน้อย 1,024 โทเค็น และต้องตรงกันทุกไบต์
ประการที่สาม รหัส deepseek-chat และ deepseek-reasoner รุ่นเก่าจะถูกเรียกเก็บเงินเป็นชื่อเรียกแทน (alias) ของ V4-Flash แล้ว หากคุณยังไม่ได้ย้ายข้อมูล คุณจะได้รับคุณภาพ V4-Flash ในราคา V4-Flash อยู่แล้ว กำหนดเส้นตายสำหรับการเลิกใช้รหัสเหล่านี้คือวันที่ 24 กรกฎาคม 2026
การแคชบริบท (Context caching) อธิบายง่ายๆ
การแคชเป็นปัจจัยที่ใหญ่ที่สุดในการควบคุมต้นทุนบน DeepSeek V4 รูปแบบง่ายๆ คือ: สิ่งใดก็ตามที่ซ้ำกันในการเรียกใช้ โดยเฉพาะอย่างยิ่งคำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือเอเจนต์ (agent tool schemas), และบริบท RAG จะถูกเรียกเก็บเงินในอัตราส่วนที่น้อยกว่าอัตรานำเข้าเต็มจำนวนในการเรียกใช้ครั้งที่สองและครั้งต่อๆ ไป
ตัวอย่างที่เป็นรูปธรรม คุณเรียกใช้เอเจนต์ที่มีคำสั่งระบบ (system prompt) 20,000 โทเค็นที่ไม่เคยเปลี่ยนแปลง จากนั้นถามคำถามผู้ใช้ 100 ข้อ แต่ละข้อมี 200 โทเค็น
ไม่มีการแคช:
- นำเข้า: 100 การเรียกใช้ × 20,200 โทเค็น × $1.74 / M = $3.52
- ส่งออก: 100 การเรียกใช้ × 500 โทเค็น × $3.48 / M = $0.17
- รวม: $3.69
มีการแคช (การเรียกใช้ครั้งแรกไม่พบในแคช, 99 ครั้งถัดไปพบในแคช):
- นำเข้าครั้งแรก: 20,200 × $1.74 / M = $0.035
- ส่วนนำหน้า (prefixes) ที่พบในแคช 99 ครั้งถัดไป: 99 × 20,000 × $0.145 / M = $0.287
- การเรียกใช้ของผู้ใช้ที่ไม่พบในแคช 99 ครั้งถัดไป: 99 × 200 × $1.74 / M = $0.034
- ส่งออก: 100 × 500 × $3.48 / M = $0.174
- รวม: $0.53
ถูกกว่าประมาณ 7 เท่า สำหรับปริมาณงานที่เหมือนกัน ผลของการแคชจะยิ่งโดดเด่นมากขึ้นใน V4-Flash ซึ่งมีอัตราพื้นฐานต่ำอยู่แล้ว
เปรียบเทียบกับ GPT-5.5 และ Claude อย่างไร
การเปรียบเทียบที่ทีมส่วนใหญ่ให้ความสำคัญจริงๆ:
| โมเดล | นำเข้า (มาตรฐาน) | นำเข้า (แคช) | ส่งออก | บริบท |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
สามประเด็นจากการอ่านตารางนี้
- สำหรับโทเค็นส่งออก V4-Pro ถูกกว่า GPT-5.5 ประมาณ 8.6 เท่า และ ถูกกว่า Claude Opus 4.6 ถึง 21 เท่า การส่งออกเป็นส่วนที่ปริมาณงานของเอเจนต์ส่วนใหญ่ใช้จ่ายงบประมาณ ช่องว่างนี้จะเพิ่มขึ้นเรื่อยๆ
- สำหรับนำเข้าที่แคชไว้ V4-Pro ถูกกว่า GPT-5.5 ที่แคชไว้ประมาณ 10 เท่า และ ถูกกว่า Claude ที่แคชไว้ 10 เท่า คำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือ (tool schemas) และบริบท RAG ที่ซ้ำกันจะได้รับผลกระทบมากที่สุดที่นี่
- ในอัตราส่วนเกณฑ์มาตรฐาน V4-Pro เทียบเท่าหรือดีกว่า GPT-5.5 ใน LiveCodeBench (93.5 เทียบกับระดับสูงสุด) และ Codeforces (3206 เทียบกับ 3168) โดยมีค่าใช้จ่ายเพียงเล็กน้อย นั่นคือหัวใจของข้อเสนอคุณค่าแบบ open-weights ดู DeepSeek V4 คืออะไร สำหรับตารางเกณฑ์มาตรฐานฉบับเต็ม
คำเตือนที่ตรงไปตรงมา: Claude ยังคงเหนือกว่า V4-Pro ในเกณฑ์มาตรฐานการดึงข้อมูลบริบทขนาดยาว และ Gemini 3.1 Pro ยังคงนำหน้า MMLU-Pro หากปริมาณงานของคุณขึ้นอยู่กับการดึงข้อมูลแบบ "งมเข็มในมหาสมุทร" ข้ามโทเค็นนับล้าน การประหยัดต่อโทเค็นอาจไม่สามารถชดเชยช่องว่างด้านคุณภาพได้
การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป
สี่ปริมาณงานครอบคลุมกรณีการใช้งานส่วนใหญ่ในการผลิต นี่คือค่าใช้จ่ายของแต่ละปริมาณงานบน V4-Pro (อัตราพื้นฐานแบบไม่พบในแคช; การประหยัดจากการพบในแคชจะเพิ่มขึ้นไปอีก)
1. วงจรการโค้ดแบบเอเจนต์ (Agentic coding loop) (บริบท 50K, ส่งออก 2K, 20 การเรียกใช้ต่อหนึ่งงาน)
- นำเข้า: 50,000 × 20 × $1.74 / M = $1.74
- ส่งออก: 2,000 × 20 × $3.48 / M = $0.14
- ต้นทุนต่องาน: ~$1.88
เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $6.20 ต่องาน ในรูปแบบเดียวกัน
2. ถาม-ตอบเอกสารขนาดยาว (Long-document Q&A) (บริบท 500K, ส่งออก 1K)
- นำเข้า: 500,000 × $1.74 / M = $0.87
- ส่งออก: 1,000 × $3.48 / M = $0.003
- ต้นทุนต่อการเรียกใช้: ~$0.87
เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $2.53 ต่อการเรียกใช้
3. การจัดหมวดหมู่ปริมาณมาก (High-volume classification) (บริบท 2K, ส่งออก 200, 10,000 การเรียกใช้)
ใช้ V4-Flash ที่นี่; V4-Pro อาจเกินความจำเป็น
- นำเข้า: 2,000 × 10,000 × $0.14 / M = $2.80
- ส่งออก: 200 × 10,000 × $0.28 / M = $0.56
- ต้นทุนการทำงาน: ~$3.36
เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $110 สำหรับการทำงานเดียวกัน
4. แชทบอทพร้อมท์ซ้ำ (Repeated-prompt chatbot) (คำสั่งระบบ 10K, โทเค็นผู้ใช้ 500, ส่งออก 1K, 1,000 เซสชัน)
- นำเข้าครั้งแรก: 10,500 × $1.74 / M = $0.018
- นำเข้าที่พบในแคช: 999 × 10,000 × $0.145 / M = $1.45
- การเรียกใช้ของผู้ใช้ที่ไม่พบในแคช: 999 × 500 × $1.74 / M = $0.87
- ส่งออก: 1,000 × 1,000 × $3.48 / M = $3.48
- ต้นทุนการทำงานต่อเซสชัน: ~$5.82
เปรียบเทียบกับ GPT-5.5 ที่มีการแคช ซึ่งมีต้นทุนประมาณ $26.35 สำหรับปริมาณงานเดียวกัน
ค่าใช้จ่ายแอบแฝงที่ต้องระวัง
ราคาที่ระบุไม่ใช่ทั้งหมด สี่รายการต่อไปนี้มักจะสร้างปัญหาให้กับทีมหลังเดือนแรก:
- ภาวะเงินเฟ้อโทเค็นในโหมดการคิด
thinking_maxใช้โทเค็นส่งออกมากกว่าnon-thinkingถึง 3 ถึง 10 เท่าสำหรับพร้อมท์เดียวกัน โทเค็นการให้เหตุผลเหล่านี้จะถูกเรียกเก็บเงินในอัตราการส่งออก กำหนดThink Maxให้อยู่ภายใต้การควบคุม (flag) - การเติบโตของบริบทโดยไม่รู้ตัว วงจรเอเจนต์มักจะป้อนการสนทนาทั้งหมดกลับเข้าไปในแต่ละรอบ ที่บริบทขนาด 1 ล้านโทเค็น นี่จะขยายตัวอย่างรวดเร็ว ตัดหรือสรุปอย่างเข้มข้น
- พายุการลองใหม่ วงจรที่มีข้อผิดพลาดที่ลองใหม่ทุกครั้งที่ได้รับรหัส 500 สามารถเพิ่มค่าใช้จ่ายของคุณเป็นสองเท่าได้ภายในหนึ่งชั่วโมง เพิ่ม exponential backoff และจำกัดการลองใหม่ต่อคำขออย่างเคร่งครัด
- ความผันผวนในการพัฒนา การวนซ้ำพร้อมท์ผ่าน curl จะเรียกใช้บริบททั้งหมดใหม่ทุกครั้ง การใช้ Apidog ช่วยลดปัญหานี้ให้ใกล้เคียงศูนย์ เนื่องจากสามารถแทนที่ตัวแปรได้ ทำให้การปรับแต่งพร้อมท์สามารถลองใหม่ได้ฟรีโดยไม่ต้องพิมพ์ข้อมูลทั้งหมดซ้ำ
ติดตามค่าใช้จ่ายใน Apidog
ขั้นตอนการทำงานที่ทีมส่วนใหญ่ใช้เมื่อบิลเริ่มเป็นเรื่องจริง:
- ดาวน์โหลด Apidog และจัดเก็บ
DEEPSEEK_API_KEYเป็นตัวแปรลับสำหรับแต่ละสภาพแวดล้อม - บันทึกคำขอ POST เดียวไปยัง
https://api.deepseek.com/v1/chat/completions - ในแผงการตอบกลับ ปักหมุด
usage.prompt_tokens,usage.completion_tokens, และusage.reasoning_tokensทุกการเรียกใช้จะแสดงการคำนวณต้นทุนบนหน้าจอเดียวกันกับผลลัพธ์ - กำหนดพารามิเตอร์
modelและthinking_modeเพื่อให้คุณสามารถ A/B ทดสอบ V4-Flash เทียบกับ V4-Pro และ Non-Think เทียบกับ Think Max โดยไม่ต้องทำซ้ำคำขอ - ทำซ้ำชุดข้อมูลเดียวกันสำหรับ GPT-5.5 (คู่มือ GPT-5.5 API ที่เกี่ยวข้องมีเอกสารการตั้งค่า) หน้าต่างเดียว, ผู้ให้บริการทั้งสอง, แสดงค่าใช้จ่ายให้เห็น
ขั้นตอนการทำงานดังกล่าวสามารถป้องกันความประหลาดใจด้านค่าใช้จ่ายประมาณ 80% ที่ปรากฏในใบแจ้งหนี้สิ้นเดือน
สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้
- ใช้ V4-Flash เป็นค่าเริ่มต้น เปลี่ยนไปใช้ V4-Pro เฉพาะเมื่อคุณได้วัดช่องว่างด้านคุณภาพที่ส่งผลต่อรายได้
- ใช้ Non-Think เป็นค่าเริ่มต้น เพิ่มระดับเป็น Think High สำหรับงานที่ยาก สงวน Think Max ไว้สำหรับงานที่ต้องการความถูกต้องแม่นยำสูง
- จำกัด
max_tokensเพดานการส่งออก 384K เป็นมาตรการความปลอดภัย ไม่ใช่เป้าหมาย คำตอบส่วนใหญ่ในการใช้งานจริงพอดีกับ 2K - ส่งข้อมูลการใช้งาน บันทึก
prompt_tokens,completion_tokens, และreasoning_tokensในทุกการเรียกใช้ แจ้งเตือนเมื่อมีโทเค็นการให้เหตุผลเพิ่มขึ้นสูงผิดปกติ ซึ่งบ่งชี้ว่าพร้อมท์อาจเผลอเข้าไปในโหมด Think Max โดยไม่ตั้งใจ
คำถามที่พบบ่อย
มีระดับบริการฟรีหรือไม่? ไม่มีระดับ API ที่ไม่มีค่าใช้จ่ายในการใช้งาน แต่บัญชีใหม่บางครั้งจะได้รับเครดิตทดลองเล็กน้อย สำหรับเส้นทางที่ไม่มีค่าใช้จ่ายนอก API ดู วิธีใช้ DeepSeek V4 ฟรี
การคิดราคาแบบพบในแคชทำงานอย่างไร? ส่วนนำหน้า (Prefixes) ที่มี 1,024 โทเค็นหรือมากกว่าที่ซ้ำกันในการเรียกใช้ภายในบัญชีเดียวกันจะถูกเรียกเก็บเงินในอัตราแบบพบในแคช การเรียกใช้ครั้งแรกจะจ่ายในอัตราแบบไม่พบในแคช; การเรียกใช้ครั้งต่อๆ ไปที่มีส่วนนำหน้าเหมือนกันจะจ่ายในอัตราที่มีส่วนลด การแคชเป็นไปโดยอัตโนมัติ
โหมดการคิดมีค่าใช้จ่ายสูงกว่าหรือไม่? อัตราต่อโทเค็นเท่ากัน โหมดการคิดใช้โทเค็นมากกว่าเพราะโมเดลจะเขียนร่องรอยการให้เหตุผล ติดตาม reasoning_tokens ในอ็อบเจกต์ usage เพื่อวัดต้นทุนที่แท้จริง
ราคาคงที่หรือไม่? DeepSeek มีการเปลี่ยนแปลงราคาเป็นระยะ อัตรา V3.2 ยังคงใช้ได้ตลอดปี 2025 เป็นส่วนใหญ่; ราคา V4 ยังไม่มีวันสิ้นสุดที่ประกาศไว้ ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบประมาณ
V4-Pro และ V4-Flash ถูกเรียกเก็บเงินในอัตราส่งออกเดียวกันหรือไม่? ไม่ใช่. การส่งออกของ V4-Pro คือ $3.48 / M; การส่งออกของ V4-Flash คือ $0.28 / M อัตราส่วน 12.4 เท่านี้เป็นเหตุผลที่ใหญ่ที่สุดในการใช้ V4-Flash เป็นค่าเริ่มต้น
เอนด์พอยต์รูปแบบ Anthropic มีผลต่อราคาหรือไม่? ไม่มี. https://api.deepseek.com/anthropic ใช้อัตราเดียวกันกับเอนด์พอยต์รูปแบบ OpenAI รูปแบบไม่มีผลต่อการเรียกเก็บเงิน
