ราคา DeepSeek V4 API

DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล คือวันที่ 23 เมษายน 2026 และตัวเลขเหล่านี้ได้กำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคาอยู่ที่ $0.14 ต่อโทเค็นนำเข้าหนึ่งล้านโทเค็น และ $0.28 ต่อโทเค็นส่งออกหนึ่งล้านโทเค็น V4-Pro มีราคาอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมีหน้าต่างบริบท (context window) ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K นอกจากนี้ ทั้งสองรุ่นยังมีส่วนลดสำหรับการเรียกใช้ซ้ำ (cache-hit discount) ที่ลดต้นทุนการนำเข้าลง 80% ถึง 90% สำหรับคำสั่ง (prompt) ที่ซ้ำกัน

คู่มือนี้ครอบคลุมอัตราค่าบริการทั้งหมด วิธีที่การแคชบริบท (context caching) เปลี่ยนแปลงต้นทุนต่อการเรียกใช้จริง การเปรียบเทียบอย่างตรงไปตรงมากับ GPT-5.5 และ Claude Opus และสี่วิธีในการควบคุมค่าใช้จ่ายให้คาดการณ์ได้ภายใน Apidog

button

สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคำแนะนำสำหรับนักพัฒนา ดู วิธีใช้ DeepSeek V4 API สำหรับเส้นทางที่ไม่มีค่าใช้จ่าย ดู วิธีใช้ DeepSeek V4 ฟรี

สรุปโดยย่อ

V4-Flash: $0.14 / M สำหรับนำเข้า (ไม่พบในแคช), $0.028 / M สำหรับนำเข้า (พบในแคช), $0.28 / M สำหรับส่งออก
V4-Pro: $1.74 / M สำหรับนำเข้า (ไม่พบในแคช), $0.145 / M สำหรับนำเข้า (พบในแคช), $3.48 / M สำหรับส่งออก
หน้าต่างบริบท (Context window): นำเข้า 1 ล้านโทเค็น, ส่งออก 384K โทเค็น, สำหรับทั้งสองรุ่น
ส่วนลดสำหรับการเรียกใช้ซ้ำ (Cache-hit discount): ประมาณ ลด 80% สำหรับ Flash, ลด 92% สำหรับ Pro ในส่วนนำหน้า (prefixes) ที่ซ้ำกัน
deepseek-chat และ deepseek-reasoner จะเลิกใช้ในวันที่ 24 กรกฎาคม 2026; การเรียกเก็บเงินจะอ้างอิงกับ V4-Flash
ที่อัตราการไม่พบในแคช (cache-miss rates), V4-Pro มีราคาถูกกว่า GPT-5.5 ประมาณ 2.9 เท่า สำหรับนำเข้า และถูกกว่าประมาณ 8.6 เท่า สำหรับส่งออก

ตารางอัตราค่าบริการทั้งหมด

โมเดล	นำเข้า (ไม่พบในแคช)	นำเข้า (พบในแคช)	ส่งออก	บริบท
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M	1M / 384K
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M	1M / 384K
`deepseek-chat` (จะเลิกใช้ 2026-07-24)	อ้างอิง V4-Flash (โหมดไม่คิด)	—	—	—
`deepseek-reasoner` (จะเลิกใช้ 2026-07-24)	อ้างอิง V4-Flash (โหมดคิด)	—	—	—

สามรายละเอียดนี้สำคัญกว่าตัวเลขดิบ

ประการแรก ราคาจะเท่ากันไม่ว่าคุณจะอยู่ในโหมด "คิด" (thinking mode) หรือ "ไม่คิด" (non-thinking mode) รหัสโมเดล (model ID) เป็นตัวกำหนดอัตรา ส่วนโหมดการให้เหตุผลเพียงแค่เปลี่ยนจำนวนโทเค็นที่คุณใช้ในอัตรานั้น

ประการที่สอง การคิดราคาแบบพบในแคช (cache-hit pricing) เป็นไปโดยอัตโนมัติ ทุกคำขอที่มีส่วนนำหน้า (prefix) ซ้ำกันในบัญชีเดียวกันจะได้รับประโยชน์ คุณไม่จำเป็นต้องเลือกใช้หรือตั้งค่าใดๆ ส่วนนำหน้าต้องมีความยาวอย่างน้อย 1,024 โทเค็น และต้องตรงกันทุกไบต์

ประการที่สาม รหัส deepseek-chat และ deepseek-reasoner รุ่นเก่าจะถูกเรียกเก็บเงินเป็นชื่อเรียกแทน (alias) ของ V4-Flash แล้ว หากคุณยังไม่ได้ย้ายข้อมูล คุณจะได้รับคุณภาพ V4-Flash ในราคา V4-Flash อยู่แล้ว กำหนดเส้นตายสำหรับการเลิกใช้รหัสเหล่านี้คือวันที่ 24 กรกฎาคม 2026

การแคชบริบท (Context caching) อธิบายง่ายๆ

การแคชเป็นปัจจัยที่ใหญ่ที่สุดในการควบคุมต้นทุนบน DeepSeek V4 รูปแบบง่ายๆ คือ: สิ่งใดก็ตามที่ซ้ำกันในการเรียกใช้ โดยเฉพาะอย่างยิ่งคำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือเอเจนต์ (agent tool schemas), และบริบท RAG จะถูกเรียกเก็บเงินในอัตราส่วนที่น้อยกว่าอัตรานำเข้าเต็มจำนวนในการเรียกใช้ครั้งที่สองและครั้งต่อๆ ไป

ตัวอย่างที่เป็นรูปธรรม คุณเรียกใช้เอเจนต์ที่มีคำสั่งระบบ (system prompt) 20,000 โทเค็นที่ไม่เคยเปลี่ยนแปลง จากนั้นถามคำถามผู้ใช้ 100 ข้อ แต่ละข้อมี 200 โทเค็น

ไม่มีการแคช:

นำเข้า: 100 การเรียกใช้ × 20,200 โทเค็น × $1.74 / M = $3.52
ส่งออก: 100 การเรียกใช้ × 500 โทเค็น × $3.48 / M = $0.17
รวม: $3.69

มีการแคช (การเรียกใช้ครั้งแรกไม่พบในแคช, 99 ครั้งถัดไปพบในแคช):

นำเข้าครั้งแรก: 20,200 × $1.74 / M = $0.035
ส่วนนำหน้า (prefixes) ที่พบในแคช 99 ครั้งถัดไป: 99 × 20,000 × $0.145 / M = $0.287
การเรียกใช้ของผู้ใช้ที่ไม่พบในแคช 99 ครั้งถัดไป: 99 × 200 × $1.74 / M = $0.034
ส่งออก: 100 × 500 × $3.48 / M = $0.174
รวม: $0.53

ถูกกว่าประมาณ 7 เท่า สำหรับปริมาณงานที่เหมือนกัน ผลของการแคชจะยิ่งโดดเด่นมากขึ้นใน V4-Flash ซึ่งมีอัตราพื้นฐานต่ำอยู่แล้ว

เปรียบเทียบกับ GPT-5.5 และ Claude อย่างไร

การเปรียบเทียบที่ทีมส่วนใหญ่ให้ความสำคัญจริงๆ:

โมเดล	นำเข้า (มาตรฐาน)	นำเข้า (แคช)	ส่งออก	บริบท
DeepSeek V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M	1M
DeepSeek V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M	1M
GPT-5.5	$5 / M	$1.25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1.50 / M	$75 / M	200K

สามประเด็นจากการอ่านตารางนี้

สำหรับโทเค็นส่งออก V4-Pro ถูกกว่า GPT-5.5 ประมาณ 8.6 เท่า และ ถูกกว่า Claude Opus 4.6 ถึง 21 เท่า การส่งออกเป็นส่วนที่ปริมาณงานของเอเจนต์ส่วนใหญ่ใช้จ่ายงบประมาณ ช่องว่างนี้จะเพิ่มขึ้นเรื่อยๆ
สำหรับนำเข้าที่แคชไว้ V4-Pro ถูกกว่า GPT-5.5 ที่แคชไว้ประมาณ 10 เท่า และ ถูกกว่า Claude ที่แคชไว้ 10 เท่า คำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือ (tool schemas) และบริบท RAG ที่ซ้ำกันจะได้รับผลกระทบมากที่สุดที่นี่
ในอัตราส่วนเกณฑ์มาตรฐาน V4-Pro เทียบเท่าหรือดีกว่า GPT-5.5 ใน LiveCodeBench (93.5 เทียบกับระดับสูงสุด) และ Codeforces (3206 เทียบกับ 3168) โดยมีค่าใช้จ่ายเพียงเล็กน้อย นั่นคือหัวใจของข้อเสนอคุณค่าแบบ open-weights ดู DeepSeek V4 คืออะไร สำหรับตารางเกณฑ์มาตรฐานฉบับเต็ม

คำเตือนที่ตรงไปตรงมา: Claude ยังคงเหนือกว่า V4-Pro ในเกณฑ์มาตรฐานการดึงข้อมูลบริบทขนาดยาว และ Gemini 3.1 Pro ยังคงนำหน้า MMLU-Pro หากปริมาณงานของคุณขึ้นอยู่กับการดึงข้อมูลแบบ "งมเข็มในมหาสมุทร" ข้ามโทเค็นนับล้าน การประหยัดต่อโทเค็นอาจไม่สามารถชดเชยช่องว่างด้านคุณภาพได้

การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป

สี่ปริมาณงานครอบคลุมกรณีการใช้งานส่วนใหญ่ในการผลิต นี่คือค่าใช้จ่ายของแต่ละปริมาณงานบน V4-Pro (อัตราพื้นฐานแบบไม่พบในแคช; การประหยัดจากการพบในแคชจะเพิ่มขึ้นไปอีก)

1. วงจรการโค้ดแบบเอเจนต์ (Agentic coding loop) (บริบท 50K, ส่งออก 2K, 20 การเรียกใช้ต่อหนึ่งงาน)

นำเข้า: 50,000 × 20 × $1.74 / M = $1.74
ส่งออก: 2,000 × 20 × $3.48 / M = $0.14
ต้นทุนต่องาน: ~$1.88

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $6.20 ต่องาน ในรูปแบบเดียวกัน

2. ถาม-ตอบเอกสารขนาดยาว (Long-document Q&A) (บริบท 500K, ส่งออก 1K)

นำเข้า: 500,000 × $1.74 / M = $0.87
ส่งออก: 1,000 × $3.48 / M = $0.003
ต้นทุนต่อการเรียกใช้: ~$0.87

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $2.53 ต่อการเรียกใช้

3. การจัดหมวดหมู่ปริมาณมาก (High-volume classification) (บริบท 2K, ส่งออก 200, 10,000 การเรียกใช้)

ใช้ V4-Flash ที่นี่; V4-Pro อาจเกินความจำเป็น

นำเข้า: 2,000 × 10,000 × $0.14 / M = $2.80
ส่งออก: 200 × 10,000 × $0.28 / M = $0.56
ต้นทุนการทำงาน: ~$3.36

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $110 สำหรับการทำงานเดียวกัน

4. แชทบอทพร้อมท์ซ้ำ (Repeated-prompt chatbot) (คำสั่งระบบ 10K, โทเค็นผู้ใช้ 500, ส่งออก 1K, 1,000 เซสชัน)

นำเข้าครั้งแรก: 10,500 × $1.74 / M = $0.018
นำเข้าที่พบในแคช: 999 × 10,000 × $0.145 / M = $1.45
การเรียกใช้ของผู้ใช้ที่ไม่พบในแคช: 999 × 500 × $1.74 / M = $0.87
ส่งออก: 1,000 × 1,000 × $3.48 / M = $3.48
ต้นทุนการทำงานต่อเซสชัน: ~$5.82

เปรียบเทียบกับ GPT-5.5 ที่มีการแคช ซึ่งมีต้นทุนประมาณ $26.35 สำหรับปริมาณงานเดียวกัน

ค่าใช้จ่ายแอบแฝงที่ต้องระวัง

ราคาที่ระบุไม่ใช่ทั้งหมด สี่รายการต่อไปนี้มักจะสร้างปัญหาให้กับทีมหลังเดือนแรก:

ภาวะเงินเฟ้อโทเค็นในโหมดการคิด thinking_max ใช้โทเค็นส่งออกมากกว่า non-thinking ถึง 3 ถึง 10 เท่าสำหรับพร้อมท์เดียวกัน โทเค็นการให้เหตุผลเหล่านี้จะถูกเรียกเก็บเงินในอัตราการส่งออก กำหนด Think Max ให้อยู่ภายใต้การควบคุม (flag)
การเติบโตของบริบทโดยไม่รู้ตัว วงจรเอเจนต์มักจะป้อนการสนทนาทั้งหมดกลับเข้าไปในแต่ละรอบ ที่บริบทขนาด 1 ล้านโทเค็น นี่จะขยายตัวอย่างรวดเร็ว ตัดหรือสรุปอย่างเข้มข้น
พายุการลองใหม่ วงจรที่มีข้อผิดพลาดที่ลองใหม่ทุกครั้งที่ได้รับรหัส 500 สามารถเพิ่มค่าใช้จ่ายของคุณเป็นสองเท่าได้ภายในหนึ่งชั่วโมง เพิ่ม exponential backoff และจำกัดการลองใหม่ต่อคำขออย่างเคร่งครัด
ความผันผวนในการพัฒนา การวนซ้ำพร้อมท์ผ่าน curl จะเรียกใช้บริบททั้งหมดใหม่ทุกครั้ง การใช้ Apidog ช่วยลดปัญหานี้ให้ใกล้เคียงศูนย์ เนื่องจากสามารถแทนที่ตัวแปรได้ ทำให้การปรับแต่งพร้อมท์สามารถลองใหม่ได้ฟรีโดยไม่ต้องพิมพ์ข้อมูลทั้งหมดซ้ำ

ติดตามค่าใช้จ่ายใน Apidog

ขั้นตอนการทำงานที่ทีมส่วนใหญ่ใช้เมื่อบิลเริ่มเป็นเรื่องจริง:

ดาวน์โหลด Apidog และจัดเก็บ DEEPSEEK_API_KEY เป็นตัวแปรลับสำหรับแต่ละสภาพแวดล้อม
บันทึกคำขอ POST เดียวไปยัง https://api.deepseek.com/v1/chat/completions
ในแผงการตอบกลับ ปักหมุด usage.prompt_tokens, usage.completion_tokens, และ usage.reasoning_tokens ทุกการเรียกใช้จะแสดงการคำนวณต้นทุนบนหน้าจอเดียวกันกับผลลัพธ์
กำหนดพารามิเตอร์ model และ thinking_mode เพื่อให้คุณสามารถ A/B ทดสอบ V4-Flash เทียบกับ V4-Pro และ Non-Think เทียบกับ Think Max โดยไม่ต้องทำซ้ำคำขอ
ทำซ้ำชุดข้อมูลเดียวกันสำหรับ GPT-5.5 (คู่มือ GPT-5.5 API ที่เกี่ยวข้องมีเอกสารการตั้งค่า) หน้าต่างเดียว, ผู้ให้บริการทั้งสอง, แสดงค่าใช้จ่ายให้เห็น

ขั้นตอนการทำงานดังกล่าวสามารถป้องกันความประหลาดใจด้านค่าใช้จ่ายประมาณ 80% ที่ปรากฏในใบแจ้งหนี้สิ้นเดือน

สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้

ใช้ V4-Flash เป็นค่าเริ่มต้น เปลี่ยนไปใช้ V4-Pro เฉพาะเมื่อคุณได้วัดช่องว่างด้านคุณภาพที่ส่งผลต่อรายได้
ใช้ Non-Think เป็นค่าเริ่มต้น เพิ่มระดับเป็น Think High สำหรับงานที่ยาก สงวน Think Max ไว้สำหรับงานที่ต้องการความถูกต้องแม่นยำสูง
จำกัด max_tokens เพดานการส่งออก 384K เป็นมาตรการความปลอดภัย ไม่ใช่เป้าหมาย คำตอบส่วนใหญ่ในการใช้งานจริงพอดีกับ 2K
ส่งข้อมูลการใช้งาน บันทึก prompt_tokens, completion_tokens, และ reasoning_tokens ในทุกการเรียกใช้ แจ้งเตือนเมื่อมีโทเค็นการให้เหตุผลเพิ่มขึ้นสูงผิดปกติ ซึ่งบ่งชี้ว่าพร้อมท์อาจเผลอเข้าไปในโหมด Think Max โดยไม่ตั้งใจ

คำถามที่พบบ่อย

มีระดับบริการฟรีหรือไม่? ไม่มีระดับ API ที่ไม่มีค่าใช้จ่ายในการใช้งาน แต่บัญชีใหม่บางครั้งจะได้รับเครดิตทดลองเล็กน้อย สำหรับเส้นทางที่ไม่มีค่าใช้จ่ายนอก API ดู วิธีใช้ DeepSeek V4 ฟรี

การคิดราคาแบบพบในแคชทำงานอย่างไร? ส่วนนำหน้า (Prefixes) ที่มี 1,024 โทเค็นหรือมากกว่าที่ซ้ำกันในการเรียกใช้ภายในบัญชีเดียวกันจะถูกเรียกเก็บเงินในอัตราแบบพบในแคช การเรียกใช้ครั้งแรกจะจ่ายในอัตราแบบไม่พบในแคช; การเรียกใช้ครั้งต่อๆ ไปที่มีส่วนนำหน้าเหมือนกันจะจ่ายในอัตราที่มีส่วนลด การแคชเป็นไปโดยอัตโนมัติ

โหมดการคิดมีค่าใช้จ่ายสูงกว่าหรือไม่? อัตราต่อโทเค็นเท่ากัน โหมดการคิดใช้โทเค็นมากกว่าเพราะโมเดลจะเขียนร่องรอยการให้เหตุผล ติดตาม reasoning_tokens ในอ็อบเจกต์ usage เพื่อวัดต้นทุนที่แท้จริง

ราคาคงที่หรือไม่? DeepSeek มีการเปลี่ยนแปลงราคาเป็นระยะ อัตรา V3.2 ยังคงใช้ได้ตลอดปี 2025 เป็นส่วนใหญ่; ราคา V4 ยังไม่มีวันสิ้นสุดที่ประกาศไว้ ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบประมาณ

V4-Pro และ V4-Flash ถูกเรียกเก็บเงินในอัตราส่งออกเดียวกันหรือไม่? ไม่ใช่. การส่งออกของ V4-Pro คือ $3.48 / M; การส่งออกของ V4-Flash คือ $0.28 / M อัตราส่วน 12.4 เท่านี้เป็นเหตุผลที่ใหญ่ที่สุดในการใช้ V4-Flash เป็นค่าเริ่มต้น

เอนด์พอยต์รูปแบบ Anthropic มีผลต่อราคาหรือไม่? ไม่มี. https://api.deepseek.com/anthropic ใช้อัตราเดียวกันกับเอนด์พอยต์รูปแบบ OpenAI รูปแบบไม่มีผลต่อการเรียกเก็บเงิน