ราคา DeepSeek V4 API

Ashley Innocent

Ashley Innocent

24 April 2026

ราคา DeepSeek V4 API

Apidog สำหรับองค์กร

ติดตั้งภายในองค์กร

SSO & RBAC

รองรับ SOC 2

สำรวจ Apidog Enterprise

DeepSeek ได้ประกาศราคา V4 ในวันเดียวกับที่เปิดตัวโมเดล คือวันที่ 23 เมษายน 2026 และตัวเลขเหล่านี้ได้กำหนดมาตรฐานใหม่สำหรับ AI ระดับแนวหน้า V4-Flash มีราคาอยู่ที่ $0.14 ต่อโทเค็นนำเข้าหนึ่งล้านโทเค็น และ $0.28 ต่อโทเค็นส่งออกหนึ่งล้านโทเค็น V4-Pro มีราคาอยู่ที่ $1.74 สำหรับนำเข้า และ $3.48 สำหรับส่งออก ทั้งสองรุ่นมีหน้าต่างบริบท (context window) ขนาด 1 ล้านโทเค็น และโทเค็นส่งออกสูงสุด 384K นอกจากนี้ ทั้งสองรุ่นยังมีส่วนลดสำหรับการเรียกใช้ซ้ำ (cache-hit discount) ที่ลดต้นทุนการนำเข้าลง 80% ถึง 90% สำหรับคำสั่ง (prompt) ที่ซ้ำกัน

คู่มือนี้ครอบคลุมอัตราค่าบริการทั้งหมด วิธีที่การแคชบริบท (context caching) เปลี่ยนแปลงต้นทุนต่อการเรียกใช้จริง การเปรียบเทียบอย่างตรงไปตรงมากับ GPT-5.5 และ Claude Opus และสี่วิธีในการควบคุมค่าใช้จ่ายให้คาดการณ์ได้ภายใน Apidog

button

สำหรับภาพรวมผลิตภัณฑ์ ดู DeepSeek V4 คืออะไร สำหรับคำแนะนำสำหรับนักพัฒนา ดู วิธีใช้ DeepSeek V4 API สำหรับเส้นทางที่ไม่มีค่าใช้จ่าย ดู วิธีใช้ DeepSeek V4 ฟรี

สรุปโดยย่อ

ตารางอัตราค่าบริการทั้งหมด

โมเดล นำเข้า (ไม่พบในแคช) นำเข้า (พบในแคช) ส่งออก บริบท
deepseek-v4-flash $0.14 / M $0.028 / M $0.28 / M 1M / 384K
deepseek-v4-pro $1.74 / M $0.145 / M $3.48 / M 1M / 384K
deepseek-chat (จะเลิกใช้ 2026-07-24) อ้างอิง V4-Flash (โหมดไม่คิด)
deepseek-reasoner (จะเลิกใช้ 2026-07-24) อ้างอิง V4-Flash (โหมดคิด)

สามรายละเอียดนี้สำคัญกว่าตัวเลขดิบ

ประการแรก ราคาจะเท่ากันไม่ว่าคุณจะอยู่ในโหมด "คิด" (thinking mode) หรือ "ไม่คิด" (non-thinking mode) รหัสโมเดล (model ID) เป็นตัวกำหนดอัตรา ส่วนโหมดการให้เหตุผลเพียงแค่เปลี่ยนจำนวนโทเค็นที่คุณใช้ในอัตรานั้น

ประการที่สอง การคิดราคาแบบพบในแคช (cache-hit pricing) เป็นไปโดยอัตโนมัติ ทุกคำขอที่มีส่วนนำหน้า (prefix) ซ้ำกันในบัญชีเดียวกันจะได้รับประโยชน์ คุณไม่จำเป็นต้องเลือกใช้หรือตั้งค่าใดๆ ส่วนนำหน้าต้องมีความยาวอย่างน้อย 1,024 โทเค็น และต้องตรงกันทุกไบต์

ประการที่สาม รหัส deepseek-chat และ deepseek-reasoner รุ่นเก่าจะถูกเรียกเก็บเงินเป็นชื่อเรียกแทน (alias) ของ V4-Flash แล้ว หากคุณยังไม่ได้ย้ายข้อมูล คุณจะได้รับคุณภาพ V4-Flash ในราคา V4-Flash อยู่แล้ว กำหนดเส้นตายสำหรับการเลิกใช้รหัสเหล่านี้คือวันที่ 24 กรกฎาคม 2026

การแคชบริบท (Context caching) อธิบายง่ายๆ

การแคชเป็นปัจจัยที่ใหญ่ที่สุดในการควบคุมต้นทุนบน DeepSeek V4 รูปแบบง่ายๆ คือ: สิ่งใดก็ตามที่ซ้ำกันในการเรียกใช้ โดยเฉพาะอย่างยิ่งคำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือเอเจนต์ (agent tool schemas), และบริบท RAG จะถูกเรียกเก็บเงินในอัตราส่วนที่น้อยกว่าอัตรานำเข้าเต็มจำนวนในการเรียกใช้ครั้งที่สองและครั้งต่อๆ ไป

ตัวอย่างที่เป็นรูปธรรม คุณเรียกใช้เอเจนต์ที่มีคำสั่งระบบ (system prompt) 20,000 โทเค็นที่ไม่เคยเปลี่ยนแปลง จากนั้นถามคำถามผู้ใช้ 100 ข้อ แต่ละข้อมี 200 โทเค็น

ไม่มีการแคช:

มีการแคช (การเรียกใช้ครั้งแรกไม่พบในแคช, 99 ครั้งถัดไปพบในแคช):

ถูกกว่าประมาณ 7 เท่า สำหรับปริมาณงานที่เหมือนกัน ผลของการแคชจะยิ่งโดดเด่นมากขึ้นใน V4-Flash ซึ่งมีอัตราพื้นฐานต่ำอยู่แล้ว

เปรียบเทียบกับ GPT-5.5 และ Claude อย่างไร

การเปรียบเทียบที่ทีมส่วนใหญ่ให้ความสำคัญจริงๆ:

โมเดล นำเข้า (มาตรฐาน) นำเข้า (แคช) ส่งออก บริบท
DeepSeek V4-Flash $0.14 / M $0.028 / M $0.28 / M 1M
DeepSeek V4-Pro $1.74 / M $0.145 / M $3.48 / M 1M
GPT-5.5 $5 / M $1.25 / M $30 / M 1M
GPT-5.5 Pro $30 / M $180 / M 1M
Claude Opus 4.6 $15 / M $1.50 / M $75 / M 200K

สามประเด็นจากการอ่านตารางนี้

  1. สำหรับโทเค็นส่งออก V4-Pro ถูกกว่า GPT-5.5 ประมาณ 8.6 เท่า และ ถูกกว่า Claude Opus 4.6 ถึง 21 เท่า การส่งออกเป็นส่วนที่ปริมาณงานของเอเจนต์ส่วนใหญ่ใช้จ่ายงบประมาณ ช่องว่างนี้จะเพิ่มขึ้นเรื่อยๆ
  2. สำหรับนำเข้าที่แคชไว้ V4-Pro ถูกกว่า GPT-5.5 ที่แคชไว้ประมาณ 10 เท่า และ ถูกกว่า Claude ที่แคชไว้ 10 เท่า คำสั่งระบบ (system prompt) ที่ยาว, สคีมาเครื่องมือ (tool schemas) และบริบท RAG ที่ซ้ำกันจะได้รับผลกระทบมากที่สุดที่นี่
  3. ในอัตราส่วนเกณฑ์มาตรฐาน V4-Pro เทียบเท่าหรือดีกว่า GPT-5.5 ใน LiveCodeBench (93.5 เทียบกับระดับสูงสุด) และ Codeforces (3206 เทียบกับ 3168) โดยมีค่าใช้จ่ายเพียงเล็กน้อย นั่นคือหัวใจของข้อเสนอคุณค่าแบบ open-weights ดู DeepSeek V4 คืออะไร สำหรับตารางเกณฑ์มาตรฐานฉบับเต็ม

คำเตือนที่ตรงไปตรงมา: Claude ยังคงเหนือกว่า V4-Pro ในเกณฑ์มาตรฐานการดึงข้อมูลบริบทขนาดยาว และ Gemini 3.1 Pro ยังคงนำหน้า MMLU-Pro หากปริมาณงานของคุณขึ้นอยู่กับการดึงข้อมูลแบบ "งมเข็มในมหาสมุทร" ข้ามโทเค็นนับล้าน การประหยัดต่อโทเค็นอาจไม่สามารถชดเชยช่องว่างด้านคุณภาพได้

การสร้างแบบจำลองต้นทุนสำหรับปริมาณงานทั่วไป

สี่ปริมาณงานครอบคลุมกรณีการใช้งานส่วนใหญ่ในการผลิต นี่คือค่าใช้จ่ายของแต่ละปริมาณงานบน V4-Pro (อัตราพื้นฐานแบบไม่พบในแคช; การประหยัดจากการพบในแคชจะเพิ่มขึ้นไปอีก)

1. วงจรการโค้ดแบบเอเจนต์ (Agentic coding loop) (บริบท 50K, ส่งออก 2K, 20 การเรียกใช้ต่อหนึ่งงาน)

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $6.20 ต่องาน ในรูปแบบเดียวกัน

2. ถาม-ตอบเอกสารขนาดยาว (Long-document Q&A) (บริบท 500K, ส่งออก 1K)

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $2.53 ต่อการเรียกใช้

3. การจัดหมวดหมู่ปริมาณมาก (High-volume classification) (บริบท 2K, ส่งออก 200, 10,000 การเรียกใช้)

ใช้ V4-Flash ที่นี่; V4-Pro อาจเกินความจำเป็น

เปรียบเทียบกับ GPT-5.5 ที่มีต้นทุนประมาณ $110 สำหรับการทำงานเดียวกัน

4. แชทบอทพร้อมท์ซ้ำ (Repeated-prompt chatbot) (คำสั่งระบบ 10K, โทเค็นผู้ใช้ 500, ส่งออก 1K, 1,000 เซสชัน)

เปรียบเทียบกับ GPT-5.5 ที่มีการแคช ซึ่งมีต้นทุนประมาณ $26.35 สำหรับปริมาณงานเดียวกัน

ค่าใช้จ่ายแอบแฝงที่ต้องระวัง

ราคาที่ระบุไม่ใช่ทั้งหมด สี่รายการต่อไปนี้มักจะสร้างปัญหาให้กับทีมหลังเดือนแรก:

  1. ภาวะเงินเฟ้อโทเค็นในโหมดการคิด thinking_max ใช้โทเค็นส่งออกมากกว่า non-thinking ถึง 3 ถึง 10 เท่าสำหรับพร้อมท์เดียวกัน โทเค็นการให้เหตุผลเหล่านี้จะถูกเรียกเก็บเงินในอัตราการส่งออก กำหนด Think Max ให้อยู่ภายใต้การควบคุม (flag)
  2. การเติบโตของบริบทโดยไม่รู้ตัว วงจรเอเจนต์มักจะป้อนการสนทนาทั้งหมดกลับเข้าไปในแต่ละรอบ ที่บริบทขนาด 1 ล้านโทเค็น นี่จะขยายตัวอย่างรวดเร็ว ตัดหรือสรุปอย่างเข้มข้น
  3. พายุการลองใหม่ วงจรที่มีข้อผิดพลาดที่ลองใหม่ทุกครั้งที่ได้รับรหัส 500 สามารถเพิ่มค่าใช้จ่ายของคุณเป็นสองเท่าได้ภายในหนึ่งชั่วโมง เพิ่ม exponential backoff และจำกัดการลองใหม่ต่อคำขออย่างเคร่งครัด
  4. ความผันผวนในการพัฒนา การวนซ้ำพร้อมท์ผ่าน curl จะเรียกใช้บริบททั้งหมดใหม่ทุกครั้ง การใช้ Apidog ช่วยลดปัญหานี้ให้ใกล้เคียงศูนย์ เนื่องจากสามารถแทนที่ตัวแปรได้ ทำให้การปรับแต่งพร้อมท์สามารถลองใหม่ได้ฟรีโดยไม่ต้องพิมพ์ข้อมูลทั้งหมดซ้ำ

ติดตามค่าใช้จ่ายใน Apidog

ขั้นตอนการทำงานที่ทีมส่วนใหญ่ใช้เมื่อบิลเริ่มเป็นเรื่องจริง:

  1. ดาวน์โหลด Apidog และจัดเก็บ DEEPSEEK_API_KEY เป็นตัวแปรลับสำหรับแต่ละสภาพแวดล้อม
  2. บันทึกคำขอ POST เดียวไปยัง https://api.deepseek.com/v1/chat/completions
  3. ในแผงการตอบกลับ ปักหมุด usage.prompt_tokens, usage.completion_tokens, และ usage.reasoning_tokens ทุกการเรียกใช้จะแสดงการคำนวณต้นทุนบนหน้าจอเดียวกันกับผลลัพธ์
  4. กำหนดพารามิเตอร์ model และ thinking_mode เพื่อให้คุณสามารถ A/B ทดสอบ V4-Flash เทียบกับ V4-Pro และ Non-Think เทียบกับ Think Max โดยไม่ต้องทำซ้ำคำขอ
  5. ทำซ้ำชุดข้อมูลเดียวกันสำหรับ GPT-5.5 (คู่มือ GPT-5.5 API ที่เกี่ยวข้องมีเอกสารการตั้งค่า) หน้าต่างเดียว, ผู้ให้บริการทั้งสอง, แสดงค่าใช้จ่ายให้เห็น

ขั้นตอนการทำงานดังกล่าวสามารถป้องกันความประหลาดใจด้านค่าใช้จ่ายประมาณ 80% ที่ปรากฏในใบแจ้งหนี้สิ้นเดือน

สี่กฎที่ทำให้ค่าใช้จ่ายคาดการณ์ได้

  1. ใช้ V4-Flash เป็นค่าเริ่มต้น เปลี่ยนไปใช้ V4-Pro เฉพาะเมื่อคุณได้วัดช่องว่างด้านคุณภาพที่ส่งผลต่อรายได้
  2. ใช้ Non-Think เป็นค่าเริ่มต้น เพิ่มระดับเป็น Think High สำหรับงานที่ยาก สงวน Think Max ไว้สำหรับงานที่ต้องการความถูกต้องแม่นยำสูง
  3. จำกัด max_tokens เพดานการส่งออก 384K เป็นมาตรการความปลอดภัย ไม่ใช่เป้าหมาย คำตอบส่วนใหญ่ในการใช้งานจริงพอดีกับ 2K
  4. ส่งข้อมูลการใช้งาน บันทึก prompt_tokens, completion_tokens, และ reasoning_tokens ในทุกการเรียกใช้ แจ้งเตือนเมื่อมีโทเค็นการให้เหตุผลเพิ่มขึ้นสูงผิดปกติ ซึ่งบ่งชี้ว่าพร้อมท์อาจเผลอเข้าไปในโหมด Think Max โดยไม่ตั้งใจ

คำถามที่พบบ่อย

มีระดับบริการฟรีหรือไม่? ไม่มีระดับ API ที่ไม่มีค่าใช้จ่ายในการใช้งาน แต่บัญชีใหม่บางครั้งจะได้รับเครดิตทดลองเล็กน้อย สำหรับเส้นทางที่ไม่มีค่าใช้จ่ายนอก API ดู วิธีใช้ DeepSeek V4 ฟรี

การคิดราคาแบบพบในแคชทำงานอย่างไร? ส่วนนำหน้า (Prefixes) ที่มี 1,024 โทเค็นหรือมากกว่าที่ซ้ำกันในการเรียกใช้ภายในบัญชีเดียวกันจะถูกเรียกเก็บเงินในอัตราแบบพบในแคช การเรียกใช้ครั้งแรกจะจ่ายในอัตราแบบไม่พบในแคช; การเรียกใช้ครั้งต่อๆ ไปที่มีส่วนนำหน้าเหมือนกันจะจ่ายในอัตราที่มีส่วนลด การแคชเป็นไปโดยอัตโนมัติ

โหมดการคิดมีค่าใช้จ่ายสูงกว่าหรือไม่? อัตราต่อโทเค็นเท่ากัน โหมดการคิดใช้โทเค็นมากกว่าเพราะโมเดลจะเขียนร่องรอยการให้เหตุผล ติดตาม reasoning_tokens ในอ็อบเจกต์ usage เพื่อวัดต้นทุนที่แท้จริง

ราคาคงที่หรือไม่? DeepSeek มีการเปลี่ยนแปลงราคาเป็นระยะ อัตรา V3.2 ยังคงใช้ได้ตลอดปี 2025 เป็นส่วนใหญ่; ราคา V4 ยังไม่มีวันสิ้นสุดที่ประกาศไว้ ตรวจสอบ หน้าอัตราค่าบริการปัจจุบัน ก่อนตั้งงบประมาณ

V4-Pro และ V4-Flash ถูกเรียกเก็บเงินในอัตราส่งออกเดียวกันหรือไม่? ไม่ใช่. การส่งออกของ V4-Pro คือ $3.48 / M; การส่งออกของ V4-Flash คือ $0.28 / M อัตราส่วน 12.4 เท่านี้เป็นเหตุผลที่ใหญ่ที่สุดในการใช้ V4-Flash เป็นค่าเริ่มต้น

เอนด์พอยต์รูปแบบ Anthropic มีผลต่อราคาหรือไม่? ไม่มี. https://api.deepseek.com/anthropic ใช้อัตราเดียวกันกับเอนด์พอยต์รูปแบบ OpenAI รูปแบบไม่มีผลต่อการเรียกเก็บเงิน

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API