ราคา Claude Opus 4.8: เจาะลึกค่าใช้จ่ายทั้งหมด

Claude Opus 4.8 มีค่าใช้จ่าย $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน อัตรานี้เท่ากับ Opus 4.7 ดังนั้น หากคุณได้ตั้งงบประมาณสำหรับ 4.7 ไว้แล้ว จะไม่มีอะไรเปลี่ยนแปลงเมื่อคุณอัปเกรด ส่วนที่น่าสนใจคือทุกสิ่งที่อยู่รอบตัวเลขหลักนี้: โหมดที่เร็วกว่า, การปรับการใช้โทเค็น, การแคช, และส่วนลดสำหรับการประมวลผลแบบแบตช์ ซึ่งจะส่งผลต่อค่าใช้จ่ายจริงของคุณมากกว่าอัตราพื้นฐานมาก

คู่มือนี้จะอธิบายรายละเอียดเกี่ยวกับสิ่งที่คุณต้องจ่ายจริง พร้อมตัวอย่าง สำหรับภาพรวมของโมเดล โปรดดูที่ Claude Opus 4.8 คืออะไร หากต้องการเริ่มต้นใช้งาน โปรดดู คู่มือ API

ตารางอัตราค่าบริการ

โหมด	อินพุต (ต่อ 1 ล้านโทเค็น)	เอาต์พุต (ต่อ 1 ล้านโทเค็น)	ความเร็ว
มาตรฐาน	$5	$25	พื้นฐาน
เร็ว	$10	$50	เอาต์พุตเร็วขึ้น 2.5 เท่า

มีสองสิ่งที่โดดเด่น อย่างแรก โทเค็นเอาต์พุตมีราคาแพงกว่าโทเค็นอินพุตถึงห้าเท่า ดังนั้นความยาวของคำตอบของ Claude จึงเป็นตัวกำหนดค่าใช้จ่ายของคุณ ไม่ใช่ขนาดของพรอมต์ของคุณ อย่างที่สอง โหมดเร็วเพิ่มอัตราเป็นสองเท่าเพื่อแลกกับการส่งเอาต์พุตที่เร็วขึ้น 2.5 เท่า Anthropic ระบุว่าโหมดเร็วมีราคาถูกกว่ารุ่นก่อนหน้าประมาณสามเท่า ดังนั้นค่าใช้จ่ายที่เพิ่มขึ้นสำหรับความเร็วจึงลดลงเมื่อรุ่นใหม่ๆ ออกมา

คุณสามารถตรวจสอบอัตราปัจจุบันได้ใน เอกสารราคาของ Anthropic

โหมดเร็วมีไว้สำหรับอะไร

โหมดมาตรฐานเป็นค่าเริ่มต้นและเป็นทางเลือกที่เหมาะสมสำหรับงานส่วนใหญ่ โหมดเร็วมีไว้สำหรับกรณีที่ความหน่วงเวลาเป็นสิ่งสำคัญ เช่น ผู้ช่วยเขียนโค้ดแบบเรียลไทม์, เอเจนต์แบบโต้ตอบ, หรืออะไรก็ตามที่ผู้ใช้กำลังรอการเคลื่อนไหวของเคอร์เซอร์ คุณจ่ายเป็นสองเท่าต่อโทเค็นเพื่อแลกกับเอาต์พุตที่สตรีมเร็วขึ้น 2.5 เท่า

การตัดสินใจนั้นง่าย หากมนุษย์กำลังรอคำตอบแบบเรียลไทม์ โหมดเร็วก็อาจคุ้มค่า หากงานทำงานอยู่เบื้องหลัง เช่น agent loop, batch job, หรือ scheduled task ให้ใช้โหมดมาตรฐานต่อไปเพื่อประหยัดค่าใช้จ่าย

ระดับความพยายามส่งผลต่อค่าใช้จ่ายของคุณอย่างไร

นี่คือจุดที่ทีมส่วนใหญ่มักจะมองข้าม พารามิเตอร์ effort ของ Opus 4.8 ควบคุมจำนวนโทเค็นที่โมเดลใช้ตลอดทั้งการตอบกลับ รวมถึงการเรียกใช้เครื่องมือด้วย เนื่องจากเอาต์พุตมีราคาแพงกว่า การลดระดับความพยายามสำหรับงานที่ไม่ต้องการการคิดวิเคราะห์เชิงลึกจะช่วยลดต้นทุนได้โดยตรง

ห้าระดับ จากถูกที่สุดไปแพงที่สุดในแง่ของโทเค็น:

low: คำตอบกระชับ, ใช้เครื่องมือน้อยที่สุด, ค่าใช้จ่ายต่ำที่สุด
medium: สมดุล
high: ค่าเริ่มต้น, ละเอียดถี่ถ้วน
xhigh: การคิดวิเคราะห์เชิงลึก, ใช้เครื่องมือมากขึ้น, แนะนำสำหรับงานเขียนโค้ด
max: ไม่มีข้อจำกัด, ค่าใช้จ่ายสูงสุด

งานจำแนกประเภทที่ใช้ความพยายามระดับ low อาจใช้โทเค็นเอาต์พุตเพียงหนึ่งในสิบของที่ใช้ในระดับ high โมเดลเดียวกัน อัตราเดียวกัน แต่ค่าใช้จ่ายต่างกันมาก แนวทางเกี่ยวกับระดับความพยายาม ของ Anthropic อธิบายว่าแต่ละระดับมีคุณภาพอย่างไร ข้อสรุปคือ: ควรปรับระดับความพยายามให้เหมาะสมกับงานแทนที่จะจ่ายสำหรับระดับ high ในทุกที่

สถานการณ์จำลองค่าใช้จ่าย

ตัวเลขทั้งหมดใช้อัตราค่าบริการมาตรฐาน ($5 สำหรับอินพุต, $25 สำหรับเอาต์พุต ต่อล้านโทเค็น) เป็นเพียงตัวอย่างเท่านั้น จำนวนโทเค็นจริงของคุณอาจแตกต่างกันไป

สถานการณ์ที่ 1: การสนทนาของแชทบอทหนึ่งรอบ 1,000 โทเค็นอินพุต, 500 โทเค็นเอาต์พุต

อินพุต: 1,000 / 1,000,000 x $5 = $0.005
เอาต์พุต: 500 / 1,000,000 x $25 = $0.0125
รวม: ประมาณ $0.018 ต่อรอบ

ที่ระดับความพยายาม low เอาต์พุตจะลดลง ทำให้ค่าใช้จ่ายต่อรอบน้อยกว่าหนึ่งเซ็นต์

สถานการณ์ที่ 2: งานเขียนโค้ดโดยเอเจนต์ 50,000 โทเค็นอินพุตสำหรับบริบทของ repo, 8,000 โทเค็นเอาต์พุตที่ระดับ xhigh

อินพุต: 50,000 / 1,000,000 x $5 = $0.25
เอาต์พุต: 8,000 / 1,000,000 x $25 = $0.20
รวม: ประมาณ $0.45 ต่องาน

หากบริบท 50K นั้นมีการใช้งานซ้ำในการเรียกใช้หลายครั้ง การแคชพรอมต์จะลดค่าใช้จ่ายอินพุตลงเหลือประมาณ $0.025 ทำให้ค่าใช้จ่ายทั้งหมดลดลงเหลือประมาณ $0.23

สถานการณ์ที่ 3: งานประมวลผลแบบแบตช์ข้ามคืน 1,000,000 โทเค็นอินพุต, 200,000 โทเค็นเอาต์พุต, รันผ่าน Batch API พร้อมส่วนลด 50%

อินพุต: 1,000,000 / 1,000,000 x $5 x 0.5 = $2.50
เอาต์พุต: 200,000 / 1,000,000 x $25 x 0.5 = $2.50
รวม: ประมาณ $5.00 สำหรับทั้งแบตช์

สำหรับการเปรียบเทียบกับโมเดลที่ถูกกว่า โปรดดู รายละเอียดราคาของ Gemini 3.5 Flash และ ค่าใช้จ่าย API ของ Xiaomi MiMo v2.5

การแคชพรอมต์: การประหยัดค่าใช้จ่ายที่มากที่สุด

หากคุณส่งพรอมต์ระบบ เอกสาร หรือโค้ดเบสเดียวกันในการเรียกใช้ทุกครั้ง คุณกำลังจ่ายราคาอินพุตเต็มสำหรับโทเค็นที่โมเดลเคยเห็นแล้ว การแคชพรอมต์ช่วยแก้ไขปัญหานี้ การอ่านอินพุตที่แคชไว้จะถูกเรียกเก็บเงินในอัตราส่วนเล็กน้อยของอัตราอินพุตปกติ ซึ่งประมาณหนึ่งในสิบ หลังจากการเขียนแคชครั้งแรก

เอเจนต์ที่ใช้บริบทขนาดยาวจะประหยัดได้มากที่สุด พรอมต์ระบบขนาด 50K โทเค็นที่ถูกเรียกเก็บเงินเต็มอัตราในการเรียกใช้ทุกครั้งนั้นมีราคาแพง แต่เมื่อแคชแล้ว ส่วนที่ซ้ำกันจะมีค่าใช้จ่ายเกือบเป็นศูนย์ การเรียกใช้ครั้งแรกจะเขียนแคช การเรียกใช้ทุกครั้งหลังจากนั้นจะอ่านจากแคชด้วยราคาถูก

Batch API และเอาต์พุตขนาดใหญ่

Batch API จะรันงานโดยมีส่วนลดเมื่อคุณไม่ต้องการคำตอบแบบเรียลไทม์ ส่งชุดคำขอ รับผลลัพธ์กลับภายในช่วงเวลาของแบตช์ และจ่ายน้อยลงต่อโทเค็น นอกจากนี้ยังเพิ่มขีดจำกัดของเอาต์พุต: Opus 4.8 รองรับเอาต์พุตสูงสุด 300K โทเค็นผ่าน Batch API ด้วยเฮดเดอร์เบต้า output-300k-2026-03-24 เทียบกับ 128K บนเอนด์พอยต์แบบซิงโครนัส

ใช้สำหรับการประเมินผล, การสรุปข้อมูลจำนวนมาก, การติดป้ายข้อมูล, และ pipeline ใดๆ ที่ความหน่วงเวลาไม่กี่นาทีไม่เป็นปัญหา

ราคา Opus ในแต่ละรุ่น

Opus 4.8 ยังคงราคาเดิม เรื่องราวคือราคาลดลงไปมากแค่ไหนเมื่อสองรุ่นที่แล้ว:

โมเดล	อินพุต (ต่อ 1 ล้าน)	เอาต์พุต (ต่อ 1 ล้าน)
Opus 4.1	$15	$75
Opus 4.5	$5	$25
Opus 4.6	$5	$25
Opus 4.7	$5	$25
Opus 4.8	$5	$25

Opus ลดราคาจาก $15/$75 เหลือ $5/$25 ในรุ่น 4.5 และยังคงราคานั้นมาโดยตลอด ในขณะที่โมเดลเบื้องหลังราคาก็ได้รับการปรับปรุงอย่างต่อเนื่อง คุณกำลังได้รับคุณภาพของ 4.8 ในราคาของ 4.5 สำหรับการเปรียบเทียบกับเรือธงของผู้จำหน่ายรายอื่น โปรดดู Opus 4.8 vs GPT-5.5 vs Gemini 3.5

รายการตรวจสอบการเพิ่มประสิทธิภาพต้นทุน

ก่อนที่คุณจะปรับขนาด Opus 4.8 ให้ตรวจสอบรายการนี้:

กำหนดระดับความพยายามสำหรับแต่ละงาน อย่าจ่ายค่า high สำหรับการจำแนกประเภท หรือ xhigh สำหรับการค้นหาข้อมูล
แคชบริบทที่ใช้ซ้ำ พรอมต์ระบบ เอกสาร และโค้ดเบสควรถูกแคชไว้
รวมงานที่ไม่เร่งด่วนเข้าเป็นแบตช์ ย้ายงานประเมินผลและงานจำนวนมากไปที่ Batch API
กำหนดขีดจำกัด max_tokens อย่างสมเหตุสมผล เพื่อจำกัดค่าใช้จ่ายเอาต์พุตสูงสุดต่อการเรียกใช้
ใช้โหมดมาตรฐานต่อไป เว้นแต่ผู้ใช้กำลังรอคำตอบแบบเรียลไทม์
จับตาดูระดับการใช้งาน อัตราการจำกัดและการใช้จ่ายจะเพิ่มขึ้นพร้อมกัน; การเปลี่ยนแปลงขีดจำกัดรายสัปดาห์ของ Claude Code เป็นเครื่องเตือนใจให้ติดตามโควต้า

ติดตามค่าใช้จ่ายจริงของคุณด้วย Apidog

ค่าใช้จ่ายโดยประมาณและค่าใช้จ่ายจริงจะแตกต่างกันอย่างรวดเร็วเมื่อคุณเริ่มใช้งานจริง เนื่องจากการตอบกลับจริงมีความยาวและการเรียกใช้เครื่องมือที่แตกต่างกัน วิธีที่จะตรวจสอบได้อย่างถูกต้องคือการตรวจสอบออบเจกต์ usage ที่ทุกการตอบกลับของ Messages API ส่งคืน ซึ่งจะรายงานจำนวนโทเค็นอินพุตและเอาต์พุตต่อการเรียกใช้

Apidog ทำให้สิ่งนี้มองเห็นได้:

ส่งคำขอ Opus 4.8 จริงและอ่านบล็อก usage ในการตอบกลับ
เปรียบเทียบจำนวนโทเค็นในระดับ effort ต่างๆ บนพรอมต์เดียวกัน เพื่อดูความแตกต่างของค่าใช้จ่ายโดยตรง
บันทึกคำขอสำหรับแต่ละ workload และรันซ้ำเมื่อพรอมต์ของคุณเปลี่ยนแปลง
จำลองเอนด์พอยต์เพื่อให้คุณสามารถสร้างและทดสอบได้โดยไม่ต้องใช้โทเค็น

ดาวน์โหลด Apidog กำหนดคำขอไปยัง Messages endpoint และรันพรอมต์เดียวกันที่ระดับ low, high, และ xhigh จำนวนโทเค็นจะบอกคุณอย่างชัดเจนว่าแต่ละระดับความพยายามมีค่าใช้จ่ายเท่าไร ก่อนที่คุณจะนำไปใช้จริงในการผลิต

คำถามที่พบบ่อย

Claude Opus 4.8 มีค่าใช้จ่ายเท่าไร? $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน โหมดเร็วมีค่าใช้จ่าย $10 และ $50 เพื่อให้ได้เอาต์พุตที่เร็วขึ้น 2.5 เท่า

Opus 4.8 แพงกว่า Opus 4.7 หรือไม่? ไม่ อัตราต่อโทเค็นเท่ากัน ดังนั้นการอัปเกรดจาก 4.7 จะไม่เปลี่ยนแปลงค่าใช้จ่ายของคุณ

ความแตกต่างระหว่างราคาโหมดมาตรฐานและโหมดเร็วคืออะไร? โหมดเร็วเพิ่มอัตราต่อโทเค็นเป็นสองเท่าเพื่อแลกกับเอาต์พุตที่สตรีมเร็วขึ้นประมาณ 2.5 เท่า ใช้เฉพาะเมื่อความหน่วงเวลาเป็นสิ่งสำคัญสำหรับผู้ใช้ที่กำลังรอ

ฉันจะลดค่าใช้จ่าย Opus 4.8 ได้อย่างไร? ลดระดับ effort สำหรับงานที่ง่ายกว่า แคชเนื้อหาพรอมต์ที่ซ้ำกัน ประมวลผลงานที่ไม่เร่งด่วนเป็นแบตช์ และกำหนด max_tokens ให้กระชับ โทเค็นเอาต์พุตเป็นตัวขับเคลื่อนค่าใช้จ่ายหลัก

การแคชพรอมต์ช่วยประหยัดเงินได้จริงหรือ? ใช่ หลังจากที่การเรียกใช้ครั้งแรกเขียนแคชแล้ว อินพุตที่ซ้ำกันจะถูกอ่านในอัตราประมาณหนึ่งในสิบของอัตราอินพุตปกติ เอเจนต์ที่ใช้บริบทขนาดยาวจะประหยัดได้มากที่สุด

Opus 4.8 สามารถสร้างเอาต์พุตได้กี่โทเค็น? สูงสุด 128K บน Messages API แบบซิงโครนัส และสูงสุด 300K ผ่าน Batch API ด้วยเฮดเดอร์เบต้า output-300k-2026-03-24

ฉันจะดูการใช้โทเค็นต่อการเรียกใช้ได้ที่ไหน? ในออบเจกต์ usage บนทุกการตอบกลับของ Messages API เครื่องมืออย่าง Apidog จะแสดงข้อมูลนี้เพื่อให้คุณสามารถเปรียบเทียบค่าใช้จ่ายในแต่ละระดับความพยายามได้