Claude Opus 4.8 มีค่าใช้จ่าย $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน อัตรานี้เท่ากับ Opus 4.7 ดังนั้น หากคุณได้ตั้งงบประมาณสำหรับ 4.7 ไว้แล้ว จะไม่มีอะไรเปลี่ยนแปลงเมื่อคุณอัปเกรด ส่วนที่น่าสนใจคือทุกสิ่งที่อยู่รอบตัวเลขหลักนี้: โหมดที่เร็วกว่า, การปรับการใช้โทเค็น, การแคช, และส่วนลดสำหรับการประมวลผลแบบแบตช์ ซึ่งจะส่งผลต่อค่าใช้จ่ายจริงของคุณมากกว่าอัตราพื้นฐานมาก
คู่มือนี้จะอธิบายรายละเอียดเกี่ยวกับสิ่งที่คุณต้องจ่ายจริง พร้อมตัวอย่าง สำหรับภาพรวมของโมเดล โปรดดูที่ Claude Opus 4.8 คืออะไร หากต้องการเริ่มต้นใช้งาน โปรดดู คู่มือ API
ตารางอัตราค่าบริการ
| โหมด | อินพุต (ต่อ 1 ล้านโทเค็น) | เอาต์พุต (ต่อ 1 ล้านโทเค็น) | ความเร็ว |
|---|---|---|---|
| มาตรฐาน | $5 | $25 | พื้นฐาน |
| เร็ว | $10 | $50 | เอาต์พุตเร็วขึ้น 2.5 เท่า |
มีสองสิ่งที่โดดเด่น อย่างแรก โทเค็นเอาต์พุตมีราคาแพงกว่าโทเค็นอินพุตถึงห้าเท่า ดังนั้นความยาวของคำตอบของ Claude จึงเป็นตัวกำหนดค่าใช้จ่ายของคุณ ไม่ใช่ขนาดของพรอมต์ของคุณ อย่างที่สอง โหมดเร็วเพิ่มอัตราเป็นสองเท่าเพื่อแลกกับการส่งเอาต์พุตที่เร็วขึ้น 2.5 เท่า Anthropic ระบุว่าโหมดเร็วมีราคาถูกกว่ารุ่นก่อนหน้าประมาณสามเท่า ดังนั้นค่าใช้จ่ายที่เพิ่มขึ้นสำหรับความเร็วจึงลดลงเมื่อรุ่นใหม่ๆ ออกมา
คุณสามารถตรวจสอบอัตราปัจจุบันได้ใน เอกสารราคาของ Anthropic
โหมดเร็วมีไว้สำหรับอะไร
โหมดมาตรฐานเป็นค่าเริ่มต้นและเป็นทางเลือกที่เหมาะสมสำหรับงานส่วนใหญ่ โหมดเร็วมีไว้สำหรับกรณีที่ความหน่วงเวลาเป็นสิ่งสำคัญ เช่น ผู้ช่วยเขียนโค้ดแบบเรียลไทม์, เอเจนต์แบบโต้ตอบ, หรืออะไรก็ตามที่ผู้ใช้กำลังรอการเคลื่อนไหวของเคอร์เซอร์ คุณจ่ายเป็นสองเท่าต่อโทเค็นเพื่อแลกกับเอาต์พุตที่สตรีมเร็วขึ้น 2.5 เท่า
การตัดสินใจนั้นง่าย หากมนุษย์กำลังรอคำตอบแบบเรียลไทม์ โหมดเร็วก็อาจคุ้มค่า หากงานทำงานอยู่เบื้องหลัง เช่น agent loop, batch job, หรือ scheduled task ให้ใช้โหมดมาตรฐานต่อไปเพื่อประหยัดค่าใช้จ่าย
ระดับความพยายามส่งผลต่อค่าใช้จ่ายของคุณอย่างไร
นี่คือจุดที่ทีมส่วนใหญ่มักจะมองข้าม พารามิเตอร์ effort ของ Opus 4.8 ควบคุมจำนวนโทเค็นที่โมเดลใช้ตลอดทั้งการตอบกลับ รวมถึงการเรียกใช้เครื่องมือด้วย เนื่องจากเอาต์พุตมีราคาแพงกว่า การลดระดับความพยายามสำหรับงานที่ไม่ต้องการการคิดวิเคราะห์เชิงลึกจะช่วยลดต้นทุนได้โดยตรง
ห้าระดับ จากถูกที่สุดไปแพงที่สุดในแง่ของโทเค็น:
low: คำตอบกระชับ, ใช้เครื่องมือน้อยที่สุด, ค่าใช้จ่ายต่ำที่สุดmedium: สมดุลhigh: ค่าเริ่มต้น, ละเอียดถี่ถ้วนxhigh: การคิดวิเคราะห์เชิงลึก, ใช้เครื่องมือมากขึ้น, แนะนำสำหรับงานเขียนโค้ดmax: ไม่มีข้อจำกัด, ค่าใช้จ่ายสูงสุด
งานจำแนกประเภทที่ใช้ความพยายามระดับ low อาจใช้โทเค็นเอาต์พุตเพียงหนึ่งในสิบของที่ใช้ในระดับ high โมเดลเดียวกัน อัตราเดียวกัน แต่ค่าใช้จ่ายต่างกันมาก แนวทางเกี่ยวกับระดับความพยายาม ของ Anthropic อธิบายว่าแต่ละระดับมีคุณภาพอย่างไร ข้อสรุปคือ: ควรปรับระดับความพยายามให้เหมาะสมกับงานแทนที่จะจ่ายสำหรับระดับ high ในทุกที่
สถานการณ์จำลองค่าใช้จ่าย
ตัวเลขทั้งหมดใช้อัตราค่าบริการมาตรฐาน ($5 สำหรับอินพุต, $25 สำหรับเอาต์พุต ต่อล้านโทเค็น) เป็นเพียงตัวอย่างเท่านั้น จำนวนโทเค็นจริงของคุณอาจแตกต่างกันไป
สถานการณ์ที่ 1: การสนทนาของแชทบอทหนึ่งรอบ 1,000 โทเค็นอินพุต, 500 โทเค็นเอาต์พุต
- อินพุต: 1,000 / 1,000,000 x $5 = $0.005
- เอาต์พุต: 500 / 1,000,000 x $25 = $0.0125
- รวม: ประมาณ $0.018 ต่อรอบ
ที่ระดับความพยายาม low เอาต์พุตจะลดลง ทำให้ค่าใช้จ่ายต่อรอบน้อยกว่าหนึ่งเซ็นต์
สถานการณ์ที่ 2: งานเขียนโค้ดโดยเอเจนต์ 50,000 โทเค็นอินพุตสำหรับบริบทของ repo, 8,000 โทเค็นเอาต์พุตที่ระดับ xhigh
- อินพุต: 50,000 / 1,000,000 x $5 = $0.25
- เอาต์พุต: 8,000 / 1,000,000 x $25 = $0.20
- รวม: ประมาณ $0.45 ต่องาน
หากบริบท 50K นั้นมีการใช้งานซ้ำในการเรียกใช้หลายครั้ง การแคชพรอมต์จะลดค่าใช้จ่ายอินพุตลงเหลือประมาณ $0.025 ทำให้ค่าใช้จ่ายทั้งหมดลดลงเหลือประมาณ $0.23
สถานการณ์ที่ 3: งานประมวลผลแบบแบตช์ข้ามคืน 1,000,000 โทเค็นอินพุต, 200,000 โทเค็นเอาต์พุต, รันผ่าน Batch API พร้อมส่วนลด 50%
- อินพุต: 1,000,000 / 1,000,000 x $5 x 0.5 = $2.50
- เอาต์พุต: 200,000 / 1,000,000 x $25 x 0.5 = $2.50
- รวม: ประมาณ $5.00 สำหรับทั้งแบตช์
สำหรับการเปรียบเทียบกับโมเดลที่ถูกกว่า โปรดดู รายละเอียดราคาของ Gemini 3.5 Flash และ ค่าใช้จ่าย API ของ Xiaomi MiMo v2.5
การแคชพรอมต์: การประหยัดค่าใช้จ่ายที่มากที่สุด
หากคุณส่งพรอมต์ระบบ เอกสาร หรือโค้ดเบสเดียวกันในการเรียกใช้ทุกครั้ง คุณกำลังจ่ายราคาอินพุตเต็มสำหรับโทเค็นที่โมเดลเคยเห็นแล้ว การแคชพรอมต์ช่วยแก้ไขปัญหานี้ การอ่านอินพุตที่แคชไว้จะถูกเรียกเก็บเงินในอัตราส่วนเล็กน้อยของอัตราอินพุตปกติ ซึ่งประมาณหนึ่งในสิบ หลังจากการเขียนแคชครั้งแรก
เอเจนต์ที่ใช้บริบทขนาดยาวจะประหยัดได้มากที่สุด พรอมต์ระบบขนาด 50K โทเค็นที่ถูกเรียกเก็บเงินเต็มอัตราในการเรียกใช้ทุกครั้งนั้นมีราคาแพง แต่เมื่อแคชแล้ว ส่วนที่ซ้ำกันจะมีค่าใช้จ่ายเกือบเป็นศูนย์ การเรียกใช้ครั้งแรกจะเขียนแคช การเรียกใช้ทุกครั้งหลังจากนั้นจะอ่านจากแคชด้วยราคาถูก
Batch API และเอาต์พุตขนาดใหญ่
Batch API จะรันงานโดยมีส่วนลดเมื่อคุณไม่ต้องการคำตอบแบบเรียลไทม์ ส่งชุดคำขอ รับผลลัพธ์กลับภายในช่วงเวลาของแบตช์ และจ่ายน้อยลงต่อโทเค็น นอกจากนี้ยังเพิ่มขีดจำกัดของเอาต์พุต: Opus 4.8 รองรับเอาต์พุตสูงสุด 300K โทเค็นผ่าน Batch API ด้วยเฮดเดอร์เบต้า output-300k-2026-03-24 เทียบกับ 128K บนเอนด์พอยต์แบบซิงโครนัส
ใช้สำหรับการประเมินผล, การสรุปข้อมูลจำนวนมาก, การติดป้ายข้อมูล, และ pipeline ใดๆ ที่ความหน่วงเวลาไม่กี่นาทีไม่เป็นปัญหา
ราคา Opus ในแต่ละรุ่น
Opus 4.8 ยังคงราคาเดิม เรื่องราวคือราคาลดลงไปมากแค่ไหนเมื่อสองรุ่นที่แล้ว:
| โมเดล | อินพุต (ต่อ 1 ล้าน) | เอาต์พุต (ต่อ 1 ล้าน) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus ลดราคาจาก $15/$75 เหลือ $5/$25 ในรุ่น 4.5 และยังคงราคานั้นมาโดยตลอด ในขณะที่โมเดลเบื้องหลังราคาก็ได้รับการปรับปรุงอย่างต่อเนื่อง คุณกำลังได้รับคุณภาพของ 4.8 ในราคาของ 4.5 สำหรับการเปรียบเทียบกับเรือธงของผู้จำหน่ายรายอื่น โปรดดู Opus 4.8 vs GPT-5.5 vs Gemini 3.5
รายการตรวจสอบการเพิ่มประสิทธิภาพต้นทุน
ก่อนที่คุณจะปรับขนาด Opus 4.8 ให้ตรวจสอบรายการนี้:
- กำหนดระดับความพยายามสำหรับแต่ละงาน อย่าจ่ายค่า
highสำหรับการจำแนกประเภท หรือxhighสำหรับการค้นหาข้อมูล - แคชบริบทที่ใช้ซ้ำ พรอมต์ระบบ เอกสาร และโค้ดเบสควรถูกแคชไว้
- รวมงานที่ไม่เร่งด่วนเข้าเป็นแบตช์ ย้ายงานประเมินผลและงานจำนวนมากไปที่ Batch API
- กำหนดขีดจำกัด
max_tokensอย่างสมเหตุสมผล เพื่อจำกัดค่าใช้จ่ายเอาต์พุตสูงสุดต่อการเรียกใช้ - ใช้โหมดมาตรฐานต่อไป เว้นแต่ผู้ใช้กำลังรอคำตอบแบบเรียลไทม์
- จับตาดูระดับการใช้งาน อัตราการจำกัดและการใช้จ่ายจะเพิ่มขึ้นพร้อมกัน; การเปลี่ยนแปลงขีดจำกัดรายสัปดาห์ของ Claude Code เป็นเครื่องเตือนใจให้ติดตามโควต้า
ติดตามค่าใช้จ่ายจริงของคุณด้วย Apidog
ค่าใช้จ่ายโดยประมาณและค่าใช้จ่ายจริงจะแตกต่างกันอย่างรวดเร็วเมื่อคุณเริ่มใช้งานจริง เนื่องจากการตอบกลับจริงมีความยาวและการเรียกใช้เครื่องมือที่แตกต่างกัน วิธีที่จะตรวจสอบได้อย่างถูกต้องคือการตรวจสอบออบเจกต์ usage ที่ทุกการตอบกลับของ Messages API ส่งคืน ซึ่งจะรายงานจำนวนโทเค็นอินพุตและเอาต์พุตต่อการเรียกใช้

Apidog ทำให้สิ่งนี้มองเห็นได้:
- ส่งคำขอ Opus 4.8 จริงและอ่านบล็อก
usageในการตอบกลับ - เปรียบเทียบจำนวนโทเค็นในระดับ
effortต่างๆ บนพรอมต์เดียวกัน เพื่อดูความแตกต่างของค่าใช้จ่ายโดยตรง - บันทึกคำขอสำหรับแต่ละ workload และรันซ้ำเมื่อพรอมต์ของคุณเปลี่ยนแปลง
- จำลองเอนด์พอยต์เพื่อให้คุณสามารถสร้างและทดสอบได้โดยไม่ต้องใช้โทเค็น
ดาวน์โหลด Apidog กำหนดคำขอไปยัง Messages endpoint และรันพรอมต์เดียวกันที่ระดับ low, high, และ xhigh จำนวนโทเค็นจะบอกคุณอย่างชัดเจนว่าแต่ละระดับความพยายามมีค่าใช้จ่ายเท่าไร ก่อนที่คุณจะนำไปใช้จริงในการผลิต
คำถามที่พบบ่อย
Claude Opus 4.8 มีค่าใช้จ่ายเท่าไร? $5 ต่อล้าน input tokens และ $25 ต่อล้าน output tokens ในโหมดมาตรฐาน โหมดเร็วมีค่าใช้จ่าย $10 และ $50 เพื่อให้ได้เอาต์พุตที่เร็วขึ้น 2.5 เท่า
Opus 4.8 แพงกว่า Opus 4.7 หรือไม่? ไม่ อัตราต่อโทเค็นเท่ากัน ดังนั้นการอัปเกรดจาก 4.7 จะไม่เปลี่ยนแปลงค่าใช้จ่ายของคุณ
ความแตกต่างระหว่างราคาโหมดมาตรฐานและโหมดเร็วคืออะไร? โหมดเร็วเพิ่มอัตราต่อโทเค็นเป็นสองเท่าเพื่อแลกกับเอาต์พุตที่สตรีมเร็วขึ้นประมาณ 2.5 เท่า ใช้เฉพาะเมื่อความหน่วงเวลาเป็นสิ่งสำคัญสำหรับผู้ใช้ที่กำลังรอ
ฉันจะลดค่าใช้จ่าย Opus 4.8 ได้อย่างไร? ลดระดับ effort สำหรับงานที่ง่ายกว่า แคชเนื้อหาพรอมต์ที่ซ้ำกัน ประมวลผลงานที่ไม่เร่งด่วนเป็นแบตช์ และกำหนด max_tokens ให้กระชับ โทเค็นเอาต์พุตเป็นตัวขับเคลื่อนค่าใช้จ่ายหลัก
การแคชพรอมต์ช่วยประหยัดเงินได้จริงหรือ? ใช่ หลังจากที่การเรียกใช้ครั้งแรกเขียนแคชแล้ว อินพุตที่ซ้ำกันจะถูกอ่านในอัตราประมาณหนึ่งในสิบของอัตราอินพุตปกติ เอเจนต์ที่ใช้บริบทขนาดยาวจะประหยัดได้มากที่สุด
Opus 4.8 สามารถสร้างเอาต์พุตได้กี่โทเค็น? สูงสุด 128K บน Messages API แบบซิงโครนัส และสูงสุด 300K ผ่าน Batch API ด้วยเฮดเดอร์เบต้า output-300k-2026-03-24
ฉันจะดูการใช้โทเค็นต่อการเรียกใช้ได้ที่ไหน? ในออบเจกต์ usage บนทุกการตอบกลับของ Messages API เครื่องมืออย่าง Apidog จะแสดงข้อมูลนี้เพื่อให้คุณสามารถเปรียบเทียบค่าใช้จ่ายในแต่ละระดับความพยายามได้
