Claude Opus 4.8 có giá 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra ở chế độ tiêu chuẩn. Đây là mức giá tương đương với Opus 4.7, vì vậy nếu bạn đã dự trù ngân sách cho 4.7 thì sẽ không có gì thay đổi khi bạn nâng cấp. Phần thú vị là tất cả những yếu tố xoay quanh con số tiêu đề đó: một chế độ nhanh hơn, một cần điều chỉnh mức chi tiêu token, tính năng bộ nhớ đệm (caching), và chiết khấu theo lô (batch discounts) có thể làm thay đổi hóa đơn thực tế của bạn nhiều hơn đáng kể so với mức giá cơ bản.
Hướng dẫn này sẽ phân tích chi tiết những gì bạn thực sự phải trả, kèm theo các ví dụ minh họa. Để có cái nhìn tổng quan về mô hình, hãy xem Claude Opus 4.8 là gì. Để bắt đầu xây dựng, hãy xem hướng dẫn API.
Bảng giá
| Chế độ | Đầu vào (mỗi 1M token) | Đầu ra (mỗi 1M token) | Tốc độ |
|---|---|---|---|
| Tiêu chuẩn | $5 | $25 | cơ bản |
| Nhanh | $10 | $50 | Đầu ra nhanh hơn 2,5 lần |
Có hai điều nổi bật. Thứ nhất, token đầu ra có giá cao gấp năm lần token đầu vào, vì vậy độ dài phản hồi của Claude sẽ quyết định hóa đơn của bạn, chứ không phải kích thước lời nhắc của bạn. Thứ hai, chế độ nhanh (fast mode) tăng gấp đôi mức giá để có đầu ra nhanh hơn 2,5 lần. Anthropic lưu ý rằng chế độ nhanh hiện rẻ hơn khoảng ba lần so với phiên bản tương đương trên các mô hình trước đây, vì vậy chi phí phụ trội cho tốc độ đã giảm qua từng thế hệ.
Bạn có thể xác nhận mức giá hiện tại trong tài liệu về giá của Anthropic.
Chế độ nhanh dùng để làm gì
Chế độ tiêu chuẩn (standard mode) là mặc định và là lựa chọn phù hợp cho hầu hết các khối lượng công việc. Chế độ nhanh (fast mode) tồn tại cho những trường hợp mà độ trễ là yếu tố then chốt: trợ lý lập trình trực tiếp, tác nhân tương tác, hoặc bất cứ điều gì mà người dùng đang theo dõi con trỏ. Bạn sẽ trả gấp đôi cho mỗi token để có đầu ra truyền tải nhanh hơn 2,5 lần.
Quyết định rất đơn giản. Nếu một người dùng đang chờ phản hồi trong thời gian thực, chế độ nhanh có thể đáng giá. Nếu công việc chạy ở chế độ nền (background), như một vòng lặp tác nhân (agent loop), một công việc theo lô (batch job), một tác vụ được lên lịch, hãy giữ chế độ tiêu chuẩn và tiết kiệm chi phí.
Tham số effort thay đổi hóa đơn của bạn như thế nào
Đây là yếu tố mà hầu hết các đội nhóm bỏ qua. Tham số effort của Opus 4.8 kiểm soát số lượng token mà mô hình sử dụng trong toàn bộ phản hồi, bao gồm cả các lời gọi công cụ. Vì đầu ra là phần tốn kém, việc giảm effort đối với các công việc không yêu cầu suy luận sâu sắc sẽ trực tiếp cắt giảm chi phí.
Năm cấp độ, từ rẻ nhất đến đắt nhất xét về token:
low: câu trả lời ngắn gọn, ít lời gọi công cụ nhất, chi phí thấp nhấtmedium: cân bằnghigh: mặc định, kỹ lưỡngxhigh: suy luận sâu sắc, nhiều lời gọi công cụ hơn, được khuyến nghị cho việc lập trìnhmax: không giới hạn, chi phí cao nhất
Một tác vụ phân loại ở mức low effort có thể chỉ sử dụng một phần mười số token đầu ra so với khi ở mức high. Cùng một mô hình, cùng một mức giá, nhưng hóa đơn lại chỉ bằng một phần nhỏ. Hướng dẫn về tham số effort của Anthropic giải thích mức độ chất lượng của từng cấp độ. Bài học rút ra là: hãy điều chỉnh effort phù hợp với tác vụ thay vì luôn đặt ở mức high cho mọi thứ.
Các kịch bản chi phí thực tế
Tất cả các số liệu đều sử dụng giá tiêu chuẩn (5 đô la đầu vào, 25 đô la đầu ra cho mỗi triệu token). Chúng chỉ mang tính minh họa; số lượng token thực tế của bạn sẽ khác nhau.
Kịch bản 1: một lượt trò chuyện chatbot. 1.000 token đầu vào, 500 token đầu ra.
- Đầu vào: 1.000 / 1.000.000 x $5 = $0.005
- Đầu ra: 500 / 1.000.000 x $25 = $0.0125
- Tổng cộng: khoảng $0.018 mỗi lượt
Ở mức low effort, đầu ra sẽ giảm, kéo chi phí mỗi lượt xuống dưới một xu.
Kịch bản 2: một tác vụ lập trình tự động (agentic coding task). 50.000 token đầu vào từ ngữ cảnh kho lưu trữ (repo context), 8.000 token đầu ra ở mức xhigh.
- Đầu vào: 50.000 / 1.000.000 x $5 = $0.25
- Đầu ra: 8.000 / 1.000.000 x $25 = $0.20
- Tổng cộng: khoảng $0.45 mỗi tác vụ
Nếu ngữ cảnh 50K đó lặp lại qua nhiều lời gọi, tính năng bộ nhớ đệm nhắc lời (prompt caching) sẽ giảm chi phí đầu vào xuống khoảng $0.025, cắt giảm tổng chi phí xuống còn khoảng $0.23.
Kịch bản 3: một công việc theo lô qua đêm (overnight batch job). 1.000.000 token đầu vào, 200.000 token đầu ra, chạy qua API xử lý theo lô (Batch API) với chiết khấu 50%.
- Đầu vào: 1.000.000 / 1.000.000 x $5 x 0.5 = $2.50
- Đầu ra: 200.000 / 1.000.000 x $25 x 0.5 = $2.50
- Tổng cộng: khoảng $5.00 cho toàn bộ lô
Để so sánh với các mô hình rẻ hơn, hãy xem phân tích giá của Gemini 3.5 Flash và chi phí API của Xiaomi MiMo v2.5.
Bộ nhớ đệm nhắc lời (Prompt caching): khoản tiết kiệm lớn nhất
Nếu bạn gửi cùng một lời nhắc hệ thống (system prompt), tài liệu hoặc cơ sở mã (codebase) trong mỗi lời gọi, bạn đang phải trả toàn bộ giá đầu vào cho các token mà mô hình đã thấy. Bộ nhớ đệm nhắc lời (prompt caching) khắc phục điều đó. Các lần đọc đầu vào đã được lưu vào bộ nhớ đệm sẽ được tính phí bằng một phần nhỏ so với mức giá đầu vào thông thường, khoảng một phần mười, sau lần ghi vào bộ đệm ban đầu.
Các tác nhân có ngữ cảnh dài (long-context agents) tiết kiệm được nhiều nhất. Một lời nhắc hệ thống 50K token được tính phí đầy đủ trong mỗi lời gọi sẽ rất tốn kém; khi được lưu vào bộ đệm, phần lặp lại gần như không tốn kém gì. Lời gọi đầu tiên sẽ ghi vào bộ đệm, mọi lời gọi sau đó sẽ đọc từ bộ đệm với chi phí thấp.
API xử lý theo lô (Batch API) và đầu ra lớn
API xử lý theo lô (Batch API) chạy các công việc với mức chiết khấu khi bạn không cần câu trả lời theo thời gian thực. Gửi một tập hợp các yêu cầu, nhận kết quả trở lại trong khoảng thời gian xử lý lô, và trả ít tiền hơn cho mỗi token. Nó cũng tăng giới hạn đầu ra: Opus 4.8 hỗ trợ lên tới 300K token đầu ra thông qua Batch API với tiêu đề beta output-300k-2026-03-24, so với 128K trên điểm cuối đồng bộ.
Sử dụng nó cho các đánh giá (evals), tóm tắt hàng loạt (bulk summarization), gắn nhãn dữ liệu (data labeling), và bất kỳ quy trình (pipeline) nào mà độ trễ vài phút không quan trọng.
Giá của Opus qua các thế hệ
Opus 4.8 giữ nguyên mức giá. Câu chuyện nằm ở việc mức giá đã giảm mạnh như thế nào hai thế hệ trước:
| Mô hình | Đầu vào (mỗi 1M) | Đầu ra (mỗi 1M) |
|---|---|---|
| Opus 4.1 | $15 | $75 |
| Opus 4.5 | $5 | $25 |
| Opus 4.6 | $5 | $25 |
| Opus 4.7 | $5 | $25 |
| Opus 4.8 | $5 | $25 |
Opus đã giảm giá từ $15/$75 xuống còn $5/$25 ở thế hệ 4.5 và duy trì mức giá đó kể từ đó, trong khi mô hình đứng sau mức giá vẫn tiếp tục cải thiện. Bạn đang nhận được chất lượng của 4.8 với mức giá của 4.5. Để so sánh trực tiếp với các sản phẩm chủ lực của các nhà cung cấp khác, hãy xem Opus 4.8 vs GPT-5.5 vs Gemini 3.5.
Danh sách kiểm tra tối ưu hóa chi phí
Trước khi bạn mở rộng quy mô Opus 4.8, hãy xem xét danh sách này:
- Đặt
effortcho từng tác vụ. Đừng trả mứchighcho tác vụ phân loại hoặcxhighcho tác vụ tra cứu. - Lưu vào bộ nhớ đệm các ngữ cảnh lặp lại. Các lời nhắc hệ thống (system prompts), tài liệu và cơ sở mã (codebases) nên được lưu vào bộ nhớ đệm.
- Gộp các tác vụ không khẩn cấp vào lô. Chuyển các đánh giá (evals) và công việc hàng loạt (bulk jobs) sang Batch API.
- Đặt giới hạn
max_tokenshợp lý. Nó giới hạn chi phí đầu ra trong trường hợp xấu nhất cho mỗi lời gọi. - Duy trì ở chế độ tiêu chuẩn trừ khi có người dùng đang chờ đợi trong thời gian thực.
- Theo dõi các cấp độ sử dụng. Giới hạn tỷ lệ (rate limits) và chi tiêu tăng cùng nhau; thay đổi giới hạn hàng tuần của Claude Code là một lời nhắc nhở để theo dõi hạn mức sử dụng.
Theo dõi chi tiêu thực tế của bạn với Apidog
Chi phí ước tính và chi phí thực tế nhanh chóng khác biệt khi bạn đưa vào sản xuất, vì các phản hồi thực tế thay đổi về độ dài và số lượng lời gọi công cụ. Cách để duy trì sự minh bạch là kiểm tra đối tượng usage mà mỗi phản hồi của API Tin nhắn (Messages API) trả về, nó báo cáo số lượng token đầu vào và đầu ra cho mỗi lời gọi.

Apidog giúp bạn thấy rõ điều đó:
- Gửi một yêu cầu Opus 4.8 thực tế và đọc khối
usagetrong phản hồi - So sánh số lượng token giữa các cấp độ
efforttrên cùng một lời nhắc để xem trực tiếp sự khác biệt về chi phí - Lưu các yêu cầu cho mỗi khối lượng công việc và chạy lại chúng khi lời nhắc của bạn thay đổi
- Mô phỏng điểm cuối (endpoint) để bạn có thể xây dựng và kiểm thử mà không tốn một token nào
Tải xuống Apidog, hướng một yêu cầu đến điểm cuối Tin nhắn (Messages endpoint) và chạy cùng một lời nhắc ở các mức low, high và xhigh. Số lượng token sẽ cho bạn biết chính xác chi phí của từng cấp độ effort trước khi bạn cam kết sử dụng nó trong môi trường sản xuất.
Câu hỏi thường gặp
Claude Opus 4.8 có giá bao nhiêu? 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra ở chế độ tiêu chuẩn. Chế độ nhanh có giá 10 đô la và 50 đô la để có đầu ra nhanh hơn 2,5 lần.
Opus 4.8 có đắt hơn Opus 4.7 không? Không. Mức giá mỗi token là giống nhau, vì vậy việc nâng cấp từ 4.7 sẽ không làm thay đổi hóa đơn của bạn.
Sự khác biệt giữa giá ở chế độ tiêu chuẩn và chế độ nhanh là gì? Chế độ nhanh tăng gấp đôi mức giá mỗi token để đổi lấy đầu ra truyền tải nhanh hơn khoảng 2,5 lần. Chỉ sử dụng nó khi độ trễ là quan trọng đối với người dùng đang chờ đợi.
Làm cách nào để giảm chi phí Opus 4.8 của tôi? Giảm cấp độ effort đối với các tác vụ đơn giản hơn, lưu vào bộ nhớ đệm nội dung lời nhắc lặp lại, gộp các công việc không khẩn cấp vào lô, và giữ max_tokens chặt chẽ. Token đầu ra là yếu tố chính gây ra chi phí.
Tính năng bộ nhớ đệm nhắc lời (prompt caching) có thực sự tiết kiệm tiền không? Có. Sau khi lời gọi đầu tiên ghi vào bộ đệm, đầu vào lặp lại được đọc với mức giá bằng khoảng một phần mười so với mức giá đầu vào thông thường. Các tác nhân có ngữ cảnh dài (long-context agents) tiết kiệm được nhiều nhất.
Opus 4.8 có thể tạo ra bao nhiêu token đầu ra? Lên tới 128K trên API Tin nhắn (Messages API) đồng bộ, và lên tới 300K thông qua API xử lý theo lô (Batch API) với tiêu đề beta output-300k-2026-03-24.
Tôi xem mức sử dụng token mỗi lời gọi ở đâu? Trong đối tượng usage trên mỗi phản hồi của API Tin nhắn (Messages API). Các công cụ như Apidog hiển thị nó để bạn có thể so sánh chi phí giữa các cấp độ effort.
