TL;DR
Claude Sonnet 4.6 có giá 3 đô la cho mỗi triệu token đầu vào và 15 đô la cho mỗi triệu token đầu ra—cùng mức giá với Sonnet 4.5, trong khi mang lại hiệu suất gần bằng Opus. Với bộ nhớ đệm lời nhắc (prompt caching), chi phí đọc từ bộ nhớ đệm giảm xuống còn 0,30 đô la/MTok (tiết kiệm 90%). API xử lý theo lô (Batch API) giảm chi phí một nửa còn 1,50 đô la/7,50 đô la mỗi MTok. Cửa sổ ngữ cảnh 1 triệu token (beta) áp dụng giá ngữ cảnh dài với 6 đô la/22,50 đô la mỗi MTok cho các yêu cầu trên 200 nghìn token.
Giá cơ bản của Claude Sonnet 4.6
Claude Sonnet 4.6 giữ nguyên mức giá như phiên bản tiền nhiệm trong khi mang lại kết quả tốt hơn đáng kể. Dưới đây là cái nhìn tổng quan về giá cơ bản:
| Bậc giá | Token đầu vào | Token đầu ra |
|---|---|---|
| Tiêu chuẩn | 3,00 đô la / MTok | 15,00 đô la / MTok |
| Batch API | 1,50 đô la / MTok | 7,50 đô la / MTok |
| Ghi vào bộ đệm (5 phút) | 3,75 đô la / MTok | — |
| Ghi vào bộ đệm (1 giờ) | 6,00 đô la / MTok | — |
| Đọc từ bộ đệm | 0,30 đô la / MTok | — |
| Ngữ cảnh dài >200K (tiêu chuẩn) | 6,00 đô la / MTok | 22,50 đô la / MTok |
| Ngữ cảnh dài >200K (lô) | 3,00 đô la / MTok | 11,25 đô la / MTok |
MTok = triệu token. Tất cả giá bằng USD.
Giá trị mà Sonnet 4.6 mang lại khó có thể bỏ qua. Những người thử nghiệm ban đầu đã chọn Sonnet 4.6 thay vì mô hình cao cấp trước đây là Opus 4.5 trong 59% các so sánh trực tiếp — với chi phí chỉ bằng 60%.

Đối với hầu hết các tác vụ viết mã, phân tích và tác nhân, bạn không cần phải trả giá Opus để có được kết quả tương đương Opus nữa.
Phân tích chi tiết giá theo tính năng
Giá API tiêu chuẩn
Mức giá tiêu chuẩn áp dụng cho tất cả các cuộc gọi API đồng bộ được thực hiện thông qua Anthropic API:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Summarize this document."}]
)
# Kiểm tra mức sử dụng token chính xác
print(f"Token đầu vào: {response.usage.input_tokens}")
print(f"Token đầu ra: {response.usage.output_tokens}")
# Tính toán chi phí
input_cost = response.usage.input_tokens / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Chi phí yêu cầu: ${input_cost + output_cost:.6f}")
Đối với một cuộc gọi API thông thường với 500 token đầu vào và 300 token đầu ra, chi phí ước tính khoảng 0,0060 đô la. Tức là chưa đến một xu cho mỗi yêu cầu theo mức giá tiêu chuẩn.
Giá bộ nhớ đệm lời nhắc (Prompt Caching)
Bộ nhớ đệm lời nhắc là đòn bẩy chi phí hiệu quả nhất của Sonnet 4.6. Nó lưu trữ các phần của lời nhắc của bạn ở phía máy chủ và tính phí ít hơn đáng kể khi truy cập từ bộ nhớ đệm.
Giá ghi vào bộ đệm:- Bộ đệm 5 phút: 3,75 đô la/MTok (1,25 × giá đầu vào cơ bản) - Bộ đệm 1 giờ: 6,00 đô la/MTok (2 × giá đầu vào cơ bản)
Giá đọc từ bộ đệm:- 0,30 đô la/MTok — một phần mười giá đầu vào tiêu chuẩn
Nếu lời nhắc hệ thống của bạn là 10.000 token và bạn xử lý 1.000 yêu cầu mỗi ngày: - Không dùng bộ đệm: 10.000 × 1.000 × 3 đô la/MTok = 30 đô la/ngày- Với bộ đệm (ghi một lần, đọc 999 lần): 3,75 đô la + (999 × 0,30) × 10.000/MTok ≈ 3,04 đô la/ngày
Đó là mức giảm 90% chỉ riêng cho một lời nhắc hệ thống tĩnh.
import anthropic
client = anthropic.Anthropic()
# Đánh dấu nội dung tĩnh đắt tiền để lưu vào bộ đệm
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "Bạn là một nhà đánh giá mã cấp cao chuyên về Python, FastAPI và các hệ thống phân tán. Đây là các tiêu chuẩn mã hóa và hướng dẫn đánh giá của chúng tôi: [khối văn bản tiêu chuẩn lớn]...",
"cache_control": {"type": "ephemeral"} # Lưu khối này vào bộ đệm
}
],
messages=[{"role": "user", "content": "Đánh giá yêu cầu pull này: [nội dung PR]"}]
)
# Kiểm tra những gì đến từ bộ đệm so với các token mới
usage = response.usage
print(f"Token ghi vào bộ đệm: {usage.cache_creation_input_tokens}")
print(f"Token đọc từ bộ đệm: {usage.cache_read_input_tokens}")
print(f"Token chưa lưu vào bộ đệm: {usage.input_tokens}")
Khi nào sử dụng thời lượng bộ đệm nào:- Bộ đệm 5 phút: Các cuộc gọi tần suất cao, lưu lượng truy cập đột biến, cửa sổ hội thoại ngắn - Bộ đệm 1 giờ: Các quy trình xử lý nền, công việc theo lô có khoảng thời gian dài hơn, vòng lặp tác nhân
Giá API theo lô (Batch API)
API theo lô giảm giá cố định 50% cho cả token đầu vào và đầu ra để đổi lấy việc xử lý không đồng bộ (kết quả có sẵn trong vòng 24 giờ, thường nhanh hơn nhiều).
| Tiêu chuẩn | Batch API | |
|---|---|---|
| Đầu vào | 3,00 đô la/MTok | 1,50 đô la/MTok |
| Đầu ra | 15,00 đô la/MTok | 7,50 đô la/MTok |
Các trường hợp sử dụng tốt nhất cho Batch API:- Các quy trình kiểm duyệt nội dung - Phân loại tài liệu ở quy mô lớn - Tăng cường dữ liệu qua đêm - Tạo nhúng hoặc tóm tắt cho các tập dữ liệu lớn - Bất kỳ quá trình xử lý không tương tác nào mà độ trễ không quan trọng
Với 1,50 đô la/7,50 đô la/MTok, việc xử lý một triệu tài liệu, mỗi tài liệu 500 token đầu vào và 100 token đầu ra, có chi phí: - Đầu vào: 500 triệu token × 1,50 đô la/MTok = 750 đô la- Đầu ra: 100 triệu token × 7,50 đô la/MTok = 750 đô la- Tổng cộng: 1.500 đô la cho 1 triệu tài liệu (~0,0015 đô la mỗi tài liệu)
Batch API: Giảm giá 50% cho các tác vụ không theo thời gian thực
Xử lý theo lô rất đơn giản: gửi yêu cầu, nhận kết quả không đồng bộ với giá một nửa. Đánh đổi là độ trễ — kết quả đến trong vòng 24 giờ, mặc dù thường nhanh hơn nhiều.
import anthropic, time
client = anthropic.Anthropic()
def batch_classify(texts: list[str]) -> list[str]:
"""Phân loại danh sách các văn bản theo mức giá Batch API."""
# Gửi lô
requests = [
{
"custom_id": f"item-{i}",
"params": {
"model": "claude-sonnet-4-6",
"max_tokens": 20,
"messages": [{
"role": "user",
"content": f"Phân loại là TÍCH CỰC, TIÊU CỰC, hoặc TRUNG TÍNH. Chỉ trả lời bằng một từ.\n\n{text}"
}]
}
}
for i, text in enumerate(texts)
]
batch = client.messages.batches.create(requests=requests)
# Lặp cho đến khi hoàn thành
while True:
status = client.messages.batches.retrieve(batch.id)
if status.processing_status == "ended":
break
time.sleep(60)
# Thu thập kết quả theo thứ tự
results = {}
for result in client.messages.batches.results(batch.id):
if result.result.type == "succeeded":
results[result.custom_id] = result.result.message.content[0].text.strip()
return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]
Giá Ngữ cảnh dài (1 triệu Token)
Khi bạn bật cửa sổ ngữ cảnh 1 triệu token thông qua tiêu đề beta context-1m-2025-08-07, các yêu cầu vượt quá 200 nghìn token đầu vào sẽ bị tính phí với mức cao hơn.
Bảng giá ngữ cảnh dài
| Token đầu vào | Giá đầu vào | Giá đầu ra |
|---|---|---|
| ≤ 200K | 3,00 đô la/MTok | 15,00 đô la/MTok |
| > 200K | 6,00 đô la/MTok | 22,50 đô la/MTok |
Ngưỡng 200K dựa trên tổng số token đầu vào, bao gồm: - input_tokens (đầu vào tiêu chuẩn) - cache_creation_input_tokens (nếu sử dụng bộ nhớ đệm lời nhắc) - cache_read_input_tokens (nếu sử dụng bộ nhớ đệm lời nhắc)
Nếu tổng số vượt quá 200K, tất cả các token trong yêu cầu đó sẽ bị tính phí theo mức cao hơn.
Ngữ cảnh dài + Batch API
Giảm giá 50% của Batch API được cộng dồn với giá ngữ cảnh dài:
| Kịch bản | Tỷ lệ đầu vào | Tỷ lệ đầu ra |
|---|---|---|
| Tiêu chuẩn | 3,00 đô la/MTok | 15,00 đô la/MTok |
| Ngữ cảnh dài (>200K) | 6,00 đô la/MTok | 22,50 đô la/MTok |
| Batch API | 1,50 đô la/MTok | 7,50 đô la/MTok |
| Ngữ cảnh dài + Batch | 3,00 đô la/MTok | 11,25 đô la/MTok |
Xử lý các tài liệu lớn theo lô thông qua Batch API giúp quản lý chi phí ngữ cảnh dài.
Giá công cụ và tính năng
Một số công cụ có các khoản phí riêng biệt ngoài chi phí token.
Công cụ tìm kiếm web
10,00 đô la cho mỗi 1.000 lượt tìm kiếm
+ chi phí token tiêu chuẩn cho nội dung được tạo từ tìm kiếm
Mỗi cuộc gọi tìm kiếm web được tính là một lượt sử dụng bất kể số lượng kết quả trả về. Không tính phí nếu tìm kiếm gặp lỗi.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
betas=["code-execution-web-tools-2026-02-09"],
tools=[{"type": "web_search_20260209", "name": "web_search"}],
messages=[{"role": "user", "content": "Tin tức benchmark LLM mới nhất tuần này là gì?"}]
)
usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Số lượt tìm kiếm web đã sử dụng: {search_count.get('web_search_requests', 0)}")
# Mỗi lượt tìm kiếm: 0,01 đô la
Công cụ thực thi mã
Miễn phí khi được gói cùng với tìm kiếm web hoặc lấy dữ liệu web (sử dụng phiên bản công cụ web_search_20260209 hoặc web_fetch_20260209).
Khi được sử dụng độc lập: - 1.550 giờ miễn phí mỗi tổ chức mỗi tháng - 0,05 đô la mỗi giờ cho mỗi container ngoài cấp miễn phí - Đơn vị thanh toán tối thiểu: 5 phút
Đối với hầu hết các tác vụ phát triển và thử nghiệm, cấp miễn phí là quá đủ.
Công cụ lấy dữ liệu web
Không có phí bổ sung. Bạn chỉ trả chi phí token tiêu chuẩn cho nội dung đi vào cuộc trò chuyện.
| Công cụ | Chi phí bổ sung | Ghi chú |
|---|---|---|
| Tìm kiếm web | 10 đô la/1K lượt tìm kiếm | Phí mỗi lượt tìm kiếm |
| Lấy dữ liệu web | Miễn phí | Chỉ tính chi phí token |
| Thực thi mã (với công cụ web) | Miễn phí | Được gói cùng |
| Thực thi mã (độc lập) | 0,05 đô la/giờ sau 1.550 giờ miễn phí/tháng | Mỗi container |
| Chi phí chung cho việc sử dụng máy tính | ~735 token đầu vào bổ sung | Mỗi định nghĩa công cụ |
| Chi phí chung cho trình soạn thảo văn bản | ~700 token đầu vào bổ sung | Mỗi định nghĩa công cụ |
Chi phí chung cho việc sử dụng máy tính
Việc sử dụng máy tính cộng thêm chi phí token cố định: - Bổ sung lời nhắc hệ thống: 466–499 token - Token định nghĩa công cụ: 735 token cho mỗi công cụ (mô hình Claude 4.x)
Đối với một phiên sử dụng máy tính với 100 lượt tại 200 token/lượt cộng với ảnh chụp màn hình: - Chi phí chung công cụ: 735 token × 3 đô la/MTok = 0,0022 đô la (không đáng kể) - Token ảnh chụp màn hình phụ thuộc vào độ phân giải; lên kế hoạch khoảng ~2.000–5.000 token cho mỗi ảnh chụp màn hình
Claude Sonnet 4.6 so với tất cả các mô hình: So sánh đầy đủ
Giá mô hình hiện tại
| Mô hình | Đầu vào | Đầu ra | Đọc từ bộ đệm | Đầu vào Batch | Đầu ra Batch |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | 3,00 đô la | 15,00 đô la | 0,30 đô la | 1,50 đô la | 7,50 đô la |
| Claude Haiku 4.5 | 1,00 đô la | 5,00 đô la | 0,10 đô la | 0,50 đô la | 2,50 đô la |
| Claude Opus 4.6 | 5,00 đô la | 25,00 đô la | 0,50 đô la | 2,50 đô la | 12,50 đô la |
| Claude Opus 4.5 | 5,00 đô la | 25,00 đô la | 0,50 đô la | 2,50 đô la | 12,50 đô la |
| Claude Opus 4.1 | 15,00 đô la | 75,00 đô la | 1,50 đô la | 7,50 đô la | 37,50 đô la |
Tất cả giá bằng USD trên mỗi triệu token.
Sonnet 4.6 so với Opus 4.6: Câu hỏi về giá trị
| Claude Sonnet 4.6 | Claude Opus 4.6 | |
|---|---|---|
| Giá đầu vào | 3 đô la/MTok | 5 đô la/MTok |
| Giá đầu ra | 15 đô la/MTok | 25 đô la/MTok |
| Chi phí tương đối | 1× | 1,67× |
| SWE-bench Đã xác minh | 79,6% | ~80,8% |
| OSWorld (sử dụng máy tính) | 72,5% | 72,7% |
| Ưu tiên của người dùng so với Sonnet 4.5 | 70% | Không áp dụng |
| Ưu tiên của người dùng so với Opus 4.5 | 59% | Không áp dụng |
| Cửa sổ ngữ cảnh 1 triệu | Có (beta) | Có (beta) |
| Tư duy thích ứng | Có | Có |
| Đầu ra tối đa | 64K token | 128K token |
Đối với phần lớn các tác vụ—viết mã, phân tích, xử lý tài liệu, quy trình tác nhân—Sonnet 4.6 đạt hiệu suất của Opus với 60% chi phí. Opus 4.6 đáng giá hơn khi bạn cần 128K token đầu ra hoặc khả năng suy luận mới tối đa tuyệt đối.
Sonnet 4.6 so với Haiku 4.5: Khi nào nên sử dụng từng loại
| Trường hợp sử dụng | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|
| Tạo mã phức tạp | ✅ | ⚠️ |
| Phân loại đơn giản | ⚠️ Quá mức | ✅ |
| Tóm tắt tài liệu | ✅ | ✅ |
| Tác vụ tác nhân nhiều bước | ✅ | ❌ |
| Khối lượng lớn, độ phức tạp thấp | ❌ Đắt tiền | ✅ |
| Gọi công cụ / sử dụng hàm | ✅ | ✅ |
| Chuỗi suy luận dài | ✅ | ❌ |
| Ứng dụng nhạy cảm với độ trễ | ✅ Nhanh | ✅ Nhanh nhất |
Mô hình thông minh: sử dụng Haiku 4.5 cho việc định tuyến, phân loại và trích xuất đơn giản; chuyển các tác vụ phức tạp sang Sonnet 4.6. Cách tiếp cận kết hợp này thường có chi phí thấp hơn 60–80% so với việc sử dụng Sonnet 4.6 cho mọi thứ.
Kiểm tra chi phí bằng Apidog trước khi triển khai chính thức
Trước khi triển khai lên môi trường sản xuất, bạn muốn biết chính xác chi phí của từng yêu cầu. Client API trực quan của Apidog cho phép bạn kiểm tra các cuộc gọi Claude Sonnet 4.6, kiểm tra phản hồi đầy đủ bao gồm đối tượng usage và theo dõi số lượng token trên mỗi yêu cầu.

Thiết lập khả năng hiển thị chi phí trong Apidog
- Tạo một yêu cầu POST mới đến
https://api.anthropic.com/v1/messages - Thêm các tiêu đề:
x-api-key,anthropic-version: 2023-06-01,Content-Type: application/json - Đặt nội dung với mô hình và tin nhắn của bạn
- Chạy yêu cầu — đối tượng
usagecủa phản hồi sẽ hiển thị số lượng token chính xác
{
"usage": {
"input_tokens": 523,
"cache_creation_input_tokens": 5000,
"cache_read_input_tokens": 0,
"output_tokens": 312
}
}
Từ những con số đó, hãy tính toán chi phí thực tế: - Đầu vào: 523 token × 3 đô la/MTok = 0,00157 đô la - Ghi vào bộ đệm: 5.000 token × 3,75 đô la/MTok = 0,01875 đô la - Đầu ra: 312 token × 15 đô la/MTok = 0,00468 đô la - Tổng cuộc gọi đầu tiên: 0,025 đô la (các cuộc gọi tiếp theo có truy cập bộ đệm: ~0,006 đô la)
Bạn có thể lưu các yêu cầu này dưới dạng bộ sưu tập trong Apidog, chia sẻ chúng với nhóm của mình và chạy ước tính chi phí trên các biến thể lời nhắc khác nhau trước khi hoàn thiện thiết kế sản xuất của bạn.
Sẵn sàng bắt đầu xây dựng? Tải xuống Apidog miễn phí để kiểm tra các cuộc gọi API Claude Sonnet 4.6 một cách trực quan, kiểm tra mức sử dụng token trên mỗi yêu cầu và ước tính chi phí của bạn một cách chính xác trước khi triển khai.
