Giá Thực Tế Của Claude Sonnet 4.6 Là Bao Nhiêu?

Ashley Innocent

Ashley Innocent

18 tháng 2 2026

Giá Thực Tế Của Claude Sonnet 4.6 Là Bao Nhiêu?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

TL;DR

Claude Sonnet 4.6 có giá 3 đô la cho mỗi triệu token đầu vào và 15 đô la cho mỗi triệu token đầu ra—cùng mức giá với Sonnet 4.5, trong khi mang lại hiệu suất gần bằng Opus. Với bộ nhớ đệm lời nhắc (prompt caching), chi phí đọc từ bộ nhớ đệm giảm xuống còn 0,30 đô la/MTok (tiết kiệm 90%). API xử lý theo lô (Batch API) giảm chi phí một nửa còn 1,50 đô la/7,50 đô la mỗi MTok. Cửa sổ ngữ cảnh 1 triệu token (beta) áp dụng giá ngữ cảnh dài với 6 đô la/22,50 đô la mỗi MTok cho các yêu cầu trên 200 nghìn token.

Giá cơ bản của Claude Sonnet 4.6

Claude Sonnet 4.6 giữ nguyên mức giá như phiên bản tiền nhiệm trong khi mang lại kết quả tốt hơn đáng kể. Dưới đây là cái nhìn tổng quan về giá cơ bản:

Bậc giá Token đầu vào Token đầu ra
Tiêu chuẩn 3,00 đô la / MTok 15,00 đô la / MTok
Batch API 1,50 đô la / MTok 7,50 đô la / MTok
Ghi vào bộ đệm (5 phút) 3,75 đô la / MTok
Ghi vào bộ đệm (1 giờ) 6,00 đô la / MTok
Đọc từ bộ đệm 0,30 đô la / MTok
Ngữ cảnh dài >200K (tiêu chuẩn) 6,00 đô la / MTok 22,50 đô la / MTok
Ngữ cảnh dài >200K (lô) 3,00 đô la / MTok 11,25 đô la / MTok

MTok = triệu token. Tất cả giá bằng USD.

Giá trị mà Sonnet 4.6 mang lại khó có thể bỏ qua. Những người thử nghiệm ban đầu đã chọn Sonnet 4.6 thay vì mô hình cao cấp trước đây là Opus 4.5 trong 59% các so sánh trực tiếp — với chi phí chỉ bằng 60%.

Sonnet 4.6 benchmark

Đối với hầu hết các tác vụ viết mã, phân tích và tác nhân, bạn không cần phải trả giá Opus để có được kết quả tương đương Opus nữa.

💡
Kiểm tra các yêu cầu này trước khi viết mã sản xuất sẽ giúp tiết kiệm tiền ở quy mô lớn. Tải xuống Apidog để chạy thử nghiệm các cuộc gọi API đối với Claude Sonnet 4.6, kiểm tra mức sử dụng token thực tế cho mỗi yêu cầu và ước tính ngân sách của bạn một cách chính xác trước khi cam kết.
button

Phân tích chi tiết giá theo tính năng

Giá API tiêu chuẩn

Mức giá tiêu chuẩn áp dụng cho tất cả các cuộc gọi API đồng bộ được thực hiện thông qua Anthropic API:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Summarize this document."}]
)

# Kiểm tra mức sử dụng token chính xác
print(f"Token đầu vào: {response.usage.input_tokens}")
print(f"Token đầu ra: {response.usage.output_tokens}")

# Tính toán chi phí
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Chi phí yêu cầu: ${input_cost + output_cost:.6f}")

Đối với một cuộc gọi API thông thường với 500 token đầu vào và 300 token đầu ra, chi phí ước tính khoảng 0,0060 đô la. Tức là chưa đến một xu cho mỗi yêu cầu theo mức giá tiêu chuẩn.

Giá bộ nhớ đệm lời nhắc (Prompt Caching)

Bộ nhớ đệm lời nhắc là đòn bẩy chi phí hiệu quả nhất của Sonnet 4.6. Nó lưu trữ các phần của lời nhắc của bạn ở phía máy chủ và tính phí ít hơn đáng kể khi truy cập từ bộ nhớ đệm.

Giá ghi vào bộ đệm:- Bộ đệm 5 phút: 3,75 đô la/MTok (1,25 × giá đầu vào cơ bản) - Bộ đệm 1 giờ: 6,00 đô la/MTok (2 × giá đầu vào cơ bản)

Giá đọc từ bộ đệm:- 0,30 đô la/MTok — một phần mười giá đầu vào tiêu chuẩn

Nếu lời nhắc hệ thống của bạn là 10.000 token và bạn xử lý 1.000 yêu cầu mỗi ngày: - Không dùng bộ đệm: 10.000 × 1.000 × 3 đô la/MTok = 30 đô la/ngày- Với bộ đệm (ghi một lần, đọc 999 lần): 3,75 đô la + (999 × 0,30) × 10.000/MTok ≈ 3,04 đô la/ngày

Đó là mức giảm 90% chỉ riêng cho một lời nhắc hệ thống tĩnh.

import anthropic

client = anthropic.Anthropic()

# Đánh dấu nội dung tĩnh đắt tiền để lưu vào bộ đệm
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "Bạn là một nhà đánh giá mã cấp cao chuyên về Python, FastAPI và các hệ thống phân tán. Đây là các tiêu chuẩn mã hóa và hướng dẫn đánh giá của chúng tôi: [khối văn bản tiêu chuẩn lớn]...",
            "cache_control": {"type": "ephemeral"}  # Lưu khối này vào bộ đệm
        }
    ],
    messages=[{"role": "user", "content": "Đánh giá yêu cầu pull này: [nội dung PR]"}]
)

# Kiểm tra những gì đến từ bộ đệm so với các token mới
usage = response.usage
print(f"Token ghi vào bộ đệm: {usage.cache_creation_input_tokens}")
print(f"Token đọc từ bộ đệm:  {usage.cache_read_input_tokens}")
print(f"Token chưa lưu vào bộ đệm:    {usage.input_tokens}")

Khi nào sử dụng thời lượng bộ đệm nào:- Bộ đệm 5 phút: Các cuộc gọi tần suất cao, lưu lượng truy cập đột biến, cửa sổ hội thoại ngắn - Bộ đệm 1 giờ: Các quy trình xử lý nền, công việc theo lô có khoảng thời gian dài hơn, vòng lặp tác nhân

Giá API theo lô (Batch API)

API theo lô giảm giá cố định 50% cho cả token đầu vào và đầu ra để đổi lấy việc xử lý không đồng bộ (kết quả có sẵn trong vòng 24 giờ, thường nhanh hơn nhiều).

Tiêu chuẩn Batch API
Đầu vào 3,00 đô la/MTok 1,50 đô la/MTok
Đầu ra 15,00 đô la/MTok 7,50 đô la/MTok

Các trường hợp sử dụng tốt nhất cho Batch API:- Các quy trình kiểm duyệt nội dung - Phân loại tài liệu ở quy mô lớn - Tăng cường dữ liệu qua đêm - Tạo nhúng hoặc tóm tắt cho các tập dữ liệu lớn - Bất kỳ quá trình xử lý không tương tác nào mà độ trễ không quan trọng

Với 1,50 đô la/7,50 đô la/MTok, việc xử lý một triệu tài liệu, mỗi tài liệu 500 token đầu vào và 100 token đầu ra, có chi phí: - Đầu vào: 500 triệu token × 1,50 đô la/MTok = 750 đô la- Đầu ra: 100 triệu token × 7,50 đô la/MTok = 750 đô la- Tổng cộng: 1.500 đô la cho 1 triệu tài liệu (~0,0015 đô la mỗi tài liệu)

Batch API: Giảm giá 50% cho các tác vụ không theo thời gian thực

Xử lý theo lô rất đơn giản: gửi yêu cầu, nhận kết quả không đồng bộ với giá một nửa. Đánh đổi là độ trễ — kết quả đến trong vòng 24 giờ, mặc dù thường nhanh hơn nhiều.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """Phân loại danh sách các văn bản theo mức giá Batch API."""

    # Gửi lô
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Phân loại là TÍCH CỰC, TIÊU CỰC, hoặc TRUNG TÍNH. Chỉ trả lời bằng một từ.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # Lặp cho đến khi hoàn thành
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # Thu thập kết quả theo thứ tự
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

Giá Ngữ cảnh dài (1 triệu Token)

Khi bạn bật cửa sổ ngữ cảnh 1 triệu token thông qua tiêu đề beta context-1m-2025-08-07, các yêu cầu vượt quá 200 nghìn token đầu vào sẽ bị tính phí với mức cao hơn.

Bảng giá ngữ cảnh dài

Token đầu vào Giá đầu vào Giá đầu ra
≤ 200K 3,00 đô la/MTok 15,00 đô la/MTok
> 200K 6,00 đô la/MTok 22,50 đô la/MTok

Ngưỡng 200K dựa trên tổng số token đầu vào, bao gồm: - input_tokens (đầu vào tiêu chuẩn) - cache_creation_input_tokens (nếu sử dụng bộ nhớ đệm lời nhắc) - cache_read_input_tokens (nếu sử dụng bộ nhớ đệm lời nhắc)

Nếu tổng số vượt quá 200K, tất cả các token trong yêu cầu đó sẽ bị tính phí theo mức cao hơn.

Ngữ cảnh dài + Batch API

Giảm giá 50% của Batch API được cộng dồn với giá ngữ cảnh dài:

Kịch bản Tỷ lệ đầu vào Tỷ lệ đầu ra
Tiêu chuẩn 3,00 đô la/MTok 15,00 đô la/MTok
Ngữ cảnh dài (>200K) 6,00 đô la/MTok 22,50 đô la/MTok
Batch API 1,50 đô la/MTok 7,50 đô la/MTok
Ngữ cảnh dài + Batch 3,00 đô la/MTok 11,25 đô la/MTok

Xử lý các tài liệu lớn theo lô thông qua Batch API giúp quản lý chi phí ngữ cảnh dài.

Giá công cụ và tính năng

Một số công cụ có các khoản phí riêng biệt ngoài chi phí token.

Công cụ tìm kiếm web

10,00 đô la cho mỗi 1.000 lượt tìm kiếm
+ chi phí token tiêu chuẩn cho nội dung được tạo từ tìm kiếm

Mỗi cuộc gọi tìm kiếm web được tính là một lượt sử dụng bất kể số lượng kết quả trả về. Không tính phí nếu tìm kiếm gặp lỗi.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "Tin tức benchmark LLM mới nhất tuần này là gì?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Số lượt tìm kiếm web đã sử dụng: {search_count.get('web_search_requests', 0)}")
# Mỗi lượt tìm kiếm: 0,01 đô la

Công cụ thực thi mã

Miễn phí khi được gói cùng với tìm kiếm web hoặc lấy dữ liệu web (sử dụng phiên bản công cụ web_search_20260209 hoặc web_fetch_20260209).

Khi được sử dụng độc lập: - 1.550 giờ miễn phí mỗi tổ chức mỗi tháng - 0,05 đô la mỗi giờ cho mỗi container ngoài cấp miễn phí - Đơn vị thanh toán tối thiểu: 5 phút

Đối với hầu hết các tác vụ phát triển và thử nghiệm, cấp miễn phí là quá đủ.

Công cụ lấy dữ liệu web

Không có phí bổ sung. Bạn chỉ trả chi phí token tiêu chuẩn cho nội dung đi vào cuộc trò chuyện.

Công cụ Chi phí bổ sung Ghi chú
Tìm kiếm web 10 đô la/1K lượt tìm kiếm Phí mỗi lượt tìm kiếm
Lấy dữ liệu web Miễn phí Chỉ tính chi phí token
Thực thi mã (với công cụ web) Miễn phí Được gói cùng
Thực thi mã (độc lập) 0,05 đô la/giờ sau 1.550 giờ miễn phí/tháng Mỗi container
Chi phí chung cho việc sử dụng máy tính ~735 token đầu vào bổ sung Mỗi định nghĩa công cụ
Chi phí chung cho trình soạn thảo văn bản ~700 token đầu vào bổ sung Mỗi định nghĩa công cụ

Chi phí chung cho việc sử dụng máy tính

Việc sử dụng máy tính cộng thêm chi phí token cố định: - Bổ sung lời nhắc hệ thống: 466–499 token - Token định nghĩa công cụ: 735 token cho mỗi công cụ (mô hình Claude 4.x)

Đối với một phiên sử dụng máy tính với 100 lượt tại 200 token/lượt cộng với ảnh chụp màn hình: - Chi phí chung công cụ: 735 token × 3 đô la/MTok = 0,0022 đô la (không đáng kể) - Token ảnh chụp màn hình phụ thuộc vào độ phân giải; lên kế hoạch khoảng ~2.000–5.000 token cho mỗi ảnh chụp màn hình

Claude Sonnet 4.6 so với tất cả các mô hình: So sánh đầy đủ

Giá mô hình hiện tại

Mô hình Đầu vào Đầu ra Đọc từ bộ đệm Đầu vào Batch Đầu ra Batch
Claude Sonnet 4.6 3,00 đô la 15,00 đô la 0,30 đô la 1,50 đô la 7,50 đô la
Claude Haiku 4.5 1,00 đô la 5,00 đô la 0,10 đô la 0,50 đô la 2,50 đô la
Claude Opus 4.6 5,00 đô la 25,00 đô la 0,50 đô la 2,50 đô la 12,50 đô la
Claude Opus 4.5 5,00 đô la 25,00 đô la 0,50 đô la 2,50 đô la 12,50 đô la
Claude Opus 4.1 15,00 đô la 75,00 đô la 1,50 đô la 7,50 đô la 37,50 đô la

Tất cả giá bằng USD trên mỗi triệu token.

Sonnet 4.6 so với Opus 4.6: Câu hỏi về giá trị

Claude Sonnet 4.6 Claude Opus 4.6
Giá đầu vào 3 đô la/MTok 5 đô la/MTok
Giá đầu ra 15 đô la/MTok 25 đô la/MTok
Chi phí tương đối 1,67×
SWE-bench Đã xác minh 79,6% ~80,8%
OSWorld (sử dụng máy tính) 72,5% 72,7%
Ưu tiên của người dùng so với Sonnet 4.5 70% Không áp dụng
Ưu tiên của người dùng so với Opus 4.5 59% Không áp dụng
Cửa sổ ngữ cảnh 1 triệu Có (beta) Có (beta)
Tư duy thích ứng
Đầu ra tối đa 64K token 128K token

Đối với phần lớn các tác vụ—viết mã, phân tích, xử lý tài liệu, quy trình tác nhân—Sonnet 4.6 đạt hiệu suất của Opus với 60% chi phí. Opus 4.6 đáng giá hơn khi bạn cần 128K token đầu ra hoặc khả năng suy luận mới tối đa tuyệt đối.

Sonnet 4.6 so với Haiku 4.5: Khi nào nên sử dụng từng loại

Trường hợp sử dụng Sonnet 4.6 Haiku 4.5
Tạo mã phức tạp ⚠️
Phân loại đơn giản ⚠️ Quá mức
Tóm tắt tài liệu
Tác vụ tác nhân nhiều bước
Khối lượng lớn, độ phức tạp thấp ❌ Đắt tiền
Gọi công cụ / sử dụng hàm
Chuỗi suy luận dài
Ứng dụng nhạy cảm với độ trễ ✅ Nhanh ✅ Nhanh nhất

Mô hình thông minh: sử dụng Haiku 4.5 cho việc định tuyến, phân loại và trích xuất đơn giản; chuyển các tác vụ phức tạp sang Sonnet 4.6. Cách tiếp cận kết hợp này thường có chi phí thấp hơn 60–80% so với việc sử dụng Sonnet 4.6 cho mọi thứ.

Kiểm tra chi phí bằng Apidog trước khi triển khai chính thức

Trước khi triển khai lên môi trường sản xuất, bạn muốn biết chính xác chi phí của từng yêu cầu. Client API trực quan của Apidog cho phép bạn kiểm tra các cuộc gọi Claude Sonnet 4.6, kiểm tra phản hồi đầy đủ bao gồm đối tượng usage và theo dõi số lượng token trên mỗi yêu cầu.

Giao diện Apidog

Thiết lập khả năng hiển thị chi phí trong Apidog

  1. Tạo một yêu cầu POST mới đến https://api.anthropic.com/v1/messages
  2. Thêm các tiêu đề: x-api-key, anthropic-version: 2023-06-01, Content-Type: application/json
  3. Đặt nội dung với mô hình và tin nhắn của bạn
  4. Chạy yêu cầu — đối tượng usage của phản hồi sẽ hiển thị số lượng token chính xác
{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

Từ những con số đó, hãy tính toán chi phí thực tế: - Đầu vào: 523 token × 3 đô la/MTok = 0,00157 đô la - Ghi vào bộ đệm: 5.000 token × 3,75 đô la/MTok = 0,01875 đô la - Đầu ra: 312 token × 15 đô la/MTok = 0,00468 đô la - Tổng cuộc gọi đầu tiên: 0,025 đô la (các cuộc gọi tiếp theo có truy cập bộ đệm: ~0,006 đô la)

Bạn có thể lưu các yêu cầu này dưới dạng bộ sưu tập trong Apidog, chia sẻ chúng với nhóm của mình và chạy ước tính chi phí trên các biến thể lời nhắc khác nhau trước khi hoàn thiện thiết kế sản xuất của bạn.

Sẵn sàng bắt đầu xây dựng? Tải xuống Apidog miễn phí để kiểm tra các cuộc gọi API Claude Sonnet 4.6 một cách trực quan, kiểm tra mức sử dụng token trên mỗi yêu cầu và ước tính chi phí của bạn một cách chính xác trước khi triển khai.

button

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API