Ringkasan
Claude Sonnet 4.6 berharga $3 per juta token input dan $15 per juta token output—harga yang sama dengan Sonnet 4.5, namun memberikan kinerja mendekati Opus. Dengan caching prompt, pembacaan cache turun menjadi $0,30/MTok (penghematan 90%). Batch API memangkas biaya menjadi separuhnya menjadi $1,50/$7,50 per MTok. Jendela konteks 1 Juta token (beta) memicu harga konteks panjang sebesar $6/$22,50 per MTok untuk permintaan di atas 200K token.
Harga Dasar Claude Sonnet 4.6
Claude Sonnet 4.6 mempertahankan harga yang sama dengan pendahulunya sambil memberikan hasil yang jauh lebih baik. Berikut adalah ringkasan harga intinya:
| Tingkat Harga | Token Input | Token Output |
|---|---|---|
| Standar | $3,00 / MTok | $15,00 / MTok |
| API Batch | $1,50 / MTok | $7,50 / MTok |
| Penulisan cache (5 menit) | $3,75 / MTok | — |
| Penulisan cache (1 jam) | $6,00 / MTok | — |
| Pembacaan cache | $0,30 / MTok | — |
| Konteks panjang >200K (standar) | $6,00 / MTok | $22,50 / MTok |
| Konteks panjang >200K (batch) | $3,00 / MTok | $11,25 / MTok |
MTok = juta token. Semua harga dalam USD.
Kisah nilai di sini sulit diabaikan. Penguji awal lebih menyukai Sonnet 4.6 dibandingkan model premium sebelumnya Opus 4.5 dalam 59% perbandingan langsung—dengan 60% dari biayanya.

Untuk sebagian besar tugas pengkodean, analisis, dan agen, Anda tidak perlu lagi membayar harga Opus untuk mendapatkan hasil setingkat Opus.
Rincian Harga Lengkap Berdasarkan Fitur
Harga API Standar
Tarif standar berlaku untuk semua panggilan API sinkron yang dilakukan melalui Anthropic API:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Ringkas dokumen ini."}]
)
# Periksa penggunaan token yang tepat
print(f"Token input: {response.usage.input_tokens}")
print(f"Token output: {response.usage.output_tokens}")
# Hitung biaya
input_cost = response.usage.input_tokens / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Biaya permintaan: ${input_cost + output_cost:.6f}")
Untuk panggilan API biasa dengan input 500 token dan output 300 token, biayanya kira-kira $0,0060. Itu kurang dari satu sen per permintaan dengan tarif standar.
Harga Caching Prompt
Caching prompt adalah pengungkit biaya paling berdampak dari Sonnet 4.6. Ini menyimpan sebagian prompt Anda di sisi server dan mengenakan biaya jauh lebih rendah pada cache hit.
Tarif penulisan cache:- Cache 5 menit: $3,75/MTok (1,25× harga input dasar) - Cache 1 jam: $6,00/MTok (2× harga input dasar)
Tarif pembacaan cache:- $0,30/MTok — sepersepuluh dari harga input standar
Jika prompt sistem Anda 10.000 token dan Anda memproses 1.000 permintaan per hari: - Tanpa caching: 10.000 × 1.000 × $3/MTok = $30/hari- Dengan caching (tulis sekali, baca 999×): $3,75 + (999 × 0,30) × 10.000/MTok ≈ $3,04/hari
Itu adalah pengurangan 90% hanya untuk prompt sistem statis.
import anthropic
client = anthropic.Anthropic()
# Tandai konten statis yang mahal untuk caching
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "Anda adalah peninjau kode senior yang berspesialisasi dalam Python, FastAPI, dan sistem terdistribusi. Berikut adalah standar pengkodean dan pedoman peninjauan kami: [blok besar teks standar]...",
"cache_control": {"type": "ephemeral"} # Cache blok ini
}
],
messages=[{"role": "user", "content": "Tinjau pull request ini: [konten PR]"}]
)
# Periksa apa yang berasal dari cache vs token baru
usage = response.usage
print(f"Token penulisan cache: {usage.cache_creation_input_tokens}")
print(f"Token pembacaan cache: {usage.cache_read_input_tokens}")
print(f"Token yang tidak di-cache: {usage.input_tokens}")
Kapan menggunakan durasi cache yang mana:- Cache 5 menit: Panggilan frekuensi tinggi, lalu lintas mendadak, jendela percakapan singkat - Cache 1 jam: Pipeline pemrosesan latar belakang, pekerjaan batch dengan jeda lebih lama, loop agen
Harga API Batch
API Batch menawarkan diskon 50% untuk token input dan output sebagai imbalan untuk pemrosesan asinkron (hasil tersedia dalam 24 jam, biasanya jauh lebih cepat).
| Standar | API Batch | |
|---|---|---|
| Input | $3,00/MTok | $1,50/MTok |
| Output | $15,00/MTok | $7,50/MTok |
Kasus penggunaan terbaik untuk API Batch:- Pipeline moderasi konten - Klasifikasi dokumen dalam skala besar - Pengayaan data semalam - Menghasilkan embedding atau ringkasan untuk dataset besar - Pemrosesan non-interaktif apa pun di mana latensi tidak menjadi masalah
Dengan $1,50/$7,50/MTok, memproses satu juta dokumen masing-masing dengan 500 token input dan 100 token output berbiaya: - Input: 500 Juta token × $1,50/MTok = $750- Output: 100 Juta token × $7,50/MTok = $750- Total: $1.500 untuk 1 juta dokumen (~$0,0015 per dokumen)
API Batch: Diskon 50% untuk Beban Kerja Non-Real-Time
Pemrosesan batch mudah: kirim permintaan, dapatkan hasil secara asinkron dengan setengah harga. Konsekuensinya adalah latensi—hasil tiba dalam 24 jam, meskipun biasanya jauh lebih cepat.
import anthropic, time
client = anthropic.Anthropic()
def batch_classify(texts: list[str]) -> list[str]:
"""Mengklasifikasikan daftar teks dengan tarif API Batch."""
# Kirim batch
requests = [
{
"custom_id": f"item-{i}",
"params": {
"model": "claude-sonnet-4-6",
"max_tokens": 20,
"messages": [{
"role": "user",
"content": f"Klasifikasikan sebagai POSITIF, NEGATIF, atau NETRAL. Balas dengan satu kata saja.\n\n{text}"
}]
}
}
for i, text in enumerate(texts)
]
batch = client.messages.batches.create(requests=requests)
# Lakukan polling sampai selesai
while True:
status = client.messages.batches.retrieve(batch.id)
if status.processing_status == "ended":
break
time.sleep(60)
# Kumpulkan hasil secara berurutan
results = {}
for result in client.messages.batches.results(batch.id):
if result.result.type == "succeeded":
results[result.custom_id] = result.result.message.content[0].text.strip()
return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]
Harga Konteks Panjang (1 Juta Token)
Saat Anda mengaktifkan jendela konteks 1 Juta token melalui header beta context-1m-2025-08-07, permintaan yang melebihi 200K token input akan dikenakan tarif yang lebih tinggi.
Tabel Tarif Konteks Panjang
| Token Input | Harga Input | Harga Output |
|---|---|---|
| ≤ 200K | $3,00/MTok | $15,00/MTok |
| > 200K | $6,00/MTok | $22,50/MTok |
Batas 200K didasarkan pada total token input, yang meliputi: - input_tokens (input standar) - cache_creation_input_tokens (jika menggunakan caching prompt) - cache_read_input_tokens (jika menggunakan caching prompt)
Jika total melebihi 200K, semua token dalam permintaan tersebut dikenakan tarif yang lebih tinggi.
Konteks Panjang + API Batch
Diskon 50% API Batch berlaku bersamaan dengan harga konteks panjang:
| Skenario | Tarif Input | Tarif Output |
|---|---|---|
| Standar | $3,00/MTok | $15,00/MTok |
| Konteks panjang (>200K) | $6,00/MTok | $22,50/MTok |
| API Batch | $1,50/MTok | $7,50/MTok |
| Konteks panjang + Batch | $3,00/MTok | $11,25/MTok |
Memproses dokumen besar secara massal melalui Batch API menjaga biaya konteks panjang tetap terkendali.
Harga Alat dan Fitur
Beberapa alat dikenakan biaya terpisah di luar biaya token.
Alat Pencarian Web
$10,00 per 1.000 pencarian
+ biaya token standar untuk konten yang dihasilkan dari pencarian
Setiap panggilan pencarian web dihitung sebagai satu penggunaan terlepas dari berapa banyak hasil yang dikembalikan. Tidak ada biaya jika pencarian mengalami error.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
betas=["code-execution-web-tools-2026-02-09"],
tools=[{"type": "web_search_20260209", "name": "web_search"}],
messages=[{"role": "user", "content": "Apa berita terbaru tolok ukur LLM minggu ini?"}]
)
usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Pencarian web yang digunakan: {search_count.get('web_search_requests', 0)}")
# Setiap pencarian: $0.01
Alat Eksekusi Kode
Gratis jika digabungkan dengan pencarian web atau pengambilan web (menggunakan versi alat web_search_20260209 atau web_fetch_20260209).
Saat digunakan secara mandiri: - 1.550 jam gratis per organisasi per bulan - $0,05 per jam per kontainer di luar tingkatan gratis - Unit penagihan minimum: 5 menit
Untuk sebagian besar beban kerja pengembangan dan pengujian, tingkatan gratis lebih dari cukup.
Alat Pengambilan Web
Tidak ada biaya tambahan. Anda hanya membayar biaya token standar untuk konten yang masuk ke dalam percakapan.
| Alat | Biaya Tambahan | Catatan |
|---|---|---|
| Pencarian web | $10/1K pencarian | Biaya per pencarian |
| Pengambilan web | Gratis | Hanya biaya token |
| Eksekusi kode (dengan alat web) | Gratis | Digabungkan |
| Eksekusi kode (mandiri) | $0,05/jam setelah 1.550 jam gratis/bulan | Per kontainer |
| Overhead penggunaan komputer | ~735 token input ekstra | Per definisi alat |
| Overhead editor teks | ~700 token input ekstra | Per definisi alat |
Overhead Penggunaan Komputer
Penggunaan komputer menambah overhead token tetap: - Penambahan prompt sistem: 466–499 token - Token definisi alat: 735 token per alat (model Claude 4.x)
Untuk sesi penggunaan komputer dengan 100 giliran pada 200 token/giliran ditambah tangkapan layar: - Overhead alat: 735 token × $3/MTok = $0,0022 (dapat diabaikan) - Token tangkapan layar tergantung pada resolusi; rencanakan sekitar 2.000–5.000 token per tangkapan layar
Claude Sonnet 4.6 vs Semua Model: Perbandingan Lengkap
Harga Model Saat Ini
| Model | Input | Output | Baca Cache | Input Batch | Output Batch |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | $3,00 | $15,00 | $0,30 | $1,50 | $7,50 |
| Claude Haiku 4.5 | $1,00 | $5,00 | $0,10 | $0,50 | $2,50 |
| Claude Opus 4.6 | $5,00 | $25,00 | $0,50 | $2,50 | $12,50 |
| Claude Opus 4.5 | $5,00 | $25,00 | $0,50 | $2,50 | $12,50 |
| Claude Opus 4.1 | $15,00 | $75,00 | $1,50 | $7,50 | $37,50 |
Semua harga dalam USD per juta token.
Sonnet 4.6 vs Opus 4.6: Pertanyaan Nilai
| Claude Sonnet 4.6 | Claude Opus 4.6 | |
|---|---|---|
| Harga input | $3/MTok | $5/MTok |
| Harga output | $15/MTok | $25/MTok |
| Biaya relatif | 1× | 1,67× |
| SWE-bench Terverifikasi | 79,6% | ~80,8% |
| OSWorld (penggunaan komputer) | 72,5% | 72,7% |
| Preferensi pengguna vs Sonnet 4.5 | 70% | N/A |
| Preferensi pengguna vs Opus 4.5 | 59% | N/A |
| Jendela konteks 1 Juta | Ya (beta) | Ya (beta) |
| Pemikiran adaptif | Ya | Ya |
| Output Maks | 64K token | 128K token |
Untuk sebagian besar tugas—pengkodean, analisis, pemrosesan dokumen, alur kerja agen—Sonnet 4.6 menyamai kinerja Opus dengan 60% dari harganya. Opus 4.6 sepadan dengan harga premium ketika Anda membutuhkan 128K token output atau hasil maksimum mutlak pada tugas penalaran baru.
Sonnet 4.6 vs Haiku 4.5: Kapan Menggunakan Masing-masing
| Kasus Penggunaan | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|
| Pembuatan kode kompleks | ✅ | ⚠️ |
| Klasifikasi sederhana | ⚠️ Berlebihan | ✅ |
| Ringkasan dokumen | ✅ | ✅ |
| Tugas agen multi-langkah | ✅ | ❌ |
| Volume tinggi kompleksitas rendah | ❌ Mahal | ✅ |
| Panggilan alat / penggunaan fungsi | ✅ | ✅ |
| Rantai penalaran panjang | ✅ | ❌ |
| Aplikasi sensitif latensi | ✅ Cepat | ✅ Tercepat |
Pola cerdas: gunakan Haiku 4.5 untuk perutean, klasifikasi, dan ekstraksi sederhana; arahkan tugas kompleks ke Sonnet 4.6. Pendekatan hibrida ini biasanya berbiaya 60–80% lebih murah daripada Sonnet 4.6 untuk semuanya.
Menguji Biaya dengan Apidog Sebelum Tayang
Sebelum menerapkan ke produksi, Anda ingin mengetahui secara pasti berapa biaya setiap permintaan. Klien API visual Apidog memungkinkan Anda menguji panggilan Claude Sonnet 4.6, memeriksa respons lengkap termasuk objek usage, dan melacak jumlah token per permintaan.

Mengatur Visibilitas Biaya di Apidog
- Buat permintaan POST baru ke
https://api.anthropic.com/v1/messages - Tambahkan header:
x-api-key,anthropic-version: 2023-06-01,Content-Type: application/json - Atur badan permintaan dengan model dan pesan Anda
- Jalankan permintaan — objek
usagepada respons menunjukkan jumlah token yang tepat
{
"usage": {
"input_tokens": 523,
"cache_creation_input_tokens": 5000,
"cache_read_input_tokens": 0,
"output_tokens": 312
}
}
Dari angka-angka tersebut, hitung biaya aktual: - Input: 523 token × $3/MTok = $0,00157 - Penulisan cache: 5.000 token × $3,75/MTok = $0,01875 - Output: 312 token × $15/MTok = $0,00468 - Total panggilan pertama: $0,025 (panggilan berikutnya dengan cache hit: ~$0,006)
Anda dapat menyimpan permintaan ini sebagai koleksi di Apidog, membagikannya dengan tim Anda, dan menjalankan perkiraan biaya untuk berbagai variasi prompt sebelum menyelesaikan desain produksi Anda.
Siap untuk mulai membangun? Unduh Apidog secara gratis untuk menguji panggilan API Claude Sonnet 4.6 secara visual, memeriksa penggunaan token per permintaan, dan memperkirakan biaya Anda secara akurat sebelum diterapkan.
