Harga Claude Sonnet 4.6: Berapa Biayanya?

Ashley Innocent

Ashley Innocent

18 February 2026

Harga Claude Sonnet 4.6: Berapa Biayanya?

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Ringkasan

Claude Sonnet 4.6 berharga $3 per juta token input dan $15 per juta token output—harga yang sama dengan Sonnet 4.5, namun memberikan kinerja mendekati Opus. Dengan caching prompt, pembacaan cache turun menjadi $0,30/MTok (penghematan 90%). Batch API memangkas biaya menjadi separuhnya menjadi $1,50/$7,50 per MTok. Jendela konteks 1 Juta token (beta) memicu harga konteks panjang sebesar $6/$22,50 per MTok untuk permintaan di atas 200K token.

Harga Dasar Claude Sonnet 4.6

Claude Sonnet 4.6 mempertahankan harga yang sama dengan pendahulunya sambil memberikan hasil yang jauh lebih baik. Berikut adalah ringkasan harga intinya:

Tingkat Harga Token Input Token Output
Standar $3,00 / MTok $15,00 / MTok
API Batch $1,50 / MTok $7,50 / MTok
Penulisan cache (5 menit) $3,75 / MTok
Penulisan cache (1 jam) $6,00 / MTok
Pembacaan cache $0,30 / MTok
Konteks panjang >200K (standar) $6,00 / MTok $22,50 / MTok
Konteks panjang >200K (batch) $3,00 / MTok $11,25 / MTok

MTok = juta token. Semua harga dalam USD.

Kisah nilai di sini sulit diabaikan. Penguji awal lebih menyukai Sonnet 4.6 dibandingkan model premium sebelumnya Opus 4.5 dalam 59% perbandingan langsung—dengan 60% dari biayanya.

Tolok ukur Sonnet 4.6

Untuk sebagian besar tugas pengkodean, analisis, dan agen, Anda tidak perlu lagi membayar harga Opus untuk mendapatkan hasil setingkat Opus.

💡
Menguji permintaan ini sebelum menulis kode produksi menghemat uang dalam skala besar. Unduh Apidog untuk menjalankan panggilan API percobaan terhadap Claude Sonnet 4.6, memeriksa penggunaan token aktual per permintaan, dan memperkirakan anggaran Anda secara akurat sebelum Anda berkomitmen.
tombol

Rincian Harga Lengkap Berdasarkan Fitur

Harga API Standar

Tarif standar berlaku untuk semua panggilan API sinkron yang dilakukan melalui Anthropic API:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Ringkas dokumen ini."}]
)

# Periksa penggunaan token yang tepat
print(f"Token input: {response.usage.input_tokens}")
print(f"Token output: {response.usage.output_tokens}")

# Hitung biaya
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Biaya permintaan: ${input_cost + output_cost:.6f}")

Untuk panggilan API biasa dengan input 500 token dan output 300 token, biayanya kira-kira $0,0060. Itu kurang dari satu sen per permintaan dengan tarif standar.

Harga Caching Prompt

Caching prompt adalah pengungkit biaya paling berdampak dari Sonnet 4.6. Ini menyimpan sebagian prompt Anda di sisi server dan mengenakan biaya jauh lebih rendah pada cache hit.

Tarif penulisan cache:- Cache 5 menit: $3,75/MTok (1,25× harga input dasar) - Cache 1 jam: $6,00/MTok (2× harga input dasar)

Tarif pembacaan cache:- $0,30/MTok — sepersepuluh dari harga input standar

Jika prompt sistem Anda 10.000 token dan Anda memproses 1.000 permintaan per hari: - Tanpa caching: 10.000 × 1.000 × $3/MTok = $30/hari- Dengan caching (tulis sekali, baca 999×): $3,75 + (999 × 0,30) × 10.000/MTok ≈ $3,04/hari

Itu adalah pengurangan 90% hanya untuk prompt sistem statis.

import anthropic

client = anthropic.Anthropic()

# Tandai konten statis yang mahal untuk caching
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "Anda adalah peninjau kode senior yang berspesialisasi dalam Python, FastAPI, dan sistem terdistribusi. Berikut adalah standar pengkodean dan pedoman peninjauan kami: [blok besar teks standar]...",
            "cache_control": {"type": "ephemeral"}  # Cache blok ini
        }
    ],
    messages=[{"role": "user", "content": "Tinjau pull request ini: [konten PR]"}]
)

# Periksa apa yang berasal dari cache vs token baru
usage = response.usage
print(f"Token penulisan cache: {usage.cache_creation_input_tokens}")
print(f"Token pembacaan cache:  {usage.cache_read_input_tokens}")
print(f"Token yang tidak di-cache:    {usage.input_tokens}")

Kapan menggunakan durasi cache yang mana:- Cache 5 menit: Panggilan frekuensi tinggi, lalu lintas mendadak, jendela percakapan singkat - Cache 1 jam: Pipeline pemrosesan latar belakang, pekerjaan batch dengan jeda lebih lama, loop agen

Harga API Batch

API Batch menawarkan diskon 50% untuk token input dan output sebagai imbalan untuk pemrosesan asinkron (hasil tersedia dalam 24 jam, biasanya jauh lebih cepat).

Standar API Batch
Input $3,00/MTok $1,50/MTok
Output $15,00/MTok $7,50/MTok

Kasus penggunaan terbaik untuk API Batch:- Pipeline moderasi konten - Klasifikasi dokumen dalam skala besar - Pengayaan data semalam - Menghasilkan embedding atau ringkasan untuk dataset besar - Pemrosesan non-interaktif apa pun di mana latensi tidak menjadi masalah

Dengan $1,50/$7,50/MTok, memproses satu juta dokumen masing-masing dengan 500 token input dan 100 token output berbiaya: - Input: 500 Juta token × $1,50/MTok = $750- Output: 100 Juta token × $7,50/MTok = $750- Total: $1.500 untuk 1 juta dokumen (~$0,0015 per dokumen)

API Batch: Diskon 50% untuk Beban Kerja Non-Real-Time

Pemrosesan batch mudah: kirim permintaan, dapatkan hasil secara asinkron dengan setengah harga. Konsekuensinya adalah latensi—hasil tiba dalam 24 jam, meskipun biasanya jauh lebih cepat.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """Mengklasifikasikan daftar teks dengan tarif API Batch."""

    # Kirim batch
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Klasifikasikan sebagai POSITIF, NEGATIF, atau NETRAL. Balas dengan satu kata saja.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # Lakukan polling sampai selesai
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # Kumpulkan hasil secara berurutan
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

Harga Konteks Panjang (1 Juta Token)

Saat Anda mengaktifkan jendela konteks 1 Juta token melalui header beta context-1m-2025-08-07, permintaan yang melebihi 200K token input akan dikenakan tarif yang lebih tinggi.

Tabel Tarif Konteks Panjang

Token Input Harga Input Harga Output
≤ 200K $3,00/MTok $15,00/MTok
> 200K $6,00/MTok $22,50/MTok

Batas 200K didasarkan pada total token input, yang meliputi: - input_tokens (input standar) - cache_creation_input_tokens (jika menggunakan caching prompt) - cache_read_input_tokens (jika menggunakan caching prompt)

Jika total melebihi 200K, semua token dalam permintaan tersebut dikenakan tarif yang lebih tinggi.

Konteks Panjang + API Batch

Diskon 50% API Batch berlaku bersamaan dengan harga konteks panjang:

Skenario Tarif Input Tarif Output
Standar $3,00/MTok $15,00/MTok
Konteks panjang (>200K) $6,00/MTok $22,50/MTok
API Batch $1,50/MTok $7,50/MTok
Konteks panjang + Batch $3,00/MTok $11,25/MTok

Memproses dokumen besar secara massal melalui Batch API menjaga biaya konteks panjang tetap terkendali.

Harga Alat dan Fitur

Beberapa alat dikenakan biaya terpisah di luar biaya token.

Alat Pencarian Web

$10,00 per 1.000 pencarian
+ biaya token standar untuk konten yang dihasilkan dari pencarian

Setiap panggilan pencarian web dihitung sebagai satu penggunaan terlepas dari berapa banyak hasil yang dikembalikan. Tidak ada biaya jika pencarian mengalami error.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "Apa berita terbaru tolok ukur LLM minggu ini?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Pencarian web yang digunakan: {search_count.get('web_search_requests', 0)}")
# Setiap pencarian: $0.01

Alat Eksekusi Kode

Gratis jika digabungkan dengan pencarian web atau pengambilan web (menggunakan versi alat web_search_20260209 atau web_fetch_20260209).

Saat digunakan secara mandiri: - 1.550 jam gratis per organisasi per bulan - $0,05 per jam per kontainer di luar tingkatan gratis - Unit penagihan minimum: 5 menit

Untuk sebagian besar beban kerja pengembangan dan pengujian, tingkatan gratis lebih dari cukup.

Alat Pengambilan Web

Tidak ada biaya tambahan. Anda hanya membayar biaya token standar untuk konten yang masuk ke dalam percakapan.

Alat Biaya Tambahan Catatan
Pencarian web $10/1K pencarian Biaya per pencarian
Pengambilan web Gratis Hanya biaya token
Eksekusi kode (dengan alat web) Gratis Digabungkan
Eksekusi kode (mandiri) $0,05/jam setelah 1.550 jam gratis/bulan Per kontainer
Overhead penggunaan komputer ~735 token input ekstra Per definisi alat
Overhead editor teks ~700 token input ekstra Per definisi alat

Overhead Penggunaan Komputer

Penggunaan komputer menambah overhead token tetap: - Penambahan prompt sistem: 466–499 token - Token definisi alat: 735 token per alat (model Claude 4.x)

Untuk sesi penggunaan komputer dengan 100 giliran pada 200 token/giliran ditambah tangkapan layar: - Overhead alat: 735 token × $3/MTok = $0,0022 (dapat diabaikan) - Token tangkapan layar tergantung pada resolusi; rencanakan sekitar 2.000–5.000 token per tangkapan layar

Claude Sonnet 4.6 vs Semua Model: Perbandingan Lengkap

Harga Model Saat Ini

Model Input Output Baca Cache Input Batch Output Batch
Claude Sonnet 4.6 $3,00 $15,00 $0,30 $1,50 $7,50
Claude Haiku 4.5 $1,00 $5,00 $0,10 $0,50 $2,50
Claude Opus 4.6 $5,00 $25,00 $0,50 $2,50 $12,50
Claude Opus 4.5 $5,00 $25,00 $0,50 $2,50 $12,50
Claude Opus 4.1 $15,00 $75,00 $1,50 $7,50 $37,50

Semua harga dalam USD per juta token.

Sonnet 4.6 vs Opus 4.6: Pertanyaan Nilai

Claude Sonnet 4.6 Claude Opus 4.6
Harga input $3/MTok $5/MTok
Harga output $15/MTok $25/MTok
Biaya relatif 1,67×
SWE-bench Terverifikasi 79,6% ~80,8%
OSWorld (penggunaan komputer) 72,5% 72,7%
Preferensi pengguna vs Sonnet 4.5 70% N/A
Preferensi pengguna vs Opus 4.5 59% N/A
Jendela konteks 1 Juta Ya (beta) Ya (beta)
Pemikiran adaptif Ya Ya
Output Maks 64K token 128K token

Untuk sebagian besar tugas—pengkodean, analisis, pemrosesan dokumen, alur kerja agen—Sonnet 4.6 menyamai kinerja Opus dengan 60% dari harganya. Opus 4.6 sepadan dengan harga premium ketika Anda membutuhkan 128K token output atau hasil maksimum mutlak pada tugas penalaran baru.

Sonnet 4.6 vs Haiku 4.5: Kapan Menggunakan Masing-masing

Kasus Penggunaan Sonnet 4.6 Haiku 4.5
Pembuatan kode kompleks ⚠️
Klasifikasi sederhana ⚠️ Berlebihan
Ringkasan dokumen
Tugas agen multi-langkah
Volume tinggi kompleksitas rendah ❌ Mahal
Panggilan alat / penggunaan fungsi
Rantai penalaran panjang
Aplikasi sensitif latensi ✅ Cepat ✅ Tercepat

Pola cerdas: gunakan Haiku 4.5 untuk perutean, klasifikasi, dan ekstraksi sederhana; arahkan tugas kompleks ke Sonnet 4.6. Pendekatan hibrida ini biasanya berbiaya 60–80% lebih murah daripada Sonnet 4.6 untuk semuanya.

Menguji Biaya dengan Apidog Sebelum Tayang

Sebelum menerapkan ke produksi, Anda ingin mengetahui secara pasti berapa biaya setiap permintaan. Klien API visual Apidog memungkinkan Anda menguji panggilan Claude Sonnet 4.6, memeriksa respons lengkap termasuk objek usage, dan melacak jumlah token per permintaan.

Antarmuka Apidog

Mengatur Visibilitas Biaya di Apidog

  1. Buat permintaan POST baru ke https://api.anthropic.com/v1/messages
  2. Tambahkan header: x-api-key, anthropic-version: 2023-06-01, Content-Type: application/json
  3. Atur badan permintaan dengan model dan pesan Anda
  4. Jalankan permintaan — objek usage pada respons menunjukkan jumlah token yang tepat
{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

Dari angka-angka tersebut, hitung biaya aktual: - Input: 523 token × $3/MTok = $0,00157 - Penulisan cache: 5.000 token × $3,75/MTok = $0,01875 - Output: 312 token × $15/MTok = $0,00468 - Total panggilan pertama: $0,025 (panggilan berikutnya dengan cache hit: ~$0,006)

Anda dapat menyimpan permintaan ini sebagai koleksi di Apidog, membagikannya dengan tim Anda, dan menjalankan perkiraan biaya untuk berbagai variasi prompt sebelum menyelesaikan desain produksi Anda.

Siap untuk mulai membangun? Unduh Apidog secara gratis untuk menguji panggilan API Claude Sonnet 4.6 secara visual, memeriksa penggunaan token per permintaan, dan memperkirakan biaya Anda secara akurat sebelum diterapkan.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.