Harga Claude Opus 4.8: Rincian Biaya Lengkap

Penjelasan harga Claude Opus 4.8: $5/$25 mode standar dan $10/$50 mode cepat per juta token, contoh perhitungan biaya, dan bagaimana kontrol upaya, caching, dan mode batch menurunkan biaya.

Ashley Innocent

Ashley Innocent

29 May 2026

Harga Claude Opus 4.8: Rincian Biaya Lengkap

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Claude Opus 4.8 berharga $5 per juta token masukan dan $25 per juta token keluaran dalam mode standar. Itu tarif yang sama dengan Opus 4.7, jadi jika Anda sudah menganggarkan untuk 4.7, tidak ada yang berubah saat Anda meningkatkan. Bagian yang menarik adalah segala sesuatu di sekitar angka utama itu: mode yang lebih cepat, pengatur pengeluaran token, caching, dan diskon batch yang mengubah tagihan Anda yang sebenarnya jauh lebih banyak daripada tarif dasar.

Panduan ini menguraikan apa yang sebenarnya Anda bayar, dengan contoh-contoh. Untuk ikhtisar model, lihat apa itu Claude Opus 4.8. Untuk mulai membangun, lihat panduan API.

Kartu tarif

Mode Masukan (per 1M token) Keluaran (per 1M token) Kecepatan
Standar $5 $25 dasar
Cepat $10 $50 keluaran 2,5x lebih cepat

Dua hal menonjol. Pertama, token keluaran berharga lima kali lebih mahal daripada token masukan, sehingga panjang respons Claude yang mengendalikan tagihan Anda, bukan ukuran prompt Anda. Kedua, mode cepat menggandakan tarif untuk keluaran 2,5x lebih cepat. Anthropic mencatat bahwa mode cepat sekitar tiga kali lebih murah dibandingkan dengan model sebelumnya, sehingga premium untuk kecepatan telah turun dari generasi ke generasi.

Anda dapat mengkonfirmasi tarif saat ini di dokumen harga Anthropic.

Untuk apa mode cepat itu

Mode standar adalah default dan pilihan yang tepat untuk sebagian besar beban kerja. Mode cepat ada untuk kasus-kasus di mana latensi adalah produk: asisten pengkodean langsung, agen interaktif, apa pun di mana pengguna sedang melihat kursor. Anda membayar dua kali lipat per token untuk keluaran yang mengalir 2,5x lebih cepat.

Keputusannya sederhana. Jika manusia menunggu respons secara real time, mode cepat bisa sangat berharga. Jika pekerjaan berjalan di latar belakang, loop agen, pekerjaan batch, tugas terjadwal, tetap gunakan mode standar dan hemat uang.

Bagaimana upaya mengubah tagihan Anda

Ini adalah tuas yang sering dilewatkan sebagian besar tim. Parameter effort Opus 4.8 mengontrol berapa banyak token yang dihabiskan model untuk seluruh respons, termasuk panggilan alat. Karena keluaran adalah bagian yang mahal, menurunkan upaya pada pekerjaan yang tidak memerlukan penalaran mendalam akan memangkas biaya secara langsung.

Lima tingkatan, dari yang termurah hingga termahal dalam hal token:

Tugas klasifikasi dengan upaya low mungkin menggunakan sepersepuluh dari token keluaran yang akan digunakan pada high. Model yang sama, tarif yang sama, sebagian kecil dari tagihan. Panduan upaya Anthropic mencakup di mana setiap tingkat mempertahankan kualitas. Intinya: sesuaikan upaya dengan tugas daripada membayar high di mana-mana.

Skenario biaya yang dihitung

Semua angka menggunakan harga standar ($5 masukan, $25 keluaran per juta token). Ini bersifat ilustratif; jumlah token Anda yang sebenarnya akan bervariasi.

Skenario 1: giliran chatbot. 1.000 token masukan, 500 token keluaran.

Pada upaya low, keluaran menyusut, menarik biaya per giliran di bawah satu sen.

Skenario 2: tugas pengkodean agen. 50.000 token masukan konteks repo, 8.000 token keluaran pada xhigh.

Jika konteks 50K itu berulang di seluruh panggilan, caching prompt menurunkan biaya masukan menjadi sekitar $0,025, memotong total menjadi sekitar $0,23.

Skenario 3: pekerjaan batch semalam. 1.000.000 token masukan, 200.000 token keluaran, dijalankan melalui Batch API dengan diskon 50%.

Untuk perbandingan harga dengan model yang lebih murah, lihat rincian harga Gemini 3.5 Flash dan biaya API Xiaomi MiMo v2.5.

Caching prompt: penghematan tunggal terbesar

Jika Anda mengirim prompt sistem, dokumen, atau codebase yang sama pada setiap panggilan, Anda membayar harga masukan penuh untuk token yang sudah dilihat model. Caching prompt memperbaiki hal itu. Pembacaan masukan yang di-cache dikenakan biaya sebagian kecil dari tarif masukan normal, kira-kira sepersepuluh, setelah penulisan cache awal.

Agen dengan konteks panjang paling banyak menghemat. Prompt sistem 50K-token yang ditagih dengan tarif penuh pada setiap panggilan itu mahal; di-cache, bagian yang berulang hampir tidak berharga. Panggilan pertama menulis cache, setiap panggilan setelahnya membacanya dengan murah.

Batch API dan keluaran besar

Batch API menjalankan pekerjaan dengan diskon saat Anda tidak membutuhkan jawaban real-time. Kirim serangkaian permintaan, dapatkan hasilnya kembali dalam jendela batch, bayar lebih sedikit per token. Ini juga meningkatkan batas keluaran: Opus 4.8 mendukung hingga 300K token keluaran melalui Batch API dengan header beta output-300k-2026-03-24, dibandingkan 128K pada endpoint sinkron.

Gunakan untuk evaluasi, ringkasan massal, pelabelan data, dan setiap pipeline di mana latensi beberapa menit tidak menjadi masalah.

Harga Opus lintas generasi

Opus 4.8 mempertahankan harga. Kisahnya adalah seberapa jauh harga turun dua generasi yang lalu:

Model Masukan (per 1M) Keluaran (per 1M)
Opus 4.1 $15 $75
Opus 4.5 $5 $25
Opus 4.6 $5 $25
Opus 4.7 $5 $25
Opus 4.8 $5 $25

Opus turun dari $15/$75 menjadi $5/$25 pada generasi 4.5 dan tetap di sana sejak itu, sementara model di balik harga terus meningkat. Anda mendapatkan kualitas 4.8 dengan tarif 4.5. Untuk perbandingan langsung dengan produk unggulan vendor lain, lihat Opus 4.8 vs GPT-5.5 vs Gemini 3.5.

Daftar periksa optimasi biaya

Sebelum Anda menskalakan Opus 4.8, kerjakan daftar ini:

Lacak pengeluaran Anda yang sebenarnya dengan Apidog

Estimasi biaya dan biaya sebenarnya menyimpang dengan cepat setelah Anda dalam produksi, karena respons sebenarnya bervariasi dalam panjang dan jumlah panggilan alat. Cara untuk tetap jujur adalah dengan memeriksa objek usage yang dikembalikan setiap respons Messages API, yang melaporkan jumlah token masukan dan keluaran per panggilan.

Apidog membuatnya terlihat:

Unduh Apidog, arahkan permintaan ke endpoint Messages, dan jalankan prompt yang sama pada low, high, dan xhigh. Jumlah token akan memberi tahu Anda dengan tepat berapa biaya setiap tingkat upaya sebelum Anda menerapkannya dalam produksi.

FAQ

Berapa biaya Claude Opus 4.8? $5 per juta token masukan dan $25 per juta token keluaran dalam mode standar. Mode cepat adalah $10 dan $50 untuk keluaran 2,5x lebih cepat.

Apakah Opus 4.8 lebih mahal dari Opus 4.7? Tidak. Tarif per token identik, jadi peningkatan dari 4.7 tidak mengubah tagihan Anda.

Apa perbedaan antara harga mode standar dan mode cepat? Mode cepat menggandakan tarif per token sebagai ganti keluaran yang mengalir sekitar 2,5x lebih cepat. Gunakan hanya ketika latensi penting bagi pengguna yang menunggu.

Bagaimana cara menurunkan biaya Opus 4.8 saya? Turunkan tingkat effort pada tugas yang lebih sederhana, cache konten prompt yang berulang, batch pekerjaan yang tidak mendesak, dan jaga max_tokens agar ketat. Token keluaran adalah pendorong biaya utama.

Apakah caching prompt benar-benar menghemat uang? Ya. Setelah panggilan pertama menulis cache, masukan yang berulang dibaca dengan tarif sekitar sepersepuluh dari tarif masukan normal. Agen dengan konteks panjang paling banyak menghemat.

Berapa banyak token keluaran yang dapat dihasilkan Opus 4.8? Hingga 128K pada Messages API sinkron, dan hingga 300K melalui Batch API dengan header beta output-300k-2026-03-24.

Di mana saya melihat penggunaan token per panggilan? Dalam objek usage pada setiap respons Messages API. Alat seperti Apidog menampilkannya sehingga Anda dapat membandingkan biaya di berbagai tingkat upaya.

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.