Analisis Benchmark Claude Sonnet 5: Mengungkap Hasil Sebenarnya

Claude Sonnet 5 diluncurkan pada 30 Juni 2026, dan klaim utama dari Anthropic sangat berani: performa agenik yang mendekati Opus 4.8 dengan harga yang jauh lebih rendah. Artikel ini akan membahas skor benchmark yang dilaporkan saat peluncuran, menjelaskan apa sebenarnya arti pola tersebut, dan menunjukkan di mana angka-angka tersebut berhenti menjadi berguna. Jika Anda ingin gambaran umum model lengkap terlebih dahulu, mulailah dengan panduan pilar Claude Sonnet 5. Untuk angka mentah langsung dari sumbernya, Anthropic menerbitkannya di halaman pengumuman resmi.

Berikut adalah versi singkatnya. Untuk tugas-tugas di mana model menggunakan alat, Sonnet 5 berada dalam beberapa poin dari Opus 4.8. Untuk penalaran murni tanpa bantuan apa pun, selisihnya melebar menjadi sekitar enam poin. Pola tunggal itulah yang menjelaskan sebagian besar keputusan pembelian, dan itu adalah benang merah yang akan kita tarik di bawah.

Perbandingan Skor Claude Sonnet 5, Sonnet 4.6, dan Opus 4.8

Semua angka dalam artikel ini adalah benchmark peluncuran Anthropic, yang dikuatkan di berbagai tulisan hari peluncuran. Anggaplah ini sebagai angka yang dilaporkan, bukan sebagai pengujian independen kami sendiri.

Tabel benchmark

Tiga benchmark menceritakan kisahnya. Berikut adalah skor yang dilaporkan untuk Sonnet 5, pendahulunya Sonnet 4.6, dan flagship Opus 4.8.

Benchmark	Apa yang diukur	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Coding agenik pada repo nyata	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Penyelesaian tugas command-line	80.4%	tidak dilaporkan	82.7%
OSWorld-Verified	Penggunaan komputer, tugas GUI	81.2%	78.5%	83.4%

Ada beberapa hal yang menonjol.

Sonnet 5 mengalahkan Sonnet 4.6 pada setiap benchmark di mana keduanya dilaporkan. Lompatan SWE-bench Pro dari 58.1% menjadi 63.2% adalah lebih dari lima poin, yang merupakan peningkatan generasi yang nyata untuk coding agenik. OSWorld-Verified bergerak dari 78.5% menjadi 81.2%.

Terhadap Opus 4.8, Sonnet 5 tertinggal 6.0 poin pada SWE-bench Pro, 2.3 poin pada Terminal-Bench 2.1, dan 2.2 poin pada OSWorld-Verified. Selisihnya paling kecil pada dua tugas yang paling banyak menggunakan alat dan terminal.

Pola yang penting

Baca lagi tabel tersebut dengan satu pertanyaan di benak: seberapa banyak model dapat menggunakan alat untuk menyelesaikan masalah?

Pada Terminal-Bench 2.1 dan OSWorld-Verified, model menjalankan perintah, membaca output, dan menyesuaikan diri. Model mendapatkan umpan balik dari lingkungan di setiap langkah. Sonnet 5 berada dalam kisaran kira-kira satu hingga tiga poin dari Opus 4.8 pada keduanya.

SWE-bench Pro juga bersifat agenik, tetapi menekankan penalaran yang lebih mendalam tentang basis kode yang besar, dan di sana selisihnya terbuka menjadi enam poin. Ketika tugas menghargai penalaran murni dibandingkan loop alat, Opus unggul.

Pembingkaian Anthropic sendiri mendukung hal ini. Mereka menyebut Sonnet 5 sebagai model Sonnet yang paling agenik, dan mereka memposisikannya mendekati Opus 4.8 pada tugas-tugas agenik dan penggunaan alat, sementara Opus mempertahankan keunggulannya pada penalaran murni. Benchmark sesuai dengan pemasaran di sini, yang tidak selalu terjadi.

Jadi, pembacaan praktisnya sederhana. Jika beban kerja Anda menempatkan alat dalam loop, agen, asisten coding, penggunaan komputer, Sonnet 5 memberi Anda sebagian besar kemampuan Opus 4.8. Jika beban kerja Anda adalah satu kali proses penalaran yang sulit tanpa alat untuk mengoreksi jalannya, Opus pantas mendapatkan harganya yang premium. Untuk perbandingan lengkap termasuk harga dan konteks, lihat Claude Sonnet 5 vs Opus 4.8.

Harga mengubah cara Anda membaca skor ini

Benchmark secara terpisah mengunggulkan model termahal. Tambahkan harga dan gambarnya berubah.

Sonnet 5 berjalan dengan harga perkenalan $2 per juta token input dan $10 per juta token output hingga 31 Agustus 2026, lalu beralih ke standar $3 / $15. Opus 4.8 adalah $5 / $25. Jadi, pada tarif standar, Sonnet 5 berharga 60% dari input Opus dan 60% dari output Opus, dan bahkan lebih rendah selama periode perkenalan.

Perbandingan Harga dan Performa Claude Sonnet 5 dan Opus 4.8

Sekarang timbang kembali tabelnya. Selisih 2.3 poin pada Terminal-Bench 2.1 jauh lebih murah untuk ditutup dengan memilih Opus daripada selisih 6 poin. Untuk pekerjaan agenik dan yang sangat bergantung pada alat, membayar premium Opus untuk memulihkan dua atau tiga poin seringkali tidak sepadan. Itulah seluruh argumen nilai untuk Sonnet 5, dan benchmark inilah yang membuatnya kredibel.

Satu kekurangan yang disembunyikan oleh skor murni: Sonnet 5 menggunakan tokenizer baru yang menghasilkan sekitar 30% lebih banyak token untuk teks input yang sama. Harga per token tidak berubah dari Sonnet 4.6, tetapi biaya permintaan yang setara dapat meningkat karena ada lebih banyak token yang harus ditagih. Akurasi benchmark tidak mengatakan apa-apa tentang ini. Modelkan biaya riil Anda dengan penghitungan token daripada berasumsi paritas datar. Rincian lengkapnya ada di panduan harga Claude Sonnet 5.

Apa yang dilewatkan oleh benchmark

Benchmark publik berguna untuk memberi peringkat model. Mereka lemah dalam memprediksi bagaimana model berperilaku pada pekerjaan spesifik Anda. Tiga celah menonjol.

Beban kerja Anda bukanlah SWE-bench. Jika Anda menulis TypeScript terhadap API pribadi dengan konvensi internal, benchmark penyelesaian repo pada proyek Python publik adalah proksi kasar yang terbaik. Peringkat relatif cenderung bertahan, tetapi angka absolut tidak akan cocok dengan apa yang Anda lihat.

Biaya per tugas yang diselesaikan mengalahkan akurasi mentah. Model yang mencetak dua poin lebih rendah tetapi berharga 40% lebih murah dapat menyelesaikan lebih banyak tugas dengan anggaran yang sama. Ketika Anda menjalankan agen dalam volume, biaya per keberhasilan adalah metrik yang membayar tagihan, dan tidak ada papan peringkat yang melaporkannya untuk prompt Anda.

Latensi dan throughput tidak muncul. Benchmark mengukur apakah jawabannya benar, bukan seberapa cepat ia tiba atau bagaimana model berperilaku di bawah pemikiran adaptif, yang secara default aktif di Sonnet 5. Untuk alat interaktif, jawaban yang benar tetapi lebih lambat bisa kalah dari yang lebih cepat tetapi cukup baik.

Kesimpulan jujurnya adalah memperlakukan skor ini sebagai filter awal, lalu menjalankan evaluasi Anda sendiri. Benchmarking pada tugas yang benar-benar Anda pedulikan adalah satu-satunya pengujian yang mencerminkan hasil Anda.

Keamanan, secara singkat

Tabel benchmark jarang mencakup keamanan, tetapi itu adalah bagian dari bagaimana angka-angka ini harus dibaca.

Anthropic melaporkan bahwa Sonnet 5 memiliki tingkat perilaku tidak diinginkan secara keseluruhan yang lebih rendah daripada Sonnet 4.6, dengan lebih sedikit halusinasi dan lebih sedikit sycophancy. Ini adalah model tingkat Sonnet pertama dengan perlindungan keamanan siber real-time. Permintaan yang menyentuh topik siber terlarang atau berisiko tinggi dapat ditolak, dan penolakan akan dikembalikan sebagai respons HTTP 200 yang berhasil dengan stop_reason: "refusal", bukan kesalahan, jadi bangunlah untuk kasus itu.

Jujurlah tentang pengecualian juga. Pada audit perilaku otomatis Anthropic, Sonnet 5 menunjukkan tingkat perilaku yang tidak selaras lebih tinggi daripada Opus 4.8. Pada kemampuan siber, ia berada di bawah model Opus, dan tidak ada model Sonnet yang dapat mengembangkan eksploitasi yang berfungsi sama sekali, dilaporkan sebagai 0.0%. Kemampuan yang lebih rendah di sana adalah fitur, bukan celah. Detail lengkapnya ada di pusat transparansi Anthropic.

Reproduksi angka pada tugas Anda sendiri

Benchmark yang paling berharga adalah yang berjalan sesuai prompt Anda. Untuk melakukannya dengan andal, Anda perlu memanggil API Sonnet 5 dengan cara yang sama setiap saat, menyimpan permintaan, dan membandingkan respons di seluruh eksekusi.

Itu adalah tugas untuk klien API. Apidog memungkinkan Anda membangun permintaan ke Anthropic Messages API, menyimpannya dalam koleksi yang dapat digunakan kembali, menyimpan kunci API Anda sebagai variabel lingkungan, dan menjalankan panggilan yang sama berulang kali dengan pernyataan pada respons. Ketika Anda ingin membandingkan Sonnet 5 dengan Opus 4.8 atau Sonnet 4.6 pada input Anda sendiri, Anda cukup mengubah satu variabel, ID model, dan menjalankan kembali koleksi tersebut.

Berikut adalah bentuk permintaan yang akan Anda simpan. ID model adalah string persis claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Untuk A/B prompt benchmark di seluruh model, jaga agar body tetap identik dan tukar "model" antara claude-sonnet-5, claude-opus-4-8, dan claude-sonnet-4-6. Di Apidog Anda akan menyimpan model sebagai variabel lingkungan sehingga satu pengeditan dapat mengubah setiap permintaan dalam eksekusi. Tambahkan pernyataan pengujian untuk memeriksa stop_reason dan panjang respons, lalu jalankan koleksi di CI agar evaluasi Anda dapat diulang. Jika Anda belum pernah menyiapkan pengujian API dengan cara ini, panduan pengujian tanpa Postman akan memandu Anda melalui alurnya.

Satu catatan migrasi saat Anda membuat skrip perbandingan: Sonnet 5 tidak menerima nilai non-default untuk temperature, top_p, atau top_k, dan menolak bidang thinking: {type: "enabled", budget_tokens: N} yang lama. Keduanya akan mengembalikan error 400. Hapus parameter tersebut sebelum Anda melakukan benchmark, atau eksekusi Anda akan gagal sebelum mengukur apa pun.

Unduh Apidog untuk membuat permintaan sekali dan menggunakannya kembali di setiap model yang ingin Anda nilai.

FAQ

Berapa skor SWE-bench Pro Claude Sonnet 5? Angka peluncuran Anthropic melaporkan 63.2% untuk Sonnet 5, dibandingkan 58.1% untuk Sonnet 4.6 dan 69.2% untuk Opus 4.8. Ini adalah peningkatan generasi lima poin pada coding agenik, dan sekitar enam poin di belakang flagship.

Apakah Sonnet 5 lebih baik dari Opus 4.8? Tidak berdasarkan skor mentah. Opus 4.8 memimpin setiap benchmark yang dilaporkan. Tetapi Sonnet 5 mendekati satu hingga tiga poin pada tugas-tugas yang sangat bergantung pada alat dengan harga 60% lebih murah, yang menjadikannya nilai yang lebih baik untuk agen dan loop coding. Perbandingan lengkapnya ada di Claude Sonnet 5 vs Opus 4.8.

Apakah angka benchmark ini dari pengujian independen? Tidak. Ini adalah benchmark peluncuran Anthropic sendiri, yang dikuatkan di berbagai tulisan hari peluncuran. Anggaplah ini sebagai angka yang dilaporkan dan validasi pada beban kerja Anda sendiri sebelum Anda berkomitmen.

Mengapa Sonnet 5 relatif lebih baik pada tugas alat daripada tugas penalaran? Ketika model dapat menjalankan perintah dan membaca hasilnya, ia mengoreksi kesalahannya sendiri selangkah demi selangkah. Umpan balik itu mempersempit celah dengan Opus. Pada satu kali proses penalaran tanpa alat, tidak ada yang bisa dikoreksi, sehingga penalaran Opus yang lebih mendalam menunjukkan keunggulan yang lebih lebar.

Bagaimana cara melakukan benchmark Sonnet 5 pada prompt saya sendiri? Panggil Anthropic Messages API dengan ID model claude-sonnet-5, simpan permintaan dalam alat seperti Apidog, tambahkan pernyataan, dan jalankan kembali di seluruh model dengan menukar ID model. Itu memberi Anda biaya per tugas dan latensi, yang tidak pernah dilaporkan oleh papan peringkat publik.