Claude Fable 5 Benchmark: Apa Kata Angka

Ketika Anthropic meluncurkan Claude Fable 5 pada 9 Juni 2026, mereka menyebut model tersebut sebagai yang tercanggih dalam hampir setiap tolok ukur yang mereka uji. Jika Anda datang ke sini mencari tolok ukur Claude Fable 5 yang jelas dengan angka pasti di setiap evaluasi, ada peringatan jujur di awal: pengumuman Anthropic melaporkan *penempatan* tolok ukur (di mana Fable 5 berada di antara model-model mutakhir lainnya) lebih dari sekadar papan skor numerik lengkap dalam teksnya, dan beberapa bagan utama disajikan sebagai gambar, bukan tabel yang bisa disalin-tempel. Jadi, rangkuman ini berfokus pada apa arti penempatan tersebut, posisi Fable 5, dan bagaimana Anda dapat menjalankan evaluasi cepat Anda sendiri jika Anda menginginkan angka yang Anda kendalikan. Untuk perbandingan yang lebih luas tentang model-model mutakhir saat ini, ulasan kami tentang Opus 4.8 melawan GPT-5.5 dan Gemini 3.5 adalah pelengkap yang berguna.

Fable 5 tersedia dengan harga $10 per juta token masukan dan $50 per juta token keluaran, dengan id model claude-fable-5. Model ini berada satu tingkat di atas Opus 4.8 dalam kemampuan dan harga, dan Anthropic memposisikannya sebagai Claude terkuat yang tersedia untuk umum untuk rekayasa perangkat lunak, pekerjaan berbasis pengetahuan, visi, dan penelitian ilmiah.

TL;DR

Claude Fable 5 menempati peringkat pertama di antara model-model mutakhir pada FrontierCode dan FrontierBench (keduanya dari Cognition), adalah yang tercanggih pada CursorBench, dan meraih skor tertinggi pada Hebbia's Finance Benchmark. Model ini menunjukkan kekuatan yang jelas dalam pekerjaan otonom berjangka panjang. Anthropic melaporkan ini sebagai penempatan, sehingga skor publik yang tepat terbatas. Anggap peringkat ini sebagai arahan, bukan final.

Hasil utama

Satu kalimat yang membingkai setiap diskusi tolok ukur Claude Fable 5: Anthropic menggambarkan model tersebut sebagai yang tercanggih di hampir semua tolok ukur yang dijalankannya, meliputi rekayasa perangkat lunak, pekerjaan berbasis pengetahuan, visi, dan penelitian ilmiah. Ini adalah klaim yang luas, dan klaim yang luas pantas dibaca dengan cermat.

“Yang tercanggih di hampir semua tolok ukur” berarti Fable 5 menduduki puncak papan peringkat atau berada di tingkat teratas dalam sebagian besar evaluasi yang dipilih Anthropic untuk dilaporkan. Ini tidak berarti Fable 5 memenangkan setiap tes dengan selisih yang jauh, dan tidak berarti laboratorium independen telah mereproduksi setiap hasil. Apa yang disinyalkan adalah konsistensi: model yang terbaik dalam pengodean tetapi biasa-biasa saja dalam penalaran dokumen tidak akan mendapatkan frasa tersebut. Fable 5 tampaknya mempertahankan posisi teratas di seluruh kategori yang biasanya saling bertukar posisi.

Luasnya jangkauan itu lebih penting daripada satu grafik mana pun. Banyak model melonjak pada tolok ukur favorit dan menurun di tempat lain. Model yang tetap berada di dekat puncak dalam pengodean, keuangan, visi, dan sains lebih sulit untuk dimanipulasi, karena Anda tidak dapat menyetel empat keterampilan yang tidak terkait sekaligus tanpa kemampuan asli di baliknya. Jika Anda memutuskan apakah Fable 5 layak untuk beralih dari tingkatan yang lebih murah, luasnya penempatan adalah bagian yang harus dipertimbangkan. Untuk panduan lengkap tentang model itu sendiri, lihat apa itu Claude Fable 5.

Tema kedua yang muncul dari hasil ini: pekerjaan berjangka panjang. Anthropic mengatakan Fable 5 “tetap fokus di jutaan token dalam tugas-tugas yang berjalan lama” dan bekerja secara otonom lebih lama daripada Claude sebelumnya. Beberapa penempatan di bawah ini bukanlah tes akurasi sekali tembak. Mereka menghargai model yang dapat mempertahankan rencana selama ribuan langkah tanpa melenceng. Di sinilah keunggulan Fable 5 yang dilaporkan paling luas, dan itu juga merupakan kemampuan yang paling sulit untuk diukur dalam satu angka.

Tolok ukur pengodean: FrontierCode dan CursorBench

Pengodean adalah area di mana kisah tolok ukur Fable 5 adalah yang terkuat dan paling konkret.

Pada **FrontierCode**, evaluasi pengodean dari Cognition (tim di balik agen pengodean Devin), Anthropic melaporkan bahwa Fable 5 adalah model mutakhir dengan skor tertinggi, dan ia mempertahankan keunggulan itu bahkan pada *upaya sedang*. Kualifikasi “upaya” ini patut diperhatikan. Banyak model mutakhir dapat didorong ke akurasi yang lebih tinggi dengan menghabiskan lebih banyak komputasi inferensi (lebih banyak token penalaran, lebih banyak percobaan, pengaturan upaya yang lebih tinggi). Model yang sudah memimpin pada upaya sedang mencapai puncak tanpa konfigurasi termahal, sinyal yang lebih baik untuk penggunaan sehari-hari daripada angka yang hanya muncul pada pengeluaran maksimum.

Pada **CursorBench**, Anthropic menggambarkan Fable 5 sebagai yang tercanggih dan membingkai hasilnya seputar cakupan daripada angka akurasi tunggal. Frasa dari pengumuman tersebut adalah bahwa Fable 5 “membuka kelas masalah berjangka panjang yang berada di luar jangkauan” untuk model-model sebelumnya. CursorBench cenderung ke arah pekerjaan rekayasa multi-berkas, multi-langkah yang dituntut oleh basis kode nyata, sehingga penempatan sebagai yang tercanggih di sini lebih mengacu pada pengodean agensi daripada penulisan fungsi yang terisolasi.

Kedua hasil ini menunjukkan arah yang sama: Fable 5 dibangun untuk rekayasa berkelanjutan, bukan penyelesaian potongan kode. Jika Anda menghabiskan hari Anda dengan agen pengodean yang merencanakan, mengedit antar berkas, menjalankan tes, dan berulang, ini adalah tolok ukur yang sesuai dengan alur kerja Anda. Model yang memuncaki FrontierCode pada upaya sedang dan mendorong CursorBench ke wilayah baru harus bertahan dalam sesi agen yang panjang daripada cepat lelah setelah beberapa giliran.

Pengetahuan dan keuangan: Finance Benchmark (Hebbia)

Di luar kode, hasil pekerjaan berbasis pengetahuan yang paling jelas berasal dari **Finance Benchmark** yang dibangun oleh Hebbia, sebuah perusahaan yang berfokus pada AI untuk pekerjaan keuangan dan hukum yang banyak melibatkan dokumen.

Anthropic melaporkan bahwa Fable 5 meraih skor tertinggi dari model mana pun pada tolok ukur ini, dengan peningkatan yang terkonsentrasi di tiga area: penalaran dokumen, grafik, dan tabel. Kombinasi itu sangat berarti. Analisis keuangan jarang berupa pertanyaan trivia. Ini melibatkan membaca dokumen panjang, melacak angka di beberapa halaman, merekonsiliasi grafik dengan teks yang menggambarkannya, dan menarik sel yang tepat dari tabel padat tanpa salah membaca kolom. Itulah persisnya keterampilan yang ditekankan oleh Finance Benchmark, dan yang menjadi kesulitan bagi model-model yang kuat dalam prosa tetapi lemah dalam data terstruktur.

Aspek visi juga penting di sini. Grafik dan tabel seringkali berupa gambar atau tata letak campuran, sehingga skor Finance Benchmark yang tinggi sebagian merupakan hasil visi. Ini sejalan dengan klaim Anthropic yang lebih luas bahwa Fable 5 kuat dalam visi, dan menunjukkan bahwa model ini menangani dokumen dunia nyata yang berantakan yang ditangani pekerja pengetahuan daripada masukan teks-saja yang bersih.

Bagi pengembang, pemahaman praktisnya adalah Fable 5 merupakan kandidat untuk *pipeline* ekstraksi dokumen, alat analisis keuangan, dan alur kerja apa pun di mana inputnya adalah PDF yang penuh angka daripada *payload* JSON yang rapi. Jika produk Anda membaca kontrak, laporan, atau laporan dan harus akurat mengenai angka-angkanya, ini adalah penempatan yang patut diperhatikan. Validasi pada dokumen Anda sendiri sebelum Anda mempercayai tolok ukur untuk memprediksi hasil Anda.

Penalaran berjangka panjang: FrontierBench (Cognition)

Evaluasi Cognition yang kedua, **FrontierBench**, adalah di mana kisah otonomi berubah menjadi penempatan tolok ukur. Anthropic melaporkan Fable 5 sebagai model dengan skor tertinggi pada FrontierBench dan menyoroti penalaran berjangka panjang sebagai alasannya.

Penalaran berjangka panjang adalah kemampuan untuk menjaga tujuan dan rencana tetap koheren sepanjang tugas yang panjang: banyak langkah, banyak token, banyak peluang untuk kehilangan jejak. Sebagian besar tolok ukur menghargai jawaban yang benar untuk pertanyaan yang terbatas. FrontierBench, menurut kerangka Anthropic, menghargai model yang dapat tetap fokus pada tugas saat jendela konteks terisi dengan pekerjaan perantara sendiri. Itu adalah otot yang berbeda, dan yang terus ditunjuk oleh Anthropic dengan frasa seperti “tetap fokus di jutaan token.”

Ini juga merupakan penempatan yang paling sulit diverifikasi dari luar, tepatnya karena sulit diukur. Sebuah evaluasi berjangka panjang harus mendefinisikan apa arti “tetap pada tugas”, bagaimana kemajuan parsial dinilai, dan bagaimana menghentikan model agar tidak memanipulasi metrik dengan menunda. Jadi, perlakukan penempatan FrontierBench sebagai sinyal arah yang kuat bahwa Fable 5 dibangun untuk agen otonom yang berjalan lama, sambil tetap mengingat bahwa penilaian berjangka panjang adalah area yang berkembang di mana metodologi masih bervariasi antar laboratorium. Bersama dengan CursorBench, ceritanya konsisten: keunggulan Fable 5 paling sedikit tentang menjawab satu pertanyaan sulit dan paling banyak tentang tidak ambruk dalam pertanyaan yang panjang.

Kinerja dunia nyata di luar tolok ukur

Tolok ukur adalah proksi. Dua hasil yang disorot Anthropic dari penyebaran nyata bisa dibilang lebih informatif daripada papan peringkat mana pun, karena mereka menunjukkan model melakukan pekerjaan daripada lulus ujian.

Yang pertama adalah **migrasi basis kode Stripe**. Anthropic melaporkan bahwa Fable 5 memigrasikan basis kode Ruby 50 juta baris untuk Stripe dalam satu hari, pekerjaan yang diperkirakan tim akan memakan waktu dua bulan atau lebih. Bacalah itu dengan cermat. Migrasi 50 juta baris bukanlah teka-teki pengodean. Ini adalah pekerjaan yang luas, berulang, padat konteks di ribuan berkas di mana inkonsistensi kecil dapat menyebabkan kerusakan *build*. Sinyalnya bukan bahwa Fable 5 pintar; ini adalah bahwa ia dapat mempertahankan pengeditan yang benar, konsisten dalam skala besar tanpa melenceng, kemampuan berjangka panjang yang ditunjukkan oleh tolok ukur, ditampilkan pada sistem produksi yang asli.

Yang kedua adalah **tes Slay the Spire**. Slay the Spire adalah *roguelike* pembangunan dek, dan Anthropic menggunakannya untuk menyelidiki memori daripada pengodean. Dengan memori berkas persisten diaktifkan, Fable 5 menunjukkan peningkatan 3x dibandingkan Opus 4.8 dalam permainan tersebut. Mekanismenya adalah bagian yang menarik: peningkatan itu berasal dari membiarkan model menulis catatan ke berkas dan membacanya kembali di seluruh sesi, mengumpulkan strategi seperti yang akan dilakukan pemain manusia. Ini menunjukkan model yang menjadi jauh lebih baik ketika Anda memberikannya memori yang tahan lama, alih-alih memulai dari nol setiap sesi.

Apa yang diberitahukan ini kepada Anda yang tidak diberitahukan oleh tolok ukur? Dua hal. Pertama, ketahanan skala: pertanyaan tolok ukur dirancang kecil, dan hasil Stripe menunjukkan perilaku pada skala yang tidak dicapai oleh evaluasi standar. Kedua, memori dan penggunaan alat sebagai pengganda kekuatan. Hasil Slay the Spire bukan tentang IQ model mentah, melainkan tentang bagaimana model meningkat ketika terhubung ke lingkungan dengan keadaan persisten. Keduanya adalah properti yang hanya Anda lihat ketika model tertanam dalam sistem nyata, itulah mengapa mereka lebih sulit dibandingkan antar vendor. Jika Anda mengevaluasi Fable 5 untuk agen yang berjalan berjam-jam dan menyimpan catatannya sendiri, sinyal-sinyal ini lebih penting daripada persentase akurasi tunggal.

Cara membaca hasil ini

Ringkasan tolok ukur yang hanya berupa sorakan tidaklah berguna. Berikut adalah peringatan yang harus diingat di samping penempatan tersebut.

Pemilik tolok ukur adalah mitra. FrontierCode dan FrontierBench berasal dari Cognition, dan Finance Benchmark berasal dari Hebbia. Ini adalah organisasi kredibel yang membangun evaluasi serius, dan keterlibatan mereka adalah nilai tambah, bukan lampu merah. Tetapi mereka juga mitra dalam narasi peluncuran, dan tolok ukur yang dirancang oleh satu pihak cenderung menghargai kemampuan yang menjadi perhatian pihak tersebut. Itu tidak membuat hasilnya salah; itu berarti Anda harus menginginkan reproduksi independen sebelum menganggapnya sebagai hal yang sudah pasti. Bandingkan dengan perbandingan netral seperti ulasan kami tentang MiniMax M3 versus Opus 4.7 versus GPT-5.5 untuk melihat bagaimana model Anthropic bertahan dibandingkan kerangka lain.

Pengaturan “upaya” mengubah gambaran. Hasil FrontierCode dilaporkan pada upaya sedang, yang menggembirakan. Namun upaya adalah variabel nyata di seluruh evaluasi ini. Dua model yang dibandingkan pada tingkat upaya yang berbeda tidak dibandingkan secara adil, dan angka yang dikutip tanpa pengaturan upaya tidak lengkap. Ketika Anda melihat skor Fable 5 daring, periksa upaya apa dan berapa banyak percobaan yang menghasilkannya sebelum Anda membandingkannya dengan apa pun.

Skor publik terbatas. Pengumuman Anthropic bergantung pada penempatan, dan grafik terperinci tiba sebagai gambar, itulah sebabnya artikel ini tetap kualitatif pada evaluasi tertentu. Sumber sekunder telah mengisi kekosongan dengan angka, tetapi angka-angka tersebut bervariasi dan tidak semuanya dapat dilacak ke sumber utama, sehingga belum seharusnya menjadi dasar keputusan pembelian. Ketika Cognition dan Hebbia menerbitkan papan peringkat mereka sendiri, pilihlah yang itu.

Penempatan bukanlah selisih. “Skor tertinggi” memberi tahu Anda peringkatnya, bukan selisihnya. Sebuah model bisa unggul satu poin atau dua puluh, dan keduanya berarti hal yang berbeda untuk apakah peningkatan itu sepadan dengan harga $10/$50. Tanpa skor dasar, perlakukan keunggulan itu sebagai nyata tetapi tidak terkuantifikasi.

Semua ini bukan alasan untuk mengabaikan hasilnya. Fable 5 yang memimpin di bidang pengodean, keuangan, visi, dan penalaran berjangka panjang, ditambah penyebaran Stripe dan Slay the Spire, adalah gambaran yang kuat dan koheren. Ini adalah alasan untuk memverifikasi pada beban kerja Anda sendiri sebelum Anda berkomitmen, langkah yang tepat dengan model baru apa pun terlepas dari siapa pembuatnya. Ikhtisar model adalah tempat untuk mengkonfirmasi id, harga, dan batas konteks saat ini sebelum Anda menyiapkan apa pun.

Jalankan tolok ukur Anda sendiri dengan Apidog

Tolok ukur yang paling dapat diandalkan adalah yang menggunakan *prompt* Anda dan definisi “baik” Anda. Anda tidak memerlukan alat penelitian untuk mendapatkan pemahaman yang berguna. Bangun evaluasi DIY yang ringan dengan mengirimkan *prompt* uji tetap ke API Fable 5 dan membandingkan responsnya dengan Opus 4.8 pada tiga sumbu yang dapat Anda ukur secara langsung: kualitas keluaran, latensi, dan biaya token.

Berikut cara sederhana untuk melakukannya dengan Apidog, sebuah platform API untuk merancang, menguji, dan mendokumentasikan permintaan. Idenya adalah membuat satu permintaan di Apidog, mengarahkannya ke setiap model, dan membaca respons, waktu, serta penggunaan token secara berdampingan.

Siapkan permintaan POST ke *endpoint* pesan Claude dan simpan sebagai permintaan yang dapat digunakan kembali di Apidog sehingga Anda dapat menjalankannya kembali tanpa mengetik ulang apa pun.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Berikan *body* dengan tugas tetap. Pilih *prompt* yang mirip dengan pekerjaan Anda yang sebenarnya, bukan mainan. Instruksi gaya migrasi adalah uji stres yang baik untuk model pengodean:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Jalankan sekali terhadap claude-fable-5. Kemudian gandakan permintaan, ubah bidang model menjadi claude-opus-4-8, dan jalankan *prompt* yang sama. Karena inputnya identik, setiap perbedaan dalam output adalah modelnya, bukan *prompt*.

Sekarang baca tiga sinyal yang ditampilkan Apidog untuk setiap panggilan:

Kualitas. Periksa kedua respons dengan rubrik Anda sendiri. Apakah tes mencakup kasus tepi? Apakah *refactor* tetap benar? Beri skor keduanya sebelum Anda melihat model mana yang menghasilkan yang mana.
Latensi. Apidog menunjukkan waktu respons untuk setiap permintaan. Untuk alat interaktif, model yang dua kali lebih akurat tetapi empat kali lebih lambat mungkin masih merupakan pilihan yang salah.
Biaya token. Respons Claude menyertakan blok usage dengan input_tokens dan output_tokens. Kalikan dengan tarif yang dipublikasikan ($10 dan $50 per juta untuk Fable 5, $5 dan $25 untuk Opus 4.8) untuk mendapatkan biaya sebenarnya dari setiap jawaban.

Ulangi ini pada lima atau sepuluh *prompt* yang mencerminkan penggunaan aktual Anda, dan Anda akan memiliki tolok ukur kecil yang jujur yang memberi tahu Anda apa yang tidak dapat disampaikan oleh papan peringkat publik: apakah keunggulan Fable 5 muncul pada tugas *Anda* dengan harga yang bersedia Anda bayar. Anda dapat mengunduh Apidog dan menyiapkannya dalam beberapa menit. Untuk perincian biaya yang lebih mendalam, panduan harga Fable 5 kami akan menghitungnya.

button