Claude Fable 5 Benchmark Sonuçları: Rakamlar Ne Diyor?

Anthropic, Claude Fable 5'i 9 Haziran 2026'da piyasaya sürdüğünde, modeli test ettiği hemen hemen her kıyaslama testinde en son teknoloji ürünü olarak adlandırdı. Eğer buraya Claude Fable 5'in her değerlendirmenin yanında somut rakamlarla temiz kıyaslama testlerini arıyorsanız, peşin bir uyarıda bulunalım: Anthropic'in duyurusu, metinde tam sayısal puan tablolarından çok, kıyaslama testi *yerleştirmelerini* (Fable 5'in diğer sınır modellerine karşı sıralaması) bildirdi ve manşet grafiklerin birçoğu kopyala-yapıştırılabilir tablolar yerine görsel olarak geldi. Bu nedenle bu özet, yerleştirmelerin gerçekte ne anlama geldiğine, Fable 5'in nerede durduğuna ve kendi kontrolünüzdeki sayıları istiyorsanız kendi hızlı değerlendirmenizi nasıl yapabileceğinize odaklanıyor. Mevcut sınırın daha geniş bir karşılaştırması için, Opus 4.8'in GPT-5.5 ve Gemini 3.5'e karşı analizimiz faydalı bir yardımcıdır. Fable 5, `claude-fable-5` model kimliği altında, milyon giriş jetonu başına 10 dolar ve milyon çıkış jetonu başına 50 dolar fiyatla gönderiliyor. Hem yetenek hem de fiyat açısından Opus 4.8'in bir kademe üzerinde yer alıyor ve Anthropic onu yazılım mühendisliği, bilgi çalışması, görme ve bilimsel araştırma için kamuya açık en güçlü Claude olarak konumlandırıyor.

ÖZET

Claude Fable 5, FrontierCode ve FrontierBench'te (her ikisi de Cognition'dan) sınır modelleri arasında birinci sırada yer alıyor, CursorBench'te en son teknoloji ürünü ve Hebbia'nın Finans Kıyaslama Testi'nde en yüksek puanı alıyor. Uzun vadeli, otonom çalışmalarda açık bir güç gösteriyor. Anthropic bunları yerleştirmeler olarak bildirdi, bu nedenle kesin kamu puanları sınırlıdır. Sıralamaları kesin değil, yönlendirici olarak kabul edin.

Manşet sonuç

Her Claude Fable 5 kıyaslama testi tartışmasını çerçeveleyen tek cümle: Anthropic, modeli yazılım mühendisliği, bilgi çalışması, görme ve bilimsel araştırmayı kapsayan, yürüttüğü hemen hemen tüm kıyaslama testlerinde en son teknoloji ürünü olarak tanımlıyor. Bu geniş bir iddia ve geniş iddialar dikkatli bir okumayı hak eder.

"Hemen hemen tüm kıyaslama testlerinde en son teknoloji ürünü" demek, Fable 5'in Anthropic'in raporlamayı seçtiği çoğu değerlendirmede liderlik tablosunun zirvesinde olması veya üst kademede yer alması anlamına gelir. Bu, Fable 5'in her testi büyük bir farkla kazandığı anlamına gelmez ve bağımsız laboratuvarların her sonucu yeniden ürettiği anlamına da gelmez. Bu, tutarlılığı işaret eder: kodlamada sınıfının en iyisi olan ancak belge muhakemesinde vasat olan bir model bu ifadeyi hak etmezdi. Fable 5, genellikle birbirleriyle değiş tokuş edilen kategorilerde en üst sırayı koruyor gibi görünüyor. Bu genişlik, tek bir grafikten daha önemlidir. Birçok model favori bir kıyaslama testinde yükselirken başka yerlerde düşüş yaşar. Kodlama, finans, görme ve bilim alanlarında zirveye yakın kalan bir modeli aldatmak daha zordur, çünkü altında gerçek bir yetenek olmadan dört ilgisiz beceri için aynı anda ince ayar yapamazsınız. Fable 5'in daha ucuz bir kademeden geçişe değip değmeyeceğine karar veriyorsanız, yerleştirmelerin genişliği dikkate alınması gereken kısımdır. Modelin kendisi hakkında tam bir başlangıç kılavuzu için, Claude Fable 5'in ne olduğuna bakın. Sonuçlarda ikinci bir tema öne çıkıyor: uzun vadeli çalışma. Anthropic, Fable 5'in "uzun süreli görevlerde milyonlarca jeton boyunca odaklanmış kaldığını" ve herhangi bir önceki Claude'dan daha uzun süre otonom çalıştığını söylüyor. Aşağıdaki yerleştirmelerin birçoğu tek atış doğruluk testleri değildir. Binlerce adım boyunca bir planı bir arada tutabilen, sapmadan çalışan bir modeli ödüllendirirler. Fable 5'in bildirilen liderliği en geniş olduğu yer burasıdır ve aynı zamanda tek bir sayıya sığdırması en zor yetenektir.

Kodlama kıyaslama testleri: FrontierCode ve CursorBench

Kodlama, Fable 5'in kıyaslama testi hikayesinin en güçlü ve somut olduğu yerdir. Cognition'dan (Devin kodlama aracının arkasındaki ekip) bir kodlama değerlendirmesi olan **FrontierCode**'da Anthropic, Fable 5'in en yüksek puan alan sınır modeli olduğunu ve bu liderliği *orta çabada* bile koruduğunu bildiriyor. "Çaba" nitelemesi üzerinde durmaya değer. Birçok sınır modeli, daha fazla çıkarım işlem gücü (daha fazla muhakeme jetonu, daha fazla deneme, daha yüksek çaba ayarları) harcayarak daha yüksek doğruluğa itilebilir. Orta çabada zaten lider olan bir model, en pahalı yapılandırma olmadan zirveye ulaşıyor; bu, günlük kullanım için maksimum harcamada ortaya çıkan bir sayıdan daha iyi bir sinyaldir.

**CursorBench**'te Anthropic, Fable 5'i en son teknoloji ürünü olarak tanımlıyor ve sonucu tek bir doğruluk figüründen ziyade kapsam etrafında çerçeveliyor. Duyurudaki ifade, Fable 5'in önceki modeller için "ulaşılamaz olan uzun vadeli bir problem sınıfını açtığıdır". CursorBench, gerçek kod tabanlarının gerektirdiği çoklu dosya, çok adımlı mühendislik çalışmasına yöneliyor, bu nedenle buradaki son teknoloji ürünü bir yerleştirme, izole işlev yazmaktan çok aracılık kodlamasına işaret ediyor.

Her iki sonuç da aynı yönü işaret ediyor: Fable 5, kod parçacığı tamamlama için değil, sürekli mühendislik için tasarlandı. Gününüzü, dosyalar arasında planlama, düzenleme, test çalıştırma ve yineleme yapan bir kodlama aracında geçiriyorsanız, iş akışınızla eşleşen kıyaslama testleri bunlardır. Orta çabada FrontierCode'u zirveye çıkaran ve CursorBench'i yeni bir alana iten bir model, birkaç dönüşten sonra yıpranmak yerine uzun ajan oturumları boyunca dayanmalıdır.

Bilgi ve finans: Finans Kıyaslama Testi (Hebbia)

Kod dışında, en net bilgi-işlem sonucu, belge ağırlıklı finansal ve hukuki işler için yapay zekaya odaklanan bir şirket olan Hebbia tarafından oluşturulan **Finans Kıyaslama Testi**'nden geliyor. Anthropic, Fable 5'in bu kıyaslama testinde herhangi bir modelin en yüksek puanını aldığını ve kazanımların üç alanda yoğunlaştığını bildiriyor: belge muhakemesi, grafikler ve tablolar. Bu kombinasyon anlamlıdır. Finansal analiz nadiren bir genel kültür sorusudur. Uzun bir dosyayı okumak, birkaç sayfadaki bir sayıyı takip etmek, bir grafiği onu tanımlayan metinle uzlaştırmak ve sütunu yanlış okumadan yoğun bir tablodan doğru hücreyi çekmek demektir. Finans Kıyaslama Testi'nin vurguladığı ve düzyazıda güçlü ancak yapılandırılmış verilerde zayıf olan modelleri tökezleten beceriler tam da bunlardır. Görme açısı burada da önemlidir. Grafikler ve tablolar genellikle resimler veya karmaşık düzenlerdir, bu nedenle yüksek bir Finans Kıyaslama Testi puanı kısmen bir görme sonucudur. Bu, Anthropic'in Fable 5'in görme konusunda güçlü olduğuna dair daha geniş iddiasıyla örtüşür ve modelin, bilgi çalışanlarının uğraştığı dağınık, gerçek dünya belgelerini temiz metin tabanlı girdiler yerine ele aldığını gösterir. Geliştiriciler için pratik okuma şudur: Fable 5, belge çıkarma boru hatları, finansal analiz araçları ve girdinin düzgün bir JSON yükü yerine sayılarla dolu bir PDF olduğu herhangi bir iş akışı için bir adaydır. Ürününüz sözleşmeleri, ekstreleri veya raporları okuyor ve rakamlar konusunda doğru olmak zorundaysa, dikkat etmeniz gereken yerleştirme budur. Sonuçlarınızı tahmin etmek için bir kıyaslama testine güvenmeden önce kendi belgeleriniz üzerinde doğrulama yapın.

Uzun vadeli muhakeme: FrontierBench (Cognition)

İkinci Cognition değerlendirmesi olan **FrontierBench**, otonomi hikayesinin bir kıyaslama testi yerleştirmesine dönüştüğü yerdir. Anthropic, Fable 5'i FrontierBench'te en yüksek puan alan model olarak bildiriyor ve bunun nedeni olarak uzun vadeli muhakemeyi gösteriyor. Uzun vadeli muhakeme, uzun bir görev boyunca bir amacı ve planı tutarlı tutma yeteneğidir: birçok adım, birçok jeton, ipliği kaybetmek için birçok şans. Çoğu kıyaslama testi, sınırlı bir soruya doğru bir cevabı ödüllendirir. Anthropic'in çerçevesine göre FrontierBench, bağlam penceresi kendi ara çalışmasıyla dolarken görevde kalabilen bir modeli ödüllendirir. Bu farklı bir kas ve Anthropic'in "milyonlarca jeton boyunca odaklanmış kalıyor" gibi ifadelerle sürekli işaret ettiği kas budur. Bu aynı zamanda dışarıdan doğrulanması en zor olan yerleştirmedir, çünkü ölçülmesi zordur. Uzun vadeli bir değerlendirme, "görevde kalmak" ne anlama geliyor, kısmi ilerleme nasıl puanlanır ve bir modelin metrikleri oyalayarak kandırması nasıl engellenir tanımlamak zorundadır. Bu nedenle FrontierBench yerleştirmesini, Fable 5'in otonom, uzun süreli ajanlar için tasarlandığına dair güçlü bir yön sinyali olarak kabul edin, ancak uzun vadeli puanlamanın, metodolojinin laboratuvarlar arasında hala değiştiği gelişmekte olan bir alan olduğunu unutmayın. CursorBench ile birlikte ele alındığında, hikaye tutarlıdır: Fable 5'in üstünlüğü en az bir zor soruyu yanıtlamakla ilgili değil, uzun bir soru boyunca dağılmamakla ilgilidir.

Kıyaslama testlerinin ötesinde gerçek dünya performansı

Kıyaslama testleri bir vekildir. Anthropic'in gerçek dağıtımlardan vurguladığı iki sonuç, muhtemelen herhangi bir liderlik tablosundan daha bilgilendiricidir, çünkü modeli bir testten geçmek yerine bir iş yaparken gösterirler. Birincisi, bir **Stripe kod tabanı geçişi**. Anthropic, Fable 5'in Stripe için 50 milyon satırlık bir Ruby kod tabanını tek bir günde taşıdığını, ekibin bu işin iki ay veya daha uzun süreceğini tahmin ettiğini bildiriyor. Bunu dikkatlice okuyun. 50 milyon satırlık bir geçiş bir kodlama bulmacası değildir. Binlerce dosyada küçük tutarsızlıkların bozuk derlemelere yol açtığı, geniş, tekrarlayıcı, bağlam ağırlıklı bir iş yüküdür. Sinyal, Fable 5'in zeki olduğu değil; uzun vadeli yeteneklerin gerçek bir üretim sisteminde gösterildiği, devasa ölçekte doğru, tutarlı düzenlemeleri sapmadan sürdürebilmesidir. İkincisi, bir **Slay the Spire testi**. Slay the Spire, deste oluşturma rogue benzeri bir oyundur ve Anthropic bunu kodlama yerine belleği araştırmak için kullandı. Kalıcı dosya belleği etkinleştirildiğinde, Fable 5 oyunda Opus 4.8'e göre 3 kat iyileşme gösterdi. İlginç kısım mekanizma: kazanım, modelin dosyalara not yazmasına ve bunları çalıştırmalar arasında geri okumasına izin vermesinden, tıpkı bir insan oyuncunun yaptığı gibi strateji biriktirmesinden kaynaklandı. Bu, her oturumu sıfırdan başlamak yerine kalıcı bellek verildiğinde anlamlı ölçüde daha iyi hale gelen bir modeli işaret ediyor. Bunlar size kıyaslama testlerinin söylemediği neyi anlatıyor? İki şeyi. Birincisi, ölçek dayanıklılığı: bir kıyaslama testi sorusu tasarıma göre küçüktür ve Stripe sonucu, hiçbir standart değerlendirmenin ulaşamadığı bir ölçekte davranış gösterir. İkincisi, bellek ve araç kullanımı çoğaltıcı güçlerdir. Slay the Spire sonucu, ham model IQ'su ile ilgili değildir, modelin kalıcı bir duruma sahip bir ortama bağlandığında nasıl geliştiği ile ilgilidir. Her ikisi de yalnızca bir model gerçek bir sisteme gömüldüğünde gördüğünüz özelliklerdir, bu yüzden satıcılar arasında karşılaştırması daha zordur. Saatlerce çalışan ve kendi notlarını tutan bir ajan için Fable 5'i değerlendiriyorsanız, bu sinyaller tek bir doğruluk yüzdesinden daha önemlidir.

Bu sonuçlar nasıl okunur

Sadece alkışlayan bir kıyaslama testi özeti faydalı değildir. İşte yerleştirmelerin yanında tutulması gereken uyarılar. **Kıyaslama testi sahipleri ortaktır.** FrontierCode ve FrontierBench Cognition'dan, Finans Kıyaslama Testi ise Hebbia'dan gelmektedir. Bunlar ciddi değerlendirmeler yapan güvenilir kuruluşlardır ve katılımları bir artıdır, kırmızı bayrak değildir. Ancak aynı zamanda lansman anlatısının da ortaklarıdırlar ve bir tarafça tasarlanan bir kıyaslama testi, o tarafın önemsediği yetenekleri ödüllendirme eğilimindedir. Bu, sonuçları yanlış yapmaz; bu, onları kesin olarak kabul etmeden önce bağımsız doğrulamayı istemeniz gerektiği anlamına gelir. Anthropic'in modellerinin diğer çerçevelere karşı nasıl durduğunu görmek için MiniMax M3 ile Opus 4.7 ve GPT-5.5 karşılaştırmamız gibi tarafsız karşılaştırmalarla çapraz referans yapın. **"Çaba" ayarları resmi değiştirir.** FrontierCode sonucu orta çabada rapor edildi, ki bu cesaret verici. Ancak çaba, bu değerlendirmelerde gerçek bir değişkendir. Farklı çaba seviyelerinde karşılaştırılan iki model adil bir şekilde karşılaştırılmıyor demektir ve çaba ayarı olmadan alıntılanan bir sayı eksiktir. Çevrimiçi bir Fable 5 puanı gördüğünüzde, onu herhangi bir şeyle karşılaştırmadan önce hangi çabanın ve kaç denemenin onu ürettiğini kontrol edin. **Kamu puanları sınırlıdır.** Anthropic'in duyurusu yerleştirmelere dayandı ve ayrıntılı grafikler görsel olarak geldi, bu yüzden bu makale belirli değerlendirmelerde niteliksel kalıyor. İkincil kaynaklar boşluğu sayılarla doldurdu, ancak bu rakamlar değişiyor ve hepsi birincil bir kaynağa kadar izlenemiyor, bu yüzden henüz bir satın alma kararına dayanak olmamalıdırlar. Cognition ve Hebbia kendi liderlik tablolarını yayınladığında, bunları tercih edin. **Yerleştirme, fark değildir.** "En yüksek puanlı" size sıralamayı söyler, farkı değil. Bir model bir puanla veya yirmi puanla lider olabilir ve bu ikisi, yükseltmenin 10$/50$ fiyatlandırmaya değip değmediği açısından farklı şeyler ifade eder. Temel puanlar olmadan, liderliği gerçek ama nicelleştirilmemiş olarak kabul edin. Bunların hiçbiri sonuçları göz ardı etmek için bir neden değildir. Fable 5'in kodlama, finans, görme ve uzun vadeli muhakemede lider olması, ayrıca Stripe ve Slay the Spire dağıtımları, güçlü ve tutarlı bir tablo çizmektedir. Bu, hangi model olursa olsun, herhangi bir yeni modelde doğru hareket olan, taahhütte bulunmadan önce kendi iş yükünüzde doğrulama yapmanız için bir nedendir. Herhangi bir bağlantı kurmadan önce güncel kimlikleri, fiyatlandırmayı ve bağlam limitlerini onaylamak için modellerin genel bakış sayfası doğru yerdir.

Apidog ile kendi kıyaslama testinizi yapın

En güvenilir kıyaslama testi, kendi komut istemlerinizi ve "iyi" tanımınızı kullanan testtir. Faydalı bir okuma elde etmek için bir araştırma donanımına ihtiyacınız yok. Sabit bir test komut istemini Fable 5 API'sine göndererek ve yanıtı Opus 4.8 ile doğrudan ölçebileceğiniz üç eksende karşılaştırarak hafif bir DIY değerlendirme oluşturun: çıktı kalitesi, gecikme ve jeton maliyeti.

İstekleri tasarlama, test etme ve belgeleme için bir API platformu olan Apidog ile bunu yapmanın basit bir yolu: Amaç, Apidog'da bir istek oluşturmak, her modele yönlendirmek ve yanıtı, zamanlamayı ve jeton kullanımını yan yana okumaktır. Claude mesajlar uç noktasına bir POST isteği ayarlayın ve hiçbir şeyi yeniden yazmak zorunda kalmadan yeniden çalıştırabilmek için Apidog'da yeniden kullanılabilir bir istek olarak kaydedin.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Sabit bir görevle bir gövde verin. Oyuncak bir görev değil, gerçek işinize benzeyen bir komut istemi seçin. Bir geçiş tarzı talimat, bir kodlama modeli için iyi bir stres testidir:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Önce `claude-fable-5`'e karşı bir kez çalıştırın. Ardından isteği çoğaltın, `model` alanını `claude-opus-4-8` olarak değiştirin ve aynı komut istemini çalıştırın. Girdi aynı olduğu için, çıktıdaki herhangi bir fark modelden kaynaklanır, komut isteminden değil. Şimdi Apidog'un her çağrı için gösterdiği üç sinyali okuyun: * **Kalite.** Her iki yanıtı da kendi değerlendirme ölçütlerinize göre gözden geçirin. Test uç durumları kapsadı mı? Yeniden düzenleme doğru kaldı mı? Hangi modelin hangisini ürettiğine bakmadan önce her ikisini de puanlayın. * **Gecikme.** Apidog, her istek için yanıt süresini gösterir. Etkileşimli bir araç için, iki kat daha doğru ancak dört kat daha yavaş bir model hala yanlış seçim olabilir. * **Jeton maliyeti.** Claude yanıtı, `input_tokens` ve `output_tokens` içeren bir `usage` bloğu içerir. Her yanıtın gerçek maliyetini elde etmek için yayınlanan oranlarla (Fable 5 için milyon başına 10$ ve 50$, Opus 4.8 için 5$ ve 25$) çarpın. Gerçek kullanımınızı yansıtan beş veya on komut isteminde bunu tekrarlayın ve size kamu liderlik tablolarının söyleyemediği küçük, dürüst bir kıyaslama testiniz olacaktır: Fable 5'in üstünlüğünün *sizin* görevlerinizde ödemeye istekli olduğunuz bir fiyata ortaya çıkıp çıkmadığı. Apidog'u indirebilir ve bunu birkaç dakika içinde kurabilirsiniz. Daha derin bir maliyet dökümü için, Fable 5 fiyatlandırma kılavuzumuz matematiği yapıyor.button