Claude Sonnet 5 Performans Testleri: Veriler Gerçekte Ne Diyor

Claude Sonnet 5, 30 Haziran 2026'da piyasaya sürüldü ve Anthropic'in manşet iddiası iddialıydı: Opus 4.8'e yakın ajans performansı çok daha düşük bir fiyata. Bu makale, lansmanda bildirilen kıyaslama puanlarını inceler, modelin ne anlama geldiğini açıklar ve sayıların nerede faydalı olmaktan çıktığını gösterir. Modelin tam genel görünümünü önce isterseniz, Claude Sonnet 5 ana rehberinden başlayın. Doğrudan kaynaktan ham rakamlar için Anthropic bunları resmi duyuru sayfasında yayınladı.

İşte kısa versiyonu. Modelin araçları kullandığı görevlerde, Sonnet 5, Opus 4.8'den birkaç puan içinde yer alıyor. Destekleyici hiçbir şey olmadan saf akıl yürütmede ise fark yaklaşık altı puana çıkıyor. Bu tek model, çoğu satın alma kararını açıklıyor ve aşağıda inceleyeceğimiz konu da budur.

Bu makaledeki tüm sayılar, Anthropic'in lansman kıyaslama testleridir ve birden fazla lansman günü yazısında doğrulanmıştır. Bunları rapor edilen rakamlar olarak değerlendirin, kendi bağımsız testlerimiz olarak değil.

Kıyaslama Tablosu

Üç kıyaslama testi hikayeyi anlatıyor. İşte Sonnet 5, selefi Sonnet 4.6 ve amiral gemisi Opus 4.8 için bildirilen puanlar.

Kıyaslama Testi	Ne ölçer	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Gerçek depolarda ajans kodlaması	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Komut satırı görevi tamamlama	80.4%	bildirilmedi	82.7%
OSWorld-Verified	Bilgisayar kullanımı, GUI görevleri	81.2%	78.5%	83.4%

Birkaç şey dikkat çekiyor.

Sonnet 5, her iki modelin de raporlandığı her kıyaslama testinde Sonnet 4.6'yı geride bırakıyor. SWE-bench Pro'da %58.1'den %63.2'ye olan artış beş puandan fazla olup, ajans kodlaması için gerçek bir nesilsel kazançtır. OSWorld-Verified %78.5'ten %81.2'ye yükseliyor.

Opus 4.8'e karşı Sonnet 5, SWE-bench Pro'da 6.0 puan, Terminal-Bench 2.1'de 2.3 puan ve OSWorld-Verified'da 2.2 puan geride kalıyor. Fark, araçlara ve terminale en çok dayanan iki görevde en küçüktür.

Önemli Olan Desen

Tabloyu aklınızda tek bir soruyla tekrar okuyun: model, sorunu çözmek için araçları ne kadar kullanabilir?

Terminal-Bench 2.1 ve OSWorld-Verified'da model komutları çalıştırır, çıktıyı okur ve ayarlar. Her adımda ortamdan geri bildirim alır. Sonnet 5, her ikisinde de Opus 4.8'den yaklaşık bir ila üç puan içinde yer alıyor.

SWE-bench Pro da ajans odaklıdır, ancak büyük kod tabanları hakkında daha derin akıl yürütmeyi vurgular ve burada fark altı puana kadar açılır. Görev, araç döngüleri yerine ham akıl yürütmeyi ödüllendirdiğinde, Opus öne geçer.

Anthropic'in kendi çerçevesi bunu destekliyor. Sonnet 5'i şimdiye kadarki en ajans odaklı Sonnet modeli olarak adlandırıyorlar ve Opus saf akıl yürütmede liderliğini korurken, ajans odaklı ve araç kullanımlı görevlerde Opus 4.8'e yakın konumlandırıyorlar. Kıyaslama testleri burada pazarlamayla eşleşiyor, ki bu her zaman böyle değildir.

Yani pratik yorum basit. İş yükünüz araçları, ajanları, kodlama asistanlarını, bilgisayar kullanımını döngüye sokuyorsa, Sonnet 5 size Opus 4.8'in yeteneklerinin çoğunu sunar. İş yükünüz, rotayı düzeltmek için hiçbir aracı olmayan tek bir zorlu akıl yürütme geçişi ise, Opus primini hak eder. Fiyat ve bağlam dahil tam bir yan yana karşılaştırma için Claude Sonnet 5 vs Opus 4.8 bölümüne bakın.

Fiyat, Bu Puanları Nasıl Okuduğunuzu Değiştirir

Kıyaslama testleri tek başına en pahalı modeli över. Fiyatı eklediğinizde ise tablo değişir.

Sonnet 5, 31 Ağustos 2026'ya kadar tanıtım fiyatı olan bir milyon giriş tokenı başına 2 dolar ve bir milyon çıkış tokenı başına 10 dolarla çalışır, ardından standart 3 dolar / 15 dolara yükselir. Opus 4.8 ise 5 dolar / 25 dolardır. Yani standart oranlarda Sonnet 5, Opus girişinin %60'ı ve Opus çıktısının %60'ı kadar maliyetlidir ve tanıtım döneminde daha da azdır.

Şimdi tabloyu tekrar değerlendirin. Terminal-Bench 2.1'de 2.3 puanlık bir farkı kapatmak için Opus'u seçmek, 6 puanlık bir farkı kapatmaktan çok daha az maliyetlidir. Ajans odaklı ve araç ağırlıklı işler için, iki veya üç puanı geri kazanmak amacıyla Opus primini ödemek genellikle buna değmez. Sonnet 5 için tüm değer argümanı budur ve kıyaslama testleri bunu inandırıcı kılar.

Salt puanların gizlediği bir tuzak: Sonnet 5, aynı giriş metni için yaklaşık %30 daha fazla token üreten yeni bir tokenlaştırıcı kullanır. Token başına fiyat Sonnet 4.6'dan değişmemiştir, ancak faturalandırılacak daha fazla token olduğu için eşdeğer bir isteğin maliyeti artabilir. Kıyaslama doğruluğu bunun hakkında hiçbir şey söylemez. Düz bir eşitlik varsaymak yerine, gerçek maliyetinizi token sayımıyla modelleyin. Tam ayrıntılar Claude Sonnet 5 fiyatlandırma rehberinde bulunmaktadır.

Kıyaslama Testlerinin Gözden Kaçırdıkları

Halka açık kıyaslama testleri modelleri sıralamak için kullanışlıdır. Bir modelin sizin özel işinizde nasıl davranacağını tahmin etmede zayıftırlar. Üç boşluk öne çıkıyor.

İş yükünüz SWE-bench değildir. Özel kurallara sahip dahili bir API'ye karşı TypeScript yazıyorsanız, herkese açık Python projeleri üzerindeki bir depo çözme kıyaslama testi en iyi ihtimalle kaba bir vekildir. Göreceli sıralama genellikle geçerlidir, ancak mutlak sayı gördüğünüzle eşleşmeyecektir.

Çözülen görev başına maliyet, ham doğruluğu geride bırakır. İki puan daha düşük puan alan ancak %40 daha az maliyetli bir model, aynı bütçeyle daha fazla görevi çözebilir. Ajanları yüksek hacimde çalıştırdığınızda, başarı başına maliyet faturaları ödeyen ölçümdür ve hiçbir liderlik tablosu bunu sizin istemleriniz için bildirmez.

Gecikme ve verim görünmez. Kıyaslama testleri, cevabın doğru olup olmadığını ölçer, ne kadar hızlı ulaştığını veya Sonnet 5'te varsayılan olarak açık olan adaptif düşünme altında modelin nasıl davrandığını değil. Etkileşimli araçlar için, daha yavaş ama doğru bir yanıt, daha hızlı ama yeterli bir yanıta yenilebilir.

Dürüst sonuç, bu puanları bir başlangıç filtresi olarak kabul etmek ve ardından kendi değerlendirmenizi yapmaktır. Gerçekten önem verdiğiniz görevler üzerindeki kıyaslama testleri, sonuçlarınızı yansıtan tek testtir.

Güvenlik, Kısaca

Kıyaslama tabloları nadiren güvenliği içerir, ancak bu sayıların nasıl okunması gerektiğinin bir parçasıdır.

Anthropic, Sonnet 5'in Sonnet 4.6'dan daha düşük genel istenmeyen davranış oranına sahip olduğunu, daha az halüsinasyon ve daha az yaltaklanma gösterdiğini rapor ediyor. Gerçek zamanlı siber güvenlik önlemlerine sahip ilk Sonnet seviyesi modelidir. Yasaklanmış veya yüksek riskli siber konulara değinen istekler reddedilebilir ve bir ret, bir hata olarak değil, stop_reason: "refusal" ile başarılı bir HTTP 200 yanıtı olarak döner, bu nedenle bu durumu göz önünde bulundurun.

Uyarılar konusunda da dürüst olun. Anthropic'in otomatik davranış denetiminde, Sonnet 5, Opus 4.8'den daha yüksek yanlış hizalanmış davranış oranları gösterdi. Siber yetenek konusunda Opus modellerinin altında yer alıyor ve hiçbir Sonnet modeli çalışır bir güvenlik açığı geliştiremedi, bu %0.0 olarak raporlandı. Daha düşük yetenek burada bir özellik, bir boşluk değil. Tam ayrıntılar Anthropic'in şeffaflık merkezinde bulunmaktadır.

Sayıları Kendi Görevlerinizde Tekrarlayın

En değerli kıyaslama testi, istemlerinize karşı çalışan testtir. Bunu güvenilir bir şekilde yapmak için, Sonnet 5 API'sini her seferinde aynı şekilde çağırmanız, istekleri kaydetmeniz ve çalıştırmalar arasında yanıtları karşılaştırmanız gerekir.

Bu bir API istemcisi işidir. Apidog, Anthropic Mesajlar API'sine bir istek oluşturmanıza, onu yeniden kullanılabilir bir koleksiyona kaydetmenize, API anahtarınızı bir ortam değişkeni olarak saklamanıza ve yanıt üzerinde iddialarla aynı çağrıyı tekrar tekrar çalıştırmanıza olanak tanır. Sonnet 5'i Opus 4.8 veya Sonnet 4.6 ile kendi girdileriniz üzerinde karşılaştırmak istediğinizde, bir değişkeni, model kimliğini değiştirir ve koleksiyonu yeniden çalıştırırsınız.

İşte kaydedeceğiniz istek yapısı. Model kimliği tam olarak claude-sonnet-5 dizesidir.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Modeller arasında bir kıyaslama istemini A/B testi yapmak için, gövdeyi aynı tutun ve "model"i claude-sonnet-5, claude-opus-4-8 ve claude-sonnet-4-6 arasında değiştirin. Apidog'da modeli bir ortam değişkeni olarak saklardınız, böylece tek bir düzenleme çalıştırmadaki her isteği değiştirir. stop_reason ve yanıt uzunluğunu kontrol etmek için bir test iddiası ekleyin, ardından değerlendirmenizin tekrarlanabilir olması için koleksiyonu CI'da çalıştırın. Eğer API testlerini bu şekilde hiç kurmadıysanız, Postman olmadan test etme rehberi iş akışını adım adım anlatır.

Karşılaştırmaları komut dosyasına dökerken bir geçiş notu: Sonnet 5, varsayılan olmayan temperature, top_p veya top_k parametrelerini kabul etmez ve eski thinking: {type: "enabled", budget_tokens: N} alanını reddeder. Her ikisi de 400 hatası döndürür. Kıyaslama yapmadan önce bu parametreleri kaldırın, aksi takdirde çalıştırmanız herhangi bir şeyi ölçmeden başarısız olur.

İsteği bir kez oluşturmak ve puanlamak istediğiniz her modelde yeniden kullanmak için Apidog'u indirin.

Sıkça Sorulan Sorular

Claude Sonnet 5'in SWE-bench Pro puanı nedir? Anthropic'in lansman rakamları Sonnet 5 için %63.2, Sonnet 4.6 için %58.1 ve Opus 4.8 için %69.2 olarak bildirilmektedir. Bu, ajans kodlamasında beş puanlık bir nesilsel kazanç ve amiral gemisinin yaklaşık altı puan gerisindedir.

Sonnet 5, Opus 4.8'den daha mı iyi? Ham puanlarda değil. Opus 4.8 rapor edilen her kıyaslama testinde lider. Ancak Sonnet 5, araç ağırlıklı görevlerde fiyatın %60'ı kadar bir maliyetle bir ila üç puan içinde yer alıyor, bu da onu ajanlar ve kodlama döngüleri için daha değerli kılıyor. Tam karşılaştırma Claude Sonnet 5 vs Opus 4.8 bölümündedir.

Bu kıyaslama sayıları bağımsız testlerden mi? Hayır. Bunlar Anthropic'in kendi lansman kıyaslama testleridir ve birden fazla lansman günü yazısında doğrulanmıştır. Bunları rapor edilen rakamlar olarak değerlendirin ve taahhütte bulunmadan önce kendi iş yükünüzde doğrulayın.

Sonnet 5, araç görevlerinde neden akıl yürütme görevlerinden nispeten daha iyi performans gösteriyor? Model komutları çalıştırıp sonuçları okuyabildiğinde, kendi hatalarını adım adım düzeltir. Bu geri bildirim, Opus ile olan farkı daraltır. Araçsız tek bir akıl yürütme geçişinde düzeltilecek hiçbir şey yoktur, bu nedenle Opus'un daha derin akıl yürütmesi daha geniş bir liderlik olarak ortaya çıkar.

Sonnet 5'i kendi istemlerimde nasıl kıyaslarım? Anthropic Mesajlar API'sini claude-sonnet-5 model kimliğiyle çağırın, isteği Apidog gibi bir araçta kaydedin, iddialar ekleyin ve model kimliğini değiştirerek modeller arasında tekrar çalıştırın. Bu size halka açık liderlik tablolarının asla rapor etmediği görev başına maliyet ve gecikme süresini verir.