Điểm chuẩn Claude Sonnet 5: Điều các con số thực sự tiết lộ

Claude Sonnet 5 ra mắt vào ngày 30 tháng 6 năm 2026, và tuyên bố chính từ Anthropic rất táo bạo: hiệu suất tác nhân (agentic) gần bằng Opus 4.8 với mức giá thấp hơn nhiều. Bài viết này sẽ đi sâu vào các điểm số chuẩn được báo cáo tại thời điểm ra mắt, giải thích ý nghĩa thực sự của mẫu hình đó và chỉ ra khi nào các con số không còn hữu ích. Nếu bạn muốn có cái nhìn tổng quan đầy đủ về mô hình trước tiên, hãy bắt đầu với hướng dẫn trụ cột Claude Sonnet 5. Để có các số liệu thô trực tiếp từ nguồn, Anthropic đã công bố chúng trên trang thông báo chính thức.

Đây là phiên bản tóm tắt. Đối với các tác vụ mà mô hình sử dụng công cụ, Sonnet 5 chỉ kém Opus 4.8 vài điểm. Đối với khả năng suy luận thuần túy mà không có gì để dựa vào, khoảng cách mở rộng lên khoảng sáu điểm. Mẫu hình duy nhất đó giải thích hầu hết các quyết định mua hàng, và đó là sợi dây chúng tôi sẽ kéo xuống bên dưới.

Tất cả các con số trong bài viết này là điểm chuẩn ra mắt của Anthropic, được xác nhận trên nhiều bài viết ra mắt cùng ngày. Hãy coi chúng là các số liệu được báo cáo, chứ không phải là thử nghiệm độc lập của riêng chúng tôi.

Bảng điểm chuẩn

Ba điểm chuẩn kể câu chuyện. Dưới đây là điểm số được báo cáo cho Sonnet 5, phiên bản tiền nhiệm Sonnet 4.6 và phiên bản flagship Opus 4.8.

Điểm chuẩn	Nó đo lường điều gì	Sonnet 5	Sonnet 4.6	Opus 4.8
SWE-bench Pro	Mã hóa tác nhân trên các kho lưu trữ thực	63.2%	58.1%	69.2%
Terminal-Bench 2.1	Hoàn thành tác vụ dòng lệnh	80.4%	chưa được báo cáo	82.7%
OSWorld-Verified	Sử dụng máy tính, tác vụ GUI	81.2%	78.5%	83.4%

Một vài điều nổi bật.

Sonnet 5 đánh bại Sonnet 4.6 trên mọi điểm chuẩn mà cả hai đều được báo cáo. Bước nhảy vọt của SWE-bench Pro từ 58.1% lên 63.2% là hơn năm điểm, đây là một bước tiến thực sự của thế hệ trong mã hóa tác nhân. OSWorld-Verified chuyển từ 78.5% lên 81.2%.

So với Opus 4.8, Sonnet 5 kém 6.0 điểm trên SWE-bench Pro, 2.3 điểm trên Terminal-Bench 2.1 và 2.2 điểm trên OSWorld-Verified. Khoảng cách nhỏ nhất trên hai tác vụ phụ thuộc nhiều nhất vào công cụ và terminal.

Mẫu hình quan trọng

Đọc lại bảng với một câu hỏi trong đầu: mô hình có thể sử dụng công cụ để giải quyết vấn đề đến mức nào?

Trên Terminal-Bench 2.1 và OSWorld-Verified, mô hình chạy các lệnh, đọc kết quả và điều chỉnh. Nó nhận được phản hồi từ môi trường ở mỗi bước. Sonnet 5 nằm trong khoảng một đến ba điểm của Opus 4.8 trên cả hai.

SWE-bench Pro cũng là tác nhân, nhưng nó nhấn mạnh khả năng suy luận sâu hơn về các cơ sở mã lớn, và ở đó khoảng cách mở rộng ra sáu điểm. Khi tác vụ thưởng cho khả năng suy luận thô hơn các vòng lặp công cụ, Opus vượt lên.

Cách định vị của Anthropic cũng hỗ trợ điều này. Họ gọi Sonnet 5 là mô hình Sonnet tác nhân nhất từ trước đến nay, và họ định vị nó gần với Opus 4.8 trong các tác vụ tác nhân và sử dụng công cụ, trong khi Opus vẫn giữ vị trí dẫn đầu về khả năng suy luận thuần túy. Các điểm chuẩn khớp với tiếp thị ở đây, điều không phải lúc nào cũng xảy ra.

Vì vậy, cách đọc thực tế rất đơn giản. Nếu khối lượng công việc của bạn đưa các công cụ vào vòng lặp, tác nhân, trợ lý mã hóa, sử dụng máy tính, Sonnet 5 mang lại cho bạn hầu hết khả năng của Opus 4.8. Nếu khối lượng công việc của bạn là một lần suy luận khó khăn duy nhất mà không có công cụ để điều chỉnh hướng, Opus xứng đáng với mức phí cao cấp của nó. Để so sánh đầy đủ bao gồm giá cả và ngữ cảnh, hãy xem Claude Sonnet 5 so với Opus 4.8.

Giá thay đổi cách bạn đọc các điểm số này

Điểm chuẩn riêng lẻ sẽ làm nổi bật mô hình đắt nhất. Thêm giá vào và bức tranh thay đổi.

Sonnet 5 chạy với giá giới thiệu là 2 đô la cho mỗi triệu token đầu vào và 10 đô la cho mỗi triệu token đầu ra đến hết ngày 31 tháng 8 năm 2026, sau đó chuyển sang mức tiêu chuẩn 3 đô la / 15 đô la. Opus 4.8 là 5 đô la / 25 đô la. Vì vậy, theo mức giá tiêu chuẩn, Sonnet 5 có giá 60% đầu vào của Opus và 60% đầu ra của Opus, và thậm chí ít hơn trong thời gian giới thiệu.

Bây giờ hãy cân nhắc lại bảng. Khoảng cách 2.3 điểm trên Terminal-Bench 2.1 tốn ít hơn nhiều để thu hẹp bằng cách chọn Opus so với khoảng cách 6 điểm. Đối với công việc tác nhân và nặng về công cụ, việc trả phí cao cấp cho Opus để lấy lại hai hoặc ba điểm thường không đáng. Đó là toàn bộ luận điểm giá trị của Sonnet 5, và các điểm chuẩn là điều làm cho nó đáng tin cậy.

Một điểm đáng lưu ý mà các điểm số thuần túy che giấu: Sonnet 5 sử dụng một bộ mã hóa token mới tạo ra nhiều token hơn khoảng 30% cho cùng một văn bản đầu vào. Giá mỗi token không thay đổi so với Sonnet 4.6, nhưng chi phí của một yêu cầu tương đương có thể tăng vì có nhiều token hơn để tính phí. Độ chính xác của điểm chuẩn không nói lên điều gì về vấn đề này. Hãy mô hình hóa chi phí thực tế của bạn bằng cách đếm token thay vì giả định sự ngang bằng. Chi tiết đầy đủ có trong hướng dẫn giá Claude Sonnet 5.

Những gì điểm chuẩn bỏ lỡ

Các điểm chuẩn công khai hữu ích để xếp hạng các mô hình. Chúng yếu trong việc dự đoán cách một mô hình hoạt động trên công việc cụ thể của bạn. Ba khoảng trống nổi bật.

Khối lượng công việc của bạn không phải là SWE-bench. Nếu bạn viết TypeScript dựa trên một API riêng tư với các quy ước nội bộ, thì một điểm chuẩn giải quyết kho lưu trữ trên các dự án Python công khai chỉ là một đại diện sơ bộ tốt nhất. Xếp hạng tương đối có xu hướng được giữ nguyên, nhưng con số tuyệt đối sẽ không khớp với những gì bạn thấy.

Chi phí cho mỗi tác vụ được giải quyết tốt hơn độ chính xác thô. Một mô hình có điểm thấp hơn hai điểm nhưng chi phí thấp hơn 40% có thể giải quyết nhiều tác vụ hơn với cùng một ngân sách. Khi bạn chạy các tác nhân với số lượng lớn, chi phí trên mỗi thành công là chỉ số mang lại lợi nhuận, và không có bảng xếp hạng nào báo cáo nó cho các câu lệnh của bạn.

Độ trễ và thông lượng không xuất hiện. Điểm chuẩn đo lường liệu câu trả lời có đúng hay không, chứ không phải nó đến nhanh như thế nào hoặc mô hình hoạt động như thế nào dưới suy nghĩ thích ứng, được bật theo mặc định trong Sonnet 5. Đối với các công cụ tương tác, một câu trả lời đúng chậm hơn có thể thua một câu trả lời đủ tốt nhanh hơn.

Kết luận trung thực là hãy coi các điểm số này là một bộ lọc khởi đầu, sau đó chạy đánh giá của riêng bạn. Việc chấm điểm trên các tác vụ mà bạn thực sự quan tâm là thử nghiệm duy nhất phản ánh kết quả của bạn.

An toàn, tóm tắt

Các bảng điểm chuẩn hiếm khi bao gồm an toàn, nhưng đó là một phần cách đọc các con số này.

Anthropic báo cáo rằng Sonnet 5 có tỷ lệ hành vi không mong muốn tổng thể thấp hơn Sonnet 4.6, với ít ảo giác hơn và ít xu nịnh hơn. Đây là mô hình cấp Sonnet đầu tiên có các biện pháp bảo vệ an ninh mạng theo thời gian thực. Các yêu cầu liên quan đến các chủ đề bị cấm hoặc rủi ro cao về an ninh mạng có thể bị từ chối, và việc từ chối trả về dưới dạng phản hồi HTTP 200 thành công với stop_reason: "refusal", chứ không phải lỗi, vì vậy hãy xây dựng cho trường hợp đó.

Hãy trung thực về những lưu ý. Trên kiểm toán hành vi tự động của Anthropic, Sonnet 5 cho thấy tỷ lệ hành vi không phù hợp cao hơn Opus 4.8. Về khả năng an ninh mạng, nó đứng dưới các mô hình Opus, và cả hai mô hình Sonnet đều không thể phát triển một khai thác hoạt động nào cả, được báo cáo là 0.0%. Khả năng thấp hơn ở đó là một tính năng, không phải một khoảng trống. Chi tiết đầy đủ có trong trung tâm minh bạch của Anthropic.

Tái tạo các con số trên các tác vụ của riêng bạn

Điểm chuẩn giá trị nhất là điểm chuẩn chạy trên các câu lệnh của riêng bạn. Để làm điều đó một cách đáng tin cậy, bạn cần gọi API Sonnet 5 theo cùng một cách mỗi lần, lưu các yêu cầu và so sánh các phản hồi giữa các lần chạy.

Đó là công việc của một ứng dụng khách API. Apidog cho phép bạn xây dựng một yêu cầu đến Anthropic Messages API, lưu nó trong một bộ sưu tập có thể tái sử dụng, lưu trữ khóa API của bạn dưới dạng biến môi trường và chạy cùng một lệnh lặp đi lặp lại với các xác nhận trên phản hồi. Khi bạn muốn so sánh Sonnet 5 với Opus 4.8 hoặc Sonnet 4.6 trên các đầu vào của riêng mình, bạn thay đổi một biến, ID mô hình và chạy lại bộ sưu tập.

Đây là cấu trúc yêu cầu bạn sẽ lưu. ID mô hình là chuỗi chính xác claude-sonnet-5.

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-sonnet-5",
    "max_tokens": 2048,
    "messages": [
      {
        "role": "user",
        "content": "Refactor this function to remove the nested loop and explain the change."
      }
    ]
  }'

Để so sánh A/B một câu lệnh điểm chuẩn giữa các mô hình, hãy giữ phần thân giống hệt nhau và hoán đổi "model" giữa claude-sonnet-5, claude-opus-4-8 và claude-sonnet-4-6. Trong Apidog, bạn sẽ lưu trữ mô hình dưới dạng biến môi trường để một chỉnh sửa duy nhất sẽ chuyển đổi mọi yêu cầu trong lần chạy. Thêm một xác nhận kiểm thử để kiểm tra stop_reason và độ dài phản hồi, sau đó chạy bộ sưu tập trong CI để đánh giá của bạn có thể lặp lại. Nếu bạn chưa bao giờ thiết lập kiểm thử API theo cách này, hướng dẫn kiểm thử không cần Postman sẽ hướng dẫn bạn qua quy trình làm việc.

Một lưu ý khi di chuyển khi bạn tạo kịch bản so sánh: Sonnet 5 không chấp nhận các giá trị temperature, top_p hoặc top_k không mặc định, và nó từ chối trường thinking: {type: "enabled", budget_tokens: N} cũ. Cả hai đều trả về lỗi 400. Xóa các tham số đó trước khi bạn chấm điểm, nếu không lần chạy của bạn sẽ thất bại trước khi nó đo lường được bất cứ điều gì.

Tải xuống Apidog để xây dựng yêu cầu một lần và tái sử dụng nó trên mọi mô hình bạn muốn chấm điểm.

Câu hỏi thường gặp

Điểm SWE-bench Pro của Claude Sonnet 5 là bao nhiêu? Số liệu ra mắt của Anthropic báo cáo 63.2% cho Sonnet 5, so với 58.1% cho Sonnet 4.6 và 69.2% cho Opus 4.8. Đó là một bước tiến thế hệ năm điểm trong mã hóa tác nhân, và kém khoảng sáu điểm so với flagship.

Sonnet 5 có tốt hơn Opus 4.8 không? Không phải về điểm số thô. Opus 4.8 dẫn đầu mọi điểm chuẩn được báo cáo. Nhưng Sonnet 5 chỉ kém từ một đến ba điểm trong các tác vụ nặng về công cụ với 60% giá, điều này làm cho nó có giá trị tốt hơn cho các tác nhân và vòng lặp mã hóa. So sánh đầy đủ có trong Claude Sonnet 5 so với Opus 4.8.

Các con số điểm chuẩn này có phải từ kiểm thử độc lập không? Không. Đây là các điểm chuẩn ra mắt của Anthropic, được xác nhận trên nhiều bài viết ra mắt cùng ngày. Hãy coi chúng là các số liệu được báo cáo và xác thực trên khối lượng công việc của riêng bạn trước khi bạn cam kết.

Tại sao Sonnet 5 hoạt động tốt hơn tương đối trên các tác vụ công cụ so với các tác vụ suy luận? Khi mô hình có thể chạy các lệnh và đọc kết quả, nó tự sửa lỗi của mình từng bước một. Phản hồi đó thu hẹp khoảng cách với Opus. Trên một lần suy luận duy nhất không có công cụ, không có gì để sửa lỗi, vì vậy khả năng suy luận sâu hơn của Opus thể hiện rõ ràng hơn với khoảng cách rộng hơn.

Làm cách nào để chấm điểm Sonnet 5 trên các câu lệnh của riêng tôi? Gọi Anthropic Messages API với ID mô hình claude-sonnet-5, lưu yêu cầu vào một công cụ như Apidog, thêm các xác nhận và chạy lại nó trên các mô hình bằng cách hoán đổi ID mô hình. Điều đó cung cấp cho bạn chi phí cho mỗi tác vụ và độ trễ, điều mà các bảng xếp hạng công khai không bao giờ báo cáo.