Đánh giá hiệu năng Claude Fable 5: Số liệu cho thấy gì

Khi Anthropic ra mắt Claude Fable 5 vào ngày 9 tháng 6 năm 2026, họ gọi mô hình này là hiện đại nhất (state-of-the-art) trên gần như mọi tiêu chí đánh giá mà họ đã thử nghiệm. Nếu bạn đến đây để tìm kiếm các điểm chuẩn Claude Fable 5 rõ ràng với các con số cụ thể bên cạnh mỗi đánh giá, có một lời cảnh báo thành thật ngay từ đầu: thông báo của Anthropic đã báo cáo các vị trí xếp hạng của điểm chuẩn (Fable 5 xếp hạng ở đâu so với các mô hình tiên tiến khác) nhiều hơn là các bảng điểm số đầy đủ trong văn bản, và một số biểu đồ tiêu đề được cung cấp dưới dạng hình ảnh chứ không phải bảng có thể sao chép-dán. Vì vậy, tổng hợp này tập trung vào ý nghĩa thực sự của các vị trí xếp hạng, Fable 5 nằm ở đâu, và làm thế nào bạn có thể tự chạy đánh giá nhanh nếu bạn muốn có những con số mà bạn kiểm soát. Để so sánh rộng hơn về các mô hình tiên tiến hiện tại, bài phân tích của chúng tôi về Opus 4.8 so với GPT-5.5 và Gemini 3.5 là một tài liệu hữu ích.

Fable 5 được bán với giá 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra, dưới mã mô hình claude-fable-5. Nó nằm ở cấp độ cao hơn Opus 4.8 về cả khả năng và giá cả, và Anthropic định vị nó là Claude mạnh nhất có sẵn công khai cho kỹ thuật phần mềm, công việc tri thức, thị giác máy tính và nghiên cứu khoa học.

TL;DR

Claude Fable 5 xếp hạng đầu tiên trong số các mô hình tiên tiến trên FrontierCode và FrontierBench (cả hai đều từ Cognition), là hiện đại nhất trên CursorBench, và đạt điểm cao nhất trên Hebbia’s Finance Benchmark. Nó thể hiện sức mạnh rõ ràng trong công việc tự chủ, tầm nhìn dài hạn. Anthropic đã báo cáo những điều này dưới dạng vị trí xếp hạng, vì vậy các điểm số công khai chính xác còn hạn chế. Hãy coi các bảng xếp hạng là định hướng, không phải là cuối cùng.

Kết quả nổi bật

Câu duy nhất định hình mọi cuộc thảo luận về điểm chuẩn Claude Fable 5: Anthropic mô tả mô hình này là hiện đại nhất trên gần như tất cả các điểm chuẩn mà họ đã chạy, bao gồm kỹ thuật phần mềm, công việc tri thức, thị giác máy tính và nghiên cứu khoa học. Đó là một tuyên bố rộng lớn, và những tuyên bố rộng lớn cần được đọc cẩn thận.

“Hiện đại nhất trên gần như tất cả các điểm chuẩn” có nghĩa là Fable 5 đứng đầu bảng xếp hạng hoặc nằm ở top đầu trong hầu hết các đánh giá mà Anthropic chọn để báo cáo. Điều đó không có nghĩa là Fable 5 chiến thắng mọi thử nghiệm với khoảng cách lớn, và cũng không có nghĩa là các phòng thí nghiệm độc lập đã tái tạo được từng kết quả. Điều nó báo hiệu là sự nhất quán: một mô hình xuất sắc trong lập trình nhưng lại tầm thường trong lý luận tài liệu sẽ không đạt được cụm từ đó. Fable 5 dường như giữ vị trí hàng đầu trên các danh mục thường có sự đánh đổi lẫn nhau.

Sự rộng lớn đó quan trọng hơn bất kỳ biểu đồ nào. Rất nhiều mô hình đột biến trên một điểm chuẩn yêu thích và sa sút ở những nơi khác. Một mô hình duy trì gần đầu trong lập trình, tài chính, thị giác máy tính và khoa học khó bị "qua mặt" hơn, bởi vì bạn không thể điều chỉnh cho bốn kỹ năng không liên quan cùng một lúc mà không có khả năng thực sự bên dưới. Nếu bạn đang quyết định liệu Fable 5 có đáng để nâng cấp từ một cấp độ rẻ hơn hay không, thì sự rộng lớn của các vị trí xếp hạng là phần cần cân nhắc. Để có tổng quan đầy đủ về chính mô hình, hãy xem Claude Fable 5 là gì.

Một chủ đề thứ hai xuyên suốt các kết quả: công việc tầm nhìn dài hạn. Anthropic cho biết Fable 5 “duy trì sự tập trung qua hàng triệu token trong các tác vụ dài hạn” và hoạt động tự chủ lâu hơn bất kỳ Claude nào trước đây. Một số vị trí xếp hạng dưới đây không phải là các bài kiểm tra độ chính xác đơn lẻ. Chúng thưởng cho một mô hình có thể giữ một kế hoạch nhất quán qua hàng ngàn bước mà không bị lệch hướng. Đó là nơi lợi thế được báo cáo của Fable 5 rộng nhất, và cũng là khả năng khó nắm bắt nhất bằng một con số duy nhất.

Điểm chuẩn mã hóa: FrontierCode và CursorBench

Mã hóa là nơi câu chuyện điểm chuẩn của Fable 5 mạnh mẽ và cụ thể nhất.

Trên FrontierCode, một đánh giá mã hóa từ Cognition (nhóm đứng sau tác nhân mã hóa Devin), Anthropic báo cáo rằng Fable 5 là mô hình tiên tiến đạt điểm cao nhất, và nó giữ vững vị trí dẫn đầu đó ngay cả ở mức nỗ lực trung bình. Yếu tố “nỗ lực” đáng để dừng lại. Nhiều mô hình tiên tiến có thể được đẩy lên độ chính xác cao hơn bằng cách chi tiêu nhiều sức mạnh tính toán suy luận hơn (nhiều token lý luận hơn, nhiều lần thử hơn, cài đặt nỗ lực cao hơn). Một mô hình đã dẫn đầu ở mức nỗ lực trung bình đang đạt đến đỉnh cao mà không cần cấu hình đắt nhất, một tín hiệu tốt hơn cho việc sử dụng hàng ngày so với một con số chỉ xuất hiện ở mức chi tiêu tối đa.

Trên CursorBench, Anthropic mô tả Fable 5 là hiện đại nhất và định hình kết quả xung quanh phạm vi hơn là một con số độ chính xác duy nhất. Cụm từ từ thông báo là Fable 5 “đã mở ra một lớp các vấn đề tầm nhìn dài hạn mà trước đây không thể đạt được” đối với các mô hình trước đây. CursorBench hướng tới công việc kỹ thuật đa tệp, đa bước mà các cơ sở mã thực tế đòi hỏi, vì vậy một vị trí hiện đại nhất ở đây nói lên khả năng mã hóa theo tác nhân hơn là việc viết các hàm riêng lẻ.

Cả hai kết quả đều chỉ về cùng một hướng: Fable 5 được xây dựng cho kỹ thuật bền vững, không phải hoàn thành đoạn mã. Nếu bạn dành cả ngày làm việc với một tác nhân mã hóa lập kế hoạch, chỉnh sửa trên nhiều tệp, chạy thử nghiệm và lặp lại, thì đây là những điểm chuẩn phù hợp với quy trình làm việc của bạn. Một mô hình đứng đầu FrontierCode ở mức nỗ lực trung bình và đẩy CursorBench vào lãnh thổ mới sẽ duy trì được trong các phiên tác nhân dài hạn thay vì bị suy yếu sau vài lượt.

Kiến thức và tài chính: Finance Benchmark (Hebbia)

Ngoài mã hóa, kết quả công việc tri thức rõ ràng nhất đến từ Finance Benchmark do Hebbia xây dựng, một công ty tập trung vào AI cho công việc tài chính và pháp lý nặng về tài liệu.

Anthropic báo cáo rằng Fable 5 đạt điểm cao nhất trong số tất cả các mô hình trên điểm chuẩn này, với những cải tiến tập trung vào ba lĩnh vực: lý luận tài liệu, biểu đồ và bảng. Sự kết hợp đó rất đáng chú ý. Phân tích tài chính hiếm khi là một câu hỏi đố vui. Đó là đọc một hồ sơ dài, truy tìm một con số qua nhiều trang, đối chiếu một biểu đồ với văn bản mô tả nó, và trích xuất đúng ô từ một bảng dữ liệu dày đặc mà không đọc sai cột. Đó chính xác là những kỹ năng mà Finance Benchmark nhấn mạnh, và những kỹ năng mà các mô hình mạnh về văn xuôi nhưng yếu về dữ liệu có cấu trúc thường gặp khó khăn.

Góc độ thị giác máy tính cũng quan trọng ở đây. Biểu đồ và bảng thường là hình ảnh hoặc bố cục hỗn hợp, vì vậy điểm Finance Benchmark cao một phần là kết quả của khả năng thị giác máy tính. Điều này phù hợp với tuyên bố rộng hơn của Anthropic rằng Fable 5 mạnh về thị giác máy tính, và cho thấy mô hình này xử lý các tài liệu thực tế, lộn xộn mà nhân viên tri thức thường đối phó, thay vì chỉ là đầu vào văn bản thuần túy.

Đối với các nhà phát triển, ý nghĩa thực tiễn là Fable 5 là một ứng cử viên cho các quy trình trích xuất tài liệu, công cụ phân tích tài chính và bất kỳ quy trình làm việc nào mà đầu vào là một tệp PDF đầy số liệu chứ không phải một tải trọng JSON gọn gàng. Nếu sản phẩm của bạn đọc hợp đồng, báo cáo hoặc bản kê khai và phải chính xác về các con số, thì đây là vị trí xếp hạng đáng để theo dõi. Hãy xác thực trên tài liệu của riêng bạn trước khi bạn tin vào một điểm chuẩn để dự đoán kết quả của mình.

Lý luận tầm nhìn dài hạn: FrontierBench (Cognition)

Đánh giá thứ hai của Cognition, FrontierBench, là nơi câu chuyện về tính tự chủ biến thành một vị trí điểm chuẩn. Anthropic báo cáo Fable 5 là mô hình đạt điểm cao nhất trên FrontierBench và chỉ ra lý luận tầm nhìn dài hạn là lý do.

Lý luận tầm nhìn dài hạn là khả năng giữ cho mục tiêu và kế hoạch nhất quán trong một tác vụ dài: nhiều bước, nhiều token, nhiều cơ hội để mất dấu vết. Hầu hết các điểm chuẩn thưởng cho một câu trả lời đúng cho một câu hỏi được gói gọn. FrontierBench, theo cách diễn giải của Anthropic, thưởng cho một mô hình có thể duy trì công việc trong khi cửa sổ ngữ cảnh chứa đầy công việc trung gian của chính nó. Đó là một "cơ bắp" khác, và là điều mà Anthropic tiếp tục nhắc đến với các cụm từ như “duy trì sự tập trung qua hàng triệu token.”

Đây cũng là vị trí khó xác minh nhất từ bên ngoài, chính xác vì nó khó đo lường. Một đánh giá tầm nhìn dài hạn phải xác định “duy trì công việc” có nghĩa là gì, cách chấm điểm tiến độ một phần, và cách ngăn chặn mô hình gian lận bằng cách trì hoãn. Vì vậy, hãy coi vị trí FrontierBench là một tín hiệu định hướng mạnh mẽ rằng Fable 5 được xây dựng cho các tác nhân tự chủ, chạy dài hạn, đồng thời lưu ý rằng việc chấm điểm tầm nhìn dài hạn là một lĩnh vực đang phát triển nơi phương pháp luận vẫn còn khác nhau giữa các phòng thí nghiệm. Cùng với CursorBench, câu chuyện nhất quán: lợi thế của Fable 5 ít liên quan đến việc trả lời một câu hỏi khó và chủ yếu là không bị sụp đổ trong một câu hỏi dài.

Hiệu suất thực tế ngoài các điểm chuẩn

Các điểm chuẩn là một proxy. Hai kết quả mà Anthropic đã nêu bật từ các triển khai thực tế có thể mang tính thông tin hơn bất kỳ bảng xếp hạng nào, bởi vì chúng cho thấy mô hình đang thực hiện một công việc thay vì vượt qua một bài kiểm tra.

Đầu tiên là di chuyển cơ sở mã Stripe. Anthropic báo cáo rằng Fable 5 đã di chuyển một cơ sở mã Ruby 50 triệu dòng cho Stripe chỉ trong một ngày, một công việc mà nhóm ước tính sẽ mất hai tháng hoặc hơn. Hãy đọc kỹ điều đó. Di chuyển 50 triệu dòng không phải là một câu đố mã hóa. Đó là một công việc nặng nhọc, lặp đi lặp lại, nhiều ngữ cảnh, kéo dài qua hàng ngàn tệp, nơi những sự không nhất quán nhỏ có thể dẫn đến các bản dựng bị lỗi. Tín hiệu không phải là Fable 5 thông minh; mà là nó có thể duy trì các chỉnh sửa đúng đắn, nhất quán ở quy mô lớn mà không bị lệch hướng, khả năng tầm nhìn dài hạn mà các điểm chuẩn ám chỉ, được thể hiện trên một hệ thống sản xuất thực sự.

Thứ hai là một thử nghiệm Slay the Spire. Slay the Spire là một trò chơi roguelike xây dựng bộ bài, và Anthropic đã sử dụng nó để kiểm tra bộ nhớ hơn là mã hóa. Với bộ nhớ tệp liên tục được bật, Fable 5 cho thấy sự cải thiện gấp 3 lần so với Opus 4.8 trong trò chơi. Cơ chế là phần thú vị: lợi ích đến từ việc cho phép mô hình ghi chú vào tệp và đọc lại chúng qua các lần chạy, tích lũy chiến lược theo cách mà một người chơi con người sẽ làm. Điều này chỉ ra một mô hình trở nên tốt hơn đáng kể khi bạn cung cấp cho nó bộ nhớ bền vững, thay vì bắt đầu lại từ đầu mỗi phiên.

Những điều này cho bạn biết gì mà các điểm chuẩn không thể? Hai điều. Thứ nhất, khả năng chịu đựng quy mô: một câu hỏi điểm chuẩn được thiết kế nhỏ, và kết quả của Stripe cho thấy hành vi ở một quy mô mà không có đánh giá tiêu chuẩn nào đạt được. Thứ hai, bộ nhớ và việc sử dụng công cụ như những yếu tố nhân lên sức mạnh. Kết quả của Slay the Spire không phải về IQ thô của mô hình, mà là về cách mô hình cải thiện khi được kết nối vào một môi trường có trạng thái bền vững. Cả hai đều là những thuộc tính mà bạn chỉ thấy khi một mô hình được nhúng vào một hệ thống thực tế, đó cũng là lý do tại sao chúng khó so sánh giữa các nhà cung cấp. Nếu bạn đang đánh giá Fable 5 cho một tác nhân chạy hàng giờ và tự ghi chú, những tín hiệu này quan trọng hơn một tỷ lệ phần trăm chính xác đơn lẻ.

Cách đọc các kết quả này

Một bản tóm tắt điểm chuẩn chỉ khen ngợi thì không hữu ích. Dưới đây là những lưu ý cần nắm vững bên cạnh các vị trí xếp hạng.

Các chủ sở hữu điểm chuẩn là đối tác. FrontierCode và FrontierBench đến từ Cognition, và Finance Benchmark đến từ Hebbia. Đây là những tổ chức đáng tin cậy đang xây dựng các đánh giá nghiêm túc, và sự tham gia của họ là một điểm cộng, không phải là một dấu hiệu đỏ. Nhưng họ cũng là đối tác trong câu chuyện ra mắt, và một điểm chuẩn được thiết kế bởi một bên có xu hướng thưởng cho những khả năng mà bên đó quan tâm. Điều đó không làm cho kết quả sai; nó có nghĩa là bạn nên muốn có sự tái tạo độc lập trước khi coi chúng là đã được xác định. Tham khảo chéo với các so sánh trung lập như phân tích của chúng tôi về MiniMax M3 so với Opus 4.7 so với GPT-5.5 để xem các mô hình của Anthropic đứng vững như thế nào so với các khung đánh giá khác.

Cài đặt “Nỗ lực” thay đổi bức tranh. Kết quả của FrontierCode được báo cáo ở mức nỗ lực trung bình, điều này đáng khích lệ. Nhưng nỗ lực là một biến số thực sự trên các đánh giá này. Hai mô hình được so sánh ở các mức nỗ lực khác nhau không được so sánh công bằng, và một con số được trích dẫn mà không có cài đặt nỗ lực là không đầy đủ. Khi bạn thấy một điểm Fable 5 trực tuyến, hãy kiểm tra nỗ lực và số lần thử đã tạo ra nó trước khi bạn so sánh nó với bất cứ điều gì.

Điểm số công khai còn hạn chế. Thông báo của Anthropic dựa vào các vị trí xếp hạng, và các biểu đồ chi tiết được cung cấp dưới dạng hình ảnh, đó là lý do tại sao bài viết này duy trì tính định tính về các đánh giá cụ thể. Các kênh thông tin phụ đã lấp đầy khoảng trống bằng các con số, nhưng những con số đó khác nhau và không phải tất cả đều có thể truy xuất nguồn gốc chính, vì vậy chúng chưa nên là cơ sở cho quyết định mua hàng. Khi Cognition và Hebbia công bố bảng xếp hạng của riêng họ, hãy ưu tiên những thông tin đó.

Vị trí không phải là khoảng cách. “Điểm cao nhất” cho bạn biết thứ hạng, không phải khoảng cách. Một mô hình có thể dẫn đầu một điểm hoặc hai mươi điểm, và hai điều đó có ý nghĩa khác nhau đối với việc nâng cấp có đáng với mức giá 10/50 đô la hay không. Nếu không có các điểm số cơ bản, hãy coi sự dẫn đầu là có thật nhưng chưa được định lượng.

Không có điều nào trong số này là lý do để bác bỏ các kết quả. Việc Fable 5 dẫn đầu trong các lĩnh vực mã hóa, tài chính, thị giác máy tính và lý luận tầm nhìn dài hạn, cộng với các triển khai của Stripe và Slay the Spire, là một bức tranh mạnh mẽ và mạch lạc. Đó là lý do để xác minh trên khối lượng công việc của riêng bạn trước khi cam kết, động thái đúng đắn với bất kỳ mô hình mới nào bất kể ai đã tạo ra nó. Tổng quan về mô hình là nơi để xác nhận các ID hiện tại, giá cả và giới hạn ngữ cảnh trước khi bạn kết nối bất cứ thứ gì.

Chạy điểm chuẩn của riêng bạn với Apidog

Điểm chuẩn đáng tin cậy nhất là điểm chuẩn sử dụng lời nhắc của bạn và định nghĩa về “tốt” của riêng bạn. Bạn không cần một công cụ nghiên cứu để có được kết quả hữu ích. Xây dựng một đánh giá DIY nhẹ nhàng bằng cách gửi một lời nhắc thử nghiệm cố định đến API Fable 5 và so sánh phản hồi với Opus 4.8 trên ba trục mà bạn có thể đo lường trực tiếp: chất lượng đầu ra, độ trễ và chi phí token.

Dưới đây là một cách đơn giản để thực hiện điều đó với Apidog, một nền tảng API để thiết kế, kiểm thử và ghi lại các yêu cầu. Ý tưởng là tạo một yêu cầu trong Apidog, hướng nó đến từng mô hình, và đọc phản hồi, thời gian, và mức sử dụng token song song.

Thiết lập một yêu cầu POST tới điểm cuối tin nhắn của Claude và lưu nó dưới dạng yêu cầu có thể tái sử dụng trong Apidog để bạn có thể chạy lại mà không cần nhập lại bất cứ điều gì.

POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
content-type: application/json

Cung cấp cho nó một phần thân với một tác vụ cố định. Chọn một lời nhắc giống với công việc thực tế của bạn, không phải một thứ đồ chơi. Một hướng dẫn theo kiểu di chuyển là một bài kiểm tra căng thẳng tốt cho một mô hình mã hóa:

{
  "model": "claude-fable-5",
  "max_tokens": 2048,
  "messages": [
    {
      "role": "user",
      "content": "Refactor this Ruby method to use keyword arguments and add RSpec tests. Return only the updated code:\n\ndef charge(amount, currency, customer_id, idempotency_key)\n  # ...\nend"
    }
  ]
}

Chạy nó một lần với claude-fable-5. Sau đó sao chép yêu cầu, thay đổi trường model thành claude-opus-4-8, và chạy cùng một lời nhắc. Bởi vì đầu vào giống hệt nhau, bất kỳ sự khác biệt nào trong đầu ra đều là do mô hình, không phải do lời nhắc.

Bây giờ hãy đọc ba tín hiệu mà Apidog hiển thị cho mỗi cuộc gọi:

Chất lượng. Xem xét cả hai phản hồi dựa trên tiêu chí của riêng bạn. Bài kiểm tra có bao gồm các trường hợp biên không? Việc refactor có còn chính xác không? Chấm điểm cả hai trước khi bạn xem mô hình nào đã tạo ra cái nào.
Độ trễ. Apidog hiển thị thời gian phản hồi cho mỗi yêu cầu. Đối với một công cụ tương tác, một mô hình chính xác gấp đôi nhưng chậm hơn bốn lần vẫn có thể là lựa chọn sai lầm.
Chi phí token. Phản hồi của Claude bao gồm một khối usage với input_tokens và output_tokens. Nhân với tỷ lệ đã công bố (10 đô la và 50 đô la cho mỗi triệu cho Fable 5, 5 đô la và 25 đô la cho Opus 4.8) để có được chi phí thực tế cho mỗi câu trả lời.

Lặp lại điều này trên năm hoặc mười lời nhắc phản ánh cách sử dụng thực tế của bạn, và bạn sẽ có một điểm chuẩn nhỏ, trung thực cho bạn biết những gì bảng xếp hạng công khai không thể: liệu lợi thế của Fable 5 có xuất hiện trong các tác vụ của bạn với mức giá mà bạn sẵn lòng chi trả hay không. Bạn có thể tải xuống Apidog và thiết lập điều này chỉ trong vài phút. Để có phân tích chi phí sâu hơn, hướng dẫn giá Fable 5 của chúng tôi sẽ thực hiện tính toán.

button