Benchmark hiệu năng GPT-5.6 Sol: Có thực sự đáng để chờ đợi?

OpenAI đã công bố GPT-5.6 Sol vào ngày 26 tháng 6 năm 2026 với một loạt các con số điểm chuẩn ấn tượng. Nó đạt trạng thái nghệ thuật trên Terminal-Bench, là mô hình duy nhất vượt qua 50% trên Agent’s Last Exam ở chế độ mã hóa, và đạt hiệu suất đánh giá an ninh mạng tương đương với đối thủ hàng đầu chỉ với một phần ba số token. Điều bạn cần đọc trước tiên là: bạn không thể chạy bất kỳ phần nào của nó. Sol được phát hành dưới dạng bản xem trước giới hạn do chính phủ kiểm soát thông qua OpenAI API và Codex, chỉ dành cho khoảng 20 đối tác được chính phủ Hoa Kỳ phê duyệt riêng lẻ. Nó không có trong ChatGPT, và hôm nay bạn cũng không thể đăng ký để sử dụng.

Vì vậy, các điểm chuẩn không phải là lời khuyên mua hàng. Chúng chỉ trả lời một câu hỏi duy nhất: liệu GPT-5.6 Sol có đáng để chờ đợi, hay bạn nên tiếp tục sử dụng một mô hình mà bạn đã có sẵn? Đây chính là điều bài viết này sẽ làm rõ. Chúng tôi sẽ xem xét từng điểm chuẩn chính đo lường điều gì, đặt mỗi con số bên cạnh các điểm chuẩn GPT-5.5 và Claude Mythos 5 mà bạn đã có, và kết thúc bằng một đánh giá trung thực về việc nên chờ đợi hay tiếp tục. Mọi số liệu ở đây đều dựa trên thông tin từ OpenAI và các báo cáo ban đầu, không phải từ các thử nghiệm chúng tôi tự thực hiện.

button

TÓM TẮT

GPT-5.6 Sol đang trong giai đoạn xem trước giới hạn: chỉ có trên OpenAI API và Codex, không có trong ChatGPT, dành cho khoảng 20 đối tác được chính phủ phê duyệt. OpenAI cho biết khả năng truy cập rộng rãi sẽ có "trong vài tuần tới".
Các điểm số được báo cáo rất mạnh mẽ nhưng chỉ là nguồn thứ cấp. Hãy coi chúng là tuyên bố của OpenAI, chứ không phải kết quả đo lường, cho đến khi mô hình được mở rộng.
Các con số tiêu đề (theo OpenAI / báo cáo ban đầu): Terminal-Bench 2.1 SOTA (Trạng thái nghệ thuật), chế độ mã hóa của Agent’s Last Exam trên 50%, ExploitBench đạt hiệu suất tương đương với khoảng một phần ba số token đầu ra.
Hãy chờ đợi nếu công việc của bạn là lập trình tác nhân (agentic coding), các tác vụ terminal dài, hoặc an ninh phòng thủ và bạn có thể trì hoãn vài tuần.
Đừng bận tâm chờ đợi nếu bạn cần một mô hình hoạt động ngay bây giờ. Các lựa chọn thay thế bạn có thể thử nghiệm hôm nay đã thu hẹp hầu hết khoảng cách.

Đọc phần này trước khi xem điểm số

Các điểm chuẩn cho bạn biết một mô hình có thể làm gì. Chúng không cho bạn biết liệu bạn có thể sử dụng nó hay không. Đối với GPT-5.6 Sol, đó là hai sự thật khác nhau, và sự thật thứ hai đang chiếm ưu thế ngay lúc này.

Việc ra mắt bị chính quyền Hoa Kỳ kiểm soát theo sắc lệnh hành pháp ngày 2 tháng 6 năm 2026, thiết lập tiêu chuẩn và đánh giá cho các mô hình AI mới. OpenAI đã đồng ý như một bước tạm thời. Theo lời của họ, được MacRumors trích dẫn: "Chúng tôi đang thực hiện bước ngắn hạn này vì chúng tôi tin rằng đây là con đường vững chắc nhất để có được khả năng truy cập rộng rãi hơn trong những tuần tới." OpenAI cho biết khả năng truy cập rộng rãi trong ChatGPT, Codex và API sẽ có trong những tuần tới. Cho đến lúc đó, các điểm số chỉ là bản xem trước của một thứ mà bạn không thể mua.

Cách nhìn nhận đó rất quan trọng đối với cách bạn đọc phần còn lại của bài viết này. Lợi thế 4 điểm trên Terminal-Bench có ý nghĩa nếu bạn có thể triển khai nó. Đó là lý do để tiếp tục theo dõi, chứ không phải dừng lộ trình của bạn, nếu bạn không thể triển khai. Nếu bạn muốn có cái nhìn đầy đủ về Sol là gì và tại sao nó bị khóa, bài giải thích GPT-5.6 Sol của chúng tôi sẽ đề cập đến dòng sản phẩm và rào cản này. Các mã định danh mô hình API chính xác vẫn chưa được công bố, vì vậy không có gì để kết nối ngay cả khi bạn muốn.

Terminal-Bench 2.1: Con số tiêu đề

Terminal-Bench đo lường mức độ hoàn thành các tác vụ thực tế của một mô hình trong môi trường terminal: chỉnh sửa tệp, chạy lệnh, chuỗi công cụ, phục hồi từ lỗi. Nó là đại diện công khai gần nhất cho câu hỏi "liệu công cụ này có thể thực hiện công việc lập trình tác nhân từ đầu đến cuối" thay vì chỉ trả lời một lời nhắc duy nhất. Đó là lý do OpenAI nhấn mạnh vào nó.

Theo OpenAI và các báo cáo ban đầu, trên Terminal-Bench 2.1, cấu hình "ultra" mới, Sol Ultra, đạt khoảng 91,91%, trong khi Sol tiêu chuẩn đạt khoảng 88,8%. Các điểm chuẩn bạn đã có để so sánh: Claude Mythos 5 khoảng 88% và GPT-5.5 khoảng 83,4%. Nếu những con số này là chính xác, chế độ tiêu chuẩn của Sol gần như ngang ngửa với Mythos 5, và Sol Ultra vượt trội hơn một vài điểm so với các đối thủ.

Phần "ultra" thực sự đóng vai trò quan trọng trong điểm số cao đó. Theo thông báo của OpenAI, chế độ ultra "vượt ra ngoài một tác nhân duy nhất bằng cách tận dụng các tác nhân phụ để đẩy nhanh công việc phức tạp." Vì vậy, 91,91% không phải là một mô hình suy nghĩ khó hơn; đó là một mô hình tạo ra các trợ lý. Đó là một sự thay đổi khả năng thực sự, và nó cũng có nghĩa là con số tiêu đề không thể dễ dàng so sánh với một lệnh gọi GPT-5.5 duy nhất. Để so sánh trực tiếp các mô hình bạn có thể chạy hôm nay, bài so sánh Claude Opus 4.8 vs GPT-5.5 vs Gemini 3.5 của chúng tôi là tài liệu tham khảo tốt hơn trong khi Sol vẫn bị khóa.

Agent’s Last Exam: Tuyên bố "mô hình duy nhất vượt qua 50%"

Agent’s Last Exam là một điểm chuẩn tác nhân khó, được xây dựng để chống lại sự bão hòa: các tác vụ đa bước mà mô hình phải lên kế hoạch, sử dụng công cụ và thực hiện mà không có sự can thiệp của con người. Chế độ mã hóa là phần đặc biệt nhấn mạnh công việc phần mềm.

Theo các báo cáo ban đầu, GPT-5.6 Sol đạt khoảng 50,9% ở chế độ mã hóa và được mô tả là mô hình duy nhất vượt quá 50%. Cách trình bày đó chính là điểm mấu chốt. Trên một điểm chuẩn mà hầu hết các mô hình tiên tiến đều nằm trong khoảng 40%, việc vượt qua một nửa là loại bước nhảy vọt mà OpenAI muốn làm nền tảng cho việc ra mắt.

Hãy đọc nó với sự thận trọng tương tự như con số Terminal-Bench. 50,9% là một tuyên bố từ báo cáo thứ cấp, không phải con số chúng tôi đo lường, và "mô hình duy nhất vượt quá 50%" là một bức ảnh chụp nhanh mà các phòng thí nghiệm khác sẽ thúc đẩy trong vài tuần tới. Đánh giá trung thực: nếu công việc của bạn thực sự là lập trình tác nhân, lập trình dài hạn nơi mô hình phải hoàn thành một tác vụ, thì đây là điểm chuẩn ủng hộ việc chờ đợi. Nếu công việc của bạn là lập trình yêu cầu và phản hồi ngắn hơn, khoảng cách so với mô hình bạn đang chạy đã nhỏ hơn so với tiêu đề gợi ý.

ExploitBench: Hiệu quả hơn điểm số thô

Điểm chuẩn thứ ba là điểm thú vị nhất cho việc quyết định nên chờ đợi hay tiếp tục, bởi vì nó không thực sự liên quan đến một điểm số lớn hơn. ExploitBench (và ExploitGym liên quan) đo lường khả năng an ninh mạng. Sol được tinh chỉnh để tìm kiếm lỗ hổng phần mềm và viết các bản sửa lỗi, đồng thời chống lại các nỗ lực tạo ra chuỗi khai thác hoàn chỉnh. Đây là một lập trường phòng thủ, không phải một mô hình tấn công, và OpenAI gọi đây là "bộ chồng an toàn mạnh mẽ nhất từ trước đến nay."

Theo các báo cáo ban đầu, trên ExploitBench, Sol cạnh tranh với Mythos Preview của Anthropic trong khi chỉ sử dụng khoảng một phần ba số token đầu ra. Mô hình tương tự cũng xuất hiện ở khía cạnh khoa học: trên GeneBench v1, OpenAI báo cáo một cải tiến so với GPT-5.5 khi sử dụng ít token hơn.

Câu chuyện về token là một trong những yếu tố có ảnh hưởng ngân sách thực sự. Nếu Sol đạt được mức chất lượng tương tự chỉ với một phần ba số token đầu ra, chi phí hiệu quả cho mỗi tác vụ được giải quyết sẽ giảm xuống thấp hơn nhiều so với mức giá 5 đô la đầu vào / 30 đô la đầu ra cho mỗi triệu token trên giấy tờ. Đó là lý do về hiệu quả để chờ đợi: không phải vì Sol thông minh hơn ở mọi lời nhắc, mà vì nó có thể đưa ra cùng một câu trả lời với chi phí thấp hơn trên các khối lượng công việc mà nó được tinh chỉnh. Thẻ hệ thống an toàn triển khai của OpenAI là nơi các khung an toàn và an ninh mạng được ghi lại, và bạn nên đọc nó trước khi coi bất kỳ con số an ninh mạng nào là có trọng lượng.

Cách đọc các điểm số này so với điểm chuẩn của bạn

Đặt ba điểm chuẩn lại với nhau và một hình dáng xuất hiện. Trường hợp của Sol mạnh nhất đối với các công việc dài, tác nhân, nặng về công cụ: tác vụ terminal, mã hóa đa bước, quét an ninh phòng thủ. Trên những tác vụ đó, nó tuyên bố có lợi thế vài điểm so với Mythos 5 và một khoảng cách lớn hơn so với GPT-5.5, cộng thêm lợi thế về hiệu quả token.

Những gì các điểm chuẩn không thể hiện cũng quan trọng không kém. Không có giới hạn token đầu ra tối đa được công bố, không có giới hạn kiến thức được nêu rõ, không có danh sách chế độ đã xác nhận. Cửa sổ ngữ cảnh được một nguồn tin báo cáo là khoảng 1,5 triệu token và một nguồn khác là "không xác định", vì vậy hãy coi đó là thông tin chưa được xác nhận.

Phán quyết: chờ đợi hay tiếp tục

Đây là đánh giá trung thực.

Hãy chờ đợi nếu: khối lượng công việc cốt lõi của bạn là lập trình tác nhân, các phiên terminal dài, hoặc an ninh phòng thủ, và bạn có thể chờ đợi vài tuần. Lợi thế trên Terminal-Bench, kết quả Agent’s Last Exam và hiệu quả token của ExploitBench đều chỉ ra chính xác hồ sơ đó. Nếu vài điểm phần trăm trên các tác vụ đó thay đổi tình hình kinh tế của bạn, Sol đáng để theo dõi chặt chẽ. Hãy theo dõi khả năng truy cập rộng rãi và quan trọng hơn, các điểm chuẩn độc lập xác nhận hoặc làm giảm các con số ra mắt.

Đừng bận tâm chờ đợi nếu: bạn cần một mô hình hoạt động ngay bây giờ, hoặc công việc của bạn là lập trình yêu cầu-phản hồi ngắn hơn, trò chuyện, tóm tắt hoặc phân loại. Dù sao thì hôm nay bạn cũng không thể có Sol, các mã ID mô hình thậm chí còn chưa được công bố, và các lựa chọn thay thế bạn có thể chạy ngay bây giờ đã thu hẹp hầu hết khoảng cách trong công việc hàng ngày. Chờ đợi một mô hình bị khóa được phát hành trước khi bạn giải quyết vấn đề mình đang gặp phải hôm nay là một quyết định sai lầm. Bước đi thông minh hơn là chọn một mô hình tiên tiến mà bạn thực sự có thể sử dụng; bài tổng hợp về các mô hình tiên tiến bạn có thể sử dụng hôm nay của chúng tôi sẽ ghép từng mô hình với công việc mà Sol đang được ca ngợi.

Một lưu ý trung thực nữa: ngay cả khi GA (khả dụng chung) được phát hành, đợt đầu tiên sẽ là GPT-5.6 trên toàn bộ dòng sản phẩm, bao gồm Terra và Luna, chứ không chỉ riêng Sol. Terra được định vị là rẻ hơn khoảng 2 lần so với GPT-5.5 với hiệu suất tương tự, đây là cấp độ mà hầu hết các nhóm sẽ sử dụng. Vì vậy, "chờ đợi Sol" thực sự có thể có nghĩa là chờ đợi để chọn cấp độ phù hợp, và đó là một quyết định bình tĩnh hơn so với những gì các tiêu đề điểm chuẩn ngụ ý.

Apidog phù hợp ở đâu trong khi bạn chờ đợi

Bạn chưa thể kiểm tra Sol. Trong lúc đó, bạn có thể kiểm tra mọi thứ mà bạn sẽ sử dụng. Mythos 5, GPT-5.5, Gemini và các mô hình khác đều cung cấp API tương thích OpenAI hoặc API HTTP tiêu chuẩn, và bạn có thể điều khiển chúng, xác nhận phản hồi của chúng và so sánh hành vi trong Apidog ngay hôm nay. Thiết lập một yêu cầu, trỏ nó đến điểm cuối của từng mô hình và bạn có một công cụ kiểm tra lặp lại cho quyết định mà bài viết này đang nói đến.

Công cụ kiểm tra đó cũng là sự chuẩn bị sẵn sàng của bạn cho Sol ngay từ ngày đầu tiên. Ngày bạn có quyền truy cập bản xem trước, hoặc GA mở ra, bạn chỉ cần thay đổi điểm cuối và ID mô hình rồi chạy các kịch bản bạn đã xây dựng. Không cần công cụ mới, không cần vội vàng. Tải Apidog để xây dựng các bài kiểm tra đó với các mô hình bạn có thể sử dụng ngay bây giờ, để bạn sẵn sàng ngay khi mô hình bị khóa được mở.

Kết luận

Các điểm chuẩn của GPT-5.6 Sol rất mạnh mẽ, đặc biệt trong công việc tác nhân và bảo mật mà nó được tinh chỉnh, và chúng vẫn chỉ là những tuyên bố dưới một cánh cổng chính phủ mà bạn không thể vượt qua hôm nay. Hãy chờ đợi nếu hồ sơ tiên tiến đó là công việc của bạn và bạn có thể trì hoãn vài tuần. Nếu không, hãy tiếp tục với một mô hình bạn có thể triển khai ngay bây giờ và xem xét lại khi Sol có được các con số độc lập và một điểm cuối công khai.

Xây dựng công cụ kiểm tra của bạn với các mô hình bạn có thể sử dụng hôm nay trong Apidog, để bạn sẵn sàng kiểm tra Sol vào ngày bạn có quyền truy cập.

button