GLM-5.2: Điểm chuẩn và Thông số kỹ thuật – Phân tích SWE-bench Pro, Terminal-Bench và Ý nghĩa các con số

GLM-5.2 từ Z.ai (Zhipu AI) đã ra mắt với một loạt các con số điểm chuẩn, và một vài trong số đó thực sự ấn tượng. Điểm nổi bật là SWE-bench Pro ở mức 62.1, vượt qua GPT-5.5. Câu chuyện lớn hơn nằm ở một hàng bên dưới: Terminal-Bench đã tăng từ 62.0 lên 81.0 chỉ trong một thế hệ. Bài đăng này sẽ đi sâu vào từng điểm số benchmark của GLM-5.2, giải thích ý nghĩa thực sự của từng bài kiểm tra và chỉ ra đâu là lợi thế thực sự so với đâu là sai số làm tròn.

Tất cả các số liệu ra mắt ở đây đều là kết quả được Z.ai công bố trừ khi có ghi chú khác. Khi một mô hình tuyên bố đánh bại các đối thủ trên bảng điểm của chính nó, bạn sẽ đọc với một chút hoài nghi. Vì vậy, chúng tôi sẽ cụ thể về những gì mỗi điểm chuẩn chứng minh và những gì nó không chứng minh.

💡

Nếu bạn xây dựng hoặc kiểm thử API trong khi đánh giá các mô hình như thế này, Apidog là nền tảng tất cả trong một mà chúng tôi sử dụng để thiết kế, gỡ lỗi, giả lập và lập tài liệu cho các điểm cuối mà các mô hình này gọi. Chúng tôi sẽ nói thêm về điều đó sau, nhưng nó có liên quan: nhiều cải tiến của GLM-5.2 xuất hiện trong công việc của tác nhân và sử dụng công cụ, chính xác là lĩnh vực API.

button

Phiên bản ngắn gọn: Điểm số benchmark GLM-5.2 trong nháy mắt

Dưới đây là bảng benchmark GLM-5.2 đầy đủ, với các đối thủ gần nhất để tiện so sánh. Hãy xem các cột so sánh là số liệu được Z.ai báo cáo cho các mô hình đó, không phải các lần chạy lại độc lập.

Benchmark	Đo lường điều gì	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	Sửa lỗi repo thực tế	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	Các tác vụ shell/agent đa bước	81.0	62.0	n/a	n/a
MCP-Atlas	Sử dụng công cụ trên máy chủ MCP	77.0	n/a	75.3	77.8
Humanity’s Last Exam (có công cụ)	Suy luận chuyên gia khó	54.7	n/a	52.2	n/a
AIME 2026	Toán thi đấu	99.2	n/a	n/a	n/a
GPQA-Diamond	Khoa học cấp sau đại học	91.2	n/a	n/a	n/a

Z.ai cũng báo cáo GLM-5.2 là mô hình mã nguồn mở đạt điểm cao nhất trên FrontierSWE, PostTrainBench và SWE-Marathon. Chúng ta sẽ tìm hiểu ý nghĩa của từ "mã nguồn mở" này.

Để hiểu phiên bản ngôn ngữ đơn giản về mô hình này là gì, hãy xem tổng quan về GLM-5.2. Để xem nó đối đầu trực tiếp với các mô hình độc quyền như thế nào, có một phân tích chuyên sâu về GLM-5.2 vs GPT-5.5, Opus và Gemini.

SWE-bench Pro: 62.1 và những gì nó thực sự nói lên

SWE-bench Pro là phiên bản khó hơn, được chọn lọc của SWE-bench gốc. Nó cung cấp cho một mô hình một vấn đề GitHub thực tế cùng với toàn bộ kho lưu trữ, và yêu cầu nó tạo ra một bản vá để vượt qua bộ kiểm thử ẩn của dự án. Không có lựa chọn đa đáp án, không có hàm thử nghiệm. Bạn hoặc sửa lỗi trong các tệp thực tế hoặc không.

GLM-5.2 đạt 62.1 điểm. GPT-5.5 đạt 58.6 và GLM-5.1 đạt 58.4, theo Z.ai. Vậy có hai nhận định trung thực:

Khoảng cách 3.5 điểm dẫn trước GPT-5.5 là có ý nghĩa nhưng không phải là một vực thẳm. Trên một điểm chuẩn có nhiều biến động như thế này, một vài điểm có thể thay đổi tùy thuộc vào chi tiết của bộ công cụ kiểm thử, ngân sách thử lại và cấu trúc lời nhắc. Hãy gọi đó là "cạnh tranh ở top đầu", không phải "thống trị".
Khoảng cách 3.7 điểm tăng so với GLM-5.1 là tín hiệu đáng tin cậy hơn, bởi vì cùng một phòng thí nghiệm đang đo lường theo cùng một cách trên hai mô hình của chính họ. Sự khác biệt giữa các thế hệ là chỉ số rõ ràng nhất bạn có thể nhận được.

Tại sao lại quan tâm đến SWE-bench Pro? Bởi vì đó là thước đo công khai gần nhất cho câu hỏi "mô hình này có thể làm công việc thực tế của tôi không". Sửa lỗi trong một codebase rộng lớn đòi hỏi phải đọc mã không quen thuộc, định vị đúng tệp và chỉnh sửa mà không làm hỏng ba thứ khác. Đó là thực tế hàng ngày của công việc phần mềm, đó là lý do tại sao các mô hình ưu tiên mã hóa được chấm điểm đầu tiên trên nó.

Terminal-Bench 2.1: 81.0 là con số anh hùng

Nếu bạn đọc một hàng trong bảng, hãy đọc hàng này. Terminal-Bench đánh giá một mô hình như một tác nhân trong một shell thực tế: cài đặt các phụ thuộc, chạy lệnh, phân tích đầu ra, phục hồi từ lỗi và hoàn thành một tác vụ đa bước từ đầu đến cuối. Nó thưởng cho sự kiên trì và kỷ luật công cụ, không phải sự thông minh một lần.

GLM-5.1 đạt 62.0 điểm. GLM-5.2 đạt 81.0 điểm. Đó là một bước nhảy vọt 19 điểm trong một thế hệ, và đó là lý do tại sao nó là số liệu hiệu suất nổi bật của GLM-5.2. Chuyển từ "thất bại khoảng bốn trong mười tác vụ" sang "hoàn thành khoảng bốn trong năm" là sự khác biệt giữa một mô hình bạn phải giám sát và một mô hình bạn có thể giao cho một terminal.

Đây cũng là nơi câu chuyện về kiến trúc kết nối với câu chuyện benchmark. Z.ai ghi nhận "IndexShare" sparse attention của GLM-5.2, sử dụng lại một bộ lập chỉ mục trên mỗi bốn lớp sparse-attention để giảm chi phí attention ở ngữ cảnh dài. Các tác vụ tác nhân với thời gian thực hiện dài tạo ra các bản ghi dài: lệnh, đầu ra, lệnh, đầu ra, trong hàng chục lượt. Một mô hình giữ ngữ cảnh đó một cách rẻ và chính xác là một mô hình không bị lạc đề giữa chừng một bản dựng. Bước nhảy vọt của Terminal-Bench là thành quả thực tế của thiết kế đó. Để so sánh đầy đủ giữa các thế hệ, hãy xem GLM-5.2 vs GLM-5.1.

Một lưu ý trung thực: Terminal-Bench là một con số được Z.ai báo cáo, và các benchmark tác nhân rất nhạy cảm với cấu trúc hỗ trợ xung quanh mô hình (giới hạn thời gian chờ, số lần thử lại được phép, lời nhắc của công cụ kiểm thử). Bước nhảy vọt đủ lớn để cấu trúc hỗ trợ một mình khó có thể giải thích được nó, nhưng hãy xác minh trên khối lượng công việc của riêng bạn trước khi đặt cược một pipeline vào nó.

MCP-Atlas: 77.0, và một kết quả hòa trung thực ở top đầu

MCP-Atlas đo lường việc sử dụng công cụ thông qua Giao thức Ngữ cảnh Mô hình (Model Context Protocol), cách tiêu chuẩn để các mô hình gọi các công cụ và máy chủ bên ngoài. Đây là benchmark liên quan trực tiếp nhất đến công việc của tác nhân và API: liệu mô hình có thể chọn đúng công cụ, định dạng cuộc gọi chính xác, đọc kết quả và tiếp tục công việc không.

GLM-5.2 đạt 77.0. GPT-5.5 đạt 75.3, và Claude Opus 4.8 đạt 77.8, theo Z.ai. Đây là hàng mà bạn nên kìm nén sự thôi thúc tuyên bố người chiến thắng. GLM-5.2 đánh bại GPT-5.5 1.7 điểm và kém Opus 4.8 0.8 điểm. Đó là những sai số làm tròn. Phát biểu công bằng là trên việc sử dụng công cụ kiểu MCP, ba mô hình này đang ở thế hòa, và GLM-5.2 đã giành được vị trí của mình trong nhóm đó.

Điều đó quan trọng bởi vì việc sử dụng công cụ là nơi một mô hình mã hóa gặp gỡ stack của bạn. Mỗi cuộc gọi MCP, về mặt chức năng, là một tương tác API: một yêu cầu có cấu trúc, một phản hồi để phân tích, một lỗi để xử lý. Nếu bạn đang kết nối một mô hình vào các dịch vụ thực tế, bạn muốn sự sạch sẽ tương tự như khi bạn áp dụng cho bất kỳ tích hợp nào. Đây chính xác là nơi Apidog phù hợp. Bạn có thể định nghĩa và giả lập các điểm cuối mà một tác nhân sẽ truy cập, sau đó gỡ lỗi các yêu cầu và phản hồi thực tế mà mô hình tạo ra, trước khi bạn để nó hoạt động trên môi trường sản xuất. Tải xuống Apidog nếu bạn muốn kiểm tra các cuộc gọi công cụ đó theo cùng một cách bạn kiểm tra bất kỳ API nào khác.

Suy luận và toán học: HLE 54.7, AIME 99.2, GPQA-Diamond 91.2

Việc mã hóa không phải là toàn bộ câu chuyện. GLM-5.2 cũng cho thấy những con số suy luận mạnh mẽ.

Humanity’s Last Exam (có công cụ): 54.7. HLE là một bài kiểm tra khó nhằn có chủ đích, bao gồm các câu hỏi cấp độ chuyên gia trên nhiều lĩnh vực, được xây dựng để chống lại việc bão hòa dễ dàng. Thiết lập "có công cụ" cho phép mô hình tìm kiếm và tính toán thay vì trả lời lạnh. GLM-5.2 đạt 54.7, nhỉnh hơn GPT-5.5 là 52.2 (theo Z.ai). Trên một benchmark khó như thế này, bất kỳ điểm nào trong khoảng 50 đều là một kết quả nghiêm túc.
AIME 2026: 99.2. AIME là kỳ thi toán cho học sinh trung học mạnh. 99.2 thực sự là điểm trần, điều này chủ yếu cho thấy bài kiểm tra không còn phân biệt được các mô hình tiên tiến. Nó là một tín hiệu "không có điểm yếu ở đây" hơn là một yếu tố khác biệt.
GPQA-Diamond: 91.2. GPQA-Diamond là phần khó nhất của bộ câu hỏi và trả lời khoa học cấp sau đại học, được lọc để những người không chuyên không thể giải quyết bằng cách vét cạn ngay cả khi có truy cập web. 91.2 đặt GLM-5.2 vững chắc trong lãnh thổ tiên tiến về suy luận kỹ thuật.

Mô hình chung qua những điều này: GLM-5.2 không phải là một chuyên gia mã hóa hẹp hòi mà sụp đổ trong toán học hay khoa học. Hai cấp độ nỗ lực tư duy (Cao và Tối đa, với Tối đa được khuyến nghị cho mã hóa) cho phép bạn đánh đổi độ trễ để lấy độ sâu trên các vấn đề khó hơn. Nếu bạn muốn góc nhìn toán học và suy luận sâu hơn cùng với mã hóa, bài viết benchmark GLM-5.2 so với các đối thủ sẽ so sánh kỹ hơn.

Giải mã tuyên bố "mã nguồn mở cao nhất"

Z.ai báo cáo GLM-5.2 là mô hình mã nguồn mở hàng đầu trên FrontierSWE, PostTrainBench và SWE-Marathon. Hãy đọc kỹ điều kiện đó, bởi vì nó thực sự có tác dụng.

"Mã nguồn mở cao nhất" là một tuyên bố hẹp hơn so với "cao nhất, chấm hết". Lĩnh vực mã nguồn mở là khung tham chiếu phù hợp ở đây: GLM-5.2 được phát hành theo giấy phép MIT với trọng số mở và không có hạn chế khu vực, đây là một đề xuất khác so với một mô hình API đóng mà bạn thuê. So với các mô hình có trọng số mở khác, việc đứng đầu FrontierSWE (các tác vụ phần mềm độ khó cao), PostTrainBench (khả năng sau đào tạo) và SWE-Marathon (công việc phần mềm lâu dài, bền vững) là một tuyên bố mạnh mẽ, và đó là tuyên bố quan trọng nếu hạn chế của bạn là "phải có khả năng tự lưu trữ".

Điều đó không giống như việc vượt trội hơn mọi mô hình độc quyền trong các bài kiểm tra đó. Nơi GLM-5.2 thực sự đánh bại GPT-5.5, như SWE-bench Pro và HLE, Z.ai nói thẳng mà không có sự hạn chế "mã nguồn mở". Vì vậy, mô hình tinh thần là: ở hoặc gần đỉnh cao nói chung, và rõ ràng là số một trong số các mô hình bạn có thể tải xuống và tự chạy. VentureBeat đã thẳng thừng đưa ra giá trị, báo cáo rằng GLM-5.2 "đánh bại GPT-5.5 trong mã hóa tầm xa với chi phí chỉ bằng khoảng một phần sáu". Đó là đặc điểm của VentureBeat, đáng được ghi nhận hơn là khẳng định như một sự thật đã được đo lường.

Thông số kỹ thuật GLM-5.2 trong nháy mắt

Các benchmark chỉ có ý nghĩa khi so sánh với phần cứng và thực tế cấp phép. Dưới đây là các thông số kỹ thuật GLM-5.2 định hình cách các điểm số chuyển đổi thành thiết lập của bạn.

Thông số	Giá trị
Tham số	Tổng cộng ~753B, mixture-of-experts (MoE)
Độ chính xác	BF16
Attention	IndexShare sparse attention (một indexer dùng chung cho 4 lớp sparse)
Cửa sổ ngữ cảnh	1M token (1,048,576)
Đầu ra tối đa	Lên đến 128K theo tài liệu của z.ai (xác minh trực tiếp; OpenRouter không liệt kê con số này)
Phương thức	Đầu vào văn bản, đầu ra văn bản (chưa xác nhận biến thể thị giác)
Nỗ lực tư duy	Cao và Tối đa; có thể tắt
Giấy phép	MIT, trọng số mở, không hạn chế khu vực
ID mô hình	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

Một vài lưu ý khi đọc phần bên lề này. Số lượng tham số ~753B là tổng kích thước MoE, không phải số lượng hoạt động trên mỗi token, vì vậy đừng hiểu nó là "cần 753B tính toán dày đặc cho mỗi lần truyền tới", đó là điểm chính của MoE. Ngữ cảnh 1M token là thông số kỹ thuật làm cho kết quả Terminal-Bench trở nên đáng tin cậy: các tác vụ tác nhân dài cần một nơi để lưu trữ tất cả lịch sử đó. Về đầu ra tối đa, hãy cẩn thận. Tài liệu của Z.ai trích dẫn lên đến 128K (tính đến tháng 6 năm 2026, hãy xác minh giới hạn hiện tại tại z.ai), nhưng nó không được liệt kê nhất quán trên các nhà cung cấp, vì vậy hãy coi nó là một giới hạn được ghi nhận chứ không phải là một giới hạn được đảm bảo. Và không có mô hình thị giác GLM-5.2. Nếu bạn thấy "GLM-5.2V" ở đâu đó, đó không phải là thứ Z.ai đã xác nhận.

Giá cả tuân theo logic trọng số mở: OpenRouter liệt kê 1.40 đô la cho mỗi 1M token đầu vào và 4.40 đô la cho mỗi 1M token đầu ra, với đầu vào được cache khoảng 0.26 đô la cho mỗi 1M (số liệu của VentureBeat). Hồ sơ chi phí đó là xương sống của tuyên bố "một phần sáu chi phí". Để biết chi tiết chi phí đầy đủ bao gồm các cấp độ Gói Mã hóa GLM, hãy xem trang giá GLM-5.2, và nếu bạn muốn chạy nó mà không phải trả phí theo token, cách sử dụng GLM-5.2 miễn phí bao gồm tuyến đường tự lưu trữ.

Cách tự xác minh các điểm chuẩn này

Thẻ điểm của nhà cung cấp là một điểm khởi đầu, không phải là một phán quyết. Ba điều cần làm trước khi tin tưởng bất kỳ con số nào trong số này cho một quyết định thực tế:

Đọc các nguồn chính. Blog GLM-5.2 của Z.ai và tài liệu của Z.ai chứa phương pháp luận chính thức. Thẻ mô hình Hugging Face có các trọng số và cấu hình nếu bạn muốn kiểm tra kiến trúc trực tiếp.
Kiểm tra danh sách của bên thứ ba. Trang OpenRouter xác nhận giá cả và ID mô hình, và mục thư viện Ollama xác nhận đường dẫn chạy cục bộ. Bài viết của VentureBeat bổ sung thêm khung cảnh bên ngoài về câu chuyện chi phí.
Tự chạy đánh giá của bạn. Điểm chuẩn duy nhất thực sự có giá trị là khối lượng công việc của bạn. Kết nối GLM-5.2 vào một tác vụ thực tế, lý tưởng nhất là một tác vụ tác nhân có các cuộc gọi công cụ, và theo dõi cách nó hoạt động qua nhiều lượt. Để biết ngữ cảnh thế hệ trước về bài tập chính xác này, bài viết GLM-5.1 và so sánh tốc độ và chi phí GLM-5 vs DeepSeek vs GPT-5 là những đường cơ sở hữu ích.

Khi bạn chạy đánh giá khối lượng công việc của riêng mình, các cuộc gọi công cụ là nơi các mô hình lặng lẽ thất bại, JSON không đúng định dạng, chọn công cụ sai, bỏ qua xử lý lỗi. Giả lập các điểm cuối đó trong Apidog cho phép bạn xem các yêu cầu và phản hồi thực tế của mô hình mà không cần tác động đến các dịch vụ trực tiếp, đó là cách nhanh nhất để phân biệt một anh hùng benchmark với một mô hình hoạt động trong stack của bạn.

Kết luận

Bảng điểm benchmark của GLM-5.2 chịu được sự kiểm tra kỹ lưỡng tốt hơn hầu hết các thẻ điểm ra mắt. Bước nhảy vọt của Terminal-Bench từ 62.0 lên 81.0 là con số thực sự lớn, lợi thế của SWE-bench Pro so với GPT-5.5 là có thật dù khiêm tốn, và kết quả MCP-Atlas là một kết quả hòa ba bên trung thực ở top đầu. Kết hợp những điểm số đó với trọng số mở, giấy phép MIT, ngữ cảnh 1M token và kinh tế chi phí chỉ bằng khoảng một phần sáu, bạn sẽ có một mô hình xứng đáng được đánh giá nghiêm túc hơn là chỉ một cái nhìn lịch sự.

Các điểm chuẩn chỉ ra mô hình phù hợp. Khối lượng công việc của riêng bạn sẽ xác nhận điều đó. Khi bạn chạy thử nghiệm đó và nó liên quan đến các cuộc gọi API và công cụ thực tế, hãy thiết lập các điểm cuối trong Apidog để bạn có thể thấy chính xác những gì mô hình gửi và nhận, sau đó quyết định dựa trên những gì nó làm trong stack của bạn, chứ không phải những gì nó đạt được trên stack của người khác.