GLM-5.1 là gì? Giải thích mô hình Agentic hàng đầu mới của Z.AI

Tóm tắt

GLM-5.1 là mẫu flagship thế hệ tiếp theo của Z.AI, ra mắt vào tháng 4 năm 2026. Nó được xây dựng đặc biệt cho kỹ thuật tác nhân (agentic engineering): các tác vụ viết mã kéo dài, vòng lặp tối ưu hóa tự động và các dự án phần mềm phức tạp yêu cầu hàng trăm lần lặp. Nó xếp hạng #1 trên SWE-Bench Pro (58.4), dẫn đầu trên Terminal-Bench 2.0 (69.0) và vượt trội hơn GLM-5 trên mọi tiêu chuẩn mã hóa lớn. Trọng số mở được cung cấp theo Giấy phép MIT.

Giới thiệu

Hầu hết các mô hình AI đều đạt đến giới hạn sau vài chục lệnh gọi công cụ. Chúng tiến bộ nhanh chóng ở giai đoạn đầu của một vấn đề lập trình, sau đó chững lại và tiếp tục tạo ra lợi nhuận giảm dần cho dù bạn dành cho chúng bao nhiêu thời gian. Cuối cùng, bạn phải "chăm sóc" tác nhân hoặc chấp nhận một kết quả tầm thường.

GLM-5.1 được thiết kế để phá vỡ khuôn mẫu đó. Z.AI, đội ngũ đứng sau dòng mô hình GLM tại Zhipu AI, đã phát hành GLM-5.1 vào tháng 4 năm 2026 như mô hình mạnh mẽ nhất của họ cho các tác vụ tác nhân. Yêu cầu chính không phải là hiệu suất benchmark thô trong một lần chạy. Đó là hiệu quả theo chiều dài thời gian: khả năng tiếp tục đạt được tiến bộ có ý nghĩa qua 600 lần lặp, 8 giờ và hàng nghìn lệnh gọi công cụ.

💡

Nếu bạn đang xây dựng trên các API AI hoặc thử nghiệm quy trình công việc tác nhân đa bước, việc theo dõi những gì GLM-5.1 thực sự có thể làm là rất quan trọng để đánh giá hệ thống của bạn. Kịch bản kiểm thử của Apidog cho phép bạn xác định chuỗi lệnh gọi API mô phỏng quy trình công việc tác nhân thực tế, để bạn có thể xác minh rằng tích hợp của mình xử lý đúng cách các đầu ra không đồng bộ, chuỗi lệnh gọi công cụ và phản hồi truyền trực tuyến của GLM-5.1 trước khi đưa vào sản xuất. Tải xuống Apidog miễn phí để theo dõi các phần kiểm thử trong hướng dẫn này.

nút

GLM-5.1 là gì?

GLM-5.1 là một mô hình ngôn ngữ lớn từ Zhipu AI, được phát hành thông qua nền tảng phát triển Z.AI của họ vào tháng 4 năm 2026. "GLM" là viết tắt của General Language Model (Mô hình Ngôn ngữ Chung), một kiến trúc mô hình mà Zhipu đã phát triển từ năm 2021.

GLM-5.1 là phiên bản kế nhiệm của GLM-5, vốn được ra mắt vào cuối năm 2025. Bản cập nhật 5.1 tập trung gần như hoàn toàn vào các khả năng tác nhân: khả năng làm việc tự động trên các tác vụ dài mà không yêu cầu sự can thiệp thường xuyên của con người hoặc gặp phải rào cản hiệu suất.

Đây không phải là mô hình suy luận, mô hình viết sáng tạo hay chatbot tổng quát. Z.AI định vị nó một cách rõ ràng là một mô hình cho kỹ thuật tác nhân: xây dựng phần mềm, chạy các vòng lặp tối ưu hóa, viết và thực thi mã qua nhiều lần lặp, và giải quyết các vấn đề đòi hỏi nỗ lực liên tục trong các phiên dài.

Trọng số của mô hình được công khai trên Hugging Face theo Giấy phép MIT. Bạn có thể chạy nó cục bộ với vLLM hoặc SGLang, hoặc truy cập nó thông qua BigModel API hoặc nền tảng phát triển Z.AI.

Hiệu suất benchmark của GLM-5.1

Z.AI đã công bố kết quả benchmark so sánh GLM-5.1 với GLM-5, GPT-5.4, Claude Opus 4.6 và Gemini 3.1 Pro. Các kết quả bao gồm ba danh mục rộng: kỹ thuật phần mềm, suy luận và các tác vụ tác nhân.

Biểu đồ so sánh hiệu suất benchmark của các mô hình AI

Kỹ thuật phần mềm

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
SWE-Bench Pro	58.4	55.1	57.7	57.3	54.2
NL2Repo	42.7	35.9	41.3	49.8	33.4
Terminal-Bench 2.0	69.0	56.2	75.1	65.4	68.5
CyberGym	68.7	48.3	—	66.6	—

GLM-5.1 xếp hạng #1 trên SWE-Bench Pro, tiêu chuẩn benchmark cho các tác vụ kỹ thuật phần mềm tự động. Trên Terminal-Bench 2.0, GPT-5.4 đạt điểm cao hơn (75.1) nhưng GLM-5.1 dẫn trước GLM-5 với biên độ rộng (69 so với 56.2).

Điểm NL2Repo (42.7) đo lường khả năng tạo kho lưu trữ dài hạn. Claude Opus 4.6 dẫn đầu với 49.8 điểm, nhưng GLM-5.1 đánh bại GLM-5 với 6.8 điểm và vượt trội hơn tất cả các mô hình khác trong so sánh này.

Suy luận

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
HLE (có Công cụ)	52.3	50.4	52.1*	53.1*	51.4*
AIME 2026	95.3	95.4	98.7	95.6	98.2
HMMT Tháng 11 năm 2025	94.0	96.9	95.8	96.3	94.8
GPQA-Diamond	86.2	86.0	92.0	91.3	94.3

Trên các benchmark suy luận, GLM-5.1 có tính cạnh tranh nhưng không phải là dẫn đầu. GPT-5.4 và Gemini 3.1 Pro dẫn đầu trên AIME 2026 và GPQA-Diamond. Sức mạnh của GLM-5.1 nằm ở các tác vụ viết mã và tác nhân, không phải suy luận thuần túy.

Các tác vụ tác nhân

Benchmark	GLM-5.1	GLM-5	GPT-5.4	Opus 4.6	Gemini 3.1 Pro
BrowseComp (có Ngữ cảnh)	79.3	75.9	82.7	84.0	85.9
MCP-Atlas (Công khai)	71.8	69.2	67.2	73.8	69.2
Tool-Decathlon	40.7	38.0	54.6	47.2	48.8
Agentic	68.0	62.0	—	—	—

Trên MCP-Atlas, GLM-5.1 dẫn đầu với 71.8 điểm. Trên BrowseComp và Tool-Decathlon, nó ở mức trung bình. Điểm benchmark Agentic (68 so với 62 của GLM-5) cho thấy sự cải thiện rõ ràng nhất so với thế hệ trước.

Điều gì làm cho GLM-5.1 khác biệt: tối ưu hóa dài hạn

Các bảng benchmark chỉ kể một phần câu chuyện. Phần thú vị hơn là những gì Z.AI đã thể hiện vượt ra ngoài các benchmark đơn lẻ.

Hầu hết các mô hình viết mã cải thiện nhanh chóng trong một tác vụ, sau đó chững lại. GLM-5.1 được xây dựng để duy trì hữu ích trong các lần chạy dài hơn nhiều. Z.AI đã thử nghiệm điều này qua ba kịch bản với phản hồi ngày càng ít cấu trúc hơn.

Kịch bản 1: tối ưu hóa cơ sở dữ liệu vector qua hơn 600 lần lặp

Z.AI đã chạy GLM-5.1 trong một thử thách tối ưu hóa tìm kiếm vector sử dụng tập dữ liệu SIFT-1M. Mô hình được cung cấp một khung sườn Rust và yêu cầu tối đa hóa số truy vấn mỗi giây (QPS) với độ chính xác recall trên 95%. Thay vì giới hạn 50 lượt chuẩn, họ đã thiết lập một vòng lặp bên ngoài cho phép GLM-5.1 chạy bao nhiêu lần lặp tùy ý.

Biểu đồ tối ưu hóa cơ sở dữ liệu vector của GLM-5.1

Kết quả cho thấy sự khác biệt rõ ràng. Kết quả tốt nhất trong một phiên duy nhất trên tất cả các mô hình là 3.547 QPS (Claude Opus 4.6). GLM-5.1 chạy qua hơn 600 lần lặp với hơn 6.000 lệnh gọi công cụ đã đạt 21.500 QPS, gấp khoảng 6 lần kết quả đó.

Sự cải thiện không liên tục. Mô hình đã thực hiện các chuyển đổi cấu trúc tại các điểm chính: khoảng lần lặp thứ 90, nó chuyển từ quét toàn bộ kho dữ liệu sang dò tìm cụm IVF với nén vector f16, nhảy từ ~3.500 lên 6.400 QPS. Khoảng lần lặp thứ 240, nó đã giới thiệu một đường ống hai giai đoạn kết hợp chấm điểm trước u8 với sắp xếp lại f16, đạt 13.400 QPS. Sáu chuyển đổi cấu trúc như vậy đã xảy ra trong suốt quá trình chạy, mỗi chuyển đổi được kích hoạt sau khi mô hình phân tích nhật ký benchmark của chính nó và xác định điểm nghẽn hiện tại.

Kịch bản 2: tối ưu hóa nhân GPU qua hơn 1.000 lượt

Z.AI đã chạy một benchmark nhân GPU so sánh GLM-5.1 với GLM-5 và Claude Opus 4.6. Nhiệm vụ là lấy mã PyTorch tham chiếu và tạo ra các nhân CUDA nhanh hơn.

GLM-5.1 đạt tốc độ tăng 3.6 lần so với mức cơ sở. Claude Opus 4.6 dẫn đầu ở mức 4.2 lần và vẫn cho thấy tiềm năng cải thiện vào cuối quá trình chạy. GLM-5 chững lại sớm hơn và kết thúc thấp hơn. Kết quả khẳng định mô hình: GLM-5.1 duy trì cải thiện lâu hơn GLM-5 nhưng vẫn chưa sánh kịp mô hình hàng đầu trong tác vụ cụ thể này.

Cửa sổ ngữ cảnh và thông số kỹ thuật

GLM-5.1 hỗ trợ cửa sổ ngữ cảnh 200K token. Điều này quan trọng đối với các tác vụ tác nhân, nơi mô hình tích lũy lịch sử gọi công cụ, tệp mã, đầu ra kiểm thử và nhật ký lỗi qua nhiều lần lặp.

Thông số kỹ thuật	Giá trị
Cửa sổ ngữ cảnh	200.000 token
Đầu ra tối đa	163.840 token
Kiến trúc	Transformer tự hồi quy (thuộc dòng GLM)
Giấy phép	MIT (trọng số mở)
Framework suy luận	vLLM, SGLang
Trọng số mô hình	HuggingFace (zai-org)

Khả dụng và giá cả

GLM-5.1 khả dụng thông qua ba kênh.

BigModel API (bigmodel.cn): API dành cho nhà phát triển chính. Bạn sử dụng tên mô hình glm-5.1 trong các yêu cầu API của mình. Giá cả sử dụng hệ thống hạn ngạch thay vì tính phí theo token. GLM-5.1 tiêu thụ hạn ngạch gấp 3 lần trong giờ cao điểm và gấp 2 lần trong giờ thấp điểm. Là chương trình khuyến mãi có giới hạn thời gian đến hết tháng 4 năm 2026, việc sử dụng ngoài giờ cao điểm được tính phí hạn ngạch 1 lần. Giờ cao điểm là 14:00-18:00 UTC+8 hàng ngày.

Gói mã hóa GLM (Z.AI): Một gói đăng ký dành cho các nhà phát triển sử dụng trợ lý mã hóa AI. GLM-5.1 khả dụng cho tất cả người đăng ký Gói mã hóa. Bạn kích hoạt nó bằng cách cập nhật tên mô hình trong cấu hình trợ lý mã hóa của mình. Gói này hoạt động với Claude Code, Cline, Kilo Code, Roo Code, OpenCode và Droid. Giá khởi điểm là 10 USD/tháng.

Triển khai cục bộ: Trọng số của mô hình có trên HuggingFace tại zai-org/GLM-5.1. Bạn có thể chạy nó với vLLM hoặc SGLang. Tài liệu triển khai có tại kho lưu trữ GitHub chính thức.

GLM-5.1 so với GLM-5: điều gì đã thực sự thay đổi

GLM-5 vốn đã là một mô hình mã hóa mạnh mẽ. GLM-5.1 cải thiện nó theo một cách cụ thể: nó mở rộng khoảng thời gian làm việc hữu ích.

Thay đổi cốt lõi không nằm ở hiệu suất lần chạy đầu tiên. Trên hầu hết các benchmark, GLM-5.1 dẫn trước GLM-5 từ 3-7 điểm, điều này có ý nghĩa nhưng không quá ấn tượng. Sự khác biệt thực sự xuất hiện khi bạn giao cùng một tác vụ cho cả hai mô hình với thời gian không giới hạn.

GLM-5 cải thiện nhanh chóng rồi chững lại. GLM-5.1 tiếp tục tiến bộ vượt ra ngoài điểm mà GLM-5 dừng lại. Điều này quan trọng đối với các ứng dụng tác nhân, nơi bạn muốn mô hình tiếp tục hoạt động tự chủ thay vì yêu cầu bạn can thiệp và định hướng lại nó.

Cụ thể: GLM-5 trên benchmark tìm kiếm vector chững lại ở khoảng 8.000-10.000 QPS với thời gian kéo dài. GLM-5.1 đạt 21.500 QPS. Trên benchmark nhân GPU, GLM-5 hoàn thành thấp hơn và sớm hơn GLM-5.1. Trong tác vụ máy tính để bàn Linux, GLM-5 tạo ra một khung sườn rồi dừng lại.

Mô hình vẫn còn những khoảng trống đáng kể. Claude Opus 4.6 dẫn đầu về tối ưu hóa nhân GPU và BrowseComp.

GLM-5.1 so với các đối thủ cạnh tranh

GLM-5.1 so với Claude Opus 4.6

Trên các benchmark kỹ thuật phần mềm, GLM-5.1 dẫn đầu trên SWE-Bench Pro (58.4 so với 57.3) và CyberGym (68.7 so với 66.6). Claude Opus 4.6 dẫn đầu trên NL2Repo (49.8 so với 42.7), tối ưu hóa nhân GPU và BrowseComp. Đối với truy cập API, Claude đắt hơn đáng kể. GLM-5.1 thông qua BigModel API hoặc Gói mã hóa có giá dành cho các nhà phát triển chạy vòng lặp tác nhân khối lượng lớn.

GLM-5.1 so với GPT-5.4

GPT-5.4 dẫn đầu trên Terminal-Bench 2.0 (75.1 so với 69.0) và hầu hết các benchmark suy luận. GLM-5.1 dẫn đầu trên SWE-Bench Pro (58.4 so với 57.7) và MCP-Atlas (71.8 so với 67.2). Đối với các nhà phát triển ở Trung Quốc hoặc những người xây dựng trên hạ tầng AI Trung Quốc, việc truy cập GLM-5.1 thông qua BigModel API dễ dàng hơn đáng kể so với truy cập GPT-5.4.

GLM-5.1 so với Gemini 3.1 Pro

Gemini 3.1 Pro dẫn đầu về suy luận (AIME 2026, GPQA-Diamond) và BrowseComp. GLM-5.1 dẫn đầu trên SWE-Bench Pro, Terminal-Bench 2.0 và CyberGym. Đối với các trường hợp sử dụng ưu tiên mã, GLM-5.1 là lựa chọn mạnh mẽ hơn. Đối với suy luận chung và phân tích tài liệu, Gemini có lợi thế hơn.

Các trường hợp sử dụng phù hợp nhất với GLM-5.1

Các tác nhân mã hóa tự động: Các tác vụ chạy dài, nơi bạn muốn mô hình tự đưa ra quyết định về những gì sẽ thử tiếp theo, chạy thử nghiệm, phân tích kết quả và tiếp tục mà không cần điểm kiểm tra thường xuyên của con người. Để tìm hiểu sâu về cách các tác nhân quản lý bộ nhớ trong các lần chạy này, hãy xem cách bộ nhớ tác nhân AI hoạt động. Cửa sổ ngữ cảnh 200K và khả năng tối ưu hóa dài hạn giúp nó rất phù hợp ở đây.

Trợ lý mã hóa AI (tích hợp Claude Code, Cline, Cursor): GLM-5.1 được hỗ trợ rõ ràng trong Gói mã hóa Z.AI để sử dụng với Claude Code, Cline, Kilo Code, Roo Code, OpenCode và các công cụ mã hóa AI khác. Các nhà phát triển muốn một mô hình mã hóa mạnh mẽ mà không phải trả phí theo token của Claude hoặc GPT có thể định tuyến thông qua BigModel.

Tự động hóa kỹ thuật phần mềm (các tác vụ loại SWE-Bench): Giải quyết vấn đề GitHub, tạo yêu cầu kéo (pull request), tự động hóa sửa lỗi. Xếp hạng #1 của GLM-5.1 trên SWE-Bench Pro khiến nó trở thành lựa chọn đáng tin cậy cho các quy trình này.

Lập trình cạnh tranh và tối ưu hóa: Điều chỉnh nhân GPU, benchmark hiệu suất, tối ưu hóa thuật toán nơi mô hình có thể chạy thử nghiệm và điều chỉnh chiến lược của nó dựa trên kết quả.

Những gì nó không phù hợp nhất: Chatbot đa năng, viết sáng tạo, Hỏi & Đáp tài liệu nơi chất lượng suy luận quan trọng hơn đầu ra mã. Đối với những trường hợp sử dụng đó, các benchmark suy luận cho thấy Gemini và GPT-5.4 có lợi thế hơn.

Cách thử GLM-5.1 ngay hôm nay

Cách nhanh nhất để dùng thử là thông qua giao diện trò chuyện Z.AI tại z.ai, nơi GLM-5.1 chạy mặc định. Không cần khóa API cho giao diện trò chuyện.

Để truy cập API, hãy tạo tài khoản tại bigmodel.cn và tạo khóa API. API tương thích với OpenAI, vì vậy bất kỳ client nào hoạt động với các mô hình GPT cũng hoạt động với GLM-5.1. Tên mô hình để sử dụng trong các yêu cầu là glm-5.1.

Để triển khai cục bộ, trọng số có tại huggingface.co/zai-org. Hướng dẫn thiết lập đầy đủ có trong kho lưu trữ GitHub chính thức tại github.com/zai-org/GLM-5.1.

Để tìm hiểu chi tiết về API với các ví dụ mã, xác thực và thiết lập kiểm thử, hãy xem hướng dẫn API GLM-5.1.

Kết luận

GLM-5.1 là một bước tiến đáng kể so với GLM-5, đặc biệt ở khả năng duy trì hữu ích trong các tác vụ tác nhân khó khăn. Xếp hạng #1 trên SWE-Bench Pro và minh chứng tìm kiếm vector 600 lần lặp tạo ra một lập luận đáng tin cậy rằng đây là mô hình trọng số mở mạnh mẽ nhất cho các quy trình làm việc mã hóa tự động hiện có.

Nó không dẫn đầu trên mọi benchmark. Claude Opus 4.6 và GPT-5.4 mạnh hơn về suy luận, tối ưu hóa GPU và một số tác vụ tác nhân. Nhưng đối với các nhà phát triển muốn chạy các tác nhân mã hóa bền vững mà không phải trả chi phí của các mô hình tiên tiến đóng, GLM-5.1 theo Giấy phép MIT với quyền truy cập BigModel API là một lựa chọn đáng cân nhắc.

Trọng số mở và giấy phép MIT rất đáng được nhấn mạnh. Bạn có thể chạy GLM-5.1 cục bộ, tinh chỉnh nó và triển khai nó trong cơ sở hạ tầng của riêng bạn mà không có bất kỳ hạn chế sử dụng nào.

nút

Câu hỏi thường gặp

GLM là viết tắt của gì?General Language Model (Mô hình Ngôn ngữ Chung). Đây là kiến trúc mô hình mà Zhipu AI đã phát triển từ năm 2021, dựa trên phương pháp điền vào chỗ trống tự hồi quy thay vì phương pháp chỉ giải mã được sử dụng bởi các mô hình thuộc dòng GPT.

GLM-5.1 có phải là mã nguồn mở không?Có. Trọng số của mô hình được phát hành theo Giấy phép MIT trên HuggingFace tại zai-org/GLM-5.1. MIT là một trong những giấy phép mã nguồn mở tự do nhất, cho phép sử dụng thương mại, tinh chỉnh và phân phối lại.

GLM-5.1 hỗ trợ cửa sổ ngữ cảnh bao nhiêu?200.000 token (khoảng 150.000 từ), với đầu ra tối đa là 163.840 token.

GLM-5.1 so sánh với DeepSeek-V3.2 như thế nào?Các benchmark của Z.AI cho thấy GLM-5.1 dẫn trước DeepSeek-V3.2 trong các tác vụ kỹ thuật phần mềm. Trên các benchmark suy luận, DeepSeek-V3.2 có tính cạnh tranh. Cụ thể đối với các tác nhân mã hóa, GLM-5.1 là lựa chọn mạnh mẽ hơn dựa trên dữ liệu đã công bố.

Tôi có thể sử dụng GLM-5.1 với Claude Code hoặc Cursor không?Có. Gói mã hóa Z.AI hỗ trợ Claude Code, Cline, Kilo Code, Roo Code và OpenCode thông qua BigModel API. Bạn cập nhật tên mô hình trong tệp cấu hình của trợ lý mã hóa của mình. Các gói bắt đầu từ 10 USD/tháng.

Làm cách nào để truy cập GLM-5.1 qua API?Tạo tài khoản tại bigmodel.cn, tạo khóa API và sử dụng tên mô hình glm-5.1 trong các yêu cầu tới https://open.bigmodel.cn/api/paas/v4/chat/completions. Hướng dẫn chi tiết về API có trong hướng dẫn API GLM-5.1.

GLM-5.1 có miễn phí không?Giao diện trò chuyện Z.AI tại z.ai miễn phí sử dụng. Truy cập API thông qua BigModel sử dụng hệ thống hạn ngạch với các gói trả phí. Việc sử dụng ngoài giờ cao điểm được tính phí hạn ngạch 1 lần đến hết tháng 4 năm 2026 như một mức giá khuyến mại.