Giá GLM-5.2: Chi phí API, Dữ liệu cache và Các gói dịch vụ GLM (2026)

GLM-5.2 là cách tiết kiệm để chạy một mô hình mã hóa đẳng cấp tiên phong. Z.ai (Zhipu AI) cung cấp nó với trọng số mở theo giấy phép MIT, cửa sổ ngữ cảnh 1 triệu token và bảng giá API cạnh tranh mạnh mẽ so với các phòng thí nghiệm đóng lớn. Trang này là trang quan trọng nhất về chi phí. Bạn sẽ tìm thấy chi phí API chính xác cho mỗi token, cách hoạt động của chiết khấu đầu vào được lưu vào bộ nhớ cache, các ví dụ chi phí thực tế cho các phiên mã hóa, các gói đăng ký GLM Coding Plan, và đánh giá trung thực liệu GLM-5.2 có rẻ hơn GPT-5.5 cho cách bạn thực sự làm việc hay không.

Lưu ý trước khi đi vào các con số: Giá AI thay đổi nhanh chóng và một số gói GLM Coding Plan có thể có sự khác biệt giữa các nguồn thứ cấp. Những con số chưa được xác định rõ sẽ được đánh dấu. Hãy coi bất kỳ con số được đánh dấu nào là ước tính và xác nhận giá trực tiếp tại z.ai trước khi bạn cam kết ngân sách.

Tải xuống ứng dụng

Tổng quan chi phí API của GLM-5.2

Giá API trả tiền theo mức sử dụng là điểm khởi đầu rõ ràng nhất, vì nó được xác nhận bởi danh sách công khai của OpenRouter.

Mục	Giá	Nguồn
Token đầu vào	$1.40 / 1M	Đã xác nhận (OpenRouter)
Token đầu ra	$4.40 / 1M	Đã xác nhận (OpenRouter)
Đầu vào được lưu vào bộ nhớ cache	~$0.26 / 1M	VentureBeat (nguồn)

Như vậy, chi phí tiêu đề của GLM-5.2 cho mỗi token là 0.0000014 USD cho token đầu vào và 0.0000044 USD cho token đầu ra. Token đầu ra có giá gấp khoảng 3.1 lần token đầu vào, đây là cấu trúc thông thường đối với một mô hình suy luận: các token nó tạo ra (bao gồm cả quá trình tư duy của nó) tốn kém hơn các token bạn cung cấp cho nó.

Mức giá đầu vào được lưu vào bộ nhớ cache khoảng 0.26 USD cho mỗi 1 triệu token là yếu tố thay đổi mọi thứ đối với các tác vụ agentic và trò chuyện, và nó sẽ được đề cập trong phần riêng bên dưới. Con số này đến từ báo cáo của VentureBeat chứ không phải từ bảng giá chính thức, vì vậy hãy xem xét nguồn gốc của nó.

Không có làn đường OpenRouter miễn phí cho glm-5.2. Nếu bạn thấy điều này được khẳng định ở nơi khác, điều đó là sai. Bạn có thể tự chạy trọng số mở với chi phí phần cứng của riêng mình, đây là một kiểu “miễn phí” khác. Để làm theo cách này, hãy xem hướng dẫn kèm theo về cách sử dụng GLM-5.2 miễn phí và bài viết trước đó về chạy GLM-5 cục bộ miễn phí.

Chiết khấu đầu vào được lưu vào bộ nhớ cache hoạt động như thế nào

Lưu vào bộ nhớ cache lời nhắc là biện pháp kiểm soát chi phí lớn nhất trên bảng giá GLM-5.2, và hầu hết mọi người đều bỏ qua nó.

Đây là cơ chế hoạt động. Khi bạn gửi một tiền tố dài, ổn định lặp đi lặp lại (một lời nhắc hệ thống, định nghĩa công cụ của một tác nhân mã hóa, một tệp lớn mà bạn liên tục tham chiếu), nhà cung cấp có thể lưu trữ tiền tố đã xử lý vào bộ nhớ cache. Trong lần gọi tiếp theo, phần được lưu vào bộ nhớ cache sẽ được tính phí theo mức giá đầu vào được lưu vào bộ nhớ cache (~0.26 USD / 1M) thay vì mức giá đầu vào đầy đủ (1.40 USD / 1M). Đó là mức chiết khấu khoảng 81% cho phần lặp lại trong lời nhắc của bạn.

Điều này mang lại lợi ích ở đâu:

Các tác nhân mã hóa. Các công cụ như Claude Code, Cline và Cursor gửi lại một phần mở đầu lớn ổn định (hướng dẫn, lược đồ công cụ, ngữ cảnh kho lưu trữ) trong mỗi lượt. Lưu trữ phần mở đầu đó vào bộ nhớ cache giúp giảm đáng kể chi phí đầu vào cho mỗi lượt. Chi tiết cài đặt có trong hướng dẫn GLM-5.2 với Claude Code, Cline và Cursor.
RAG và hỏi đáp tài liệu. Nếu bạn đặt nhiều câu hỏi đối với cùng một tài liệu dài, hãy lưu tài liệu đó vào bộ nhớ cache một lần và chỉ trả toàn bộ giá cho mỗi câu hỏi ngắn cộng với câu trả lời.
Các cuộc trò chuyện dài. Lịch sử trò chuyện ngày càng tăng là một tiền tố ổn định ngày càng tăng. Lưu vào bộ nhớ cache giúp chi phí "ghi nhớ" cuộc trò chuyện thấp.

Hai quy tắc thực tế. Thứ nhất, giữ nội dung được sử dụng lại ở đầu lời nhắc và nội dung biến đổi ở cuối; bộ nhớ cache dựa trên tiền tố. Thứ hai, bộ nhớ cache hết hạn, vì vậy chiết khấu áp dụng cho các lệnh gọi diễn ra gần nhau, chứ không phải cho một yêu cầu bạn thực hiện mỗi giờ một lần.

Tắt tư duy để kiểm soát chi phí

GLM-5.2 là một mô hình suy luận với hai cấp độ nỗ lực tư duy: Cao (High) và Tối đa (Max). Z.ai khuyến nghị Max cho mã hóa. Nhưng các token tư duy là token đầu ra, và đầu ra là phần tốn kém trong hóa đơn với 4.40 USD / 1M. Tư duy nhiều hơn có nghĩa là nhiều token được tạo ra hơn, đồng nghĩa với hóa đơn lớn hơn.

Bạn có một đòn bẩy trực tiếp cho việc này. Trong API, bạn có thể tắt hoàn toàn tư duy:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformat this JSON and return it." }
  ],
  "thinking": { "type": "disabled" }
}

Sử dụng các cấp độ một cách có chủ đích:

Tư duy bị vô hiệu hóa cho các công việc cơ học, chi phí thấp: định dạng, trích xuất, viết lại đơn giản, phân loại. Bạn bỏ qua dấu vết suy luận và chỉ trả tiền cho một câu trả lời ngắn gọn.
Nỗ lực cao cho việc mã hóa và phân tích hàng ngày, nơi bạn muốn suy luận tốt mà không tốn quá nhiều token.
Nỗ lực tối đa cho các công việc mã hóa và toán học khó, dài hạn, nơi việc tư duy bổ sung thực sự xứng đáng với chi phí của nó về độ chính xác.

Việc điều chỉnh cấp độ nỗ lực cho phù hợp với nhiệm vụ là sự khác biệt giữa hóa đơn đầu ra 4.40 USD và 1 USD cho cùng một lời nhắc. Tham khảo đầy đủ các tham số, bao gồm reasoning_effort và streaming, có trong hướng dẫn API GLM-5.2, và bài viết trước đó về API GLM-5 cũng trình bày hình thức tương thích OpenAI tương tự nếu bạn đang nâng cấp.

Các ví dụ về chi phí thực tế

Tỷ lệ trừu tượng trên mỗi token không có nhiều ý nghĩa cho đến khi bạn áp dụng chúng vào công việc thực tế. Dưới đây là ba phiên làm việc, được tính giá theo tỷ lệ đã xác nhận.

Ví dụ 1: một phiên mã hóa 100K token duy nhất. Giả sử bạn chạy một tác vụ mã hóa tự động đọc 100K token ngữ cảnh (kho lưu trữ, hướng dẫn, nội dung tệp của bạn) và tạo ra 20K token mã và suy luận.

Đầu vào: 100,000 × $1.40 / 1,000,000 = $0.140
Đầu ra: 20,000 × $4.40 / 1,000,000 = $0.088
Tổng cộng: ~$0.23

Ví dụ 2: cùng một phiên với tính năng lưu vào bộ nhớ cache. Bây giờ giả sử 80K trong số 100K đầu vào đó là một tiền tố ổn định (lời nhắc hệ thống, định nghĩa công cụ, tệp không đổi) được phục vụ từ bộ nhớ cache, và 20K là mới.

Đầu vào được lưu vào bộ nhớ cache: 80,000 × $0.26 / 1,000,000 = $0.021
Đầu vào mới: 20,000 × $1.40 / 1,000,000 = $0.028
Đầu ra: 20,000 × $4.40 / 1,000,000 = $0.088
Tổng cộng: ~$0.14

Lưu tiền tố ổn định vào bộ nhớ cache đã cắt giảm chi phí phiên làm việc khoảng 40%, và khoản tiết kiệm này sẽ tăng lên khi bạn thực hiện càng nhiều lượt với cùng một ngữ cảnh.

Ví dụ 3: một trợ lý trò chuyện thực hiện trích xuất với tính năng tư duy bị tắt. Một bot hỗ trợ xử lý 500 tin nhắn mỗi ngày. Mỗi cuộc gọi gửi 2K token đầu vào và trả về 300 token đầu ra, tính năng tư duy bị vô hiệu hóa.

Đầu vào: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
Đầu ra: 500 × 300 × $4.40 / 1,000,000 = $0.66
Tổng cộng: ~2.06 USD / ngày, khoảng 62 USD mỗi tháng cho khối lượng công việc 500 cuộc gọi mỗi ngày.

Đây là các ước tính theo giá niêm yết. Hóa đơn thực tế của bạn phụ thuộc vào mức độ tư duy bạn cho phép và lượng đầu vào của bạn được lưu vào bộ nhớ cache.

Các gói GLM Coding Plan

Nếu bạn làm việc với một tác nhân mã hóa cả ngày, gói đăng ký thường rẻ hơn so với các cuộc gọi API tính theo mức sử dụng. Z.ai bán Gói mã hóa GLM với các cấp độ cụ thể (Lite, Pro, Max, cộng với Team), được tiếp cận bởi Claude Code và các công cụ tương tự thông qua một điểm cuối tương thích với Anthropic.

Khóa gói là một thông tin xác thực khác với khóa API tiêu chuẩn. Để kết nối GLM-5.2 vào Claude Code, bạn trỏ nó đến điểm cuối mã hóa và chọn biến thể ngữ cảnh 1M thông qua hậu tố mô hình [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Giá trị API_TIMEOUT_MS rất quan trọng. Nếu không có thời gian chờ dài, Claude Code có thể hủy các cuộc gọi ngữ cảnh lớn, dài trước khi GLM-5.2 hoàn thành. Một số nguồn cho thấy URL cơ sở mã hóa là open.z.ai/api/paas/v4, vì vậy hãy xác minh chính xác máy chủ trực tiếp. Thiết lập tác nhân đầy đủ, bao gồm Cline và Cursor, có trong hướng dẫn các tác nhân mã hóa GLM-5.2, và bài viết trước đó về GLM-5.1 với Claude Code cũng đề cập đến cùng một mẫu cho thế hệ trước.

GLM-5.2 có rẻ hơn GPT-5.5 không?

Có, đối với API tính theo mức sử dụng, và với một biên độ lớn. Cách diễn giải rõ ràng nhất đến từ VentureBeat, họ đã báo cáo rằng GLM-5.2 “vượt trội hơn GPT-5.5 trong mã hóa dài hạn với chi phí chỉ bằng khoảng 1/6.” Tuyên bố đó là của VentureBeat, không phải là một phép đo của Apidog, và nó kết hợp hiệu suất điểm chuẩn với giá cả, vì vậy hãy coi đó là một tuyên bố giá trị định hướng chứ không phải là tỷ lệ trên mỗi token.

Ở cấp độ bảng giá, đây là so sánh tổng quan. GLM-5.2 được niêm yết với giá 1.40 USD đầu vào / 4.40 USD đầu ra cho mỗi 1 triệu token. Các mô hình tiên phong đóng từ OpenAI, Anthropic và Google thường có giá cao hơn nhiều cho các cấp độ suy luận hàng đầu của họ, đó là lý do tại sao cụm từ “một phần nhỏ chi phí” liên tục xuất hiện. Để có phân tích chi tiết về tốc độ và chi phí dựa trên các con số giữa các mô hình, hãy xem GLM-5 so với DeepSeek so với GPT-5 về tốc độ và chi phí và so sánh rộng hơn GLM-5.1 so với Claude, GPT, Gemini và DeepSeek.

So sánh gói đăng ký thì phức tạp hơn. Một gói GLM Coding Plan ở cấp độ cao với ước tính khoảng 80 USD/tháng nằm trong cùng phạm vi với các gói đăng ký mã hóa một người dùng đắt nhất từ các nhà cung cấp khác, vì vậy các yếu tố quyết định trở thành chất lượng mô hình trên các tác vụ của bạn và cách các gói đo lường mức sử dụng. Câu hỏi so sánh các gói (Gói GLM so với Claude Code, Codex, Cursor và MiniMax) được phân tích chi tiết trong Claude Code so với Codex so với Cursor so với MiniMax Plan so với GLM Plan.

Một lưu ý về điểm chuẩn: các kết quả ra mắt đã thúc đẩy đề xuất giá trị (SWE-bench Pro 62.1, Terminal-Bench 2.1 ở 81.0, MCP-Atlas 77.0) là kết quả được công bố của Z.ai. Toàn bộ các kết quả được phân tích chi tiết trong phân tích chuyên sâu về điểm chuẩn GLM-5.2, và so sánh trực tiếp với các phòng thí nghiệm đóng có trong GLM-5.2 so với GPT-5.5, Claude Opus và Gemini.

Bạn nên chọn gói giá nào?

Hướng dẫn quyết định nhanh:

Sử dụng không thường xuyên hoặc khối lượng thấp: API trả tiền theo mức sử dụng. Bạn chỉ trả tiền cho những gì bạn chạy, và mức giá đủ thấp để sử dụng nhẹ vẫn rẻ.
Mã hóa cả ngày trong một tác nhân: một gói GLM Coding Plan. Chi phí hàng tháng có thể dự đoán được tốt hơn so với thanh toán theo mức sử dụng khi bạn thực hiện hàng trăm cuộc gọi mỗi ngày. Hãy xác minh giá gói trước.
Riêng tư, ngoại tuyến hoặc chi phí cận biên bằng không: tự lưu trữ trọng số mở. Không có hóa đơn theo token nào cả, chỉ là chi phí tính toán của riêng bạn. Bắt đầu với chạy GLM-5 cục bộ miễn phí hoặc GLM-5 miễn phí với Ollama.

Bất kể bạn chọn con đường nào, hai đòn bẩy chi phí vẫn không đổi: lưu trữ các tiền tố ổn định của bạn vào bộ nhớ cache và giảm nỗ lực tư duy cho những công việc không cần đến nó.

Kiểm tra chi phí GLM-5.2 trước khi cam kết

Trước khi bạn chọn một gói, việc xem xét chi phí thực tế của các lời nhắc của bạn và thời gian chúng mất sẽ rất hữu ích. Bạn có thể trỏ bất kỳ máy khách tương thích OpenAI nào đến điểm cuối GLM-5.2 và theo dõi mức sử dụng token cho mỗi cuộc gọi. Apidog hữu ích ở đây: đó là một nền tảng API tất cả trong một để thiết kế, gỡ lỗi, kiểm thử và ghi lại API, vì vậy bạn có thể gửi yêu cầu đến https://api.z.ai/api/paas/v4/chat/completions, kiểm tra phản hồi và số lượng token, và lưu các cuộc gọi dưới dạng một bộ sưu tập có thể tái sử dụng trong khi bạn so sánh các cấp độ tư duy và hành vi lưu vào bộ nhớ cache. Tải xuống Apidog nếu bạn muốn đánh giá bảng giá dựa trên lưu lượng truy cập của riêng mình thay vì tin vào một ví dụ đã thực hiện.

Tải xuống ứng dụng

Tóm lại: Mức giá API đã xác nhận của GLM-5.2 là 1.40 USD đầu vào và 4.40 USD đầu ra là con số bạn nên dựa vào. Lưu trữ các tiền tố của bạn vào bộ nhớ cache, quản lý nỗ lực tư duy và xác minh giá của bất kỳ gói Coding Plan nào trực tiếp trước khi bạn cam kết.