Giá GLM-5.2: Chi phí API, Dữ liệu cache và Các gói dịch vụ GLM (2026)

Giải thích về giá của GLM-5.2: 1,40 đô la / 4,40 đô la cho mỗi 1 triệu token API, đầu vào được lưu vào bộ nhớ đệm khoảng 0,26 đô la, các ví dụ về chi phí được minh họa, các gói của GLM Coding Plan và liệu nó có rẻ hơn GPT-5.5 không.

INEZA Felin-Michel

INEZA Felin-Michel

17 tháng 6 2026

Giá GLM-5.2: Chi phí API, Dữ liệu cache và Các gói dịch vụ GLM (2026)

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

GLM-5.2 là cách tiết kiệm để chạy một mô hình mã hóa đẳng cấp tiên phong. Z.ai (Zhipu AI) cung cấp nó với trọng số mở theo giấy phép MIT, cửa sổ ngữ cảnh 1 triệu token và bảng giá API cạnh tranh mạnh mẽ so với các phòng thí nghiệm đóng lớn. Trang này là trang quan trọng nhất về chi phí. Bạn sẽ tìm thấy chi phí API chính xác cho mỗi token, cách hoạt động của chiết khấu đầu vào được lưu vào bộ nhớ cache, các ví dụ chi phí thực tế cho các phiên mã hóa, các gói đăng ký GLM Coding Plan, và đánh giá trung thực liệu GLM-5.2 có rẻ hơn GPT-5.5 cho cách bạn thực sự làm việc hay không.

Lưu ý trước khi đi vào các con số: Giá AI thay đổi nhanh chóng và một số gói GLM Coding Plan có thể có sự khác biệt giữa các nguồn thứ cấp. Những con số chưa được xác định rõ sẽ được đánh dấu. Hãy coi bất kỳ con số được đánh dấu nào là ước tính và xác nhận giá trực tiếp tại z.ai trước khi bạn cam kết ngân sách.

Tải xuống ứng dụng

Tổng quan chi phí API của GLM-5.2

Giá API trả tiền theo mức sử dụng là điểm khởi đầu rõ ràng nhất, vì nó được xác nhận bởi danh sách công khai của OpenRouter.

Mục Giá Nguồn
Token đầu vào $1.40 / 1M Đã xác nhận (OpenRouter)
Token đầu ra $4.40 / 1M Đã xác nhận (OpenRouter)
Đầu vào được lưu vào bộ nhớ cache ~$0.26 / 1M VentureBeat (nguồn)

Như vậy, chi phí tiêu đề của GLM-5.2 cho mỗi token là 0.0000014 USD cho token đầu vào và 0.0000044 USD cho token đầu ra. Token đầu ra có giá gấp khoảng 3.1 lần token đầu vào, đây là cấu trúc thông thường đối với một mô hình suy luận: các token nó tạo ra (bao gồm cả quá trình tư duy của nó) tốn kém hơn các token bạn cung cấp cho nó.

Mức giá đầu vào được lưu vào bộ nhớ cache khoảng 0.26 USD cho mỗi 1 triệu token là yếu tố thay đổi mọi thứ đối với các tác vụ agentic và trò chuyện, và nó sẽ được đề cập trong phần riêng bên dưới. Con số này đến từ báo cáo của VentureBeat chứ không phải từ bảng giá chính thức, vì vậy hãy xem xét nguồn gốc của nó.

Không có làn đường OpenRouter miễn phí cho glm-5.2. Nếu bạn thấy điều này được khẳng định ở nơi khác, điều đó là sai. Bạn có thể tự chạy trọng số mở với chi phí phần cứng của riêng mình, đây là một kiểu “miễn phí” khác. Để làm theo cách này, hãy xem hướng dẫn kèm theo về cách sử dụng GLM-5.2 miễn phí và bài viết trước đó về chạy GLM-5 cục bộ miễn phí.

Chiết khấu đầu vào được lưu vào bộ nhớ cache hoạt động như thế nào

Lưu vào bộ nhớ cache lời nhắc là biện pháp kiểm soát chi phí lớn nhất trên bảng giá GLM-5.2, và hầu hết mọi người đều bỏ qua nó.

Đây là cơ chế hoạt động. Khi bạn gửi một tiền tố dài, ổn định lặp đi lặp lại (một lời nhắc hệ thống, định nghĩa công cụ của một tác nhân mã hóa, một tệp lớn mà bạn liên tục tham chiếu), nhà cung cấp có thể lưu trữ tiền tố đã xử lý vào bộ nhớ cache. Trong lần gọi tiếp theo, phần được lưu vào bộ nhớ cache sẽ được tính phí theo mức giá đầu vào được lưu vào bộ nhớ cache (~0.26 USD / 1M) thay vì mức giá đầu vào đầy đủ (1.40 USD / 1M). Đó là mức chiết khấu khoảng 81% cho phần lặp lại trong lời nhắc của bạn.

Điều này mang lại lợi ích ở đâu:

Hai quy tắc thực tế. Thứ nhất, giữ nội dung được sử dụng lại ở đầu lời nhắc và nội dung biến đổi ở cuối; bộ nhớ cache dựa trên tiền tố. Thứ hai, bộ nhớ cache hết hạn, vì vậy chiết khấu áp dụng cho các lệnh gọi diễn ra gần nhau, chứ không phải cho một yêu cầu bạn thực hiện mỗi giờ một lần.

Tắt tư duy để kiểm soát chi phí

GLM-5.2 là một mô hình suy luận với hai cấp độ nỗ lực tư duy: Cao (High) và Tối đa (Max). Z.ai khuyến nghị Max cho mã hóa. Nhưng các token tư duy là token đầu ra, và đầu ra là phần tốn kém trong hóa đơn với 4.40 USD / 1M. Tư duy nhiều hơn có nghĩa là nhiều token được tạo ra hơn, đồng nghĩa với hóa đơn lớn hơn.

Bạn có một đòn bẩy trực tiếp cho việc này. Trong API, bạn có thể tắt hoàn toàn tư duy:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformat this JSON and return it." }
  ],
  "thinking": { "type": "disabled" }
}

Sử dụng các cấp độ một cách có chủ đích:

Việc điều chỉnh cấp độ nỗ lực cho phù hợp với nhiệm vụ là sự khác biệt giữa hóa đơn đầu ra 4.40 USD và 1 USD cho cùng một lời nhắc. Tham khảo đầy đủ các tham số, bao gồm reasoning_effort và streaming, có trong hướng dẫn API GLM-5.2, và bài viết trước đó về API GLM-5 cũng trình bày hình thức tương thích OpenAI tương tự nếu bạn đang nâng cấp.

Các ví dụ về chi phí thực tế

Tỷ lệ trừu tượng trên mỗi token không có nhiều ý nghĩa cho đến khi bạn áp dụng chúng vào công việc thực tế. Dưới đây là ba phiên làm việc, được tính giá theo tỷ lệ đã xác nhận.

Ví dụ 1: một phiên mã hóa 100K token duy nhất. Giả sử bạn chạy một tác vụ mã hóa tự động đọc 100K token ngữ cảnh (kho lưu trữ, hướng dẫn, nội dung tệp của bạn) và tạo ra 20K token mã và suy luận.

Ví dụ 2: cùng một phiên với tính năng lưu vào bộ nhớ cache. Bây giờ giả sử 80K trong số 100K đầu vào đó là một tiền tố ổn định (lời nhắc hệ thống, định nghĩa công cụ, tệp không đổi) được phục vụ từ bộ nhớ cache, và 20K là mới.

Lưu tiền tố ổn định vào bộ nhớ cache đã cắt giảm chi phí phiên làm việc khoảng 40%, và khoản tiết kiệm này sẽ tăng lên khi bạn thực hiện càng nhiều lượt với cùng một ngữ cảnh.

Ví dụ 3: một trợ lý trò chuyện thực hiện trích xuất với tính năng tư duy bị tắt. Một bot hỗ trợ xử lý 500 tin nhắn mỗi ngày. Mỗi cuộc gọi gửi 2K token đầu vào và trả về 300 token đầu ra, tính năng tư duy bị vô hiệu hóa.

Đây là các ước tính theo giá niêm yết. Hóa đơn thực tế của bạn phụ thuộc vào mức độ tư duy bạn cho phép và lượng đầu vào của bạn được lưu vào bộ nhớ cache.

Các gói GLM Coding Plan

Nếu bạn làm việc với một tác nhân mã hóa cả ngày, gói đăng ký thường rẻ hơn so với các cuộc gọi API tính theo mức sử dụng. Z.ai bán Gói mã hóa GLM với các cấp độ cụ thể (Lite, Pro, Max, cộng với Team), được tiếp cận bởi Claude Code và các công cụ tương tự thông qua một điểm cuối tương thích với Anthropic.

Khóa gói là một thông tin xác thực khác với khóa API tiêu chuẩn. Để kết nối GLM-5.2 vào Claude Code, bạn trỏ nó đến điểm cuối mã hóa và chọn biến thể ngữ cảnh 1M thông qua hậu tố mô hình [1m]:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Giá trị API_TIMEOUT_MS rất quan trọng. Nếu không có thời gian chờ dài, Claude Code có thể hủy các cuộc gọi ngữ cảnh lớn, dài trước khi GLM-5.2 hoàn thành. Một số nguồn cho thấy URL cơ sở mã hóa là open.z.ai/api/paas/v4, vì vậy hãy xác minh chính xác máy chủ trực tiếp. Thiết lập tác nhân đầy đủ, bao gồm Cline và Cursor, có trong hướng dẫn các tác nhân mã hóa GLM-5.2, và bài viết trước đó về GLM-5.1 với Claude Code cũng đề cập đến cùng một mẫu cho thế hệ trước.

GLM-5.2 có rẻ hơn GPT-5.5 không?

Có, đối với API tính theo mức sử dụng, và với một biên độ lớn. Cách diễn giải rõ ràng nhất đến từ VentureBeat, họ đã báo cáo rằng GLM-5.2 “vượt trội hơn GPT-5.5 trong mã hóa dài hạn với chi phí chỉ bằng khoảng 1/6.” Tuyên bố đó là của VentureBeat, không phải là một phép đo của Apidog, và nó kết hợp hiệu suất điểm chuẩn với giá cả, vì vậy hãy coi đó là một tuyên bố giá trị định hướng chứ không phải là tỷ lệ trên mỗi token.

Ở cấp độ bảng giá, đây là so sánh tổng quan. GLM-5.2 được niêm yết với giá 1.40 USD đầu vào / 4.40 USD đầu ra cho mỗi 1 triệu token. Các mô hình tiên phong đóng từ OpenAI, Anthropic và Google thường có giá cao hơn nhiều cho các cấp độ suy luận hàng đầu của họ, đó là lý do tại sao cụm từ “một phần nhỏ chi phí” liên tục xuất hiện. Để có phân tích chi tiết về tốc độ và chi phí dựa trên các con số giữa các mô hình, hãy xem GLM-5 so với DeepSeek so với GPT-5 về tốc độ và chi phí và so sánh rộng hơn GLM-5.1 so với Claude, GPT, Gemini và DeepSeek.

So sánh gói đăng ký thì phức tạp hơn. Một gói GLM Coding Plan ở cấp độ cao với ước tính khoảng 80 USD/tháng nằm trong cùng phạm vi với các gói đăng ký mã hóa một người dùng đắt nhất từ các nhà cung cấp khác, vì vậy các yếu tố quyết định trở thành chất lượng mô hình trên các tác vụ của bạn và cách các gói đo lường mức sử dụng. Câu hỏi so sánh các gói (Gói GLM so với Claude Code, Codex, Cursor và MiniMax) được phân tích chi tiết trong Claude Code so với Codex so với Cursor so với MiniMax Plan so với GLM Plan.

Một lưu ý về điểm chuẩn: các kết quả ra mắt đã thúc đẩy đề xuất giá trị (SWE-bench Pro 62.1, Terminal-Bench 2.1 ở 81.0, MCP-Atlas 77.0) là kết quả được công bố của Z.ai. Toàn bộ các kết quả được phân tích chi tiết trong phân tích chuyên sâu về điểm chuẩn GLM-5.2, và so sánh trực tiếp với các phòng thí nghiệm đóng có trong GLM-5.2 so với GPT-5.5, Claude Opus và Gemini.

Bạn nên chọn gói giá nào?

Hướng dẫn quyết định nhanh:

Bất kể bạn chọn con đường nào, hai đòn bẩy chi phí vẫn không đổi: lưu trữ các tiền tố ổn định của bạn vào bộ nhớ cache và giảm nỗ lực tư duy cho những công việc không cần đến nó.

Kiểm tra chi phí GLM-5.2 trước khi cam kết

Trước khi bạn chọn một gói, việc xem xét chi phí thực tế của các lời nhắc của bạn và thời gian chúng mất sẽ rất hữu ích. Bạn có thể trỏ bất kỳ máy khách tương thích OpenAI nào đến điểm cuối GLM-5.2 và theo dõi mức sử dụng token cho mỗi cuộc gọi. Apidog hữu ích ở đây: đó là một nền tảng API tất cả trong một để thiết kế, gỡ lỗi, kiểm thử và ghi lại API, vì vậy bạn có thể gửi yêu cầu đến https://api.z.ai/api/paas/v4/chat/completions, kiểm tra phản hồi và số lượng token, và lưu các cuộc gọi dưới dạng một bộ sưu tập có thể tái sử dụng trong khi bạn so sánh các cấp độ tư duy và hành vi lưu vào bộ nhớ cache. Tải xuống Apidog nếu bạn muốn đánh giá bảng giá dựa trên lưu lượng truy cập của riêng mình thay vì tin vào một ví dụ đã thực hiện.

Tải xuống ứng dụng

Tóm lại: Mức giá API đã xác nhận của GLM-5.2 là 1.40 USD đầu vào và 4.40 USD đầu ra là con số bạn nên dựa vào. Lưu trữ các tiền tố của bạn vào bộ nhớ cache, quản lý nỗ lực tư duy và xác minh giá của bất kỳ gói Coding Plan nào trực tiếp trước khi bạn cam kết.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API