Hướng dẫn sử dụng GLM-5.2 với Claude Code, Cline và Cursor

GLM-5.2 là mô hình mã nguồn mở của Z.ai, và nó tích hợp vào ba công cụ lập trình mà hầu hết các nhà phát triển đã sử dụng: Claude Code, Cline và Cursor. Vấn đề là mỗi công cụ lại được thiết lập khác nhau. Claude Code sử dụng định dạng API của Anthropic, trong khi Cline và Cursor yêu cầu một điểm cuối tương thích với OpenAI. Hướng dẫn này sẽ trình bày chi tiết cả ba, từ đầu đến cuối, sử dụng Gói mã hóa GLM làm xương sống.

Nếu bạn chỉ muốn biết thông tin cơ bản về mô hình trước tiên, hãy bắt đầu với tổng quan về GLM-5.2 và tài liệu tham khảo API của GLM-5.2. Bài đăng này là hướng dẫn thiết lập.

button

Những gì bạn cần trước khi bắt đầu

GLM-5.2 là một mô hình Mixture-of-Experts với khoảng 753 tỷ tham số, được cung cấp với cửa sổ ngữ cảnh 1 triệu token (chính xác là 1.048.576 token). Nó được thiết kế ưu tiên cho việc viết mã, với khả năng suy luận mạnh mẽ và sử dụng công cụ như một tác nhân. Điểm chuẩn nổi bật, theo kết quả đã công bố của Z.ai, là Terminal-Bench 2.1 đạt 81.0, tăng từ 62.0 của GLM-5.1. VentureBeat mô tả nó như vượt trội hơn GPT-5.5 trong các điểm chuẩn mã hóa dài hạn với chi phí chỉ bằng khoảng một phần sáu.

Để làm theo hướng dẫn này, bạn cần:

Một tài khoản Z.ai và một khóa API. Đối với Claude Code và các công cụ agentic, bạn cần một khóa Gói mã hóa GLM thay vì khóa trả tiền theo mức sử dụng thông thường, vì điểm cuối mã hóa là những gì các khóa đó được định hình cho.
Một trong ba công cụ được cài đặt: Claude Code, Cline (một tiện ích mở rộng của VS Code) hoặc Cursor.
ID mô hình, là glm-5.2 ở mọi nơi ngoại trừ trong Claude Code, nơi bạn sử dụng biến thể ngữ cảnh 1M là glm-5.2[1m].

Một vài lưu ý nhanh về chi phí. API tiêu chuẩn có giá 1.40 USD cho mỗi 1 triệu token đầu vào và 4.40 USD cho mỗi 1 triệu token đầu ra (được xác nhận bởi OpenRouter), với đầu vào được lưu trữ khoảng 0.26 USD cho mỗi 1 triệu (theo VentureBeat). Gói mã hóa GLM là một gói đăng ký riêng biệt với các cấp độ Lite, Pro, Max và Team. Giá các cấp độ công khai đã thay đổi, vì vậy hãy coi bất kỳ con số nào bạn thấy là ước tính (tính đến tháng 6 năm 2026, hãy xác minh giá hiện tại tại z.ai trước khi bạn cam kết).

Thiết lập GLM-5.2 trong Claude Code

Claude Code giao tiếp với một điểm cuối tương thích với Anthropic, và Z.ai cung cấp một điểm cuối dành riêng cho các công cụ mã hóa. Bạn chỉ định Claude Code sử dụng điểm cuối đó bằng các biến môi trường, sau đó chạy nó như bình thường.

Đây là khối mã đầy đủ. Hãy thêm nó vào hồ sơ shell của bạn (~/.zshrc hoặc ~/.bashrc), hoặc đặt nó trực tiếp trước khi khởi chạy.

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

Sau đó, khởi chạy Claude Code theo cách thông thường:

claude

Một vài biến đó cần được giải thích, bởi vì bỏ qua chúng là nguyên nhân khiến hầu hết các thiết lập bị lỗi.

URL cơ sở. https://api.z.ai/api/coding/paas/v4 là điểm cuối mã hóa tương thích với Anthropic. Một số tài liệu cũ hơn hiển thị https://open.z.ai/api/paas/v4 thay vào đó. Cả hai đều đã được lưu hành, vì vậy nếu yêu cầu trả về 404 hoặc xác thực thất bại, hãy thử máy chủ khác và kiểm tra giá trị hiện tại trong tài liệu GLM-5.2 của Z.ai (xác minh trực tiếp).

Hậu tố [1m]. Việc đặt cả biến mô hình Sonnet và Opus thành glm-5.2[1m] cho Claude Code biết rằng hãy định tuyến mọi cấp độ mô hình đến biến thể ngữ cảnh 1M của GLM-5.2. Nếu không có hậu tố, bạn sẽ nhận được ngữ cảnh mặc định; với nó, bạn sẽ nhận được đủ một triệu token. Ánh xạ cả Sonnet và Opus đến cùng một mô hình có nghĩa là bất kể Claude Code hướng tới cấp độ nào, bạn sẽ sử dụng GLM-5.2.

CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000. Claude Code tự động nén cuộc trò chuyện khi nó gần đạt giới hạn ngữ cảnh. Cửa sổ mặc định giả định một ngân sách ngữ cảnh nhỏ hơn. Nâng nó lên 1.000.000 cho phép Claude Code sử dụng toàn bộ cửa sổ của GLM-5.2 trước khi nó bắt đầu tóm tắt, nhờ đó bạn giữ được nhiều mã nguồn của mình hơn trong ngữ cảnh.

API_TIMEOUT_MS=3000000. Điều này không tùy chọn cho công việc có ngữ cảnh lớn. Đó là thời gian chờ 3.000 giây (50 phút). Khi bạn cung cấp một tác vụ agentic dài hạn vào cửa sổ 1 triệu token, mô hình có thể suy nghĩ trong một thời gian dài trước khi token đầu tiên đến, đặc biệt ở mức nỗ lực suy nghĩ Tối đa. Thời gian chờ mặc định ngắn hơn nhiều, vì vậy Claude Code sẽ hủy yêu cầu giữa chừng và bạn sẽ thấy lỗi kết nối khó hiểu. Tăng thời gian chờ và các cuộc gọi dài sẽ hoàn tất.

Về nỗ lực suy nghĩ: GLM-5.2 có hai cấp độ, High (Cao) và Max (Tối đa), và Z.ai khuyến nghị Max cho việc viết mã. Điểm cuối mã hóa áp dụng một mặc định hợp lý, nhưng nếu công cụ của bạn cho phép bạn truyền reasoning_effort, hãy đặt nó thành max cho các tác vụ khó nhất. Suy nghĩ cũng có thể bị vô hiệu hóa hoàn toàn khi bạn muốn hoàn thành nhanh chóng, chi phí thấp.

Nếu bạn đến từ một mô hình trước đó, đường dẫn di chuyển tương tự như chúng tôi đã trình bày cho GLM-5.1 trong Claude Code và GLM-4.5 với Claude Code. Hoán đổi ID mô hình và URL cơ sở, giữ nguyên cấu trúc.

Thiết lập GLM-5.2 trong Cline

Cline là một tiện ích mở rộng của VS Code chạy một tác nhân mã hóa tự động bên trong trình soạn thảo của bạn. Không giống như Claude Code, Cline đọc từ một điểm cuối tương thích với OpenAI, vì vậy cách thiết lập khác.

Cài đặt tiện ích mở rộng Cline từ chợ VS Code và mở cài đặt của nó (biểu tượng bánh răng trong bảng Cline).
Đối với Nhà cung cấp API, chọn Tương thích OpenAI.
Đặt URL cơ sở thành https://api.z.ai/api/paas/v4/. Lưu ý dấu gạch chéo ở cuối và đây là URL API cơ sở chung, không phải đường dẫn mã hóa.
Dán khóa API của Z.ai của bạn vào Khóa API.
Đối với ID mô hình, nhập glm-5.2 (không có hậu tố [1m] ở đây, đó là một quy ước chỉ dành cho Claude Code).
Tìm cài đặt cửa sổ ngữ cảnh và đặt nó thành 1000000. Cline sử dụng điều này để quyết định khi nào cắt bớt lịch sử, vì vậy việc để nó ở giá trị mặc định sẽ lãng phí phần lớn cửa sổ của GLM-5.2.

Đó là toàn bộ thiết lập GLM-5.2 Cline. Lưu lại, bắt đầu một tác vụ và xem Cline lập kế hoạch, chỉnh sửa tệp và chạy các lệnh dựa trên mô hình.

Một lưu ý riêng cho Cline: vì Cline có thể thực hiện nhiều lệnh gọi công cụ cho mỗi tác vụ, cửa sổ ngữ cảnh quá nhỏ sẽ buộc nó phải bỏ qua các bước trước đó. Đặt cửa sổ thành một triệu sẽ giữ kế hoạch, các thay đổi (diffs) và kết quả kiểm tra đều trong phạm vi, đây chính là nơi ngữ cảnh dài của GLM-5.2 phát huy tác dụng.

Thiết lập GLM-5.2 trong Cursor

Cursor là một trình soạn thảo độc lập ưu tiên AI. Nó cũng sử dụng định dạng tương thích OpenAI, vì vậy cấu hình của nó tương tự như Cline.

Mở cài đặt Cursor, đi tới Mô hình, và cuộn đến phần khóa API OpenAI.
Bật URL cơ sở tùy chỉnh (đôi khi được gắn nhãn “Ghi đè URL cơ sở OpenAI”).
Đặt URL cơ sở thành https://api.z.ai/api/paas/v4/.
Nhập khóa API của Z.ai của bạn.
Thêm một mô hình tùy chỉnh với ID glm-5.2, sau đó đảm bảo nó là mô hình đang hoạt động.
Xác minh kết nối bằng kiểm tra khóa API tích hợp của Cursor, sau đó gửi một lời nhắc.

Đó là tất cả về GLM-5.2 Cursor. Sau khi xác minh, GLM-5.2 sẽ cung cấp năng lượng cho tính năng trò chuyện và chỉnh sửa nội tuyến của Cursor.

Nếu trước đây bạn đã sử dụng Cursor với các phiên bản GLM khác, những đánh đổi mà chúng tôi đã viết trong Claude Code so với Cursor với GLM-4.7 vẫn còn đúng: giao diện người dùng của Cursor mượt mà nhất cho các chỉnh sửa nội tuyến, trong khi Claude Code và Cline tập trung nhiều hơn vào các tác vụ tự động, nhiều bước của tác nhân.

Cấu hình song song

Dưới đây là tất cả các giá trị ở một nơi để bạn có thể sao chép đúng cho từng công cụ.

Cài đặt	Claude Code	Cline	Cursor
Định dạng API	Tương thích Anthropic	Tương thích OpenAI	Tương thích OpenAI
URL cơ sở	`https://api.z.ai/api/coding/paas/v4` (xác minh trực tiếp)	`https://api.z.ai/api/paas/v4/`	`https://api.z.ai/api/paas/v4/`
ID mô hình	`glm-5.2[1m]`	`glm-5.2`	`glm-5.2`
Loại khóa	Khóa Gói mã hóa GLM	Khóa API	Khóa API
Cửa sổ ngữ cảnh	`CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000`	đặt thành `1000000`	mặc định của mô hình
Thời gian chờ	`API_TIMEOUT_MS=3000000`	không áp dụng	không áp dụng
Nỗ lực suy nghĩ	Tối đa (khuyến nghị cho việc viết mã)	thông qua mặc định của nhà cung cấp	thông qua mặc định của nhà cung cấp

Hai điều khiến mọi người mắc lỗi nhiều nhất: sử dụng sai URL cơ sở cho loại công cụ và quên hậu tố [1m] cùng thời gian chờ trong Claude Code.

Kiểm tra thiết lập của bạn bằng một lệnh gọi API thực tế

Trước khi tin tưởng bất kỳ công cụ nào, hãy xác nhận rằng khóa và mô hình hoạt động với một yêu cầu thô. Lệnh gọi này truy cập trực tiếp API chung và tách biệt cấu hình công cụ khỏi các vấn đề về thông tin xác thực.

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "user", "content": "Write a Python function that reverses a linked list."}
    ],
    "thinking": {"type": "enabled"},
    "reasoning_effort": "max",
    "stream": false
  }'

Nếu điều đó trả về một kết quả hoàn thành, khóa và ID mô hình của bạn hoạt động tốt, và bất kỳ vấn đề còn lại nào là cấu hình phía công cụ. Đây cũng là một điểm tiện lợi để đưa một ứng dụng khách API vào vòng lặp. Nếu bạn đã kiểm tra GLM-5.2 cùng với các điểm cuối phụ trợ của riêng mình, Apidog cho phép bạn lưu yêu cầu, quản lý ANTHROPIC_API_KEY hoặc tiêu đề Authorization như một biến môi trường và phát lại nó mà không cần gõ lại lệnh curl. Bạn có thể tải xuống Apidog và nhập yêu cầu trực tiếp từ lệnh curl ở trên.

Bạn nên sử dụng công cụ nào

Không có người thắng cuộc duy nhất. Điều đó phụ thuộc vào cách bạn muốn làm việc.

Claude Code phù hợp nhất cho các tác vụ agentic dài hạn, chạy trên terminal, và đây là công cụ duy nhất trong ba công cụ nhận được toàn bộ ngữ cảnh 1M thông qua glm-5.2[1m]. Tốt nhất cho các tái cấu trúc lớn và thay đổi toàn bộ kho mã.
Cline mang tác nhân vào bên trong VS Code mà không cần rời khỏi trình soạn thảo của bạn, với khả năng hiển thị rõ ràng mọi lệnh gọi công cụ. Đây là một lựa chọn tốt ở giữa.
Cursor được tinh chỉnh nhất cho các chỉnh sửa nội tuyến nhanh chóng và công việc theo kiểu tự động hoàn thành, với cấu hình nhẹ nhất.

Để so sánh sâu hơn các tính năng giữa các gói, hãy xem Claude Code so với Codex so với Cursor so với MiniMax so với Gói GLM. Để biết GLM-5.2 so với các mô hình tiên tiến khác như thế nào, hãy kiểm tra GLM-5.2 so với GPT-5.5, Claude Opus và Gemini và phân tích điểm chuẩn độc lập. Và nếu bạn đang cân nhắc nâng cấp, GLM-5.2 so với GLM-5.1 sẽ trình bày những thay đổi.

Câu hỏi thường gặp

Tại sao tôi sử dụng `glm-5.2[1m]` trong Claude Code nhưng lại là `glm-5.2` trong Cline và Cursor?

Hậu tố [1m] là một quy ước của Claude Code để chọn biến thể ngữ cảnh 1M thông qua điểm cuối mã hóa. Cline và Cursor truyền ID mô hình thuần túy là glm-5.2 đến điểm cuối chung tương thích OpenAI, nơi cửa sổ ngữ cảnh được thiết lập trong giao diện người dùng của công cụ thay vì trong ID.

Điều gì xảy ra nếu Claude Code hết thời gian chờ cho các tác vụ dài?

Đó gần như luôn là vấn đề về thời gian chờ. Đặt API_TIMEOUT_MS=3000000 để Claude Code đợi đủ lâu cho các phản hồi có ngữ cảnh lớn, nỗ lực Tối đa hoàn tất. Nếu không có nó, công cụ sẽ hủy bỏ yêu cầu trước khi mô hình trả về kết quả.

Tôi có cần Gói mã hóa GLM không, hay tôi có thể sử dụng trả tiền theo mức sử dụng?

Cả hai đều hoạt động, nhưng khóa Gói mã hóa GLM là điều mà điểm cuối mã hóa mong đợi cho Claude Code, và các cấp độ hàng tháng cố định của gói (Lite, Pro, Max, Team) thường tốt hơn việc thanh toán theo token cho các công việc mã hóa hàng ngày nặng. Xác nhận giá cấp độ hiện tại tại z.ai, vì các số liệu đã công bố đã thay đổi (xác minh tính đến tháng 6 năm 2026).

URL cơ sở nào là chính xác cho Claude Code?

Sử dụng https://api.z.ai/api/coding/paas/v4. Một số nguồn liệt kê https://open.z.ai/api/paas/v4. Nếu một trong số đó thất bại với lỗi xác thực hoặc 404, hãy thử cái còn lại và kiểm tra tài liệu của Z.ai. URL API cơ sở chung (https://api.z.ai/api/paas/v4/) là dành cho Cline và Cursor, không phải Claude Code.

GLM-5.2 có thể xử lý hình ảnh không?

Không có phiên bản thị giác (vision variant) nào được xác nhận cho GLM-5.2. Nó là một mô hình mã hóa và suy luận đầu vào văn bản, đầu ra văn bản. Đừng mong đợi một “GLM-5.2V” cho đến khi Z.ai phát hành.

Kết luận

Ba công cụ, một mô hình, hai định dạng điểm cuối. Hãy cài đặt đúng URL cơ sở và ID mô hình cho công cụ bạn đang sử dụng, nhớ hậu tố [1m] và thời gian chờ cho Claude Code, và đặt cửa sổ ngữ cảnh thành một triệu đầy đủ trong Cline. Từ đó, GLM-5.2 hoạt động như bất kỳ hệ thống phụ trợ mã hóa nào khác, chỉ là mã nguồn mở và chi phí vận hành rẻ hơn. Nếu bạn muốn chạy nó mà không cần bất kỳ công cụ nào, hãy xem cách sử dụng GLM-5.2 miễn phí và phân tích giá GLM-5.2. Tải trọng số từ Hugging Face hoặc tải mô hình bằng Ollama khi bạn muốn có một bản sao cục bộ.