API ของ GLM-5.2 ช่วยให้คุณเข้าถึง Z.ai ซึ่งเป็นเรือธง open-weights ล่าสุดได้ด้วยโปรแกรม โมเดล MoE ขนาด ~753B พารามิเตอร์นี้ ได้คะแนนสูงสุดในบรรดาโมเดลโอเพนซอร์สบนเกณฑ์มาตรฐานการเขียนโค้ดแบบ long-horizon คู่มือนี้เป็นภาคปฏิบัติ คุณจะได้รับคีย์ API ทำการส่งคำขอครั้งแรก จากนั้นทำความเข้าใจกับ Python, curl, โหมดการคิด, การสตรีมมิ่ง, การเรียกใช้เครื่องมือ และการติดตามค่าใช้จ่าย ทั้งหมดนี้มีค่าจริงที่คุณสามารถคัดลอกไปวางในเทอร์มินัลได้
หากคุณมาจากรุ่นก่อนหน้า ให้เริ่มต้นที่นี่
มีการเปลี่ยนแปลงอะไรบ้างนับตั้งแต่ GLM-5.1
GLM-5.2 มาแทนที่รุ่น 5.1 หากคุณเขียนโค้ดสำหรับเชื่อมต่อกับ GLM-5.1 API ไว้แล้ว รูปแบบการส่งข้อมูลยังคงเหมือนเดิม คุณเพียงแค่เปลี่ยนรหัสโมเดลเป็นส่วนใหญ่ ความแตกต่างที่ควรทราบ:
- กลไก sparse attention ใหม่ GLM-5.2 นำเสนอ “IndexShare” ซึ่งนำตัวจัดทำดัชนีเดียวกลับมาใช้ใหม่ในทุกๆ สี่เลเยอร์ sparse-attention เพื่อลดต้นทุน attention สำหรับบริบทขนาดยาว คุณไม่จำเป็นต้องจัดการมันในฐานะผู้ใช้ API; มันเพียงแค่ทำให้ window ขนาด 1M โทเค็นมีค่าใช้จ่ายถูกลงในการให้บริการ
- ก้าวกระโดดที่แท้จริงในการเขียนโค้ดแบบ agentic ผลลัพธ์ที่ Z.ai เผยแพร่ระบุว่า Terminal-Bench 2.1 ได้คะแนน 81.0 เพิ่มขึ้นจาก GLM-5.1 ที่ 62.0 นี่คือสถิติที่สำคัญสำหรับทุกคนที่สร้าง agent สำหรับการเขียนโค้ด
- สองระดับความพยายามในการคิด GLM-5.2 เปิดเผยระดับความพยายามในการให้เหตุผลเป็น High และ Max และ Z.ai แนะนำ Max สำหรับงานเขียนโค้ด จะมีรายละเอียดเพิ่มเติมด้านล่าง
เนื่องจากโค้ดคำขอของ 5.1 ยังคงใช้งานได้ คู่มือนี้จึงไม่กล่าวซ้ำอีก ทุกอย่างในที่นี้มุ่งเป้าไปที่ glm-5.2 โดยตรง

ขั้นตอนที่ 1: รับคีย์ API ของ GLM-5.2
ลงชื่อเข้าใช้ที่ z.ai และเปิดส่วนคีย์ API ในแดชบอร์ดบัญชีของคุณ สร้างคีย์ คัดลอกไว้หนึ่งครั้ง (โดยปกติคุณจะไม่สามารถดูได้อีก) และเก็บไว้ในตัวแปรสภาพแวดล้อมแทนที่จะวางลงในซอร์สโค้ด:
export ZAI_API_KEY="your-glm-5.2-api-key"
เก็บคีย์ API ของ glm-5.2 ของคุณให้ห่างจาก git คีย์ที่รั่วไหลจะถูกเรียกเก็บเงินจากบัญชีของคุณ และผลลัพธ์ของ GLM-5.2 มีราคาต่อล้านโทเค็น ดังนั้นสคริปต์ที่ทำงานผิดพลาดจะทำให้คุณเสียเงินจริง
ขั้นตอนที่ 2: รู้จักปลายทางและ base_url
GLM-5.2 เข้ากันได้กับ OpenAI ซึ่งหมายความว่าไคลเอ็นต์ใดๆ ที่ใช้รูปแบบ OpenAI Chat Completions สามารถใช้งานได้ทันทีเมื่อคุณเปลี่ยน base URL ค่าที่คุณต้องการ:
| การตั้งค่า | ค่า |
|---|---|
| ปลายทาง Chat completions | https://api.z.ai/api/paas/v4/chat/completions |
| Base URL (สำหรับ SDKs) | https://api.z.ai/api/paas/v4/ |
| รหัสโมเดล | glm-5.2 |
| การตรวจสอบสิทธิ์ | Authorization: Bearer $ZAI_API_KEY |
นามแฝงของ OpenRouter คือ z-ai/glm-5.2 หากคุณต้องการส่งผ่าน OpenRouter แทนที่จะเรียกใช้ Z.ai โดยตรง สำหรับการรันในเครื่อง Ollama เผยแพร่น้ำหนักเป็น glm-5.2 (ดูที่ ไลบรารี Ollama) และ open weights อยู่บน Hugging Face ภายใต้สิทธิ์การใช้งาน MIT
ข้อควรทราบเกี่ยวกับข้อจำกัดก่อนที่คุณจะเริ่มสร้าง: หน้าต่างบริบทคือ 1M โทเค็น (1,048,576) สำหรับผลลัพธ์สูงสุด เอกสารของ z.ai ระบุไว้สูงสุด 128K แต่ OpenRouter ไม่ได้เผยแพร่ตัวเลข ดังนั้นให้ถือว่าสูงสุด 128K ตามเอกสารของ z.ai (ตรวจสอบแบบสด) แทนที่จะเป็นการรับประกันที่แน่นอน
ขั้นตอนที่ 3: คำขอแรกของคุณด้วย curl
นี่คือการเรียก curl ของ glm-5.2 ขั้นต่ำสุด มันส่งข้อความผู้ใช้หนึ่งข้อความและพิมพ์การตอบกลับ JSON:
curl https://api.z.ai/api/paas/v4/chat/completions \
-H "Authorization: Bearer $ZAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"messages": [
{"role": "system", "content": "You are a concise backend engineer."},
{"role": "user", "content": "Write a SQL query that returns the 5 newest orders per customer."}
]
}'
รูปแบบการตอบกลับตรงตามมาตรฐาน OpenAI: มี id, อาร์เรย์ choices ที่มีข้อความจากผู้ช่วย และออบเจกต์ usage ฟิลด์สุดท้ายนี้คือวิธีที่คุณใช้ติดตามค่าใช้จ่าย ซึ่งจะกล่าวถึงในตอนท้าย
ขั้นตอนที่ 4: เรียกใช้จาก Python ด้วย OpenAI SDK
เนื่องจาก API เข้ากันได้กับ OpenAI คุณจึงไม่จำเป็นต้องใช้ไคลเอ็นต์พิเศษ ติดตั้ง SDK มาตรฐานและชี้ base_url ไปที่ Z.ai นี่คือการตั้งค่า Python สำหรับ glm-5.2 แบบมาตรฐาน:
pip install openai
from openai import OpenAI
import os
client = OpenAI(
api_key=os.environ["ZAI_API_KEY"],
base_url="https://api.z.ai/api/paas/v4/",
)
resp = client.chat.completions.create(
model="glm-5.2",
messages=[
{"role": "system", "content": "You are a concise backend engineer."},
{"role": "user", "content": "Explain idempotency keys in 3 sentences."},
],
)
print(resp.choices[0].message.content)
นั่นคือการเชื่อมต่อทั้งหมด ออบเจกต์ client ทำงานได้เหมือนกับที่ใช้กับ OpenAI ดังนั้นโค้ดช่วย, การลองใหม่ และการบันทึกที่มีอยู่จึงสามารถนำมาใช้ได้ทั้งหมด หากคุณต้องการสำรวจแพลตฟอร์มโดยละเอียดเพิ่มเติม ภาพรวม API ของ GLM-5 ครอบคลุมหลักการทั่วไปของตระกูลนี้
ขั้นตอนที่ 5: ควบคุมการให้เหตุผลด้วย thinking และ reasoning_effort
GLM-5.2 เป็นโมเดลการให้เหตุผล คุณสามารถเปิดหรือปิดการคิดภายในของมันได้ และเมื่อเปิดอยู่ คุณสามารถตั้งค่าความพยายามในการทำงานได้
ปิดการคิดเพื่อการตอบสนองที่รวดเร็ว ราคาถูก และมีความหน่วงต่ำ (การจำแนกประเภท การเขียนใหม่สั้นๆ การกำหนดเส้นทาง):
resp = client.chat.completions.create(
model="glm-5.2",
messages=[{"role": "user", "content": "Classify: 'my card was charged twice'"}],
extra_body={"thinking": {"type": "disabled"}},
)
เปิดใช้งานการคิดและเพิ่มความพยายามเป็น Max สำหรับงานเขียนโค้ดและคณิตศาสตร์ที่ยาก Z.ai แนะนำ Max โดยเฉพาะสำหรับงานเขียนโค้ด:
resp = client.chat.completions.create(
model="glm-5.2",
messages=[
{"role": "user", "content": "Refactor this function to remove the N+1 query and explain the fix."},
],
extra_body={
"thinking": {"type": "enabled"},
"reasoning_effort": "max",
},
)
ตัวห่อหุ้ม extra_body คือวิธีที่ OpenAI Python SDK ส่งฟิลด์ที่ไม่ใช่มาตรฐานไปยัง Z.ai ในเนื้อหา curl ดิบ คุณจะวาง thinking และ reasoning_effort ไว้ที่ระดับบนสุดถัดจาก model ความพยายามสูงสุดจะใช้โทเค็นเอาต์พุตมากขึ้น (การให้เหตุผลนับรวม) ดังนั้นควรสงวนไว้สำหรับงานที่การกระโดดของคุณภาพคุ้มค่ากับค่าใช้จ่าย
ขั้นตอนที่ 6: สตรีมการตอบกลับ
สำหรับ UI แชทและการสร้างข้อความขนาดยาว ให้สตรีมโทเค็นเมื่อมาถึงแทนที่จะรอการเสร็จสมบูรณ์ทั้งหมด ตั้งค่า stream: true และวนซ้ำแต่ละส่วน:
stream = client.chat.completions.create(
model="glm-5.2",
messages=[{"role": "user", "content": "Write a 200-word changelog entry for a rate-limit fix."}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content
if delta:
print(delta, end="", flush=True)
ใน curl ให้เพิ่ม "stream": true ในเนื้อหา และเซิร์ฟเวอร์จะส่งคืน Server-Sent Events โดยมีบรรทัด data: หนึ่งบรรทัดต่อส่วน จบด้วย data: [DONE] การสตรีมมิ่งไม่เปลี่ยนแปลงอะไรเกี่ยวกับราคา คุณยังคงจ่ายตามโทเค็น เพียงแต่คุณเห็นมันเร็วกว่า
ขั้นตอนที่ 7: การเรียกใช้ฟังก์ชันและเครื่องมือ
การเรียกใช้เครื่องมือเป็นจุดที่ความสามารถแบบ agentic ของ GLM-5.2 แสดงออกมา และได้คะแนน 77.0 บน MCP-Atlas ในผลลัพธ์ที่ Z.ai เผยแพร่ ซึ่งใกล้เคียงกับ Claude Opus 4.8 รูปแบบคือ OpenAI สองขั้นตอนมาตรฐาน: คุณอธิบายเครื่องมือ โมเดลจะส่งคำขอ tool_calls คุณรันฟังก์ชัน จากนั้นคุณป้อนผลลัพธ์กลับเข้าไป
นี่คือตัวอย่าง API ของ glm-5.2 ที่สมจริงขนาดเล็กพร้อมกับการค้นหาสภาพอากาศ:
import json
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get the current temperature for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name, e.g. Berlin"},
"unit": {"type": "string", "enum": ["c", "f"]},
},
"required": ["city"],
},
},
}
]
messages = [{"role": "user", "content": "What's the weather in Berlin in celsius?"}]
first = client.chat.completions.create(
model="glm-5.2",
messages=messages,
tools=tools,
)
call = first.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
# You run the real function here. Stubbed for the example:
def get_weather(city, unit="c"):
return {"city": city, "temp": 12, "unit": unit}
result = get_weather(**args)
# Append the assistant's tool call, then your tool's result.
messages.append(first.choices[0].message)
messages.append({
"role": "tool",
"tool_call_id": call.id,
"content": json.dumps(result),
})
final = client.chat.completions.create(
model="glm-5.2",
messages=messages,
tools=tools,
)
print(final.choices[0].message.content)
โมเดลจะตัดสินใจว่าจะเรียกใช้เครื่องมือเมื่อใด คุณดำเนินการ และคำขอที่สองจะช่วยให้ GLM-5.2 เปลี่ยนผลลัพธ์ดิบให้เป็นการตอบกลับที่เป็นธรรมชาติ วงจรเดียวกันนี้สามารถปรับขนาดไปใช้กับเครื่องมือหลายชิ้นและเฟรมเวิร์กของ agent ได้ ไม่มีอะไรในสัญญาที่เป็นเฉพาะของ Z.ai
การทดสอบวงจรนี้ด้วยตนเองจะน่าเบื่ออย่างรวดเร็ว นี่คือจุดที่ควรใช้ Apidog: คุณสามารถกำหนดปลายทาง GLM-5.2 ได้เพียงครั้งเดียว บันทึกเนื้อหาคำขอสำหรับแต่ละโหมดการคิด และเล่นซ้ำการเรียกใช้เครื่องมือได้โดยไม่ต้องเขียน curl ใหม่ทุกครั้ง มันจัดการสคีมาแบบ OpenAI และให้คุณตรวจสอบการตอบกลับที่สตรีมมิ่งได้ในที่เดียว
ขั้นตอนที่ 8: อ่านออบเจกต์การใช้งานสำหรับค่าใช้จ่าย
ทุกการตอบกลับที่ไม่ได้สตรีมมิ่งจะมีออบเจกต์ usage นี่คือแหล่งข้อมูลความจริงสำหรับการเรียกเก็บเงินของคุณ:
resp = client.chat.completions.create(
model="glm-5.2",
messages=[{"role": "user", "content": "Summarize REST vs gRPC in 4 bullets."}],
)
u = resp.usage
print(u.prompt_tokens, u.completion_tokens, u.total_tokens)
ราคาของ GLM-5.2 อยู่ที่ $1.40 ต่อ 1 ล้านโทเค็นอินพุต และ $4.40 ต่อ 1 ล้านโทเค็นเอาต์พุต (ยืนยันโดย OpenRouter) อินพุตที่แคชไว้มีค่าใช้จ่ายประมาณ $0.26 ต่อ 1 ล้าน (ตาม VentureBeat ซึ่งอ้างอิงตัวเลขของพวกเขา) ดังนั้นการเรียกใช้ที่มีอินพุต 8,000 และเอาต์พุต 1,500 โทเค็นมีค่าใช้จ่ายโดยประมาณ:
(8000 / 1_000_000 * 1.40) + (1500 / 1_000_000 * 4.40)
= 0.0112 + 0.0066
= ประมาณ $0.0178
โทเค็นการให้เหตุผลจากความพยายามสูงสุดจะนับรวมในจำนวนเอาต์พุต ดังนั้นการเรียกใช้โค้ดด้วยความพยายามสูงสุดจะดูแพงกว่าการเรียกที่ปิดใช้งานการคิด VentureBeat รายงานว่า GLM-5.2 "ชนะ GPT-5.5 ในการเขียนโค้ดแบบ long-horizon ด้วยค่าใช้จ่ายประมาณ 1 ใน 6" ซึ่งเป็นข้อเสนอทางเศรษฐกิจที่อยู่เบื้องหลังตัวเลขเหล่านี้ (โดยอ้างสิทธิ์ถึง VentureBeat)
หากคุณต้องการใช้แผนแบบเหมาจ่ายแทนการเรียกใช้ API แบบคิดตามการใช้งาน Z.ai ยังจำหน่าย GLM Coding Plan แบบเป็นระดับ (Lite, Pro, Max, รวมทั้ง Team) ราคาที่แน่นอนอาจมีการเปลี่ยนแปลง ดังนั้น ณ เดือนมิถุนายน 2026 โปรดตรวจสอบระดับปัจจุบันที่ z.ai ก่อนตัดสินใจ สำหรับการเปรียบเทียบแบบตัวต่อตัวในส่วนของการคิดตามการใช้งาน รายละเอียดราคาของ GLM-5.2 จะลงลึกกว่า และ วิธีใช้ GLM-5.2 ฟรี ครอบคลุมเส้นทางของ local-weights
การใช้ GLM-5.2 ภายใน Claude Code
GLM-5.2 ยังมาพร้อมกับเส้นทางที่เข้ากันได้กับ Anthropic ดังนั้นคุณจึงสามารถขับเคลื่อนมันได้จาก Claude Code ชี้ base URL การเขียนโค้ดไปที่ https://api.z.ai/api/coding/paas/v4 (บางแหล่งอาจแสดง open.z.ai/api/paas/v4 ดังนั้นโปรดตรวจสอบแบบสด) จากนั้นตั้งค่าตัวแปรสภาพแวดล้อมเหล่านี้:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
ส่วนต่อท้าย [1m] จะเลือกตัวแปรบริบท 1M และ API_TIMEOUT_MS ที่ยาวมีความสำคัญ: หากไม่มีสิ่งนี้ Claude Code อาจยุติการเรียกใช้บริบทขนาดใหญ่ที่ยาวนานก่อนที่จะส่งคืนข้อมูล บทแนะนำแบบเต็มอยู่ในคู่มือของเราเกี่ยวกับการรัน GLM ด้วย Claude Code และหากคุณกำลังพิจารณาเครื่องมือต่างๆ Claude Code เทียบกับ Codex เทียบกับ Cursor เทียบกับ GLM Plan จะอธิบายถึงข้อดีข้อเสีย
GLM-5.2 เปรียบเทียบกับคู่แข่งอย่างไร
ข้อมูลอ้างอิงด่วนสำหรับค่าที่ขับเคลื่อนการตัดสินใจในการรวมระบบ:
| คุณสมบัติ | GLM-5.2 |
|---|---|
| รหัสโมเดล (API) | glm-5.2 |
| สถาปัตยกรรม | ~753B MoE, BF16, IndexShare sparse attention |
| หน้าต่างบริบท | 1M โทเค็น (1,048,576) |
| เอาต์พุตสูงสุด | สูงสุด 128K ตามเอกสารของ z.ai (ตรวจสอบแบบสด) |
| โหมดการคิด | High / Max หรือปิดใช้งาน |
| ราคาอินพุต | $1.40 / 1M โทเค็น |
| ราคาเอาต์พุต | $4.40 / 1M โทเค็น |
| ใบอนุญาต | MIT, open weights |
สำหรับรายละเอียดเกณฑ์มาตรฐาน ผลลัพธ์ที่ Z.ai เผยแพร่รวมถึง SWE-bench Pro 62.1 (GPT-5.5 58.6), Humanity’s Last Exam พร้อมเครื่องมือ 54.7 และ AIME 2026 99.2 สรุปเกณฑ์มาตรฐานของ GLM-5.2 อธิบายสิ่งเหล่านี้ และ GLM-5.2 เทียบกับ GPT-5.5, Claude Opus และ Gemini เปรียบเทียบเคียงข้างกัน
คำถามที่พบบ่อย
GLM-5.2 API เข้ากันได้กับ OpenAI จริงหรือ? ใช่ ชี้ base_url ของ OpenAI SDK ไปที่ https://api.z.ai/api/paas/v4/ และตั้งค่าโมเดลเป็น glm-5.2 โค้ดสำหรับการแชท การสตรีมมิ่ง และการเรียกใช้เครื่องมือมาตรฐานทำงานได้โดยไม่เปลี่ยนแปลง
รหัสโมเดล GLM-5.2 ที่ฉันควรส่งคืออะไร? ส่ง glm-5.2 ไปยัง API ของ Z.ai บน OpenRouter คือ z-ai/glm-5.2 บน Ollama คือ glm-5.2 และตัวแปร Claude Code คือ glm-5.2[1m] สำหรับหน้าต่างบริบท 1M
ฉันจะปิดการให้เหตุผลเพื่อความเร็วได้อย่างไร? ส่ง thinking: {"type": "disabled"} (ผ่าน extra_body ใน Python SDK) สำหรับงานเขียนโค้ดที่ยาก ให้เปิดใช้งานการคิดและตั้งค่า reasoning_effort: "max" ซึ่ง Z.ai แนะนำสำหรับโค้ด
GLM-5.2 มีค่าใช้จ่ายเท่าไหร่ต่อการเรียกใช้? $1.40 ต่อ 1 ล้านโทเค็นอินพุต และ $4.40 ต่อ 1 ล้านโทเค็นเอาต์พุต (ยืนยันโดย OpenRouter) อ่านออบเจกต์ usage ในแต่ละการตอบกลับเพื่อคำนวณค่าใช้จ่ายที่แน่นอน โปรดจำไว้ว่าโทเค็นการให้เหตุผลด้วยความพยายามสูงสุดจะนับเป็นเอาต์พุต
GLM-5.2 มีโมเดลวิชันหรือไม่? ยังไม่มีการยืนยันตัวแปรวิชัน ณ เดือนมิถุนายน 2026 API นี้รับข้อความเข้าและส่งข้อความออกเท่านั้น อย่าพึ่งพาอินพุตรูปภาพจนกว่า Z.ai จะมีเอกสารสนับสนุน
สรุป
API ของ GLM-5.2 เป็นก้าวสั้นๆ จากโค้ดเบสที่เข้ากันได้กับ OpenAI: เพียงแค่เปลี่ยน base URL, ส่ง glm-5.2 คุณก็จะได้โมเดลการเขียนโค้ดที่มีบริบท 1M, สิทธิ์การใช้งาน MIT พร้อมการให้เหตุผลที่ปรับแต่งได้ในราคาเอาต์พุต $4.40 ต่อ 1M โทเค็น เริ่มต้นด้วยการ ping ด้วย curl จากนั้นย้ายไปที่ Python SDK แล้วค่อยเพิ่มโหมดการคิดและการเรียกใช้เครื่องมือตามความต้องการใช้งานของคุณ
เมื่อคุณพร้อมที่จะทดสอบปลายทาง บันทึกตัวแปรคำขอ และตรวจสอบการเรียกใช้เครื่องมือโดยไม่ต้องเขียน curl ด้วยตนเองทุกครั้ง ดาวน์โหลด Apidog และเชื่อมต่อปลายทาง GLM-5.2 เพียงครั้งเดียว สำหรับภาพรวมที่ใหญ่ขึ้นของโมเดลเอง ดู GLM-5.2 คืออะไร และ การเปรียบเทียบ GLM-5.2 กับ GLM-5.1
