วิธีการใช้งาน GLM-5.2 API?

API ของ GLM-5.2 ช่วยให้คุณเข้าถึง Z.ai ซึ่งเป็นเรือธง open-weights ล่าสุดได้ด้วยโปรแกรม โมเดล MoE ขนาด ~753B พารามิเตอร์นี้ ได้คะแนนสูงสุดในบรรดาโมเดลโอเพนซอร์สบนเกณฑ์มาตรฐานการเขียนโค้ดแบบ long-horizon คู่มือนี้เป็นภาคปฏิบัติ คุณจะได้รับคีย์ API ทำการส่งคำขอครั้งแรก จากนั้นทำความเข้าใจกับ Python, curl, โหมดการคิด, การสตรีมมิ่ง, การเรียกใช้เครื่องมือ และการติดตามค่าใช้จ่าย ทั้งหมดนี้มีค่าจริงที่คุณสามารถคัดลอกไปวางในเทอร์มินัลได้

หากคุณมาจากรุ่นก่อนหน้า ให้เริ่มต้นที่นี่

ปุ่ม

มีการเปลี่ยนแปลงอะไรบ้างนับตั้งแต่ GLM-5.1

GLM-5.2 มาแทนที่รุ่น 5.1 หากคุณเขียนโค้ดสำหรับเชื่อมต่อกับ GLM-5.1 API ไว้แล้ว รูปแบบการส่งข้อมูลยังคงเหมือนเดิม คุณเพียงแค่เปลี่ยนรหัสโมเดลเป็นส่วนใหญ่ ความแตกต่างที่ควรทราบ:

กลไก sparse attention ใหม่ GLM-5.2 นำเสนอ “IndexShare” ซึ่งนำตัวจัดทำดัชนีเดียวกลับมาใช้ใหม่ในทุกๆ สี่เลเยอร์ sparse-attention เพื่อลดต้นทุน attention สำหรับบริบทขนาดยาว คุณไม่จำเป็นต้องจัดการมันในฐานะผู้ใช้ API; มันเพียงแค่ทำให้ window ขนาด 1M โทเค็นมีค่าใช้จ่ายถูกลงในการให้บริการ
ก้าวกระโดดที่แท้จริงในการเขียนโค้ดแบบ agentic ผลลัพธ์ที่ Z.ai เผยแพร่ระบุว่า Terminal-Bench 2.1 ได้คะแนน 81.0 เพิ่มขึ้นจาก GLM-5.1 ที่ 62.0 นี่คือสถิติที่สำคัญสำหรับทุกคนที่สร้าง agent สำหรับการเขียนโค้ด
สองระดับความพยายามในการคิด GLM-5.2 เปิดเผยระดับความพยายามในการให้เหตุผลเป็น High และ Max และ Z.ai แนะนำ Max สำหรับงานเขียนโค้ด จะมีรายละเอียดเพิ่มเติมด้านล่าง

เนื่องจากโค้ดคำขอของ 5.1 ยังคงใช้งานได้ คู่มือนี้จึงไม่กล่าวซ้ำอีก ทุกอย่างในที่นี้มุ่งเป้าไปที่ glm-5.2 โดยตรง

ขั้นตอนที่ 1: รับคีย์ API ของ GLM-5.2

ลงชื่อเข้าใช้ที่ z.ai และเปิดส่วนคีย์ API ในแดชบอร์ดบัญชีของคุณ สร้างคีย์ คัดลอกไว้หนึ่งครั้ง (โดยปกติคุณจะไม่สามารถดูได้อีก) และเก็บไว้ในตัวแปรสภาพแวดล้อมแทนที่จะวางลงในซอร์สโค้ด:

export ZAI_API_KEY="your-glm-5.2-api-key"

เก็บคีย์ API ของ glm-5.2 ของคุณให้ห่างจาก git คีย์ที่รั่วไหลจะถูกเรียกเก็บเงินจากบัญชีของคุณ และผลลัพธ์ของ GLM-5.2 มีราคาต่อล้านโทเค็น ดังนั้นสคริปต์ที่ทำงานผิดพลาดจะทำให้คุณเสียเงินจริง

ขั้นตอนที่ 2: รู้จักปลายทางและ base_url

GLM-5.2 เข้ากันได้กับ OpenAI ซึ่งหมายความว่าไคลเอ็นต์ใดๆ ที่ใช้รูปแบบ OpenAI Chat Completions สามารถใช้งานได้ทันทีเมื่อคุณเปลี่ยน base URL ค่าที่คุณต้องการ:

การตั้งค่า	ค่า
ปลายทาง Chat completions	`https://api.z.ai/api/paas/v4/chat/completions`
Base URL (สำหรับ SDKs)	`https://api.z.ai/api/paas/v4/`
รหัสโมเดล	`glm-5.2`
การตรวจสอบสิทธิ์	`Authorization: Bearer $ZAI_API_KEY`

นามแฝงของ OpenRouter คือ z-ai/glm-5.2 หากคุณต้องการส่งผ่าน OpenRouter แทนที่จะเรียกใช้ Z.ai โดยตรง สำหรับการรันในเครื่อง Ollama เผยแพร่น้ำหนักเป็น glm-5.2 (ดูที่ ไลบรารี Ollama) และ open weights อยู่บน Hugging Face ภายใต้สิทธิ์การใช้งาน MIT

ข้อควรทราบเกี่ยวกับข้อจำกัดก่อนที่คุณจะเริ่มสร้าง: หน้าต่างบริบทคือ 1M โทเค็น (1,048,576) สำหรับผลลัพธ์สูงสุด เอกสารของ z.ai ระบุไว้สูงสุด 128K แต่ OpenRouter ไม่ได้เผยแพร่ตัวเลข ดังนั้นให้ถือว่าสูงสุด 128K ตามเอกสารของ z.ai (ตรวจสอบแบบสด) แทนที่จะเป็นการรับประกันที่แน่นอน

ขั้นตอนที่ 3: คำขอแรกของคุณด้วย curl

นี่คือการเรียก curl ของ glm-5.2 ขั้นต่ำสุด มันส่งข้อความผู้ใช้หนึ่งข้อความและพิมพ์การตอบกลับ JSON:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "system", "content": "You are a concise backend engineer."},
      {"role": "user", "content": "Write a SQL query that returns the 5 newest orders per customer."}
    ]
  }'

รูปแบบการตอบกลับตรงตามมาตรฐาน OpenAI: มี id, อาร์เรย์ choices ที่มีข้อความจากผู้ช่วย และออบเจกต์ usage ฟิลด์สุดท้ายนี้คือวิธีที่คุณใช้ติดตามค่าใช้จ่าย ซึ่งจะกล่าวถึงในตอนท้าย

ขั้นตอนที่ 4: เรียกใช้จาก Python ด้วย OpenAI SDK

เนื่องจาก API เข้ากันได้กับ OpenAI คุณจึงไม่จำเป็นต้องใช้ไคลเอ็นต์พิเศษ ติดตั้ง SDK มาตรฐานและชี้ base_url ไปที่ Z.ai นี่คือการตั้งค่า Python สำหรับ glm-5.2 แบบมาตรฐาน:

pip install openai

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["ZAI_API_KEY"],
    base_url="https://api.z.ai/api/paas/v4/",
)

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "system", "content": "You are a concise backend engineer."},
        {"role": "user", "content": "Explain idempotency keys in 3 sentences."},
    ],
)

print(resp.choices[0].message.content)

นั่นคือการเชื่อมต่อทั้งหมด ออบเจกต์ client ทำงานได้เหมือนกับที่ใช้กับ OpenAI ดังนั้นโค้ดช่วย, การลองใหม่ และการบันทึกที่มีอยู่จึงสามารถนำมาใช้ได้ทั้งหมด หากคุณต้องการสำรวจแพลตฟอร์มโดยละเอียดเพิ่มเติม ภาพรวม API ของ GLM-5 ครอบคลุมหลักการทั่วไปของตระกูลนี้

ขั้นตอนที่ 5: ควบคุมการให้เหตุผลด้วย thinking และ reasoning_effort

GLM-5.2 เป็นโมเดลการให้เหตุผล คุณสามารถเปิดหรือปิดการคิดภายในของมันได้ และเมื่อเปิดอยู่ คุณสามารถตั้งค่าความพยายามในการทำงานได้

ปิดการคิดเพื่อการตอบสนองที่รวดเร็ว ราคาถูก และมีความหน่วงต่ำ (การจำแนกประเภท การเขียนใหม่สั้นๆ การกำหนดเส้นทาง):

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Classify: 'my card was charged twice'"}],
    extra_body={"thinking": {"type": "disabled"}},
)

เปิดใช้งานการคิดและเพิ่มความพยายามเป็น Max สำหรับงานเขียนโค้ดและคณิตศาสตร์ที่ยาก Z.ai แนะนำ Max โดยเฉพาะสำหรับงานเขียนโค้ด:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Refactor this function to remove the N+1 query and explain the fix."},
    ],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "max",
    },
)

ตัวห่อหุ้ม extra_body คือวิธีที่ OpenAI Python SDK ส่งฟิลด์ที่ไม่ใช่มาตรฐานไปยัง Z.ai ในเนื้อหา curl ดิบ คุณจะวาง thinking และ reasoning_effort ไว้ที่ระดับบนสุดถัดจาก model ความพยายามสูงสุดจะใช้โทเค็นเอาต์พุตมากขึ้น (การให้เหตุผลนับรวม) ดังนั้นควรสงวนไว้สำหรับงานที่การกระโดดของคุณภาพคุ้มค่ากับค่าใช้จ่าย

ขั้นตอนที่ 6: สตรีมการตอบกลับ

สำหรับ UI แชทและการสร้างข้อความขนาดยาว ให้สตรีมโทเค็นเมื่อมาถึงแทนที่จะรอการเสร็จสมบูรณ์ทั้งหมด ตั้งค่า stream: true และวนซ้ำแต่ละส่วน:

stream = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Write a 200-word changelog entry for a rate-limit fix."}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

ใน curl ให้เพิ่ม "stream": true ในเนื้อหา และเซิร์ฟเวอร์จะส่งคืน Server-Sent Events โดยมีบรรทัด data: หนึ่งบรรทัดต่อส่วน จบด้วย data: [DONE] การสตรีมมิ่งไม่เปลี่ยนแปลงอะไรเกี่ยวกับราคา คุณยังคงจ่ายตามโทเค็น เพียงแต่คุณเห็นมันเร็วกว่า

ขั้นตอนที่ 7: การเรียกใช้ฟังก์ชันและเครื่องมือ

การเรียกใช้เครื่องมือเป็นจุดที่ความสามารถแบบ agentic ของ GLM-5.2 แสดงออกมา และได้คะแนน 77.0 บน MCP-Atlas ในผลลัพธ์ที่ Z.ai เผยแพร่ ซึ่งใกล้เคียงกับ Claude Opus 4.8 รูปแบบคือ OpenAI สองขั้นตอนมาตรฐาน: คุณอธิบายเครื่องมือ โมเดลจะส่งคำขอ tool_calls คุณรันฟังก์ชัน จากนั้นคุณป้อนผลลัพธ์กลับเข้าไป

นี่คือตัวอย่าง API ของ glm-5.2 ที่สมจริงขนาดเล็กพร้อมกับการค้นหาสภาพอากาศ:

import json

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current temperature for a city.",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "City name, e.g. Berlin"},
                    "unit": {"type": "string", "enum": ["c", "f"]},
                },
                "required": ["city"],
            },
        },
    }
]

messages = [{"role": "user", "content": "What's the weather in Berlin in celsius?"}]

first = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

call = first.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)

# You run the real function here. Stubbed for the example:
def get_weather(city, unit="c"):
    return {"city": city, "temp": 12, "unit": unit}

result = get_weather(**args)

# Append the assistant's tool call, then your tool's result.
messages.append(first.choices[0].message)
messages.append({
    "role": "tool",
    "tool_call_id": call.id,
    "content": json.dumps(result),
})

final = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

print(final.choices[0].message.content)

โมเดลจะตัดสินใจว่าจะเรียกใช้เครื่องมือเมื่อใด คุณดำเนินการ และคำขอที่สองจะช่วยให้ GLM-5.2 เปลี่ยนผลลัพธ์ดิบให้เป็นการตอบกลับที่เป็นธรรมชาติ วงจรเดียวกันนี้สามารถปรับขนาดไปใช้กับเครื่องมือหลายชิ้นและเฟรมเวิร์กของ agent ได้ ไม่มีอะไรในสัญญาที่เป็นเฉพาะของ Z.ai

การทดสอบวงจรนี้ด้วยตนเองจะน่าเบื่ออย่างรวดเร็ว นี่คือจุดที่ควรใช้ Apidog: คุณสามารถกำหนดปลายทาง GLM-5.2 ได้เพียงครั้งเดียว บันทึกเนื้อหาคำขอสำหรับแต่ละโหมดการคิด และเล่นซ้ำการเรียกใช้เครื่องมือได้โดยไม่ต้องเขียน curl ใหม่ทุกครั้ง มันจัดการสคีมาแบบ OpenAI และให้คุณตรวจสอบการตอบกลับที่สตรีมมิ่งได้ในที่เดียว

ขั้นตอนที่ 8: อ่านออบเจกต์การใช้งานสำหรับค่าใช้จ่าย

ทุกการตอบกลับที่ไม่ได้สตรีมมิ่งจะมีออบเจกต์ usage นี่คือแหล่งข้อมูลความจริงสำหรับการเรียกเก็บเงินของคุณ:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Summarize REST vs gRPC in 4 bullets."}],
)

u = resp.usage
print(u.prompt_tokens, u.completion_tokens, u.total_tokens)

ราคาของ GLM-5.2 อยู่ที่ $1.40 ต่อ 1 ล้านโทเค็นอินพุต และ $4.40 ต่อ 1 ล้านโทเค็นเอาต์พุต (ยืนยันโดย OpenRouter) อินพุตที่แคชไว้มีค่าใช้จ่ายประมาณ $0.26 ต่อ 1 ล้าน (ตาม VentureBeat ซึ่งอ้างอิงตัวเลขของพวกเขา) ดังนั้นการเรียกใช้ที่มีอินพุต 8,000 และเอาต์พุต 1,500 โทเค็นมีค่าใช้จ่ายโดยประมาณ:

(8000 / 1_000_000 * 1.40) + (1500 / 1_000_000 * 4.40)
= 0.0112 + 0.0066
= ประมาณ $0.0178

โทเค็นการให้เหตุผลจากความพยายามสูงสุดจะนับรวมในจำนวนเอาต์พุต ดังนั้นการเรียกใช้โค้ดด้วยความพยายามสูงสุดจะดูแพงกว่าการเรียกที่ปิดใช้งานการคิด VentureBeat รายงานว่า GLM-5.2 "ชนะ GPT-5.5 ในการเขียนโค้ดแบบ long-horizon ด้วยค่าใช้จ่ายประมาณ 1 ใน 6" ซึ่งเป็นข้อเสนอทางเศรษฐกิจที่อยู่เบื้องหลังตัวเลขเหล่านี้ (โดยอ้างสิทธิ์ถึง VentureBeat)

หากคุณต้องการใช้แผนแบบเหมาจ่ายแทนการเรียกใช้ API แบบคิดตามการใช้งาน Z.ai ยังจำหน่าย GLM Coding Plan แบบเป็นระดับ (Lite, Pro, Max, รวมทั้ง Team) ราคาที่แน่นอนอาจมีการเปลี่ยนแปลง ดังนั้น ณ เดือนมิถุนายน 2026 โปรดตรวจสอบระดับปัจจุบันที่ z.ai ก่อนตัดสินใจ สำหรับการเปรียบเทียบแบบตัวต่อตัวในส่วนของการคิดตามการใช้งาน รายละเอียดราคาของ GLM-5.2 จะลงลึกกว่า และ วิธีใช้ GLM-5.2 ฟรี ครอบคลุมเส้นทางของ local-weights

การใช้ GLM-5.2 ภายใน Claude Code

GLM-5.2 ยังมาพร้อมกับเส้นทางที่เข้ากันได้กับ Anthropic ดังนั้นคุณจึงสามารถขับเคลื่อนมันได้จาก Claude Code ชี้ base URL การเขียนโค้ดไปที่ https://api.z.ai/api/coding/paas/v4 (บางแหล่งอาจแสดง open.z.ai/api/paas/v4 ดังนั้นโปรดตรวจสอบแบบสด) จากนั้นตั้งค่าตัวแปรสภาพแวดล้อมเหล่านี้:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

ส่วนต่อท้าย [1m] จะเลือกตัวแปรบริบท 1M และ API_TIMEOUT_MS ที่ยาวมีความสำคัญ: หากไม่มีสิ่งนี้ Claude Code อาจยุติการเรียกใช้บริบทขนาดใหญ่ที่ยาวนานก่อนที่จะส่งคืนข้อมูล บทแนะนำแบบเต็มอยู่ในคู่มือของเราเกี่ยวกับการรัน GLM ด้วย Claude Code และหากคุณกำลังพิจารณาเครื่องมือต่างๆ Claude Code เทียบกับ Codex เทียบกับ Cursor เทียบกับ GLM Plan จะอธิบายถึงข้อดีข้อเสีย

GLM-5.2 เปรียบเทียบกับคู่แข่งอย่างไร

ข้อมูลอ้างอิงด่วนสำหรับค่าที่ขับเคลื่อนการตัดสินใจในการรวมระบบ:

คุณสมบัติ	GLM-5.2
รหัสโมเดล (API)	`glm-5.2`
สถาปัตยกรรม	~753B MoE, BF16, IndexShare sparse attention
หน้าต่างบริบท	1M โทเค็น (1,048,576)
เอาต์พุตสูงสุด	สูงสุด 128K ตามเอกสารของ z.ai (ตรวจสอบแบบสด)
โหมดการคิด	High / Max หรือปิดใช้งาน
ราคาอินพุต	$1.40 / 1M โทเค็น
ราคาเอาต์พุต	$4.40 / 1M โทเค็น
ใบอนุญาต	MIT, open weights

สำหรับรายละเอียดเกณฑ์มาตรฐาน ผลลัพธ์ที่ Z.ai เผยแพร่รวมถึง SWE-bench Pro 62.1 (GPT-5.5 58.6), Humanity’s Last Exam พร้อมเครื่องมือ 54.7 และ AIME 2026 99.2 สรุปเกณฑ์มาตรฐานของ GLM-5.2 อธิบายสิ่งเหล่านี้ และ GLM-5.2 เทียบกับ GPT-5.5, Claude Opus และ Gemini เปรียบเทียบเคียงข้างกัน

คำถามที่พบบ่อย

GLM-5.2 API เข้ากันได้กับ OpenAI จริงหรือ? ใช่ ชี้ base_url ของ OpenAI SDK ไปที่ https://api.z.ai/api/paas/v4/ และตั้งค่าโมเดลเป็น glm-5.2 โค้ดสำหรับการแชท การสตรีมมิ่ง และการเรียกใช้เครื่องมือมาตรฐานทำงานได้โดยไม่เปลี่ยนแปลง

รหัสโมเดล GLM-5.2 ที่ฉันควรส่งคืออะไร? ส่ง glm-5.2 ไปยัง API ของ Z.ai บน OpenRouter คือ z-ai/glm-5.2 บน Ollama คือ glm-5.2 และตัวแปร Claude Code คือ glm-5.2[1m] สำหรับหน้าต่างบริบท 1M

ฉันจะปิดการให้เหตุผลเพื่อความเร็วได้อย่างไร? ส่ง thinking: {"type": "disabled"} (ผ่าน extra_body ใน Python SDK) สำหรับงานเขียนโค้ดที่ยาก ให้เปิดใช้งานการคิดและตั้งค่า reasoning_effort: "max" ซึ่ง Z.ai แนะนำสำหรับโค้ด

GLM-5.2 มีค่าใช้จ่ายเท่าไหร่ต่อการเรียกใช้? $1.40 ต่อ 1 ล้านโทเค็นอินพุต และ $4.40 ต่อ 1 ล้านโทเค็นเอาต์พุต (ยืนยันโดย OpenRouter) อ่านออบเจกต์ usage ในแต่ละการตอบกลับเพื่อคำนวณค่าใช้จ่ายที่แน่นอน โปรดจำไว้ว่าโทเค็นการให้เหตุผลด้วยความพยายามสูงสุดจะนับเป็นเอาต์พุต

GLM-5.2 มีโมเดลวิชันหรือไม่? ยังไม่มีการยืนยันตัวแปรวิชัน ณ เดือนมิถุนายน 2026 API นี้รับข้อความเข้าและส่งข้อความออกเท่านั้น อย่าพึ่งพาอินพุตรูปภาพจนกว่า Z.ai จะมีเอกสารสนับสนุน

สรุป

API ของ GLM-5.2 เป็นก้าวสั้นๆ จากโค้ดเบสที่เข้ากันได้กับ OpenAI: เพียงแค่เปลี่ยน base URL, ส่ง glm-5.2 คุณก็จะได้โมเดลการเขียนโค้ดที่มีบริบท 1M, สิทธิ์การใช้งาน MIT พร้อมการให้เหตุผลที่ปรับแต่งได้ในราคาเอาต์พุต $4.40 ต่อ 1M โทเค็น เริ่มต้นด้วยการ ping ด้วย curl จากนั้นย้ายไปที่ Python SDK แล้วค่อยเพิ่มโหมดการคิดและการเรียกใช้เครื่องมือตามความต้องการใช้งานของคุณ

เมื่อคุณพร้อมที่จะทดสอบปลายทาง บันทึกตัวแปรคำขอ และตรวจสอบการเรียกใช้เครื่องมือโดยไม่ต้องเขียน curl ด้วยตนเองทุกครั้ง ดาวน์โหลด Apidog และเชื่อมต่อปลายทาง GLM-5.2 เพียงครั้งเดียว สำหรับภาพรวมที่ใหญ่ขึ้นของโมเดลเอง ดู GLM-5.2 คืออะไร และ การเปรียบเทียบ GLM-5.2 กับ GLM-5.1

ปุ่ม