GLM-5.2 เป็นวิธีที่ประหยัดในการรันโมเดลการเขียนโค้ดระดับแนวหน้า Z.ai (Zhipu AI) เปิดตัวโมเดลนี้พร้อมน้ำหนักโมเดลแบบเปิดภายใต้ใบอนุญาต MIT, หน้าต่างบริบทขนาด 1 ล้านโทเค็น, และตารางราคา API ที่ต่ำกว่าของห้องทดลองปิดขนาดใหญ่มาก หน้านี้คือหน้าข้อมูลสำคัญ คุณจะได้ทราบต้นทุน API ต่อโทเค็นที่แน่นอน, วิธีการทำงานของส่วนลดอินพุตที่แคชไว้, ตัวอย่างการคำนวณเป็นดอลลาร์สำหรับเซสชันการเขียนโค้ดจริง, ระดับการสมัครสมาชิก GLM Coding Plan, และการวิเคราะห์อย่างตรงไปตรงมาว่า GLM-5.2 คุ้มค่ากว่า GPT-5.5 สำหรับวิธีการทำงานของคุณจริงหรือไม่
ข้อควรทราบก่อนดูตัวเลข: ราคา AI เปลี่ยนแปลงอย่างรวดเร็ว และระดับ GLM Coding Plan บางอย่างอาจมีข้อมูลที่ขัดแย้งกันในแหล่งข้อมูลรอง หากตัวเลขใดไม่ได้รับการยืนยันอย่างแน่ชัด จะมีการระบุไว้ โปรดถือว่าตัวเลขที่ระบุเป็นค่าประมาณ และยืนยันราคาปัจจุบันที่ z.ai ก่อนที่คุณจะจัดสรรงบประมาณ
ภาพรวมค่าใช้จ่าย API ของ GLM-5.2
ราคา API แบบจ่ายตามการใช้งานจริงเป็นจุดเริ่มต้นที่ชัดเจนที่สุด เนื่องจากได้รับการยืนยันโดยรายการสาธารณะของ OpenRouter
| รายการ | ราคา | แหล่งที่มา |
|---|---|---|
| โทเค็นอินพุต | $1.40 / 1 ล้าน | ยืนยันแล้ว (OpenRouter) |
| โทเค็นเอาต์พุต | $4.40 / 1 ล้าน | ยืนยันแล้ว (OpenRouter) |
| อินพุตที่แคชไว้ | ~$0.26 / 1 ล้าน | VentureBeat (ระบุที่มา) |
ดังนั้น ค่าใช้จ่ายต่อโทเค็นของ GLM-5.2 โดยรวมจะอยู่ที่ $0.0000014 ต่อโทเค็นอินพุต และ $0.0000044 ต่อโทเค็นเอาต์พุต ค่าใช้จ่ายเอาต์พุตสูงกว่าอินพุตประมาณ 3.1 เท่า ซึ่งเป็นลักษณะปกติของโมเดลการใช้เหตุผล: โทเค็นที่สร้างขึ้น (รวมถึงร่องรอยการคิด) มีค่าใช้จ่ายมากกว่าโทเค็นที่คุณป้อนเข้าไป

อัตราอินพุตที่แคชไว้ที่ประมาณ $0.26 ต่อ 1 ล้านโทเค็นเป็นปัจจัยสำคัญที่เปลี่ยนแปลงทุกอย่างสำหรับปริมาณงานของเอเจนต์และการสนทนา และจะครอบคลุมในส่วนแยกต่างหากด้านล่าง ตัวเลขนี้มาจากการรายงานของ VentureBeat ไม่ใช่ตารางราคาจากผู้ให้บริการโดยตรง ดังนั้นโปรดระบุที่มาตามความเหมาะสม
ไม่มีช่องทาง OpenRouter ฟรีสำหรับ glm-5.2 หากคุณพบการอ้างสิทธิ์ดังกล่าวจากที่อื่น นั่นเป็นข้อมูลที่ผิด คุณสามารถรันน้ำหนักโมเดลแบบเปิดได้ด้วยตัวเองโดยใช้ค่าใช้จ่ายฮาร์ดแวร์ของคุณ ซึ่งเป็น "ฟรี" อีกรูปแบบหนึ่ง สำหรับเส้นทางนั้น โปรดดูคู่มือเสริมเกี่ยวกับ วิธีใช้ GLM-5.2 ฟรี และบทความก่อนหน้าเกี่ยวกับ การรัน GLM-5 บนเครื่องของคุณฟรี
ส่วนลดสำหรับอินพุตที่แคชไว้ทำงานอย่างไร
การแคชพร้อมท์เป็นวิธีควบคุมค่าใช้จ่ายที่ใหญ่ที่สุดในตารางราคาของ GLM-5.2 และคนส่วนใหญ่ยังไม่ได้ใช้ประโยชน์จากมัน
นี่คือกลไกการทำงาน เมื่อคุณส่งคำนำหน้ายาวๆ ที่ไม่เปลี่ยนแปลงซ้ำๆ (เช่น พร้อมท์ระบบ, คำจำกัดความเครื่องมือของตัวแทนเขียนโค้ด, ไฟล์ขนาดใหญ่ที่คุณอ้างอิงบ่อยๆ) ผู้ให้บริการสามารถแคชคำนำหน้าที่ประมวลผลแล้วได้ ในการเรียกใช้ครั้งถัดไป ส่วนที่แคชไว้จะถูกเรียกเก็บเงินในอัตราอินพุตที่แคชไว้ (~$0.26 / 1 ล้าน) แทนอัตราอินพุตเต็ม ($1.40 / 1 ล้าน) ซึ่งเป็นส่วนลดประมาณ 81% สำหรับส่วนที่ซ้ำกันของพร้อมท์ของคุณ
สิ่งนี้เป็นประโยชน์ที่ไหน:
- ตัวแทนเขียนโค้ด (Coding agents) เครื่องมืออย่าง Claude Code, Cline และ Cursor จะส่งคำนำหน้าขนาดใหญ่ที่เสถียรซ้ำๆ (คำแนะนำ, โครงสร้างเครื่องมือ, บริบทของรีโพ) ในทุกรอบ การแคชคำนำหน้านั้นช่วยลดค่าใช้จ่ายอินพุตต่อรอบได้อย่างมาก รายละเอียดการตั้งค่าอยู่ใน คู่มือ GLM-5.2 พร้อม Claude Code, Cline และ Cursor
- RAG และการถามตอบเอกสาร (Document Q&A) หากคุณถามคำถามหลายข้อจากเอกสารยาวๆ เดียวกัน ให้แคชเอกสารนั้นเพียงครั้งเดียว และจ่ายราคาเต็มสำหรับแต่ละคำถามสั้นๆ บวกกับคำตอบเท่านั้น
- การสนทนาที่ยาวนาน ประวัติการแชทที่เพิ่มขึ้นคือคำนำหน้าคงที่ที่เพิ่มขึ้น การแคชช่วยให้ค่าใช้จ่ายในการ "จดจำ" การสนทนาอยู่ในระดับต่ำ
กฎปฏิบัติสองข้อ ประการแรก ให้เก็บเนื้อหาที่ใช้ซ้ำไว้ที่ส่วนหน้าของพร้อมท์ และเนื้อหาที่เปลี่ยนแปลงได้ไว้ที่ส่วนท้าย; การแคชจะอ้างอิงจากคำนำหน้า ประการที่สอง แคชมีวันหมดอายุ ดังนั้นส่วนลดจะใช้กับการเรียกใช้ที่เกิดขึ้นใกล้เคียงกัน ไม่ใช่กับการร้องขอที่คุณทำชั่วโมงละครั้ง
การปิดการคิดเพื่อควบคุมค่าใช้จ่าย
GLM-5.2 เป็นโมเดลการใช้เหตุผลที่มีระดับความพยายามในการคิดสองระดับ คือ High และ Max Z.ai แนะนำ Max สำหรับการเขียนโค้ด แต่โทเค็นการคิดคือโทเค็นเอาต์พุต และเอาต์พุตเป็นส่วนที่แพงกว่าของบิลที่ $4.40 / 1 ล้าน การคิดที่มากขึ้นหมายถึงโทเค็นที่สร้างขึ้นมากขึ้น ซึ่งหมายถึงใบแจ้งหนี้ที่สูงขึ้น
คุณมีตัวควบคุมโดยตรงสำหรับสิ่งนี้ ใน API คุณสามารถปิดการคิดทั้งหมดได้:
{
"model": "glm-5.2",
"messages": [
{ "role": "user", "content": "Reformat this JSON and return it." }
],
"thinking": { "type": "disabled" }
}
ใช้ระดับต่างๆ อย่างรอบคอบ:
- ปิดการคิด (Thinking disabled) สำหรับงานง่ายๆ ที่เป็นเชิงกล: การจัดรูปแบบ, การดึงข้อมูล, การเขียนใหม่แบบง่าย, การจัดหมวดหมู่ คุณจะข้ามขั้นตอนการใช้เหตุผลและจ่ายเฉพาะค่าคำตอบสั้นๆ
- ความพยายามสูง (High effort) สำหรับการเขียนโค้ดและการวิเคราะห์ประจำวันที่คุณต้องการการใช้เหตุผลที่ดีโดยไม่ต้องใช้โทเค็นสูงสุด
- ความพยายามสูงสุด (Max effort) สำหรับการเขียนโค้ดและคณิตศาสตร์ที่ยากและมีขอบเขตยาวนาน ซึ่งการคิดพิเศษนั้นคุ้มค่ากับความถูกต้อง
การจับคู่ระดับความพยายามกับงานคือความแตกต่างระหว่างบิลเอาต์พุต $4.40 กับบิล $1 สำหรับพร้อมท์เดียวกัน เอกสารอ้างอิงพารามิเตอร์ฉบับเต็ม รวมถึง reasoning_effort และ streaming อยู่ใน คู่มือ API ของ GLM-5.2 และ คู่มือการใช้งาน API ของ GLM-5 ก่อนหน้านี้ครอบคลุมรูปแบบที่เข้ากันได้กับ OpenAI เดียวกัน หากคุณกำลังย้ายเวอร์ชันขึ้นไป
ตัวอย่างค่าใช้จ่ายที่คำนวณแล้ว
อัตราต่อโทเค็นที่เป็นนามธรรมจะไม่มีความหมายมากนักจนกว่าคุณจะนำไปประยุกต์ใช้กับงานจริง นี่คือสามเซสชันที่คิดราคาตามอัตราที่ยืนยันแล้ว
ตัวอย่างที่ 1: เซสชันการเขียนโค้ดแบบ 100K โทเค็นครั้งเดียว สมมติว่าคุณรันงานเขียนโค้ดแบบ agentic ที่อ่านบริบท 100K โทเค็น (repository, คำแนะนำ, เนื้อหาไฟล์ของคุณ) และสร้างโค้ดและการให้เหตุผล 20K โทเค็น
- อินพุต: 100,000 × $1.40 / 1,000,000 = $0.140
- เอาต์พุต: 20,000 × $4.40 / 1,000,000 = $0.088
- รวม: ~$0.23
ตัวอย่างที่ 2: เซสชันเดียวกันพร้อมการแคช ตอนนี้สมมติว่า 80K ของอินพุต 100K นั้นเป็นคำนำหน้าที่เสถียร (พร้อมท์ระบบ, คำจำกัดความเครื่องมือ, ไฟล์ที่ไม่เปลี่ยนแปลง) ที่มาจากแคช และ 20K เป็นข้อมูลใหม่
- อินพุตที่แคชไว้: 80,000 × $0.26 / 1,000,000 = $0.021
- อินพุตใหม่: 20,000 × $1.40 / 1,000,000 = $0.028
- เอาต์พุต: 20,000 × $4.40 / 1,000,000 = $0.088
- รวม: ~$0.14
การแคชคำนำหน้าที่เสถียรช่วยลดค่าใช้จ่ายเซสชันลงประมาณ 40% และการประหยัดจะเพิ่มขึ้นเมื่อคุณดำเนินการหลายรอบกับบริบทเดียวกัน
ตัวอย่างที่ 3: ผู้ช่วยแชทที่ทำการดึงข้อมูลโดยปิดการคิด บอทสนับสนุนประมวลผลข้อความ 500 ข้อความต่อวัน การเรียกแต่ละครั้งส่ง 2K โทเค็นอินพุต และส่งคืน 300 โทเค็นเอาต์พุต โดยปิดการคิด
- อินพุต: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
- เอาต์พุต: 500 × 300 × $4.40 / 1,000,000 = $0.66
- รวม: ~$2.06 / วัน ประมาณ $62 ต่อเดือนสำหรับปริมาณงาน 500 การเรียกต่อวัน
นี่คือประมาณการอัตราตามรายการ บิลจริงของคุณขึ้นอยู่กับปริมาณการคิดที่คุณอนุญาต และปริมาณอินพุตของคุณที่เข้าสู่แคช
ระดับ GLM Coding Plan
หากคุณทำงานอยู่กับตัวแทนเขียนโค้ดตลอดทั้งวัน การสมัครสมาชิกมักจะถูกกว่าการเรียก API แบบจ่ายตามการใช้งาน Z.ai เสนอ GLM Coding Plan ที่มีระดับชื่อต่างๆ (Lite, Pro, Max, รวมถึง Team) ซึ่งเปิดเผยต่อ Claude Code และเครื่องมือที่คล้ายกันผ่านเอนด์พอยต์ที่เข้ากันได้กับ Anthropic

คีย์แผนเป็นข้อมูลประจำตัวที่แตกต่างจากคีย์ API มาตรฐาน ในการเชื่อมต่อ GLM-5.2 เข้ากับ Claude Code คุณต้องชี้ไปที่เอนด์พอยต์การเขียนโค้ดและเลือกรุ่นบริบท 1 ล้านโทเค็นผ่านส่วนต่อท้ายโมเดล [1m]:
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
ค่า API_TIMEOUT_MS มีความสำคัญ หากไม่มีการตั้งค่า timeout ที่ยาวพอ Claude Code สามารถยกเลิกการเรียกใช้บริบทขนาดใหญ่ที่ยาวนานก่อนที่ GLM-5.2 จะเสร็จสิ้น แหล่งข้อมูลบางแห่งแสดง URL พื้นฐานของการเขียนโค้ดเป็น open.z.ai/api/paas/v4 แทน ดังนั้นโปรดตรวจสอบโฮสต์จริงให้แน่ใจ การตั้งค่า agent แบบเต็ม รวมถึง Cline และ Cursor อยู่ใน คู่มือ agent การเขียนโค้ด GLM-5.2 และ บทความ GLM-5.1 พร้อม Claude Code ก่อนหน้านี้ครอบคลุมรูปแบบเดียวกันสำหรับรุ่นก่อนหน้า
GLM-5.2 ถูกกว่า GPT-5.5 หรือไม่?
ใช่ สำหรับ API แบบคิดตามการใช้งาน และถูกกว่ามาก การอ้างอิงที่ชัดเจนที่สุดมาจาก VentureBeat ซึ่งรายงานว่า GLM-5.2 “เอาชนะ GPT-5.5 ในการเขียนโค้ดแบบ long-horizon ด้วยค่าใช้จ่ายประมาณ 1 ใน 6” การกล่าวอ้างนี้เป็นของ VentureBeat ไม่ใช่การวัดของ Apidog และเป็นการรวมประสิทธิภาพการทดสอบเข้ากับราคา ดังนั้นโปรดอ่านว่าเป็นคำแถลงทิศทางของมูลค่าไม่ใช่สัดส่วนต่อโทเค็น
ในระดับตารางราคา นี่คือการเปรียบเทียบในระดับสูง GLM-5.2 มีราคาอยู่ที่ $1.40 อินพุต / $4.40 เอาต์พุตต่อ 1 ล้านโทเค็น โมเดลแนวหน้าแบบปิดจาก OpenAI, Anthropic และ Google โดยทั่วไปจะมีราคาสูงกว่านั้นมากสำหรับระดับการใช้เหตุผลสูงสุด ซึ่งเป็นเหตุผลว่าทำไมวลี "เศษส่วนของค่าใช้จ่าย" จึงปรากฏขึ้นบ่อยครั้ง สำหรับรายละเอียดความเร็วและค่าใช้จ่ายแบบตัวเลขแรกของโมเดลต่างๆ โปรดดู GLM-5 เทียบกับ DeepSeek เทียบกับ GPT-5 ในด้านความเร็วและค่าใช้จ่าย และ การเปรียบเทียบ GLM-5.1 เทียบกับ Claude, GPT, Gemini และ DeepSeek ที่กว้างขึ้น
การเปรียบเทียบการสมัครสมาชิกมีความละเอียดอ่อนกว่า ระดับ GLM Coding Plan แบบหนักที่ประมาณ ~$80/เดือน มีราคาใกล้เคียงกับการสมัครสมาชิกการเขียนโค้ดแบบที่นั่งเดี่ยวที่แพงที่สุดจากผู้จำหน่ายรายอื่น ดังนั้นปัจจัยสำคัญจึงอยู่ที่คุณภาพของโมเดลสำหรับงานของคุณ และวิธีการที่แผนต่างๆ วัดการใช้งาน คำถามแผนเทียบแผน (GLM Plan เทียบกับ Claude Code, Codex, Cursor และ MiniMax) มีการอธิบายรายละเอียดใน Claude Code เทียบกับ Codex เทียบกับ Cursor เทียบกับ MiniMax Plan เทียบกับ GLM Plan
ข้อควรระวังหนึ่งข้อเกี่ยวกับเกณฑ์มาตรฐาน: ผลลัพธ์การเปิดตัวที่เป็นแรงผลักดันข้อเสนอคุณค่า (SWE-bench Pro 62.1, Terminal-Bench 2.1 ที่ 81.0, MCP-Atlas 77.0) เป็นผลลัพธ์ที่ Z.ai เผยแพร่ ชุดข้อมูลทั้งหมดถูกวิเคราะห์อย่างละเอียดใน การวิเคราะห์เชิงลึกเกณฑ์มาตรฐาน GLM-5.2 และการเปรียบเทียบตัวต่อตัวกับห้องทดลองปิดอยู่ใน GLM-5.2 เทียบกับ GPT-5.5, Claude Opus และ Gemini
คุณควรเลือกเส้นทางราคาใด?
คู่มือการตัดสินใจฉบับย่อ:
- การใช้งานแบบกระจัดกระจายหรือปริมาณน้อย: API แบบจ่ายตามการใช้งานจริง คุณจ่ายเฉพาะสิ่งที่คุณรัน และอัตราก็ต่ำพอที่จะทำให้การใช้งานเล็กน้อยยังคงราคาถูก
- การเขียนโค้ดตลอดทั้งวันในตัวแทน: ระดับ GLM Coding Plan ค่าใช้จ่ายรายเดือนที่คาดการณ์ได้จะดีกว่าการเรียกเก็บเงินตามการใช้งานเมื่อคุณทำการเรียกใช้หลายร้อยครั้งต่อวัน โปรดตรวจสอบราคาของระดับนั้นก่อน
- ความเป็นส่วนตัว, ออฟไลน์, หรือค่าใช้จ่ายส่วนเพิ่มเป็นศูนย์: โฮสต์น้ำหนักโมเดลแบบเปิดด้วยตัวเอง ไม่มีค่าใช้จ่ายต่อโทเค็นเลย เพียงแค่ใช้ทรัพยากรคอมพิวเตอร์ของคุณ เริ่มต้นด้วย การรัน GLM-5 บนเครื่องของคุณฟรี หรือ GLM-5 ฟรีด้วย Ollama
ไม่ว่าคุณจะเลือกเส้นทางใด ตัวควบคุมค่าใช้จ่ายสองประการยังคงเหมือนเดิม: แคชคำนำหน้าที่เสถียรของคุณ และลดความพยายามในการคิดลงสำหรับงานที่ไม่จำเป็นต้องใช้
การทดสอบค่าใช้จ่าย GLM-5.2 ก่อนตัดสินใจ
ก่อนที่คุณจะเลือกแผนใดๆ การได้เห็นว่าพร้อมท์จริงของคุณมีค่าใช้จ่ายเท่าไรและใช้เวลานานแค่ไหนจะเป็นประโยชน์ คุณสามารถชี้ไคลเอนต์ที่เข้ากันได้กับ OpenAI ไปยังเอนด์พอยต์ GLM-5.2 และดูการใช้โทเค็นต่อการเรียก Apidog มีประโยชน์ในที่นี้: เป็นแพลตฟอร์ม API แบบครบวงจรสำหรับการออกแบบ, ดีบัก, ทดสอบ, และจัดทำเอกสาร API ดังนั้นคุณจึงสามารถส่งคำขอไปยัง https://api.z.ai/api/paas/v4/chat/completions, ตรวจสอบการตอบกลับและจำนวนโทเค็น, และบันทึกการเรียกเหล่านั้นเป็นชุดที่นำกลับมาใช้ใหม่ได้ในขณะที่คุณเปรียบเทียบระดับการคิดและพฤติกรรมการแคช ดาวน์โหลด Apidog หากคุณต้องการเปรียบเทียบตารางราคากับปริมาณการใช้งานของคุณเอง แทนที่จะเชื่อตัวอย่างที่คำนวณไว้

สรุปสั้นๆ: อัตรา API ที่ยืนยันของ GLM-5.2 ที่ $1.40 สำหรับอินพุตและ $4.40 สำหรับเอาต์พุตคือตัวเลขที่คุณควรอ้างอิง แคชคำนำหน้าของคุณ, จัดการความพยายามในการคิด, และยืนยันราคาของ GLM Coding Plan แต่ละระดับแบบเรียลไทม์ก่อนที่คุณจะตัดสินใจ
