كيف تستخدم API GLM-5.2؟

يمنحك واجهة برمجة تطبيقات GLM-5.2 وصولاً برمجيًا إلى أحدث نموذج رئيسي مفتوح الأوزان من Z.ai، وهو نموذج MoE يضم حوالي 753 مليار معلمة، ويحقق أعلى الدرجات بين النماذج مفتوحة المصدر في معايير البرمجة طويلة الأفق. هذا الدليل عملي؛ تحصل على مفتاح API، وتُجري أول طلب لك، ثم تنتقل إلى استخدام Python، وcurl، وأنماط التفكير، والتدفق، واستدعاء الأدوات، وتتبع التكلفة، وكل ذلك بقيم حقيقية يمكنك لصقها في سطر الأوامر.

إذا كنت قادمًا من الإصدار السابق، ابدأ من هنا.

button

ما الذي تغير منذ GLM-5.1

يحل GLM-5.2 محل جيل 5.1. إذا كنت قد كتبت بالفعل رمز تكامل لواجهة GLM-5.1 API، فإن تنسيق الاتصال هو نفسه، لذا فإنك تقوم في الغالب بتبديل معرف النموذج فقط. الاختلافات الجديرة بالمعرفة هي:

مخطط اهتمام متفرق جديد. يقدم GLM-5.2 "IndexShare"، الذي يعيد استخدام مُفهرس واحد عبر كل أربع طبقات اهتمام متفرقة لخفض تكلفة الاهتمام في السياقات الطويلة. لا تلمسه كمستخدم لواجهة برمجة التطبيقات؛ إنه فقط يجعل نافذة الـ 1M رمز أرخص في الخدمة.
قفزة حقيقية في البرمجة بالوكالة. تضع النتائج المنشورة من Z.ai معيار Terminal-Bench 2.1 عند 81.0، ارتفاعًا من 62.0 لـ GLM-5.1. وهذا هو الإحصاء الرئيسي لأي شخص يقوم ببناء وكلاء برمجة.
مستويان من جهد التفكير. يكشف GLM-5.2 عن مستويي جهد استدلال "High" و "Max"، وتوصي Z.ai باستخدام "Max" لمهام البرمجة. المزيد عن ذلك أدناه.

نظرًا لأن رمز طلب 5.1 يعمل بالفعل، فإن هذا الدليل لا يعيد شرحه. كل ما هنا يستهدف glm-5.2 مباشرة.

الخطوة 1: الحصول على مفتاح API لـ GLM-5.2

قم بتسجيل الدخول إلى z.ai وافتح قسم مفاتيح API في لوحة تحكم حسابك. أنشئ مفتاحًا، وانسخه مرة واحدة (لا يمكنك عادةً رؤيته مرة أخرى)، وقم بتخزينه في متغير بيئة بدلاً من لصقه في الكود المصدري:

export ZAI_API_KEY="your-glm-5.2-api-key"

احتفظ بمفتاح API لـ glm-5.2 بعيدًا عن git. يؤدي تسريب المفتاح إلى تكبد فواتير على حسابك، ويتم تسعير مخرجات GLM-5.2 لكل مليون رمز، لذا فإن أي نص برمجي جامح سيكلف أموالًا حقيقية.

الخطوة 2: معرفة نقطة النهاية و base_url

يتوافق GLM-5.2 مع glm-5.2 openai، مما يعني أن أي عميل يتحدث تنسيق OpenAI Chat Completions سيعمل بمجرد إعادة توجيه عنوان URL الأساسي. القيم التي تحتاجها:

الإعداد	القيمة
نقطة نهاية إكمال الدردشة	`https://api.z.ai/api/paas/v4/chat/completions`
عنوان URL الأساسي (لأدوات تطوير البرمجيات)	`https://api.z.ai/api/paas/v4/`
معرف النموذج	`glm-5.2`
المصادقة	`Authorization: Bearer $ZAI_API_KEY`

اسم OpenRouter المستعار هو z-ai/glm-5.2 إذا كنت تفضل التوجيه عبر OpenRouter بدلاً من استدعاء Z.ai مباشرةً. بالنسبة للتشغيل المحلي، تنشر Ollama الأوزان باسم glm-5.2 (انظر مكتبة Ollama)، وتتوفر الأوزان المفتوحة على Hugging Face بموجب ترخيص MIT.

ملاحظة حول الحدود قبل البناء: نافذة السياق هي 1M رمز (1,048,576). للحد الأقصى للإخراج، تسرد وثائق z.ai ما يصل إلى 128K، لكن OpenRouter لا ينشر رقمًا، لذا تعامل معها على أنها تصل إلى 128K وفقًا لوثائق z.ai (تحقق مباشرة) بدلاً من ضمان ثابت.

الخطوة 3: طلبك الأول باستخدام curl

إليك استدعاء curl بسيط لـ glm-5.2. يرسل رسالة مستخدم واحدة ويطبع استجابة JSON:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "system", "content": "You are a concise backend engineer."},
      {"role": "user", "content": "Write a SQL query that returns the 5 newest orders per customer."}
    ]
  }'

يتطابق شكل الاستجابة مع معيار OpenAI: id، ومصفوفة choices تحتوي على رسالة المساعد، وكائن usage. هذا الحقل الأخير هو كيفية تتبع التكلفة، وسيتم تغطيته في النهاية.

الخطوة 4: استدعاؤه من Python باستخدام OpenAI SDK

نظرًا لتوافق واجهة برمجة التطبيقات مع OpenAI، لا تحتاج إلى عميل خاص. قم بتثبيت SDK القياسي ووجه base_url إلى Z.ai. هذا هو الإعداد الأساسي لـ glm-5.2 في Python:

pip install openai

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["ZAI_API_KEY"],
    base_url="https://api.z.ai/api/paas/v4/",
)

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "system", "content": "You are a concise backend engineer."},
        {"role": "user", "content": "Explain idempotency keys in 3 sentences."},
    ],
)

print(resp.choices[0].message.content)

هذا هو التكامل كله. يتصرف كائن client تمامًا كما يتصرف مع OpenAI، لذا فإن التعليمات البرمجية المساعدة الحالية، وإعادة المحاولات، والتسجيل كلها تنتقل. إذا كنت ترغب في جولة أعمق للمنصة نفسها، فإن نظرة عامة على واجهة برمجة تطبيقات GLM-5 تغطي الاتفاقيات الخاصة بالعائلة بأكملها.

الخطوة 5: التحكم في الاستدلال باستخدام التفكير وجهد الاستدلال (thinking و reasoning_effort)

GLM-5.2 هو نموذج استدلال. يمكنك تشغيل تفكيره الداخلي أو إيقافه، وعندما يكون قيد التشغيل، يمكنك تحديد مدى صعوبة عمله.

قم بتعطيل التفكير للحصول على استجابات سريعة، رخيصة، منخفضة زمن الاستجابة (التصنيف، إعادة الكتابة القصيرة، التوجيه):

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Classify: 'my card was charged twice'"}],
    extra_body={"thinking": {"type": "disabled"}},
)

قم بتمكين التفكير وادفع الجهد إلى "Max" لمهام البرمجة والرياضيات الصعبة. توصي Z.ai باستخدام "Max" خصيصًا لمهام البرمجة:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Refactor this function to remove the N+1 query and explain the fix."},
    ],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "max",
    },
)

غلاف extra_body هو كيفية تمرير OpenAI Python SDK للحقول غير القياسية إلى Z.ai. في نص curl خام، ستضع thinking و reasoning_effort في المستوى الأعلى بجوار model. يستهلك الجهد الأقصى المزيد من رموز الإخراج (تُحسب الاستدلال)، لذا احتفظ به للمهام التي تستحق فيها قفزة الجودة تكلفتها.

الخطوة 6: بث الاستجابة

بالنسبة لواجهات المستخدم للدردشة والتوليدات الطويلة، قم ببث الرموز عند وصولها بدلاً من انتظار الاكتمال الكامل. قم بتعيين stream: true وكرر الحزم:

stream = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Write a 200-word changelog entry for a rate-limit fix."}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

في curl، أضف "stream": true إلى النص وسيقوم الخادم بإرجاع أحداث مرسلة من الخادم (Server-Sent Events)، سطر data: واحد لكل جزء، وينتهي بـ data: [DONE]. لا يغير البث شيئًا في التسعير؛ لا تزال تدفع لكل رمز، ولكنك تراها بشكل أسرع.

الخطوة 7: استدعاء الدالة والأداة

يظهر قوة GLM-5.2 كوكيل في استدعاء الأدوات، حيث يسجل 77.0 على MCP-Atlas في النتائج المنشورة من Z.ai، وهو قريب من Claude Opus 4.8. النمط هو خطوتان قياسيتان من OpenAI: تصف أداة، يعيد النموذج طلب tool_calls، تقوم بتشغيل الدالة، ثم تعيد النتيجة.

إليك مثال واقعي صغير لواجهة برمجة تطبيقات glm-5.2 مع بحث عن الطقس:

import json

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current temperature for a city.",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "City name, e.g. Berlin"},
                    "unit": {"type": "string", "enum": ["c", "f"]},
                },
                "required": ["city"],
            },
        },
    }
]

messages = [{"role": "user", "content": "What's the weather in Berlin in celsius?"}]

first = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

call = first.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)

# You run the real function here. Stubbed for the example:
def get_weather(city, unit="c"):
    return {"city": city, "temp": 12, "unit": unit}

result = get_weather(**args)

# Append the assistant's tool call, then your tool's result.
messages.append(first.choices[0].message)
messages.append({
    "role": "tool",
    "tool_call_id": call.id,
    "content": json.dumps(result),
})

final = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

print(final.choices[0].message.content)

يقرر النموذج متى يستدعي الأداة، وتقوم أنت بتنفيذها، ويسمح الطلب الثاني لـ GLM-5.2 بتحويل النتيجة الخام إلى إجابة طبيعية. يتسع نفس التكرار ليشمل أدوات متعددة وإطارات عمل الوكلاء؛ لا شيء في العقد خاص بـ Z.ai.

يصبح اختبار هذه الحلقة يدويًا مملًا بسرعة. هذا مكان جيد لاستخدام Apidog: يمكنك تعريف نقطة نهاية GLM-5.2 مرة واحدة، وحفظ هيئات الطلبات لكل وضع تفكير، وإعادة تشغيل جولات استدعاء الأدوات دون إعادة كتابة curl في كل مرة. يتعامل مع مخطط نمط OpenAI ويسمح لك بفحص الاستجابات المتدفقة في مكان واحد.

الخطوة 8: قراءة كائن الاستخدام لتتبع التكلفة

كل استجابة غير متدفقة تحمل كائن usage. هذا هو مصدر الحقيقة لديك للفواتير:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Summarize REST vs gRPC in 4 bullets."}],
)

u = resp.usage
print(u.prompt_tokens, u.completion_tokens, u.total_tokens)

تسعيرة GLM-5.2 هي 1.40 دولار لكل مليون رمز إدخال و 4.40 دولار لكل مليون رمز إخراج (تم التأكيد بواسطة OpenRouter). تكلفة الإدخال المخزن مؤقتًا حوالي 0.26 دولار لكل مليون (وفقًا لـ VentureBeat، مع إسناد الرقم إليها). لذا فإن المكالمة التي تحتوي على 8,000 رمز إدخال و 1,500 رمز إخراج تكلف تقريبًا:

(8000 / 1_000_000 * 1.40) + (1500 / 1_000_000 * 4.40)
= 0.0112 + 0.0066
= حوالي 0.0178 دولار

تُحسب رموز الاستدلال من جهد "Max" ضمن عدد الإخراج، لذا فإن مكالمة البرمجة بجهد "Max" ستبدو أغلى من تلك التي تم تعطيل التفكير فيها. أفادت VentureBeat أن GLM-5.2 "يتفوق على GPT-5.5 في البرمجة طويلة الأمد بحوالي 1/6 التكلفة"، وهذا هو الجانب الاقتصادي وراء هذه الأرقام (مع إسناد الادعاء إلى VentureBeat).

إذا كنت تفضل استخدام خطة ذات سعر ثابت بدلاً من مكالمات API المدفوعة بالاستخدام، تبيع Z.ai أيضًا مستويات خطة ترميز GLM (Lite، Pro، Max، بالإضافة إلى Team). تتغير الأسعار الدقيقة، لذلك اعتبارًا من يونيو 2026، تحقق من المستويات الحالية على z.ai قبل الالتزام. للحصول على مقارنة مباشرة للجانب المدفوع بالاستخدام، يقدم تفصيل تسعير GLM-5.2 معلومات أعمق، و كيفية استخدام GLM-5.2 مجانًا يغطي مسار الأوزان المحلية.

استخدام GLM-5.2 داخل Claude Code

يشحن GLM-5.2 أيضًا مسارًا متوافقًا مع Anthropic، بحيث يمكنك تشغيله من Claude Code. وجه عنوان URL الأساسي للترميز إلى https://api.z.ai/api/coding/paas/v4 (تُظهر بعض المصادر open.z.ai/api/paas/v4، لذا تحقق مباشرة)، ثم قم بتعيين متغيرات البيئة هذه:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

لاحقة [1m] تحدد المتغير ذو سياق 1M، و API_TIMEOUT_MS الطويل مهم: بدونه، يمكن لـ Claude Code قتل مكالمات السياق الكبيرة الطويلة قبل أن تعود. الدليل الكامل موجود في دليلنا حول تشغيل GLM مع Claude Code، وإذا كنت تقارن الأدوات، فإن Claude Code vs Codex vs Cursor vs GLM Plan يوضح المقايضات.

كيف يتفوق GLM-5.2

مرجع سريع للقيم التي تدفع قرارات التكامل:

الخاصية	GLM-5.2
معرف النموذج (API)	`glm-5.2`
الهندسة المعمارية	~753B MoE، BF16، IndexShare اهتمام متفرق
نافذة السياق	1M رمز (1,048,576)
الحد الأقصى للإخراج	يصل إلى 128K وفقًا لوثائق z.ai (تحقق مباشرة)
أوضاع التفكير	High / Max، أو معطل
سعر الإدخال	1.40 دولار / 1 مليون رمز
سعر الإخراج	4.40 دولار / 1 مليون رمز
الترخيص	MIT، أوزان مفتوحة

للحصول على تفاصيل المعايير، تتضمن النتائج المنشورة لـ Z.ai SWE-bench Pro 62.1 (GPT-5.5 58.6)، Humanity’s Last Exam with tools 54.7، و AIME 2026 99.2. يقدم ملخص معايير GLM-5.2 تفصيلاً لهذه الأرقام، و GLM-5.2 مقابل GPT-5.5، Claude Opus، و Gemini يضعها جنبًا إلى جنب.

الأسئلة الشائعة

هل واجهة برمجة تطبيقات GLM-5.2 متوافقة حقًا مع OpenAI؟ نعم. وجه base_url في OpenAI SDK إلى https://api.z.ai/api/paas/v4/ وقم بتعيين النموذج إلى glm-5.2. يعمل الدردشة القياسية، والبث، ورمز استدعاء الأدوات دون تغيير.

ما هو معرف نموذج GLM-5.2 الذي يجب أن أرسله؟ أرسل glm-5.2 إلى واجهة برمجة تطبيقات Z.ai. على OpenRouter هو z-ai/glm-5.2، وعلى Ollama هو glm-5.2، ومتغير Claude Code هو glm-5.2[1m] لنافذة سياق 1M.

كيف أقوم بإيقاف التفكير لزيادة السرعة؟ مرر thinking: {"type": "disabled"} (عبر extra_body في Python SDK). لمهام البرمجة الصعبة، قم بتمكين التفكير واضبط reasoning_effort: "max"، وهو ما توصي به Z.ai للتعليمات البرمجية.

كم تكلفة GLM-5.2 لكل مكالمة؟ 1.40 دولار لكل مليون رمز إدخال و 4.40 دولار لكل مليون رمز إخراج (تم التأكيد بواسطة OpenRouter). اقرأ كائن usage في كل استجابة لحساب التكلفة الدقيقة؛ تذكر أن رموز الاستدلال بجهد "Max" تُحسب كإخراج.

هل يمتلك GLM-5.2 نموذج رؤية؟ لا يوجد إصدار مؤكد للرؤية اعتبارًا من يونيو 2026. واجهة برمجة التطبيقات هي نص إدخال، نص إخراج. لا تعتمد على المدخلات المرئية حتى توثق Z.ai دعمها.

خاتمة

تُعد واجهة برمجة تطبيقات GLM-5.2 خطوة قصيرة من أي قاعدة أكواد متوافقة مع OpenAI: قم بتبديل عنوان URL الأساسي، وأرسل glm-5.2، وستحصل على نموذج برمجة مرخص بموجب MIT بسياق 1M، مع استدلال قابل للتعديل بسعر إخراج قدره 4.40 دولار لكل مليون رمز. ابدأ باختبار curl، ثم انتقل إلى Python SDK، ثم أضف أنماط التفكير واستدعاء الأدوات حسب متطلبات حالة الاستخدام الخاصة بك.

عندما تكون مستعدًا لاختبار نقاط النهاية، وحفظ متغيرات الطلبات، وفحص جولات استدعاء الأدوات دون الحاجة إلى كتابة أوامر curl يدويًا في كل مرة، قم بتنزيل Apidog وقم بتوصيل نقطة نهاية GLM-5.2 مرة واحدة. للحصول على صورة أكبر عن النموذج نفسه، راجع ما هو GLM-5.2 و مقارنة GLM-5.2 مقابل GLM-5.1.

button