GLM-5.2 API Nasıl Kullanılır?

GLM-5.2 API, Z.ai’nin açık kaynak modeller arasında uzun vadeli kodlama kıyaslamalarında en yüksek puanı alan, yaklaşık 753B parametreli MoE modeline programatik erişim sağlar. Bu kılavuz uygulamalıdır. Bir API anahtarı alacak, ilk isteğinizi gönderecek, ardından Python, curl, düşünme modları, akış, araç çağırma ve maliyet takibi konularını ele alacaksınız; tüm bunları doğrudan terminale yapıştırabileceğiniz gerçek değerlerle yapacaksınız.

Önceki sürümden geliyorsanız, buradan başlayın.

button

GLM-5.1'den bu yana neler değişti?

GLM-5.2, 5.1 neslinin yerini alır. Zaten GLM-5.1 API'sine karşı entegrasyon kodu yazdıysanız, iletişim formatı aynıdır, bu nedenle çoğunlukla sadece model kimliğini değiştirmeniz yeterlidir. Bilinmesi gereken farklar şunlardır:

Yeni bir seyrek dikkat şeması. GLM-5.2, uzun bağlamda dikkat maliyetini azaltmak için her dört seyrek dikkat katmanında tek bir dizinleyiciyi yeniden kullanan "IndexShare"i tanıtır. Bir API kullanıcısı olarak buna dokunmazsınız; yalnızca 1M tokenlık pencerenin sunum maliyetini düşürür.
Agentic kodlamada gerçek bir sıçrama. Z.ai'nin yayınladığı sonuçlar, Terminal-Bench 2.1'i GLM-5.1'in 62.0'ından 81.0'e yükselttiğini gösteriyor. Bu, kodlama ajanları geliştiren herkes için öne çıkan istatistiktir.
İki düşünme-çaba seviyesi. GLM-5.2, Yüksek (High) ve Maksimum (Max) akıl yürütme çabasını sunar ve Z.ai, kodlama görevleri için Maksimum'u önerir. Bununla ilgili daha fazla bilgi aşağıda.

5.1 istek kodu zaten çalıştığı için, bu kılavuz bunu tekrar ele almaz. Buradaki her şey doğrudan `glm-5.2`'yi hedefler.

Adım 1: Bir GLM-5.2 API anahtarı alın

z.ai adresinden giriş yapın ve hesap panonuzun API anahtarları bölümünü açın. Bir anahtar oluşturun, bir kez kopyalayın (genellikle bir daha görüntüleyemezsiniz) ve kaynak koduna yapıştırmak yerine bir ortam değişkeninde saklayın:

export ZAI_API_KEY="your-glm-5.2-api-key"

glm-5.2 API anahtarınızı git'ten uzak tutun. Sızdırılan bir anahtar hesabınıza faturalandırılır ve GLM-5.2 çıktısı milyon token başına fiyatlandırıldığından, kontrolden çıkan bir betik gerçek paraya mal olur.

Adım 2: Uç noktayı ve base_url'yi öğrenin

GLM-5.2, OpenAI uyumlu glm-5.2'dir, bu da temel URL'yi yeniden hedeflediğinizde OpenAI Sohbet Tamamlamaları formatını konuşan herhangi bir istemcinin çalıştığı anlamına gelir. İhtiyacınız olan değerler:

Ayar	Değer
Sohbet tamamlama uç noktası	`https://api.z.ai/api/paas/v4/chat/completions`
Temel URL (SDK'lar için)	`https://api.z.ai/api/paas/v4/`
Model kimliği	`glm-5.2`
Kimlik doğrulama	`Authorization: Bearer $ZAI_API_KEY`

Z.ai'yi doğrudan çağırmak yerine OpenRouter üzerinden yönlendirmeyi tercih ederseniz, OpenRouter takma adı `z-ai/glm-5.2`'dir. Yerel çalıştırmalar için, Ollama ağırlıkları `glm-5.2` olarak yayınlar (Ollama kütüphanesine bakın) ve açık ağırlıklar MIT lisansı altında Hugging Face'te bulunur.

Geliştirmeden önce sınırlar hakkında bir not: bağlam penceresi 1M tokendır (1,048,576). Maksimum çıktı için, z.ai belgeleri 128K'ya kadar listeler, ancak OpenRouter bir sayı yayınlamaz, bu nedenle sabit bir garanti yerine z.ai belgelerine göre 128K'ya kadar (canlı olarak doğrulayın) olarak kabul edin.

Adım 3: curl ile ilk isteğiniz

İşte minimal bir glm-5.2 curl çağrısı. Tek bir kullanıcı mesajı gönderir ve JSON yanıtını yazdırır:

curl https://api.z.ai/api/paas/v4/chat/completions \
  -H "Authorization: Bearer $ZAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "glm-5.2",
    "messages": [
      {"role": "system", "content": "You are a concise backend engineer."},
      {"role": "user", "content": "Write a SQL query that returns the 5 newest orders per customer."}
    ]
  }'

Yanıt yapısı OpenAI standardına uyar: bir `id`, asistan mesajını içeren bir `choices` dizisi ve bir `usage` nesnesi. Bu son alan, maliyeti nasıl takip ettiğinizdir ve bu konuya sonda değinilmiştir.

Adım 4: OpenAI SDK ile Python'dan çağırın

API, OpenAI uyumlu olduğu için özel bir istemciye ihtiyacınız yoktur. Standart SDK'yı kurun ve `base_url`'yi Z.ai'ye yönlendirin. İşte kanonik glm-5.2 Python kurulumu:

pip install openai

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["ZAI_API_KEY"],
    base_url="https://api.z.ai/api/paas/v4/",
)

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "system", "content": "You are a concise backend engineer."},
        {"role": "user", "content": "Explain idempotency keys in 3 sentences."},
    ],
)

print(resp.choices[0].message.content)

Tüm entegrasyon bu kadar. `client` nesnesi, OpenAI'ye karşı davrandığı gibi davranır, bu nedenle mevcut yardımcı kodlar, yeniden denemeler ve günlük kaydı hepsi aktarılır. Platformun kendisi hakkında daha derin bir tur istiyorsanız, GLM-5 API genel bakışı aile genelindeki kuralları kapsar.

Adım 5: Düşünme ve `reasoning_effort` ile akıl yürütmeyi kontrol edin

GLM-5.2 bir akıl yürütme modelidir. İçsel düşünmesini açıp kapatabilir, açık olduğunda ise ne kadar yoğun çalışacağını ayarlayabilirsiniz.

Hızlı, ucuz, düşük gecikmeli yanıtlar (sınıflandırma, kısa yeniden yazımlar, yönlendirme) için düşünmeyi devre dışı bırakın:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Classify: 'my card was charged twice'"}],
    extra_body={"thinking": {"type": "disabled"}},
)

Zorlu kodlama ve matematik için düşünmeyi etkinleştirin ve çabayı Maksimum'a yükseltin. Z.ai, özellikle kodlama için Maksimum'u önerir:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[
        {"role": "user", "content": "Refactor this function to remove the N+1 query and explain the fix."},
    ],
    extra_body={
        "thinking": {"type": "enabled"},
        "reasoning_effort": "max",
    },
)

`extra_body` sarmalayıcısı, OpenAI Python SDK'sının standart dışı alanları Z.ai'ye nasıl ilettiğidir. Ham bir curl gövdesinde, `thinking` ve `reasoning_effort`'ı `model`'in yanında en üst seviyeye koyarsınız. Maksimum çaba daha fazla çıktı tokenı tüketir (akıl yürütme sayılır), bu yüzden bunu kalite sıçramasının kendi maliyetini karşıladığı görevler için ayırın.

Adım 6: Yanıtı akış olarak alın

Sohbet arayüzleri ve uzun üretimler için, tamamlama işleminin bitmesini beklemek yerine tokenları geldikçe akış olarak alın. `stream: true` ayarlayın ve parçalar üzerinde yineleyin:

stream = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Write a 200-word changelog entry for a rate-limit fix."}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

curl'de gövdeye `"stream": true` ekleyin ve sunucu, her bir parça için bir `data:` satırı içeren, `data: [DONE]` ile biten Sunucu Tarafından Gönderilen Olaylar'ı döndürür. Akış, fiyatlandırmayı değiştirmez; hala token başına ödeme yaparsınız, sadece onları daha erken görürsünüz.

Adım 7: Fonksiyon ve araç çağırma

Araç çağırma, GLM-5.2'nin ajans gücünün ortaya çıktığı yerdir ve Z.ai'nin yayınladığı sonuçlarda MCP-Atlas'ta 77.0 puan alarak Claude Opus 4.8'e yakın bir performans gösterir. Modelin çalışma şekli standart OpenAI iki adımlı yaklaşımına benzer: bir aracı tanımlarsınız, model bir `tool_calls` isteği döndürür, fonksiyonu çalıştırırsınız, ardından sonucu geri beslersiniz.

İşte hava durumu sorgulaması içeren küçük ve gerçekçi bir glm-5.2 API örneği:

import json

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get the current temperature for a city.",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {"type": "string", "description": "City name, e.g. Berlin"},
                    "unit": {"type": "string", "enum": ["c", "f"]},
                },
                "required": ["city"],
            },
        },
    }
]

messages = [{"role": "user", "content": "What's the weather in Berlin in celsius?"}]

first = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

call = first.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)

# You run the real function here. Stubbed for the example:
def get_weather(city, unit="c"):
    return {"city": city, "temp": 12, "unit": unit}

result = get_weather(**args)

# Append the assistant's tool call, then your tool's result.
messages.append(first.choices[0].message)
messages.append({
    "role": "tool",
    "tool_call_id": call.id,
    "content": json.dumps(result),
})

final = client.chat.completions.create(
    model="glm-5.2",
    messages=messages,
    tools=tools,
)

print(final.choices[0].message.content)

Model aracı ne zaman çağıracağına karar verir, siz onu çalıştırırsınız ve ikinci istek GLM-5.2'nin ham sonucu doğal bir yanıta dönüştürmesini sağlar. Aynı döngü, birden çok araca ve aracı çerçevelere ölçeklenebilir; sözleşmeyle ilgili hiçbir şey Z.ai'ye özel değildir.

Bu döngüyü elle test etmek hızla sıkıcı hale gelir. Burası Apidog kullanmak için iyi bir yerdir: GLM-5.2 uç noktasını bir kez tanımlayabilir, her düşünme modu için istek gövdelerini kaydedebilir ve her seferinde curl'ü yeniden yazmadan araç çağırma dönüşlerini tekrar oynatabilirsiniz. OpenAI tarzı şemayı yönetir ve akışlı yanıtları tek bir yerden incelemenizi sağlar.

Adım 8: Maliyet için `usage` nesnesini okuyun

Akışlı olmayan her yanıt bir `usage` nesnesi taşır. Bu, faturalandırma için doğru bilgi kaynağınızdır:

resp = client.chat.completions.create(
    model="glm-5.2",
    messages=[{"role": "user", "content": "Summarize REST vs gRPC in 4 bullets."}],
)

u = resp.usage
print(u.prompt_tokens, u.completion_tokens, u.total_tokens)

GLM-5.2 fiyatlandırması, 1M giriş tokenı başına 1.40 dolar ve 1M çıktı tokenı başına 4.40 dolardır (OpenRouter tarafından onaylandı). Önbelleğe alınmış giriş, 1M başına yaklaşık 0.26 dolardır (VentureBeat'e göre, kendi rakamlarına atıfta bulunarak). Yani, 8.000 giriş ve 1.500 çıktı tokenı olan bir çağrı yaklaşık olarak şuna mal olur:

(8000 / 1_000_000 * 1.40) + (1500 / 1_000_000 * 4.40)
= 0.0112 + 0.0066
= yaklaşık 0.0178 dolar

Maksimum çabadan kaynaklanan akıl yürütme tokenları çıktı sayısına dahil edilir, bu nedenle maksimum çaba gerektiren bir kodlama çağrısı, düşünme devre dışı olan bir çağrıdan daha pahalı olacaktır. VentureBeat, GLM-5.2'nin "uzun vadeli kodlamada GPT-5.5'i yaklaşık 1/6 maliyetle yendiğini" bildiriyor ki bu, bu rakamların arkasındaki ekonomik argümandır (iddia VentureBeat'e atfediliyor).

Ölçümlü API çağrıları yerine sabit ücretli bir plan kullanmayı tercih ederseniz, Z.ai ayrıca GLM Kodlama Planı katmanları (Lite, Pro, Max ve Team) satmaktadır. Kesin fiyatlandırma değişir, bu nedenle Haziran 2026 itibarıyla, taahhütte bulunmadan önce z.ai adresindeki güncel katmanları doğrulayın. Ölçümlü tarafta birebir karşılaştırma için, GLM-5.2 fiyatlandırma dökümü daha derinlemesine bilgi verir ve GLM-5.2'yi ücretsiz nasıl kullanacağınız yerel ağırlıklar rotasını kapsar.

GLM-5.2'yi Claude Code içinde kullanma

GLM-5.2 ayrıca Anthropic uyumlu bir yol sunar, böylece onu Claude Code'dan çalıştırabilirsiniz. Kodlama temel URL'sini `https://api.z.ai/api/coding/paas/v4` adresine yönlendirin (bazı kaynaklar `open.z.ai/api/paas/v4` gösterir, bu yüzden canlı olarak doğrulayın), ardından bu ortam değişkenlerini ayarlayın:

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

`[1m]` soneki 1M bağlam varyantını seçer ve uzun `API_TIMEOUT_MS` önemlidir: bu olmadan, Claude Code uzun, büyük bağlamlı çağrıları yanıt dönmeden önce sonlandırabilir. Tam kılavuz, GLM'yi Claude Code ile çalıştırma rehberimizde bulunur ve araçları karşılaştırıyorsanız, Claude Code vs Codex vs Cursor vs GLM Plan, takasları ortaya koyar.

GLM-5.2 nasıl bir performans sergiliyor?

Entegrasyon kararlarını yönlendiren değerler için hızlı referans:

Özellik	GLM-5.2
Model kimliği (API)	`glm-5.2`
Mimari	~753B MoE, BF16, IndexShare seyrek dikkat
Bağlam penceresi	1M token (1,048,576)
Maksimum çıktı	z.ai belgelerine göre 128K'ya kadar (canlı doğrulayın)
Düşünme modları	Yüksek (High) / Maksimum (Max), veya devre dışı
Giriş fiyatı	1M token başına 1.40 dolar
Çıktı fiyatı	1M token başına 4.40 dolar
Lisans	MIT, açık ağırlıklar

Kıyaslama detayları için, Z.ai'nin yayınladığı sonuçlar arasında SWE-bench Pro 62.1 (GPT-5.5 58.6), araçlarla Humanity’s Last Exam 54.7 ve AIME 2026 99.2 bulunmaktadır. GLM-5.2 kıyaslamaları özeti bunları detaylandırır ve GLM-5.2 vs GPT-5.5, Claude Opus ve Gemini bunları yan yana koyar.

Sıkça Sorulan Sorular

GLM-5.2 API gerçekten OpenAI uyumlu mu? Evet. OpenAI SDK'sının `base_url`'sini `https://api.z.ai/api/paas/v4/` adresine yönlendirin ve modeli `glm-5.2` olarak ayarlayın. Standart sohbet, akış ve araç çağırma kodu değişmeden çalışır.

Göndermem gereken GLM-5.2 model kimliği nedir? Z.ai API'sine `glm-5.2` gönderin. OpenRouter'da `z-ai/glm-5.2`, Ollama'da `glm-5.2` ve Claude Code varyantı 1M bağlam penceresi için `glm-5.2[1m]`'dir.

Hız için akıl yürütmeyi nasıl kapatırım? `thinking: {"type": "disabled"}` (Python SDK'sında `extra_body` aracılığıyla) gönderin. Zorlu kodlama görevleri için düşünmeyi etkinleştirin ve Z.ai'nin kod için önerdiği `reasoning_effort: "max"` olarak ayarlayın.

GLM-5.2 çağrı başına ne kadar maliyetlidir? 1M giriş tokenı başına 1.40 dolar ve 1M çıktı tokenı başına 4.40 dolar (OpenRouter onaylı). Kesin maliyeti hesaplamak için her yanıttaki `usage` nesnesini okuyun; unutmayın, maksimum çaba akıl yürütme tokenları çıktı olarak sayılır.

GLM-5.2'nin bir vizyon modeli var mı? Haziran 2026 itibarıyla onaylanmış bir vizyon varyantı yoktur. API, metin girişi, metin çıkışıdır. Z.ai desteği belgeleyene kadar görüntü girişlerine güvenmeyin.

Özet

GLM-5.2 API, OpenAI uyumlu herhangi bir kod tabanından kısa bir geçişle kullanılabilir: temel URL'yi değiştirin, `glm-5.2` gönderin ve 1M bağlamlı, MIT lisanslı, ayarlanabilir akıl yürütme özelliğine sahip, 1M token başına 4.40 dolar çıktı fiyatlı bir kodlama modeline sahip olursunuz. Bir curl ping ile başlayın, Python SDK'sına geçin, ardından kullanım durumunuz gerektirdikçe düşünme modlarını ve araç çağırmayı ekleyin.

Uç noktaları test etmeye, istek varyantlarını kaydetmeye ve her seferinde curl'ü elle yazmadan araç çağırma dönüşlerini incelemeye hazır olduğunuzda, Apidog'u indirin ve GLM-5.2 uç noktasını bir kez yapılandırın. Modelin kendisi hakkında daha geniş bir bakış açısı için, GLM-5.2'nin ne olduğunu ve GLM-5.2 vs GLM-5.1 karşılaştırmasını inceleyin.

button