GLM-5.2 料金体系:APIコスト、キャッシュ入力、GLMコーディングプランのティア(2026年)

GLM-5.2の料金説明:APIトークン100万あたり1.40ドル/4.40ドル、キャッシュされた入力は約0.26ドル、具体的な費用例、GLMコーディングプランの各ティア、そしてGPT-5.5より安いのか。

INEZA Felin-Michel

INEZA Felin-Michel

17 6月 2026

GLM-5.2 料金体系:APIコスト、キャッシュ入力、GLMコーディングプランのティア(2026年)

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

GLM-5.2は、最先端のコーディングモデルを低コストで実行する方法です。Z.ai (Zhipu AI) は、オープンウェイトでMITライセンス、1Mトークンのコンテキストウィンドウ、そして大手クローズド研究所のAPI料金を大幅に下回るAPI料金表を提供しています。このページでは、正確なトークンごとのAPIコスト、キャッシュ入力割引の仕組み、実際のコーディングセッションにおけるドル換算例、GLMコーディングプランのサブスクリプションティア、そしてGLM-5.2があなたの実際の作業方法においてGPT-5.5よりも安いかどうかの正直な評価について説明します。

数値の前に一点注意: AIの価格設定は急速に変化しており、一部のGLMコーディングプランのティアは二次情報源間で矛盾する場合があります。確定されていない数値はフラグが立てられています。フラグが立てられた数値は推定値として扱い、予算を確定する前にz.aiでライブ価格を確認してください。

button

GLM-5.2 APIコスト概要

従量課金制のAPI料金は、OpenRouterの公開リストで確認されているため、最も分かりやすい出発点です。

項目 価格 情報源
入力トークン $1.40 / 1M 確認済み (OpenRouter)
出力トークン $4.40 / 1M 確認済み (OpenRouter)
キャッシュ入力 ~$0.26 / 1M VentureBeat (引用)

したがって、GLM-5.2のトークンあたりの主要コストは、入力トークンあたり$0.0000014、出力トークンあたり$0.0000044となります。出力は入力の約3.1倍の価格であり、これは推論モデルにとって通常の傾向です。つまり、生成されるトークン(思考プロセスを含む)は、入力するトークンよりもコストがかかります。

1Mトークンあたり約$0.26のキャッシュ入力料金は、エージェントやチャットのワークロードに全てを変えるレバーであり、その詳細は以下の専用セクションで説明しています。この数値は、ベンダー提供の料金表ではなくVentureBeatの報告によるものですので、それに従って参照してください。

glm-5.2の無料OpenRouterレーンはありません。もしどこかで主張されているのを見ても、それは誤りです。独自のハードウェアコストでオープンウェイトを自分で実行することは可能ですが、それは別の種類の「無料」です。その方法については、GLM-5.2を無料で利用する方法の関連ガイド、および以前のGLM-5をローカルで無料で実行する方法の記事を参照してください。

キャッシュ入力割引の仕組み

プロンプトキャッシュは、GLM-5.2の料金表における最大のコスト制御であり、ほとんどの人がその恩恵を活用していません。

その仕組みは以下の通りです。長い安定したプレフィックス(システムプロンプト、コーディングエージェントのツール定義、繰り返し参照する大きなファイルなど)を繰り返し送信する場合、プロバイダーは処理されたプレフィックスをキャッシュできます。次回の呼び出しでは、キャッシュされた部分は、完全な入力料金(1Mあたり$1.40)ではなく、キャッシュ入力料金(1Mあたり約$0.26)で課金されます。これは、プロンプトの繰り返し部分に対して約81%の割引に相当します。

これが効果を発揮する場面:

2つの実用的なルールがあります。まず、再利用するコンテンツをプロンプトの先頭に、可変コンテンツを末尾に配置することです。キャッシュはプレフィックスをキーとして機能します。次に、キャッシュは期限切れになるため、割引は時間的に近い呼び出しに適用され、1時間に1回行うリクエストには適用されません。

思考を無効にすることによるコスト制御

GLM-5.2は、HighとMaxの2つの思考努力レベルを持つ推論モデルです。Z.aiはコーディングにMaxを推奨しています。しかし、思考トークンは出力トークンであり、出力は1Mあたり$4.40と高価な側です。思考が増えれば生成されるトークンが増え、請求額が大きくなります。

これには直接的なレバーがあります。APIでは、思考を完全に無効にすることができます:

{
  "model": "glm-5.2",
  "messages": [
    { "role": "user", "content": "Reformat this JSON and return it." }
  ],
  "thinking": { "type": "disabled" }
}

レベルを意図的に使い分けましょう:

タスクに合わせた努力レベルの選択は、同じプロンプトでも$4.40の出力料金が$1になるかどうかの違いを生みます。reasoning_effortとストリーミングを含む全パラメーターのリファレンスはGLM-5.2 APIガイドにあり、以前のGLM-5 APIウォークスルーでは、移行する場合に同じOpenAI互換の形式がカバーされています。

コスト計算例

抽象的なトークンあたりの料金は、実際の作業に当てはめてみないとあまり意味がありません。ここでは、確認された料金で計算された3つのセッション例を示します。

例1:単一の10万トークンコーディングセッション。 コンテキスト(リポジトリ、指示、ファイル内容)として10万トークンを読み込み、2万トークンのコードと推論を生成するエージェント型コーディングタスクを実行するとします。

例2:キャッシングを使用した同じセッション。 その10万入力トークンのうち8万トークンが安定したプレフィックス(システムプロンプト、ツール定義、変更されていないファイル)でキャッシュから提供され、2万トークンが新しいものだと仮定します。

安定したプレフィックスをキャッシュすることで、セッションコストを約40%削減でき、同じコンテキストに対してターンを重ねるほど節約効果は大きくなります。

例3:思考をオフにした抽出を行うチャットアシスタント。 サポートボットが1日あたり500件のメッセージを処理します。各呼び出しで2K入力トークンを送信し、300出力トークンを返します(思考は無効)。

これらは定価での推定値です。実際の請求額は、許容する思考の量と、キャッシュにヒットする入力の量によって異なります。

GLMコーディングプランのティア

毎日コーディングエージェントを使用する人にとっては、サブスクリプションパスの方が従量課金制のAPIコールよりも通常は安価です。Z.aiは、Anthropic互換のエンドポイントを通じてClaude Codeなどのツールに公開される、名前付きティア(Lite、Pro、Max、Team)のGLMコーディングプランを販売しています。

プランキーは、標準APIキーとは異なる資格情報です。GLM-5.2をClaude Codeに接続するには、コーディングエンドポイントを指し、[1m]モデルサフィックスを介して1Mコンテキストバリアントを選択します。

export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000

API_TIMEOUT_MSの値は重要です。長いタイムアウトを設定しないと、Claude CodeはGLM-5.2が完了する前に長い大規模コンテキストコールを終了させてしまう可能性があります。一部の情報源では、コーディングのベースURLがopen.z.ai/api/paas/v4と示されている場合もあるため、ライブで正確なホストを確認してください。ClineとCursorを含む完全なエージェントセットアップは、GLM-5.2コーディングエージェントガイドにあり、以前のGLM-5.1とClaude Codeの記事では、前世代と同じパターンがカバーされています。

GLM-5.2はGPT-5.5よりも安いですか?

はい、従量課金制のAPIでは、かなりの差で安いです。最も明確な表現はVentureBeatによるもので、GLM-5.2が「長期間のコーディングにおいてGPT-5.5を約1/6のコストで上回る」と報じました。この主張はVentureBeatのものであり、Apidogの測定値ではありません。また、ベンチマーク性能と価格がまとめられているため、トークンごとの比率ではなく、方向性を示す価値声明として読んでください。

料金表レベルでは、高レベルの比較は以下の通りです。GLM-5.2は1Mトークンあたり入力$1.40 / 出力$4.40でリストされています。OpenAI、Anthropic、Googleのクローズドなフロンティアモデルは、その最高の推論ティアでは一般的にそれよりもかなり高価であるため、「一部のコスト」という表現が繰り返し登場します。モデル間の速度とコストの詳細な内訳については、GLM-5とDeepSeekとGPT-5の速度とコスト、およびより広範なGLM-5.1とClaude、GPT、Gemini、DeepSeekの比較を参照してください。

サブスクリプションの比較はより微妙です。推定月額約80ドルの重いGLMコーディングプランティアは、他のベンダーの最も高価なシングルシートコーディングサブスクリプションとほぼ同等であるため、決定的な要因はタスクにおけるモデルの品質と、プランがどのように使用量を測定するかになります。プラン間の比較(GLMプランとClaude Code、Codex、Cursor、MiniMaxの比較)は、Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Planで詳しく説明されています。

ベンチマークに関する注意点:価値提案の動機となるローンチ結果(SWE-bench Pro 62.1、Terminal-Bench 2.1 (81.0)、MCP-Atlas 77.0)はZ.aiの公開結果です。完全なセットはGLM-5.2ベンチマークの詳細分析で、クローズドラボとの直接対決はGLM-5.2 vs GPT-5.5、Claude Opus、Geminiに記載されています。

どの価格パスを選ぶべきか?

簡単な意思決定ガイド:

どのパスを選択しても、2つのコストレバーは変わりません。安定したプレフィックスをキャッシュし、不要な作業には思考の努力を減らしてください。

コミットする前にGLM-5.2のコストをテストする

プランを選択する前に、実際のプロンプトにかかるコストと時間がどのくらいかを確認すると役立ちます。OpenAI互換のクライアントをGLM-5.2エンドポイントに接続し、呼び出しごとのトークン使用量を監視できます。Apidogは、APIの設計、デバッグ、テスト、ドキュメント作成のためのオールインワンAPIプラットフォームであり、https://api.z.ai/api/paas/v4/chat/completionsにリクエストを送信し、応答とトークン数を検査し、思考レベルやキャッシュ動作を比較しながら呼び出しを再利用可能なコレクションとして保存できるため、ここで役立ちます。Apidogをダウンロードして、実例を信頼するのではなく、自身のトラフィックに対して料金表をベンチマークしたい場合は利用してください。

button

要約すると、GLM-5.2の確認済みAPI料金(入力$1.40、出力$4.40)が基準となる数値です。プレフィックスをキャッシュし、思考の努力を管理し、コミットする前にGLMコーディングプランのティア価格をライブで確認してください。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる