GLM-5.2は、最先端のコーディングモデルを低コストで実行する方法です。Z.ai (Zhipu AI) は、オープンウェイトでMITライセンス、1Mトークンのコンテキストウィンドウ、そして大手クローズド研究所のAPI料金を大幅に下回るAPI料金表を提供しています。このページでは、正確なトークンごとのAPIコスト、キャッシュ入力割引の仕組み、実際のコーディングセッションにおけるドル換算例、GLMコーディングプランのサブスクリプションティア、そしてGLM-5.2があなたの実際の作業方法においてGPT-5.5よりも安いかどうかの正直な評価について説明します。
数値の前に一点注意: AIの価格設定は急速に変化しており、一部のGLMコーディングプランのティアは二次情報源間で矛盾する場合があります。確定されていない数値はフラグが立てられています。フラグが立てられた数値は推定値として扱い、予算を確定する前にz.aiでライブ価格を確認してください。
GLM-5.2 APIコスト概要
従量課金制のAPI料金は、OpenRouterの公開リストで確認されているため、最も分かりやすい出発点です。
| 項目 | 価格 | 情報源 |
|---|---|---|
| 入力トークン | $1.40 / 1M | 確認済み (OpenRouter) |
| 出力トークン | $4.40 / 1M | 確認済み (OpenRouter) |
| キャッシュ入力 | ~$0.26 / 1M | VentureBeat (引用) |
したがって、GLM-5.2のトークンあたりの主要コストは、入力トークンあたり$0.0000014、出力トークンあたり$0.0000044となります。出力は入力の約3.1倍の価格であり、これは推論モデルにとって通常の傾向です。つまり、生成されるトークン(思考プロセスを含む)は、入力するトークンよりもコストがかかります。

1Mトークンあたり約$0.26のキャッシュ入力料金は、エージェントやチャットのワークロードに全てを変えるレバーであり、その詳細は以下の専用セクションで説明しています。この数値は、ベンダー提供の料金表ではなくVentureBeatの報告によるものですので、それに従って参照してください。
glm-5.2の無料OpenRouterレーンはありません。もしどこかで主張されているのを見ても、それは誤りです。独自のハードウェアコストでオープンウェイトを自分で実行することは可能ですが、それは別の種類の「無料」です。その方法については、GLM-5.2を無料で利用する方法の関連ガイド、および以前のGLM-5をローカルで無料で実行する方法の記事を参照してください。
キャッシュ入力割引の仕組み
プロンプトキャッシュは、GLM-5.2の料金表における最大のコスト制御であり、ほとんどの人がその恩恵を活用していません。
その仕組みは以下の通りです。長い安定したプレフィックス(システムプロンプト、コーディングエージェントのツール定義、繰り返し参照する大きなファイルなど)を繰り返し送信する場合、プロバイダーは処理されたプレフィックスをキャッシュできます。次回の呼び出しでは、キャッシュされた部分は、完全な入力料金(1Mあたり$1.40)ではなく、キャッシュ入力料金(1Mあたり約$0.26)で課金されます。これは、プロンプトの繰り返し部分に対して約81%の割引に相当します。
これが効果を発揮する場面:
- コーディングエージェント。 Claude Code、Cline、Cursorなどのツールは、大きな安定したプレアンブル(指示、ツールスキーマ、リポジトリコンテキスト)をターンごとに再送信します。このプレアンブルをキャッシュすることで、ターンごとの入力料金を劇的に削減できます。セットアップの詳細はClaude Code、Cline、CursorとのGLM-5.2ガイドに記載されています。
- RAGおよびドキュメントQ&A。 同じ長いドキュメントに対して多くの質問をする場合、ドキュメントを一度キャッシュすれば、その後の短い質問と回答に対してのみ完全な料金を支払います。
- 長い会話。 増加するチャット履歴は、安定したプレフィックスの成長です。キャッシングは、会話を「記憶する」コストを低く抑えます。
2つの実用的なルールがあります。まず、再利用するコンテンツをプロンプトの先頭に、可変コンテンツを末尾に配置することです。キャッシュはプレフィックスをキーとして機能します。次に、キャッシュは期限切れになるため、割引は時間的に近い呼び出しに適用され、1時間に1回行うリクエストには適用されません。
思考を無効にすることによるコスト制御
GLM-5.2は、HighとMaxの2つの思考努力レベルを持つ推論モデルです。Z.aiはコーディングにMaxを推奨しています。しかし、思考トークンは出力トークンであり、出力は1Mあたり$4.40と高価な側です。思考が増えれば生成されるトークンが増え、請求額が大きくなります。
これには直接的なレバーがあります。APIでは、思考を完全に無効にすることができます:
{
"model": "glm-5.2",
"messages": [
{ "role": "user", "content": "Reformat this JSON and return it." }
],
"thinking": { "type": "disabled" }
}
レベルを意図的に使い分けましょう:
- 思考無効:フォーマット、抽出、単純な書き換え、分類など、安価で機械的な作業向け。推論の痕跡をスキップし、短い回答に対してのみ料金を支払います。
- 高努力:最大限のトークン消費なしに適切な推論が必要な日常のコーディングや分析向け。
- 最大努力:精度という点で追加の思考が実際にコストに見合う、困難で長期的なコーディングや数学向け。
タスクに合わせた努力レベルの選択は、同じプロンプトでも$4.40の出力料金が$1になるかどうかの違いを生みます。reasoning_effortとストリーミングを含む全パラメーターのリファレンスはGLM-5.2 APIガイドにあり、以前のGLM-5 APIウォークスルーでは、移行する場合に同じOpenAI互換の形式がカバーされています。
コスト計算例
抽象的なトークンあたりの料金は、実際の作業に当てはめてみないとあまり意味がありません。ここでは、確認された料金で計算された3つのセッション例を示します。
例1:単一の10万トークンコーディングセッション。 コンテキスト(リポジトリ、指示、ファイル内容)として10万トークンを読み込み、2万トークンのコードと推論を生成するエージェント型コーディングタスクを実行するとします。
- 入力: 100,000 × $1.40 / 1,000,000 = $0.140
- 出力: 20,000 × $4.40 / 1,000,000 = $0.088
- 合計: 約$0.23
例2:キャッシングを使用した同じセッション。 その10万入力トークンのうち8万トークンが安定したプレフィックス(システムプロンプト、ツール定義、変更されていないファイル)でキャッシュから提供され、2万トークンが新しいものだと仮定します。
- キャッシュ入力: 80,000 × $0.26 / 1,000,000 = $0.021
- 新しい入力: 20,000 × $1.40 / 1,000,000 = $0.028
- 出力: 20,000 × $4.40 / 1,000,000 = $0.088
- 合計: 約$0.14
安定したプレフィックスをキャッシュすることで、セッションコストを約40%削減でき、同じコンテキストに対してターンを重ねるほど節約効果は大きくなります。
例3:思考をオフにした抽出を行うチャットアシスタント。 サポートボットが1日あたり500件のメッセージを処理します。各呼び出しで2K入力トークンを送信し、300出力トークンを返します(思考は無効)。
- 入力: 500 × 2,000 × $1.40 / 1,000,000 = $1.40
- 出力: 500 × 300 × $4.40 / 1,000,000 = $0.66
- 合計: 1日あたり約$2.06、1日500回のワークロードで月額約$62。
これらは定価での推定値です。実際の請求額は、許容する思考の量と、キャッシュにヒットする入力の量によって異なります。
GLMコーディングプランのティア
毎日コーディングエージェントを使用する人にとっては、サブスクリプションパスの方が従量課金制のAPIコールよりも通常は安価です。Z.aiは、Anthropic互換のエンドポイントを通じてClaude Codeなどのツールに公開される、名前付きティア(Lite、Pro、Max、Team)のGLMコーディングプランを販売しています。

プランキーは、標準APIキーとは異なる資格情報です。GLM-5.2をClaude Codeに接続するには、コーディングエンドポイントを指し、[1m]モデルサフィックスを介して1Mコンテキストバリアントを選択します。
export ANTHROPIC_BASE_URL="https://api.z.ai/api/coding/paas/v4"
export ANTHROPIC_API_KEY="your-glm-coding-plan-key"
export ANTHROPIC_DEFAULT_SONNET_MODEL="glm-5.2[1m]"
export ANTHROPIC_DEFAULT_OPUS_MODEL="glm-5.2[1m]"
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000
export API_TIMEOUT_MS=3000000
API_TIMEOUT_MSの値は重要です。長いタイムアウトを設定しないと、Claude CodeはGLM-5.2が完了する前に長い大規模コンテキストコールを終了させてしまう可能性があります。一部の情報源では、コーディングのベースURLがopen.z.ai/api/paas/v4と示されている場合もあるため、ライブで正確なホストを確認してください。ClineとCursorを含む完全なエージェントセットアップは、GLM-5.2コーディングエージェントガイドにあり、以前のGLM-5.1とClaude Codeの記事では、前世代と同じパターンがカバーされています。
GLM-5.2はGPT-5.5よりも安いですか?
はい、従量課金制のAPIでは、かなりの差で安いです。最も明確な表現はVentureBeatによるもので、GLM-5.2が「長期間のコーディングにおいてGPT-5.5を約1/6のコストで上回る」と報じました。この主張はVentureBeatのものであり、Apidogの測定値ではありません。また、ベンチマーク性能と価格がまとめられているため、トークンごとの比率ではなく、方向性を示す価値声明として読んでください。
料金表レベルでは、高レベルの比較は以下の通りです。GLM-5.2は1Mトークンあたり入力$1.40 / 出力$4.40でリストされています。OpenAI、Anthropic、Googleのクローズドなフロンティアモデルは、その最高の推論ティアでは一般的にそれよりもかなり高価であるため、「一部のコスト」という表現が繰り返し登場します。モデル間の速度とコストの詳細な内訳については、GLM-5とDeepSeekとGPT-5の速度とコスト、およびより広範なGLM-5.1とClaude、GPT、Gemini、DeepSeekの比較を参照してください。
サブスクリプションの比較はより微妙です。推定月額約80ドルの重いGLMコーディングプランティアは、他のベンダーの最も高価なシングルシートコーディングサブスクリプションとほぼ同等であるため、決定的な要因はタスクにおけるモデルの品質と、プランがどのように使用量を測定するかになります。プラン間の比較(GLMプランとClaude Code、Codex、Cursor、MiniMaxの比較)は、Claude Code vs Codex vs Cursor vs MiniMax Plan vs GLM Planで詳しく説明されています。
ベンチマークに関する注意点:価値提案の動機となるローンチ結果(SWE-bench Pro 62.1、Terminal-Bench 2.1 (81.0)、MCP-Atlas 77.0)はZ.aiの公開結果です。完全なセットはGLM-5.2ベンチマークの詳細分析で、クローズドラボとの直接対決はGLM-5.2 vs GPT-5.5、Claude Opus、Geminiに記載されています。
どの価格パスを選ぶべきか?
簡単な意思決定ガイド:
- 断続的な利用または低ボリュームの利用: 従量課金制API。使用した分だけ支払い、料金は軽度な利用であれば安く済みます。
- エージェントで終日コーディングする場合: GLMコーディングプランのティア。1日に何百回も呼び出しを行う場合、予測可能な月額費用は従量課金制よりも優れています。まずティア価格を確認してください。
- プライバシー、オフライン、またはゼロ限界費用: オープンウェイトを自己ホスト。トークンごとの請求は一切なく、自身の計算リソースのみです。まずはGLM-5をローカルで無料で実行するか、OllamaでGLM-5を無料で使うことから始めてください。
どのパスを選択しても、2つのコストレバーは変わりません。安定したプレフィックスをキャッシュし、不要な作業には思考の努力を減らしてください。
コミットする前にGLM-5.2のコストをテストする
プランを選択する前に、実際のプロンプトにかかるコストと時間がどのくらいかを確認すると役立ちます。OpenAI互換のクライアントをGLM-5.2エンドポイントに接続し、呼び出しごとのトークン使用量を監視できます。Apidogは、APIの設計、デバッグ、テスト、ドキュメント作成のためのオールインワンAPIプラットフォームであり、https://api.z.ai/api/paas/v4/chat/completionsにリクエストを送信し、応答とトークン数を検査し、思考レベルやキャッシュ動作を比較しながら呼び出しを再利用可能なコレクションとして保存できるため、ここで役立ちます。Apidogをダウンロードして、実例を信頼するのではなく、自身のトラフィックに対して料金表をベンチマークしたい場合は利用してください。

要約すると、GLM-5.2の確認済みAPI料金(入力$1.40、出力$4.40)が基準となる数値です。プレフィックスをキャッシュし、思考の努力を管理し、コミットする前にGLMコーディングプランのティア価格をライブで確認してください。
