GLM-5.2 ベンチマークとスペック：SWE-bench Pro、Terminal-Bench、そしてその数値が示すもの

Z.ai (Zhipu AI) のGLM-5.2は、数多くのベンチマーク結果を携えて登場し、その中のいくつかは本当に注目に値します。主要なニュースは、SWE-bench Proで62.1を記録し、GPT-5.5をわずかに上回ったことです。しかし、より大きな話はその一つ下に隠されています。Terminal-Benchが1世代で62.0から81.0へと飛躍したのです。この記事では、GLM-5.2の各ベンチマークスコアを順に解説し、そのテストが実際に何を測定しているのか、そしてどのリードが真実で、どれが丸め誤差に過ぎないのかを指摘します。

ここに記載されている発表時の数値はすべて、特に明記しない限りZ.aiが公開した結果です。モデルが自社のスコアカード上で他を凌駕すると主張する場合、眉唾物と受け止めるのが普通です。そこで、各ベンチマークが何を証明し、何を証明しないのかを具体的に説明します。

💡

このようなモデルを評価しながらAPIを構築またはテストする場合、Apidogは、これらのモデルが呼び出すエンドポイントの設計、デバッグ、モック、ドキュメント化に私たちが使用するオールインワンプラットフォームです。詳細については後述しますが、これは関連性の高い情報です。GLM-5.2の多くの性能向上は、エージェント機能やツール利用の作業に見られ、これはまさにAPIの領域だからです。

ボタン

要約：GLM-5.2のベンチマークスコア概要

以下に、GLM-5.2の全ベンチマーク表と、比較のために最も近い競合モデルを示します。比較列の数値は、独立した再実行ではなく、Z.aiがそれらのモデルについて報告した数値として扱ってください。

ベンチマーク	測定内容	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	現実世界のレポのバグ修正	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	多段階のシェル/エージェントタスク	81.0	62.0	n/a	n/a
MCP-Atlas	MCPサーバー上でのツール利用	77.0	n/a	75.3	77.8
Humanity’s Last Exam (ツール付き)	高度な専門的推論	54.7	n/a	52.2	n/a
AIME 2026	競技数学	99.2	n/a	n/a	n/a
GPQA-Diamond	大学院レベルの科学	91.2	n/a	n/a	n/a

Z.aiはまた、GLM-5.2がFrontierSWE、PostTrainBench、SWE-Marathonにおいて、最も高得点を記録したオープンソースモデルであると報告しています。この「オープンソース」という修飾語が何を意味するのかについては、後ほど説明します。

このモデルが何かを平易な言葉で知りたい場合は、GLM-5.2の概要をご覧ください。プロプライエタリな分野とどのように直接対決するかについては、専門のGLM-5.2 vs GPT-5.5, Opus, Geminiの比較分析があります。

SWE-bench Pro: 62.1とそれが本当に示すこと

SWE-bench Proは、オリジナルのSWE-benchのより難しく、厳選された派生版です。モデルに実際のGitHubのイシューと完全なリポジトリを与え、プロジェクトの隠されたテストスイートをパスするパッチを作成するよう求めます。多肢選択式や簡単な関数テストはありません。実際のファイルにわたるバグを修正できるかどうかが問われます。

Z.aiによると、GLM-5.2は62.1点、GPT-5.5は58.6点、GLM-5.1は58.4点です。ここから得られる2つの正直な見解は次の通りです。

GPT-5.5に対する3.5点差のリードは意味のあるものですが、決定的ではありません。これほどノイズの多いベンチマークでは、数点の差はテストハーネスの詳細、リトライ予算、プロンプトの足場構築によって変動する可能性があります。これは「トップレベルでの競争力がある」と呼ぶべきであり、「圧倒的」ではありません。
GLM-5.1に対する3.7点差の向上は、より信頼できるシグナルです。なぜなら、同じ研究室が自社モデル2つを同じ方法で測定しているからです。世代間の差分は、最も明確な指標となります。

そもそもなぜSWE-bench Proを気にする必要があるのでしょうか？それは、「このモデルは私の実際の仕事をこなせるか」という問いに対する最も近い公開プロキシだからです。広大なコードベースでバグを修正するには、見慣れないコードを読み解き、適切なファイルを見つけ出し、他の3つの要素を壊さずに編集する能力が必要です。これがソフトウェア開発の日常であり、だからこそコーディング優先のモデルはまずこの点で評価されるのです。

Terminal-Bench 2.1: 81.0という驚異的な数値

もしこの表で一つだけ読むとしたら、この行を読んでください。Terminal-Benchは、モデルを実シェル内のエージェントとして評価します。依存関係のインストール、コマンドの実行、出力の解析、エラーからの回復、そして多段階タスクを最初から最後まで完了する能力を測ります。これは一発の賢さではなく、粘り強さとツールを使いこなす規律を評価します。

GLM-5.1は62.0点でした。GLM-5.2は81.0点を記録しました。これは1世代で19点もの飛躍であり、GLM-5.2の際立った性能を示す理由でもあります。「10個のタスクのうち約4つ失敗する」モデルから「5個のタスクのうち約4つを完了する」モデルへの変化は、手助けが必要なモデルと、端末を任せられるモデルとの違いを意味します。

ここがアーキテクチャの物語とベンチマークの物語が結びつく点でもあります。Z.aiは、GLM-5.2の「IndexShare」スパースアテンションを挙げています。これは、4つのスパースアテンション層ごとに1つのインデクサーを再利用することで、長いコンテキストでのアテンションコストを抑えます。長期間にわたるエージェントタスクは、数十ターンにわたる長いトランスクリプト（コマンド、出力、コマンド、出力）を生成します。そのコンテキストを低コストかつ正確に保持できるモデルは、構築の途中で途方に暮れることがありません。Terminal-Benchの飛躍は、この設計の実践的な成果です。世代間の完全な比較については、GLM-5.2 vs GLM-5.1をご覧ください。

正直な注意点として、Terminal-BenchはZ.aiが報告した数値であり、エージェントベンチマークはモデルを取り巻く足場（タイムアウト制限、リトライ許容回数、ハーネスプロンプト）に影響されやすいものです。今回の飛躍は、足場だけで説明できる可能性が低いほど大きいですが、このパイプラインに全てを賭ける前に、ご自身のワークロードで検証してください。

MCP-Atlas: 77.0、そしてトップレベルでの公正なタイ

MCP-Atlasは、モデルが外部ツールやサーバーを呼び出す標準的な方法であるモデルコンテキストプロトコルを通じたツール利用を測定します。これは、エージェントおよびAPIの作業に最も直接的に関連するベンチマークです。つまり、モデルが適切なツールを選択し、呼び出しを正しくフォーマットし、結果を読み取り、作業を続行できるかどうかを測ります。

Z.aiによると、GLM-5.2は77.0点。GPT-5.5は75.3点、Claude Opus 4.8は77.8点です。この行では、勝者を宣言したい衝動に抵抗すべきです。GLM-5.2はGPT-5.5を1.7点上回りますが、Opus 4.8には0.8点及ばず。これらは丸め誤差の範囲内です。公平に言えば、MCPスタイルのツール利用において、この3つは互角であり、GLM-5.2はそのグループにその地位を確立したと言えます。

これは重要です。なぜなら、ツール利用こそが、コーディングモデルとあなたのスタックが接する場所だからです。すべてのMCPコールは、機能的にはAPIインタラクションです。構造化されたリクエスト、解析すべきレスポンス、処理すべきエラーを含みます。モデルを実際のサービスに組み込む場合、他の統合と同じ衛生管理を適用したいと考えるでしょう。まさにここにApidogが適合します。本番環境に投入する前に、エージェントがアクセスするエンドポイントを定義・モックし、モデルが生成する実際のリクエストとレスポンスのペイロードをデバッグできます。Apidogをダウンロードして、他のAPIをテストするのと同じ方法でそれらのツール呼び出しをテストしてみてください。

推論と数学: HLE 54.7, AIME 99.2, GPQA-Diamond 91.2

コーディングがすべてではありません。GLM-5.2は強力な推論能力も示しています。

Humanity’s Last Exam (ツール付き): 54.7. HLEは、多くの分野にわたる専門家レベルの質問を含む意図的に過酷な試験であり、簡単に飽和しないように設計されています。「ツール付き」の設定により、モデルは冷徹に回答するのではなく、検索して計算することができます。Z.aiによると、GLM-5.2の54.7点はGPT-5.5の52.2点をわずかに上回ります。これほど難しいベンチマークで50点台を出すのは、真剣な結果です。
AIME 2026: 99.2. AIMEは優秀な高校生向けの競技数学です。99.2点というスコアは実質的に天井スコアであり、これはこのテストがもはや最先端モデルを区別するものではないことを示唆しています。これは差別化要因というよりも、「ここに弱点はない」というシグナルです。
GPQA-Diamond: 91.2. GPQA-Diamondは、大学院レベルの科学Q&Aセットの中でも最も難しい部分であり、ウェブアクセスがあっても非専門家が総当たりで解答できないようにフィルタリングされています。91.2点というスコアは、GLM-5.2が技術的推論において最先端の領域にしっかりと位置していることを示します。

これらの全体的なパターンとして、GLM-5.2は数学や科学で破綻するような狭い分野のコードスペシャリストではありません。2つの思考負荷レベル（HighとMax、コーディングにはMaxを推奨）により、より難しい問題に対してレイテンシーと深さをトレードオフできます。コーディングと合わせてより深い数学的・推論的な視点を知りたい場合は、GLM-5.2ベンチマーク vs 競合モデルの記事でその比較がさらに詳しく説明されています。

「最高峰のオープンソース」という主張を紐解く

Z.aiは、GLM-5.2がFrontierSWE、PostTrainBench、SWE-Marathonにおいて、オープンソースモデルとしてトップであると報告しています。この修飾語を注意深く読んでください。なぜなら、それが本質的な意味を持っているからです。

「最高峰のオープンソース」という主張は、「最高峰、以上」という主張よりも狭いものです。ここで関連するのはオープンウェイトの分野です。GLM-5.2はMITライセンスの下、オープンウェイトで地域制限なく提供されており、これはレンタルするクローズドAPIモデルとは異なる提案です。他のオープンウェイトモデルと比較して、FrontierSWE（最先端の難易度を持つソフトウェアタスク）、PostTrainBench（トレーニング後の能力）、SWE-Marathon（長期的で持続的なソフトウェア作業）でトップであるという主張は強力であり、「セルフホスト可能でなければならない」という制約がある場合には重要な主張となります。

これは、それらのテストで全てのプロプライエタリモデルを上回るのとは異なります。GLM-5.2が実際にGPT-5.5を上回るSWE-bench ProやHLEのような場合、Z.aiはオープンソースであることの言及なしに直接そう述べています。したがって、心に留めておくべきモデルは、「全体として最先端レベルかそれに近く、自分でダウンロードして実行できるモデルの中では明らかに一番である」ということです。VentureBeatはこの価値を率直に表現し、「GLM-5.2は、GPT-5.5を長期的なコーディングにおいて、およそ6分の1のコストで打ち負かす」と報じました。これはVentureBeatの特徴付けであり、測定された事実として断言するよりも、出典を示す価値があります。

GLM-5.2のスペック概要

ベンチマークは、ハードウェアとライセンスの現実に対してのみ意味を持ちます。以下に、スコアがあなたのセットアップにどのように反映されるかを決定するGLM-5.2のスペックを示します。

スペック	値
パラメータ数	合計約753B、混合エキスパート（MoE）
精度	BF16
アテンション	IndexShareスパースアテンション（4つのスパース層ごとに1つのインデクサーを共有）
コンテキストウィンドウ	1Mトークン (1,048,576)
最大出力	z.aiのドキュメントによると最大128K (ライブで確認; OpenRouterは数値未掲載)
モダリティ	テキスト入力、テキスト出力（視覚バリアントは未確認）
思考負荷	HighおよびMax; 無効にすることも可能
ライセンス	MIT、オープンウェイト、地域制限なし
モデルID	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

このサイドバーを読む上での注意点がいくつかあります。パラメータ数約753BはMoEの合計サイズであり、トークンあたりのアクティブな数ではありません。したがって、「フォワードパスごとに753B相当の密な計算が必要」と解釈しないでください。それがMoEの目的です。1Mトークンのコンテキストは、Terminal-Benchの結果を信じさせるスペックです。長いエージェントの実行には、その履歴すべてを保持する場所が必要です。最大出力には注意してください。Z.aiのドキュメントでは最大128Kと引用されていますが（2026年6月時点。現在の制限はz.aiで確認してください）、プロバイダー間で一貫して記載されているわけではないため、保証された上限ではなく、文書化された上限として扱ってください。また、GLM-5.2のビジョンモデルは存在しません。もしどこかで「GLM-5.2V」を見ても、それはZ.aiが確認したものではありません。

価格設定はオープンウェイトのロジックに従っています。OpenRouterでは、入力トークン1Mあたり1.40ドル、出力1Mあたり4.40ドル、キャッシュされた入力は1Mあたり約0.26ドル（VentureBeatの数値）と記載されています。このコストプロファイルが「6分の1のコスト」という主張の根幹をなしています。GLMコーディングプランのティアを含む詳細なコスト内訳については、GLM-5.2の価格設定ページをご覧ください。また、トークンごとに料金を支払わずに実行したい場合は、GLM-5.2を無料で利用する方法でセルフホストの経路が解説されています。

これらのベンチマークを自分で検証する方法

ベンダーのスコアカードは出発点であり、最終的な判断ではありません。実際の意思決定のためにこれらの数値を信頼する前に、3つのことを行ってください。

一次情報源を読む。Z.ai GLM-5.2ブログとZ.aiドキュメントには、公式のメソッドが記載されています。アーキテクチャを直接検査したい場合は、Hugging Faceのモデルカードにウェイトと設定があります。
サードパーティのリストを確認する。OpenRouterページでは価格とモデルIDが確認でき、Ollamaライブラリのエントリではローカル実行パスが確認できます。VentureBeatの報道は、コストに関する外部からの見方を示しています。
独自の評価を実行する。完全に信頼できる唯一のベンチマークは、あなたのワークロードです。GLM-5.2を実際のタスク、理想的にはツール呼び出しを伴うエージェントタスクに組み込み、多くのターンにわたってその動作を観察してください。この正確な演習に関する以前の世代のコンテキストについては、GLM-5.1の解説と、GLM-5 vs DeepSeek vs GPT-5の速度とコストの比較が有用な基準となります。

独自のワークロード評価を実行すると、ツール呼び出しにおいてモデルが静かに失敗する箇所、すなわちJSONの形式不正、誤ったツール選択、エラー処理の欠落などが見つかります。Apidogでこれらのエンドポイントをモックすることで、ライブサービスに負荷をかけることなく、モデルの実際のリクエストとレスポンスを監視できます。これは、ベンチマークで英雄と称えられたモデルが、あなたのスタックで実際に機能するモデルとそうでないモデルを区別する最速の方法です。

まとめ

GLM-5.2のベンチマークシートは、ほとんどの発表時のスコアカードよりも厳密な精査に耐えうるものです。Terminal-Benchの62.0から81.0への飛躍は真に大きな数字であり、SWE-bench ProでのGPT-5.5に対するリードは控えめながらも現実のものであり、MCP-Atlasの結果はトップレベルでの公正な三つ巴のタイです。これらのスコアを、オープンウェイト、MITライセンス、1Mトークンのコンテキスト、そして約6分の1のコスト経済性と組み合わせれば、単なる礼儀的な一瞥ではなく、真剣な評価に値するモデルとなります。

ベンチマークは適切なモデルを示してくれます。それを確認するのは、あなたのワークロードです。そのテストを実行し、それが実際のAPIやツール呼び出しを含む場合、Apidogでエンドポイントを設定して、モデルが何を送信し、何を受信しているかを正確に確認し、他の誰かのスコアではなく、あなたのスタックで何をするかに基づいて判断してください。