要するに
GLM-5.1は、Z.AIの次世代フラッグシップモデルで、2026年4月にリリースされました。これは、エージェント工学に特化して構築されています。つまり、長期間にわたるコーディングタスク、自律的な最適化ループ、そして数百回の反復を必要とする複雑なソフトウェアプロジェクト向けです。SWE-Bench Proで58.4点で1位、Terminal-Bench 2.0で69.0点を記録し、GLM-5を主要なすべてのコーディングベンチマークで上回っています。モデルの重みはMITライセンスの下で公開されています。
はじめに
ほとんどのAIモデルは、数回のツール呼び出しで限界に達します。コーディングの問題では、初期段階で急速な進歩を遂げた後、停滞し、どれだけ時間をかけても収穫逓減に陥り続けます。結果的に、エージェントを手厚く監視するか、平凡な結果を受け入れることになります。
GLM-5.1は、このパターンを打ち破るように設計されています。Zhipu AIのGLMモデルファミリーを開発するZ.AIチームは、2026年4月にGLM-5.1を彼らのエージェントタスク向けとして最も能力の高いモデルとしてリリースしました。主要な主張は、単一パスでの生のベンチマーク性能ではありません。それは、長期的な有効性です。つまり、600回の反復、8時間、数千回のツール呼び出しにわたって、有意義な進歩を続けられる能力です。
GLM-5.1とは?
GLM-5.1は、Zhipu AIが2026年4月にZ.AI開発者プラットフォームを通じてリリースした大規模言語モデルです。「GLM」はGeneral Language Model(汎用言語モデル)の略で、Zhipuが2021年から開発しているモデルアーキテクチャです。

GLM-5.1は、2025年後半にリリースされたGLM-5の後継モデルです。5.1のアップデートは、エージェント機能にほぼ完全に焦点を当てています。つまり、頻繁な人間の介入を必要とせず、性能の壁にぶつかることなく、長期間にわたるタスクで自律的に作業する能力です。
これは主に推論モデル、クリエイティブライティングモデル、または汎用チャットボットではありません。Z.AIは、これをエージェント工学のためのモデルとして明確に位置付けています。具体的には、ソフトウェア開発、最適化ループの実行、多くの反復にわたるコードの記述と実行、長時間のセッションにわたる持続的な努力を必要とする問題の解決などです。
モデルの重みは、MITライセンスの下でHugging Faceで公開されています。vLLMまたはSGLangを使用してローカルで実行することも、BigModel APIまたはZ.AI開発者プラットフォームを通じてアクセスすることもできます。
GLM-5.1のベンチマーク性能
Z.AIは、GLM-5.1とGLM-5、GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proを比較したベンチマーク結果を公開しました。結果は、ソフトウェアエンジニアリング、推論、エージェントタスクの3つの広範なカテゴリをカバーしています。

ソフトウェアエンジニアリング
| ベンチマーク | GLM-5.1 | GLM-5 | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 57.7 | 57.3 | 54.2 |
| NL2Repo | 42.7 | 35.9 | 41.3 | 49.8 | 33.4 |
| Terminal-Bench 2.0 | 69.0 | 56.2 | 75.1 | 65.4 | 68.5 |
| CyberGym | 68.7 | 48.3 | — | 66.6 | — |
GLM-5.1は、自律型ソフトウェアエンジニアリングタスクの標準ベンチマークであるSWE-Bench Proで1位にランクインしました。Terminal-Bench 2.0では、GPT-5.4がより高いスコア(75.1)を記録していますが、GLM-5.1はGLM-5を大差でリードしています(69対56.2)。
NL2Repoスコア(42.7)は、長期的なリポジトリ生成を測定します。ここではClaude Opus 4.6が49.8でリードしていますが、GLM-5.1はGLM-5を6.8ポイント上回り、この比較では他のすべてのモデルを凌駕しています。
推論
| ベンチマーク | GLM-5.1 | GLM-5 | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| HLE (ツール使用時) | 52.3 | 50.4 | 52.1* | 53.1* | 51.4* |
| AIME 2026 | 95.3 | 95.4 | 98.7 | 95.6 | 98.2 |
| HMMT Nov. 2025 | 94.0 | 96.9 | 95.8 | 96.3 | 94.8 |
| GPQA-Diamond | 86.2 | 86.0 | 92.0 | 91.3 | 94.3 |
推論ベンチマークでは、GLM-5.1は競争力がありますが、リーダーではありません。AIME 2026とGPQA-Diamondでは、GPT-5.4とGemini 3.1 Proがリードしています。GLM-5.1の強みはコーディングとエージェントタスクにあり、純粋な推論ではありません。
エージェントタスク
| ベンチマーク | GLM-5.1 | GLM-5 | GPT-5.4 | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| BrowseComp (コンテキストあり) | 79.3 | 75.9 | 82.7 | 84.0 | 85.9 |
| MCP-Atlas (公開) | 71.8 | 69.2 | 67.2 | 73.8 | 69.2 |
| Tool-Decathlon | 40.7 | 38.0 | 54.6 | 47.2 | 48.8 |
| Agentic | 68.0 | 62.0 | — | — | — |
MCP-Atlasでは、GLM-5.1が71.8点でこの分野をリードしています。BrowseCompとTool-Decathlonでは中位です。Agenticベンチマークスコア(GLM-5の62に対し68)は、前世代からの最も明確な改善を示しています。
GLM-5.1が異なる点:長期的な最適化
ベンチマークの表は話の一部を物語っています。より興味深いのは、Z.AIが単一パスのベンチマークを超えて示したものです。
ほとんどのコーディングモデルは、タスクにおいて急速に改善した後、停滞します。GLM-5.1は、はるかに長い実行期間にわたって有用であり続けるように構築されています。Z.AIは、段階的に構造化されていないフィードバックを用いた3つのシナリオでこれをテストしました。
シナリオ1:600回以上の反復によるベクトルデータベース最適化
Z.AIは、GLM-5.1をSift-1Mデータセットを使用したベクトル検索最適化チャレンジで実行しました。モデルにはRustのスケルトンコードが与えられ、再現率95%を超える状態で1秒あたりのクエリ数(QPS)を最大化するよう求められました。標準的な50ターンの予算ではなく、GLM-5.1が必要なだけ反復を実行できるアウターループが設定されました。

結果は明確な違いを示しています。すべてのモデルにおける最高の単一セッション結果は3,547 QPS(Claude Opus 4.6)でした。GLM-5.1は、600回以上の反復と6,000回以上のツール呼び出しを通じて、21,500 QPSに到達し、その約6倍の結果を出しました。
改善は連続的ではありませんでした。モデルは重要な時点、例えば約90回目の反復で、全コーパススキャンからf16ベクトル圧縮によるIVFクラスタープロービングに移行し、QPSを約3,500から6,400に跳ね上げました。約240回目の反復では、u8プリスコアリングとf16再ランキングを組み合わせた2段階パイプラインを導入し、13,400 QPSに到達しました。このような構造的な転換は、全実行を通じて6回発生し、それぞれモデルが自身のベンチマークログを分析し、現在のボトルネックを特定した後にトリガーされました。
シナリオ2:1,000回以上のターンによるGPUカーネル最適化
Z.AIは、GLM-5.1とGLM-5、Claude Opus 4.6を比較するGPUカーネルベンチマークを実施しました。タスクは、参照PyTorchコードを受け取り、より高速なCUDAカーネルを生成することでした。

GLM-5.1はベースラインに対して3.6倍の高速化を達成しました。Claude Opus 4.6は4.2倍でリードし、実行終了時でもまだ改善の余地を示していました。GLM-5はより早く停滞し、より低い結果で終わりました。この結果はパターンを裏付けています。GLM-5.1はGLM-5よりも長く改善を持続しますが、この特定のタスクではまだトップモデルに匹敵していません。
コンテキストウィンドウと技術仕様
GLM-5.1は20万トークンのコンテキストウィンドウをサポートしています。これは、モデルが多くの反復にわたってツール呼び出し履歴、コードファイル、テスト出力、エラーログを蓄積するエージェントタスクにとって重要です。
| 仕様 | 値 |
|---|---|
| コンテキストウィンドウ | 200,000トークン |
| 最大出力 | 163,840トークン |
| アーキテクチャ | 自己回帰型トランスフォーマー(GLMファミリー) |
| ライセンス | MIT(オープンウェイト) |
| 推論フレームワーク | vLLM、SGLang |
| モデル重み | HuggingFace (zai-org) |
提供と価格
GLM-5.1は3つのチャネルを通じて利用できます。
BigModel API (bigmodel.cn): 主要な開発者向けAPIです。APIリクエストではモデル名glm-5.1を使用します。価格はトークンごとの課金ではなく、クォータシステムを使用します。GLM-5.1はピーク時間帯には3倍、オフピーク時には2倍のクォータを消費します。2026年4月末までの期間限定プロモーションとして、オフピーク時の使用は1倍で請求されます。ピーク時間帯は毎日UTC+8の14:00~18:00です。
GLMコーディングプラン (Z.AI): AIコーディングアシスタントを使用する開発者向けのサブスクリプションプランです。GLM-5.1は、すべてのコーディングプラン購読者が利用できます。コーディングアシスタントの設定でモデル名を更新することで有効化できます。このプランは、Claude Code、Cline、Kilo Code、Roo Code、OpenCode、Droidと連携します。価格は月額10ドルからです。
ローカルデプロイ: モデルの重みはHuggingFaceのzai-org/GLM-5.1で公開されています。vLLMまたはSGLangで実行できます。デプロイに関するドキュメントは公式GitHubリポジトリにあります。
GLM-5.1対GLM-5:実際に何が変わったのか
GLM-5はすでに強力なコーディングモデルでした。GLM-5.1は、特定の点でそれを改善しています。それは、有用な作業の期間を延長することです。
核となる変更は、初回パスの性能にあるわけではありません。ほとんどのベンチマークで、GLM-5.1はGLM-5を3〜7ポイントリードしていますが、これは有意義ではあるものの劇的ではありません。本当の違いは、両方のモデルに無制限の時間を与えて同じタスクを与えたときに現れます。
GLM-5は急速に改善し、その後停滞します。GLM-5.1は、GLM-5が停止する時点を超えて進歩し続けます。これは、ユーザーが介入して指示する必要があるのではなく、モデルが自律的に作業を続けることを望むエージェントアプリケーションにとって重要です。
具体的には、ベクトル検索ベンチマークでは、GLM-5は長時間をかけて約8,000〜10,000 QPSで停滞しました。GLM-5.1は21,500 QPSに到達しました。GPUカーネルベンチマークでは、GLM-5はGLM-5.1よりも低く、早く終了しました。Linuxデスクトップタスクでは、GLM-5はスケルトンを生成して停止しました。
このモデルにはまだ重要なギャップがあります。Claude Opus 4.6は、GPUカーネル最適化とBrowseCompでリードしています。
GLM-5.1対競合モデル
GLM-5.1対Claude Opus 4.6
ソフトウェアエンジニアリングベンチマークでは、GLM-5.1はSWE-Bench Pro(58.4対57.3)とCyberGym(68.7対66.6)でリードしています。Claude Opus 4.6は、NL2Repo(49.8対42.7)、GPUカーネル最適化、BrowseCompでリードしています。APIアクセスについては、Claudeは著しく高価です。BigModel APIまたはコーディングプランを通じてのGLM-5.1は、大量のエージェントループを実行する開発者向けに価格設定されています。
GLM-5.1対GPT-5.4
GPT-5.4は、Terminal-Bench 2.0(75.1対69.0)とほとんどの推論ベンチマークでリードしています。GLM-5.1は、SWE-Bench Pro(58.4対57.7)とMCP-Atlas(71.8対67.2)でリードしています。中国の開発者、または中国のAIインフラストラクチャ上で構築している開発者にとって、GLM-5.1へのBigModel APIアクセスは、GPT-5.4へのアクセスよりもはるかに簡単です。
GLM-5.1対Gemini 3.1 Pro
Gemini 3.1 Proは、推論(AIME 2026、GPQA-Diamond)とBrowseCompでリードしています。GLM-5.1は、SWE-Bench Pro、Terminal-Bench 2.0、CyberGymでリードしています。コード中心のユースケースでは、GLM-5.1がより強力な選択肢です。一般的な推論と文書分析では、Geminiが優位性を持っています。
GLM-5.1が最も適したユースケース
自律型コーディングエージェント: 次に何を試すか決定し、テストを実行し、結果を分析し、頻繁な人間のチェックポイントなしに続行することをモデルに望む、長期間にわたるタスク。これらの実行にわたるエージェントのメモリ管理方法に関する詳細な考察については、AIエージェントのメモリ管理方法を参照してください。20万トークンのコンテキストウィンドウと長期的な最適化能力は、ここに非常によく適しています。
AIコーディングアシスタント(Claude Code、Cline、Cursorとの統合): GLM-5.1は、Z.AIコーディングプランでClaude Code、Cline、Kilo Code、Roo Code、その他のAIコーディングツールとの使用が明示的にサポートされています。トークンごとのClaudeやGPTの料金を支払うことなく、強力なコーディングモデルを望む開発者は、BigModel経由でルーティングできます。
ソフトウェアエンジニアリング自動化(SWE-Benchクラスのタスク): GitHubの課題解決、プルリクエスト生成、バグ修正自動化。GLM-5.1のSWE-Bench Proでの1位獲得は、これらのパイプラインにとって信頼できる選択肢となります。
競技プログラミングと最適化: GPUカーネルチューニング、性能ベンチマーク、モデルが実験を実行し、結果に基づいて戦略を適応できるアルゴリズム最適化。
最も適していない用途: 汎用チャットボット、クリエイティブライティング、コード出力よりも推論の品質が重要なドキュメントQ&A。これらのユースケースでは、推論ベンチマークが示すように、GeminiとGPT-5.4が優位性を持っています。
今すぐGLM-5.1を試す方法
試す最も速い方法は、z.aiにあるZ.AIチャットインターフェースを通じてで、これはデフォルトでGLM-5.1を実行します。チャットインターフェースにはAPIキーは不要です。
APIアクセスの場合、bigmodel.cnでアカウントを作成し、APIキーを生成してください。このAPIはOpenAI互換であるため、GPTモデルと連携するすべてのクライアントはGLM-5.1とも連携します。リクエストで使用するモデル名はglm-5.1です。
ローカルデプロイの場合、重みはhuggingface.co/zai-orgにあります。完全なセットアップ手順は、公式GitHubリポジトリのgithub.com/zai-org/GLM-5.1にあります。
コード例、認証、テストセットアップを含むAPIの詳細なウォークスルーについては、GLM-5.1 APIガイドを参照してください。
結論
GLM-5.1は、GLM-5からの大きな進歩であり、特に困難なエージェントタスクでどのくらい長く有用であり続けるかという点で優れています。SWE-Bench Proでの1位獲得と、600回反復のベクトル検索のデモンストレーションは、これが現在利用可能な自律型コーディングワークフロー向けの最も強力なオープンウェイトモデルであるという信頼できる事例となります。
すべてのベンチマークでリードしているわけではありません。Claude Opus 4.6とGPT-5.4は、推論、GPU最適化、および一部のエージェントタスクでより強力です。しかし、クローズドな最先端モデルの費用を支払うことなく、持続的なコーディングエージェントを実行したい開発者にとって、BigModel APIアクセス付きのMITライセンス下のGLM-5.1は有力な選択肢です。
オープンウェイトとMITライセンスは強調する価値があります。GLM-5.1をローカルで実行し、ファインチューニングし、利用制限なしに自社のインフラストラクチャにデプロイすることができます。
よくある質問
GLMは何の略ですか?General Language Model(汎用言語モデル)。これは、Zhipu AIが2021年から開発しているモデルアーキテクチャで、GPTファミリーモデルが使用するデコーダーのみのアプローチではなく、自己回帰型ブランク補完に基づいています。
GLM-5.1はオープンソースですか?はい。モデルの重みは、HuggingFaceのzai-org/GLM-5.1でMITライセンスの下でリリースされています。MITは最も許容度の高いオープンソースライセンスの一つであり、商用利用、ファインチューニング、再配布を許可します。
GLM-5.1はどのくらいのコンテキストウィンドウをサポートしていますか?200,000トークン(約15万語)で、最大出力は163,840トークンです。
GLM-5.1はDeepSeek-V3.2と比較してどうですか?Z.AIのベンチマークによると、GLM-5.1はソフトウェアエンジニアリングタスクでDeepSeek-V3.2をリードしています。推論ベンチマークでは、DeepSeek-V3.2は競争力があります。特にコーディングエージェントについては、公開データに基づいてGLM-5.1がより強力な選択肢です。
GLM-5.1をClaude CodeまたはCursorで使用できますか?はい。Z.AIコーディングプランは、BigModel APIを通じてClaude Code、Cline、Kilo Code、Roo Code、OpenCodeをサポートしています。コーディングアシスタントの設定ファイルでモデル名を更新します。プランは月額10ドルからです。
API経由でGLM-5.1にアクセスするにはどうすればよいですか?bigmodel.cnでアカウントを作成し、APIキーを生成し、https://open.bigmodel.cn/api/paas/v4/chat/completionsへのリクエストでモデル名glm-5.1を使用します。完全なAPIウォークスルーはGLM-5.1 APIガイドにあります。
GLM-5.1は無料で利用できますか?z.aiにあるZ.AIチャットインターフェースは無料で利用できます。BigModelを通じたAPIアクセスは、有料プランのクォータシステムを使用します。2026年4月末までのプロモーション料金として、オフピークの使用は1倍のクォータで請求されます。
