要約
GLM-5.1 (744B MoE、アクティブパラメータ40~44B、MITライセンス) は、SWE-benchで77.8%を達成し、Claude Opus 4.6の80.8%に肉薄します。コストは、100万トークンあたり入力1.00ドル/出力3.20ドルで、Claude Opus 4.6の入力15.00ドル/出力75.00ドルと比較して大幅に安価です。これは2026年において最も高性能なオープンウェイトモデルであり、Nvidia GPUを使用せず、完全にHuaweiハードウェアでトレーニングされました。フロンティアに近いコーディング性能を必要とするコスト意識の高いチームにとって、GLM-5.1は最も強力なオープンな選択肢です。
はじめに
Zhipu AIのGLM-5.1(2026年3月27日リリース)は、純粋なベンチマーク性能以外に2つの点で重要です。それはMITライセンス下のオープンウェイトであり、Nvidiaハードウェアを一切使用せず、100,000基のHuawei Ascend 910Bチップでトレーニングされたことです。
サプライチェーンの依存性やモデルのカスタマイズを懸念する組織にとって、これらの要因はベンチマークスコアと同じくらい重要です。
仕様
| 項目 | GLM-5.1 |
|---|---|
| パラメータ数 | 合計744B (MoE) |
| トークンあたりのアクティブ数 | 40~44B |
| エキスパートアーキテクチャ | 256のエキスパート、トークンあたり8がアクティブ |
| コンテキストウィンドウ | 200Kトークン |
| 最大出力 | 131,072トークン |
| 学習データ | 28.5兆トークン |
| 学習ハードウェア | 100,000基のHuawei Ascend 910B |
| ライセンス | MIT (オープンウェイト) |
合計744Bに対しアクティブなパラメータが40-44Bという構造は、MoE(Mixture of Experts)アーキテクチャの特徴です。モデルは総容量は大きいものの、各トークンに対して一部のパラメータしかアクティブにならないため、推論効率が高いです。
ベンチマーク比較
推論と知識
| ベンチマーク | GLM-5 (5.1のベースライン) | Claude Opus 4.6 | 備考 |
|---|---|---|---|
| AIME 2025 | 92.7% | 約88% | GLM-5が上回る |
| GPQA Diamond | 86.0% | 91.3% | Claudeが優勢 |
| MMLU | 88-92% | 約90%以上 | 匹敵する |
コーディング
| ベンチマーク | GLM-5.1 | Claude Opus 4.6 |
|---|---|---|
| SWE-bench | 77.8% | 80.8% |
| LiveCodeBench | 52.0% | より高い |
GLM-5.1はSWE-benchで77.8%を達成しました。これはClaude Opus 4.6に3ポイント差で及ばないものの、この特定のベンチマークではGPT-5、Gemini、DeepSeekを大きく上回ります。GLM-5から5.1へのコーディング性能の28%向上は、アーキテクチャの変更ではなく、トレーニング後の洗練によるものです。
人間による評価 (LMArena)
GLM-5は、LMArenaのTextおよびCodeアリーナの両方で、オープンウェイトモデルの中で1位にランクされています。すべてのモデルの中で、最高のクローズドモデルと競争力があります。
料金比較
| モデル | 入力 (100万トークンあたり) | 出力 (100万トークンあたり) |
|---|---|---|
| GLM-5.1 | $1.00 | $3.20 |
| DeepSeek V3.2 | $0.27 | $1.10 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| GPT-5.2 | $3.00 | $12.00 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
GLM-5.1は、Claude Opus 4.6のコーディング性能の約94.6%を、1/15のコストで提供します(Zhipu AIの社内主張に基づくもので、94.6%という数値については独立した検証が保留中です)。
大規模なプロダクションコーディングエージェントを運用するチームにとって、このコスト差は経済性を大幅に変えるでしょう。
オープンウェイトの利点
GLM-5.1はMITライセンスのもと、Hugging Faceで利用可能です。チームは以下を行うことができます。
- ダウンロードしてセルフホスト(フルBF16には約1.49TBが必要)
- ドメイン固有のデータでファインチューニング
- データ処理とインフラを完全に制御してデプロイ
- 特定のタスクのためにモデルアーキテクチャを変更したり、追加学習を行ったりする
744Bパラメータの1.49TBのストレージ要件とGPUインフラは、完全なセルフホスティングを費用のかかるものにします。ほとんどのチームにとって、APIアクセスの方が現実的です。
制限事項
テキストのみ: GLM-5.1はテキスト入力のみを処理します。画像、音声、ビデオの理解はできません。この点は、GPT-5.2やGemini 2.5 Proのようなマルチモーダルモデルと比較して、ユースケースを制限します。
ベンチマークの独立性: GLM-5.1のコーディングベンチマークは、評価フレームワークとしてClaude Codeを使用しています。Claude以外の評価インフラでの正確なスコアの独立した検証は保留中です。
GLM-5.1のウェイトは保留中: 現在公開されているのはGLM-5のウェイトのみです。GLM-5.1はAPI経由で利用できますが、執筆時点では5.1のウェイトはリリースされていません。
ストレージ要件: セルフホスティングには1.49TBが必要です。現実的なセルフデプロイには、かなりのインフラ投資が必要です。
ApidogでGLM-5.1をテストする
WaveSpeedAI経由 (APIアクセスに推奨):
POST https://api.wavespeed.ai/api/v1/chat/completions
Authorization: Bearer {{WAVESPEED_API_KEY}}
Content-Type: application/json
{
"model": "glm-5",
"messages": [
{
"role": "user",
"content": "{{coding_task}}"
}
],
"temperature": 0.2,
"max_tokens": 4096
}
Claude Opus 4.6と比較:
POST https://api.anthropic.com/v1/messages
x-api-key: {{ANTHROPIC_API_KEY}}
anthropic-version: 2023-06-01
Content-Type: application/json
{
"model": "claude-opus-4-6",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "{{coding_task}}"}]
}
両方で同じ{{coding_task}}変数を使用してください。以下を比較します。
- コードの正確性(機能するか?)
- コード品質(読みやすく、適切に構造化されているか?)
- 応答の長さ(短いほど、より焦点を絞っている)
- トークン使用量(応答メタデータを確認)
入力1.00ドル/出力3.20ドルと入力15.00ドル/出力75.00ドルを比較すると、同じコーディングタスクでもClaude Opus 4.6では約20〜25倍のコストがかかります。
GLM-5.1は誰が使うべきか
最適なケース:
- 低コストで最先端のコーディング性能を必要とするチーム
- コンプライアンスやカスタマイズのためにオープンウェイトモデルを必要とする組織
- 中国市場向けまたは多言語ユースケースを開発する開発者
- 最先端に近いオープンモデルを研究するチーム
より良い代替案が存在するケース:
- マルチモーダルなユースケース: GPT-5.2またはGemini 2.5 Pro
- コストを問わず最大の推論能力を求める場合: Claude Opus 4.6
- 可能な限り安価なオプション: DeepSeek V3.2 (0.27ドル/1.10ドル)
よくある質問
GLM-5.1はOpenAI互換APIで利用できますか?
GLMモデルは一般的なSDKと互換性のあるAPI形式を使用します。正確なエンドポイント形式については、Zhipu AIの最新ドキュメントをご確認ください。
Huaweiハードウェアでのトレーニングが重要な理由は何ですか?
ほとんどの最先端モデルはNvidia A100/H100クラスターでトレーニングされています。GLM-5.1がHuawei Ascendハードウェアで最先端に近い性能を示したことは、Nvidiaインフラ以外の代替手段が実現可能であることを証明しています。
MITライセンスは商用利用を許可していますか?
はい、許可しています。MITライセンスは商用利用、変更、配布を許可しています。これは他の多くの最先端モデルのライセンスよりも許容範囲が広いです。
GLM-5.1は最高のオープンソースモデルと比較してどうですか?
GLM-5は、Llama、Qwen、その他のオープンな代替モデルを上回り、オープンウェイトモデルの中でLMArenaで1位にランクされています。
200Kのコンテキストウィンドウは何に役立ちますか?
200Kトークンは、約150,000語(一冊の本、大規模なコードベース、または多数のドキュメント)を同時に保持できます。ドキュメント分析や大規模なコードベースレビューのような長文コンテキストを扱うアプリケーションでは、ほとんどの実用的なユースケースで十分です。
