2026年で最も有能なオープンモデルの1つであるZ.aiのGLM-5に、API呼び出しやクラウドコンピューティングに一銭も払うことなくアクセスしたいとお考えですか?エンジニアや開発者は、GLM-5をコンシューマーおよびプロシューマーハードウェアでローカルに実行することで、これを今日実現しています。Unslothの積極的な量子化により、744Bパラメーター(40Bアクティブ)のMixture-of-Expertsモデルは1.65TBからわずか241GBに縮小され、llama.cpp、Ollama、またはvLLMを介してデプロイできます。
GLM-5をローカルで実行しましょう!このプロセスには、ハードウェアへの注意、正確なビルド手順、スマートなオフロード戦略が求められます。このガイドでは、すべての方法を順を追って説明し、各コマンドが重要な理由を解説し、セットアップから最大限のパフォーマンスを引き出す方法を示します。これにより、完全なデータ主権、エージェントワークフローでのゼロレイテンシー、無制限の推論を実現できます。
GLM-5がローカルデプロイメントのゲームチェンジャーである理由
Z.aiはGLM-4.7の後継としてGLM-5をリリースしました。このモデルは、合計744Bのパラメーターを持ち、トークンあたり40Bがアクティブで、28.5Tのトークンでトレーニングされています。エージェントベンチマークで最先端の結果を出しています:SWE-bench Verifiedで77.8%、τ²-Benchで89.7%、ツールを使用したTerminal-Bench 2.0で61.1%です。
DeepSeek Sparse Attentionのおかげで、200Kのコンテキストウィンドウの恩恵を受けられます。このモデルは、長期的な推論、複数ターンのツール呼び出し、複雑なコード生成に優れています。さらに、オープンなMITライセンスにより、制限なく実行、変更、さらには商用利用も可能です。

しかし、生モデルには1.65TBのストレージと膨大なVRAMが必要です。Unslothは、Dynamic 2.0 GGUF量子化(UD-IQ2_XXSで241GB(-85%)、1-bitで176GB(-89%))をリリースすることで、状況を変えました。これらのバージョンは、インテリジェントなレイヤーアップキャストにより推論品質を維持しつつ、256GBユニファイドメモリのMacや、256GBシステムRAMとペアになった単一の24GB GPUに収まるように設計されています。
これらの量子化されたバージョンを使用することで、サイズ、速度、および能力のバランスが取れるため、GLM-5をローカルで実行できます。ベンチマークでは、フル精度と比較して、コーディングおよびエージェントタスクでの劣化は最小限であることが示されています。

クラウドAPIではなくGLM-5をローカルで実行する理由
繰り返し発生するコストを排除できます。クラウドプロバイダーはトークンごとに課金するため、GLM-5の機能は大量に使用するとすぐに高価になります。ローカル推論は電気代以外にコストはかかりません。
機密データを保護します。企業や研究者は、独自のコード、医療記録、顧客クエリを完全にオフラインに保つことができます。
低レイテンシーを実現します。ローカルモデルは、チャットやツール呼び出しのループでミリ秒単位で応答します。ネットワークホップなしでエージェントを連結できます。
自由にカスタマイズできます。Unslothでファインチューニングしたり、OllamaでModelfileを作成したり、vLLMでカスタムツールを構築したりできます。
さらに、レート制限なしで実験できます。200Kのコンテキストをテストしたり、1000ターンの会話を実行したり、ツール呼び出しの精度を一晩でベンチマークしたりできます。
ハードウェア要件:実際に必要なもの
セットアップを量子化レベルに合わせます。
- 2-bit UD-IQ2_XXS (241GB): 256GBユニファイドメモリを搭載したApple Mシリーズ、またはMoEオフロード付きのNVIDIA 24GB GPU + 256GB RAMで動作します。
- 1-bit (176GB): 180GB RAMに収まります。
- FP8 (vLLM): 8×H200または同等品(合計800GB以上のVRAM)が必要です。
- 最小限の要件: 非常に小さなコンテキストの場合は64GB RAM + 最新のCPU。実用的な作業には128GB以上を推奨します。
Linuxでは nvidia-smi、macOSではアクティビティモニターで使用状況を監視します。SSDストレージはオフロードを高速化します。モデルファイルとキャッシュ用に少なくとも50GBの空き容量を確保してください。
方法1:Unsloth GGUFを使用してGLM-5をllama.cppでローカルに実行する(最もアクセスしやすい)
この方法は、混合ハードウェアでの最大限の柔軟性と効率のために選択します。
ステップ1:GLM-5サポート付きでllama.cppをビルドする
PR 19460がマージされた最新のllama.cppが必要です。
apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON # CPUのみの場合は -DGGML_CUDA=OFF を使用
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .
これを一度実行します。ビルドにはマシンの性能にもよりますが、10〜20分かかります。
ステップ2:量子化モデルをダウンロードする
高速転送にはhuggingface_hubを使用します。
pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"
これで、シャードに分割された241GBのモデルが手に入ります。
ステップ3:推論を開始する
インタラクティブな使用のためにCLIを起動します。
export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
-hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
--jinja \
--ctx-size 32768 \
--flash-attn on \
--temp 0.7 \
--top-p 1.0 \
--fit on
CPUヘビーなセットアップの場合は --threads 32を追加するか、MoEエキスパートをオフロードするために -ot ".ffn_.*_exps.=CPU"を追加します。
ステップ4:OpenAI APIとして提供する
アプリケーションのためにモデルを公開します。
./llama-server \
--model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
--alias "glm-5" \
--fit on \
--ctx-size 32768 \
--port 8000 \
--jinja
これで、任意のOpenAIクライアントを http://localhost:8000/v1にポイントできます。
このセットアップで、24GB GPU上で3〜8トークン/秒を達成できます。 --fit onを使用すると、クラッシュすることなくコンテキストを128Kにスケールできます。
方法2:OllamaでGLM-5をローカルで実行する(初心者にとって最も簡単)
シンプルさを好む方に。Ollamaはダウンロード、量子化、提供を自動で処理します。
インストール
ollama.comからダウンロードし、インストーラーを実行します。Linuxの場合:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
GLM-5をプルして実行する
コミュニティ最適化タグを使用します。
ollama pull glm-5:cloud
ollama run glm-5:cloud
ターミナルで直接、または http://localhost:11434/v1のAPIを通じて対話できます。
カスタムModelfileを作成する
システムプロンプトとパラメーターを調整します。
FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072
ビルドして実行します:
ollama create my-glm5 -f Modelfile
ollama run my-glm5
Ollamaエンドポイントを設定することで、Claude Code、Cursor、またはContinue.devと統合できます。クラウドベースのコーディングエージェントに対する洗練されたローカル代替手段を得られます。
方法3:vLLMによる高度なデプロイメント(最大性能)
プロダクションエージェントに最高のスループットが必要な場合。
夜間ビルドをインストールします:
uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130
サーバーを起動します(FP8バージョンには8×H200が必要です):
vllm serve unsloth/GLM-5-FP8 \
--served-model-name glm-5 \
--tensor-parallel-size 8 \
--kv-cache-dtype fp8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--max-model-len 200000 \
--gpu-memory-utilization 0.93
推測的デコーディングとツール呼び出しを有効にします。マルチGPUクラスターで毎分数千のリクエストを処理できます。
ApidogでローカルGLM-5をテストおよびデバッグする
Apidogをエンドポイントに接続し、すべてが機能することを確認します。

新しいプロジェクトを作成し、ベースURLを http://localhost:8000/v1(またはOllamaの場合は11434)に設定し、 /chat/completionsエンドポイントを定義します。
リクエストを視覚的に構築します:
- モデル:
glm-5 - メッセージ: システム + ユーザー
- 温度: 0.7
- ツール: 関数呼び出しのためのJSONスキーマを定義
リクエストを送信し、ストリーミング応答を検査し、回帰テストのためにコレクションを保存します。PythonまたはJavaScript SDKを瞬時に生成できます。フロントエンドチームのためにモック応答を作成できます。
Apidogは、ローカルGLM-5を一流の開発プラットフォームに変えます。エージェントの反復、ツール出力の検証、レイテンシーの測定をすべてインターフェースから離れることなく行えます。
パフォーマンス最適化のテクニック
ハードウェアからさらなる速度を引き出します。
- llama.cppでフラッシュアテンションと
--fit onを有効にします。 - VRAMが逼迫している場合は、MoEエキスパートのみをCPUにオフロードします。
- チャットには4ビット、エージェントコーディングには2ビットを使用します。
- サーバーで
--prio 3を設定し、プロセスの優先度を高くします。 -
nvtopまたはhtopで監視し、--n-gpu-layersを調整します。
これらの調整により、デュアルRTX 4090セットアップで15〜25トークン/秒を達成できます。
よくある問題とその解決方法
メモリエラーに遭遇した場合。コンテキストを16Kに減らすか、より多くのレイヤーをオフロードします。
ツール呼び出しの性能が悪い場合。温度を1.0、トップPを0.95に設定し、 --tool-call-parser glm47 フラグを使用します。
ダウンロードが遅い場合。 hf_transferを有効にし、高速なミラーを使用します。
CUDAメモリ不足に遭遇した場合。 --gpu-memory-utilization 0.85を追加し、バックグラウンドプロセスを閉じます。
常にUnslothのドキュメントとGLM-5 GGUFリポジトリで最新のシャードを確認してください。
これからの展望:ローカルGLM-5とその先
あなたは主権AIへの移行を目の当たりにしています。GLM-5のようなモデルは、最先端の機能があなたがすでに所有するハードウェア上で実行できることを証明しています。これをローカルのベクトルデータベース、ツールサーバー、エージェントフレームワークと組み合わせることで、プライベートで高性能なシステムを構築できます。
Hugging Face、Redditのr/LocalLLaMA、UnslothのDiscordでコミュニティに参加してください。Modelfile、ベンチマーク結果、カスタム量子化を共有しましょう。
GLM-5を今すぐローカルで実行しましょう。あなたはコンピューティング、データ、そしてAIスタックの未来をコントロールできます。
llama.cppで2ビットGGUFから始めましょう。Apidogをダウンロードしてください。サーバーを起動してください。モデルがあなたのマシンで動作するのを見て、その構築力に驚くことでしょう。
真のローカル最先端モデルの時代が到来しました。最大限に活用しましょう。



