GLM-5をローカルで無料実行する手順

本記事では、GLM-5 をローカル環境で無料実行する構成を中心に、クラウド API との違いや利点、必要なハードウェア要件を整理します。Unsloth GGUF と llama.cpp を用いた実行手順では、ビルド、量子化モデルの取得、推論開始、OpenAI API としての提供方法までを解説します。あわせて Ollama による簡易実行や、vLLM を利用した高性能デプロイにも触れます。さらにパフォーマンス最適化、一般的な問題への対処、ローカル GLM-5 と各種システム構成の方向性についても整理します。

Ashley Innocent

Ashley Innocent

24 2月 2026

GLM-5をローカルで無料実行する手順

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

2026年で最も有能なオープンモデルの1つであるZ.aiのGLM-5に、API呼び出しやクラウドコンピューティングに一銭も払うことなくアクセスしたいとお考えですか?エンジニアや開発者は、GLM-5をコンシューマーおよびプロシューマーハードウェアでローカルに実行することで、これを今日実現しています。Unslothの積極的な量子化により、744Bパラメーター(40Bアクティブ)のMixture-of-Expertsモデルは1.65TBからわずか241GBに縮小され、llama.cpp、Ollama、またはvLLMを介してデプロイできます。

💡
始める前に、Apidogを無料でダウンロードしてください。この強力なAPIクライアントは、ローカルGLM-5エンドポイントのテストとデバッグの方法を変革します。リクエストを視覚的に構築し、SDKコードを生成し、自動テストを実行し、トークンの使用状況を監視できます。これらすべてを、実験を完全にプライベートに保ちながら行えます。Apidogは、起動するOpenAI互換サーバーと完全に連携するため、生のリクエストから本番環境対応の統合まで数分で移行できます。
button

GLM-5をローカルで実行しましょう!このプロセスには、ハードウェアへの注意、正確なビルド手順、スマートなオフロード戦略が求められます。このガイドでは、すべての方法を順を追って説明し、各コマンドが重要な理由を解説し、セットアップから最大限のパフォーマンスを引き出す方法を示します。これにより、完全なデータ主権、エージェントワークフローでのゼロレイテンシー、無制限の推論を実現できます。

GLM-5がローカルデプロイメントのゲームチェンジャーである理由

Z.aiはGLM-4.7の後継としてGLM-5をリリースしました。このモデルは、合計744Bのパラメーターを持ち、トークンあたり40Bがアクティブで、28.5Tのトークンでトレーニングされています。エージェントベンチマークで最先端の結果を出しています:SWE-bench Verifiedで77.8%、τ²-Benchで89.7%、ツールを使用したTerminal-Bench 2.0で61.1%です。

DeepSeek Sparse Attentionのおかげで、200Kのコンテキストウィンドウの恩恵を受けられます。このモデルは、長期的な推論、複数ターンのツール呼び出し、複雑なコード生成に優れています。さらに、オープンなMITライセンスにより、制限なく実行、変更、さらには商用利用も可能です。

GLM-5と他のAIモデルのパフォーマンス比較

しかし、生モデルには1.65TBのストレージと膨大なVRAMが必要です。Unslothは、Dynamic 2.0 GGUF量子化(UD-IQ2_XXSで241GB(-85%)、1-bitで176GB(-89%))をリリースすることで、状況を変えました。これらのバージョンは、インテリジェントなレイヤーアップキャストにより推論品質を維持しつつ、256GBユニファイドメモリのMacや、256GBシステムRAMとペアになった単一の24GB GPUに収まるように設計されています。

これらの量子化されたバージョンを使用することで、サイズ、速度、および能力のバランスが取れるため、GLM-5をローカルで実行できます。ベンチマークでは、フル精度と比較して、コーディングおよびエージェントタスクでの劣化は最小限であることが示されています。

GLM-5と他のAIモデルのパフォーマンス比較

クラウドAPIではなくGLM-5をローカルで実行する理由

繰り返し発生するコストを排除できます。クラウドプロバイダーはトークンごとに課金するため、GLM-5の機能は大量に使用するとすぐに高価になります。ローカル推論は電気代以外にコストはかかりません。

機密データを保護します。企業や研究者は、独自のコード、医療記録、顧客クエリを完全にオフラインに保つことができます。

低レイテンシーを実現します。ローカルモデルは、チャットやツール呼び出しのループでミリ秒単位で応答します。ネットワークホップなしでエージェントを連結できます。

自由にカスタマイズできます。Unslothでファインチューニングしたり、OllamaでModelfileを作成したり、vLLMでカスタムツールを構築したりできます。

さらに、レート制限なしで実験できます。200Kのコンテキストをテストしたり、1000ターンの会話を実行したり、ツール呼び出しの精度を一晩でベンチマークしたりできます。

ハードウェア要件:実際に必要なもの

セットアップを量子化レベルに合わせます。

Linuxでは nvidia-smi、macOSではアクティビティモニターで使用状況を監視します。SSDストレージはオフロードを高速化します。モデルファイルとキャッシュ用に少なくとも50GBの空き容量を確保してください。

方法1:Unsloth GGUFを使用してGLM-5をllama.cppでローカルに実行する(最もアクセスしやすい)

この方法は、混合ハードウェアでの最大限の柔軟性と効率のために選択します。

ステップ1:GLM-5サポート付きでllama.cppをビルドする

PR 19460がマージされた最新のllama.cppが必要です。

apt-get update && apt-get install -y build-essential cmake curl libcurl4-openssl-dev pciutils
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/19460/head:MASTER
git checkout MASTER
mkdir build && cd build
cmake .. -DGGML_CUDA=ON  # CPUのみの場合は -DGGML_CUDA=OFF を使用
cmake --build . --config Release -j
cd ..
cp build/bin/llama-* .

これを一度実行します。ビルドにはマシンの性能にもよりますが、10〜20分かかります。

ステップ2:量子化モデルをダウンロードする

高速転送にはhuggingface_hubを使用します。

pip install -U huggingface_hub hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
hf download unsloth/GLM-5-GGUF --local-dir GLM-5-GGUF --include "*UD-IQ2_XXS*"

これで、シャードに分割された241GBのモデルが手に入ります。

ステップ3:推論を開始する

インタラクティブな使用のためにCLIを起動します。

export LLAMA_CACHE="GLM-5-GGUF"
./llama-cli \
  -hf unsloth/GLM-5-GGUF:UD-IQ2_XXS \
  --jinja \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 0.7 \
  --top-p 1.0 \
  --fit on

CPUヘビーなセットアップの場合は --threads 32を追加するか、MoEエキスパートをオフロードするために -ot ".ffn_.*_exps.=CPU"を追加します。

ステップ4:OpenAI APIとして提供する

アプリケーションのためにモデルを公開します。

./llama-server \
  --model GLM-5-GGUF/UD-IQ2_XXS/GLM-5-UD-IQ2_XXS-00001-of-00006.gguf \
  --alias "glm-5" \
  --fit on \
  --ctx-size 32768 \
  --port 8000 \
  --jinja

これで、任意のOpenAIクライアントを http://localhost:8000/v1にポイントできます。

このセットアップで、24GB GPU上で3〜8トークン/秒を達成できます。 --fit onを使用すると、クラッシュすることなくコンテキストを128Kにスケールできます。

方法2:OllamaでGLM-5をローカルで実行する(初心者にとって最も簡単)

シンプルさを好む方に。Ollamaはダウンロード、量子化、提供を自動で処理します。

インストール

ollama.comからダウンロードし、インストーラーを実行します。Linuxの場合:

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

GLM-5をプルして実行する

コミュニティ最適化タグを使用します。

ollama pull glm-5:cloud
ollama run glm-5:cloud

ターミナルで直接、または http://localhost:11434/v1のAPIを通じて対話できます。

カスタムModelfileを作成する

システムプロンプトとパラメーターを調整します。

FROM glm-5:cloud
SYSTEM You are an expert software architect with deep knowledge of distributed systems.
PARAMETER temperature 0.6
PARAMETER num_ctx 131072

ビルドして実行します:

ollama create my-glm5 -f Modelfile
ollama run my-glm5

Ollamaエンドポイントを設定することで、Claude Code、Cursor、またはContinue.devと統合できます。クラウドベースのコーディングエージェントに対する洗練されたローカル代替手段を得られます。

方法3:vLLMによる高度なデプロイメント(最大性能)

プロダクションエージェントに最高のスループットが必要な場合。

夜間ビルドをインストールします:

uv pip install --upgrade vllm --extra-index-url https://wheels.vllm.ai/nightly/cu130

サーバーを起動します(FP8バージョンには8×H200が必要です):

vllm serve unsloth/GLM-5-FP8 \
  --served-model-name glm-5 \
  --tensor-parallel-size 8 \
  --kv-cache-dtype fp8 \
  --tool-call-parser glm47 \
  --reasoning-parser glm45 \
  --max-model-len 200000 \
  --gpu-memory-utilization 0.93

推測的デコーディングとツール呼び出しを有効にします。マルチGPUクラスターで毎分数千のリクエストを処理できます。

ApidogでローカルGLM-5をテストおよびデバッグする

Apidogをエンドポイントに接続し、すべてが機能することを確認します。

Apidogクライアント

新しいプロジェクトを作成し、ベースURLを http://localhost:8000/v1(またはOllamaの場合は11434)に設定し、 /chat/completionsエンドポイントを定義します。

リクエストを視覚的に構築します:

リクエストを送信し、ストリーミング応答を検査し、回帰テストのためにコレクションを保存します。PythonまたはJavaScript SDKを瞬時に生成できます。フロントエンドチームのためにモック応答を作成できます。

Apidogは、ローカルGLM-5を一流の開発プラットフォームに変えます。エージェントの反復、ツール出力の検証、レイテンシーの測定をすべてインターフェースから離れることなく行えます。

パフォーマンス最適化のテクニック

ハードウェアからさらなる速度を引き出します。

これらの調整により、デュアルRTX 4090セットアップで15〜25トークン/秒を達成できます。

よくある問題とその解決方法

メモリエラーに遭遇した場合。コンテキストを16Kに減らすか、より多くのレイヤーをオフロードします。

ツール呼び出しの性能が悪い場合。温度を1.0、トップPを0.95に設定し、 --tool-call-parser glm47 フラグを使用します。

ダウンロードが遅い場合。 hf_transferを有効にし、高速なミラーを使用します。

CUDAメモリ不足に遭遇した場合。 --gpu-memory-utilization 0.85を追加し、バックグラウンドプロセスを閉じます。

常にUnslothのドキュメントとGLM-5 GGUFリポジトリで最新のシャードを確認してください。

これからの展望:ローカルGLM-5とその先

あなたは主権AIへの移行を目の当たりにしています。GLM-5のようなモデルは、最先端の機能があなたがすでに所有するハードウェア上で実行できることを証明しています。これをローカルのベクトルデータベース、ツールサーバー、エージェントフレームワークと組み合わせることで、プライベートで高性能なシステムを構築できます。

Hugging FaceRedditのr/LocalLLaMA、UnslothのDiscordでコミュニティに参加してください。Modelfile、ベンチマーク結果、カスタム量子化を共有しましょう。

GLM-5を今すぐローカルで実行しましょう。あなたはコンピューティング、データ、そしてAIスタックの未来をコントロールできます。

llama.cppで2ビットGGUFから始めましょう。Apidogをダウンロードしてください。サーバーを起動してください。モデルがあなたのマシンで動作するのを見て、その構築力に驚くことでしょう。

真のローカル最先端モデルの時代が到来しました。最大限に活用しましょう。

button

Explore more

OllamaでOpenClawを実行する方法

OllamaでOpenClawを実行する方法

本記事では Ollama 上で OpenClaw を実行するための基本手順を解説します。Ollama のインストール、モデルの選択とダウンロード、モデル実行方法、Python ライブラリの利用、OpenClaw との統合手順を整理します。さらに Temperature、Top-P、Context Length、System Prompt などの設定項目や、実行時の一般的なトラブルについても触れます。

26 2月 2026

OpenClawとDeepSeekで無料ローカルAIアシスタントを構築する方法

OpenClawとDeepSeekで無料ローカルAIアシスタントを構築する方法

本記事では OpenClaw と DeepSeek を組み合わせ、ローカル環境で AI アシスタントを構築する手順を解説します。Ollama のインストール、DeepSeek-R1 と DeepSeek-V3 モデルのセットアップ、OpenClaw との統合、Python によるテスト、プラットフォーム経由のチャット連携までを整理します。あわせてモデル設定、コンテキスト長、GPU アクセラレーション、トラブルシューティングについても触れます。

26 2月 2026

GPT-5.3 Codex API の使い方ガイド

GPT-5.3 Codex API の使い方ガイド

本記事では GPT-5.3 Codex API の基本的な利用方法を解説します。OpenAI 開発者プラットフォームと OpenRouter の2つのアクセス方法を取り上げ、APIキーの取得、最初のリクエスト作成、Python および Node.js での基本的な統合方法を整理しています。さらに、主要パラメータ、料金構成、コンテキストウィンドウ、トラブルシューティングの要点についても概観します。

25 2月 2026

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる