Kimi K2.5をローカルで実行する方法

Ashley Innocent

Ashley Innocent

29 1月 2026

Kimi K2.5をローカルで実行する方法

Moonshot AIによるKimi K2.5のリリースは、オープンソースモデルの新たな基準を打ち立てました。1兆のパラメータとMixture-of-Experts (MoE)アーキテクチャを備え、GPT-4oのようなプロプライエタリな巨大モデルと肩を並べます。しかし、その途方もないサイズは、実行する上で大きな課題となります。

開発者や研究者にとって、K2.5をローカルで実行することは、比類のないプライバシー、ゼロレイテンシー(ネットワークに関して)、そしてAPIトークンのコスト削減をもたらします。しかし、7Bや70Bのような小規模モデルとは異なり、これを標準的なゲーミングノートPCに簡単にロードすることはできません。

このガイドでは、Unslothの画期的な量子化技術を活用して、この巨大なモデルをllama.cppを使用して(ある程度)アクセス可能なハードウェアに適合させる方法と、Apidogを使用して開発ワークフローに統合する方法を探ります。

💡
コードのコンパイルを始める前に、ローカルサーバーを効率的にテストする手段があることを確認してください。Apidogを無料でダウンロードしましょう—ローカルLLMエンドポイントのデバッグ、トークンストリーミングの確認、API互換性の検証を、クライアントコードを一切書くことなく行える最高のツールです。
ダウンロード

Kimi K2.5の実行が難しい理由 (MoEの課題)

Kimi K2.5は単に「大きい」だけでなく、アーキテクチャ的にも複雑です。Mixtral 8x7Bのような一般的なオープンモデルよりもはるかに多くのエキスパートを持つMixture-of-Experts (MoE)アーキテクチャを採用しています。

Kimi K2.5 ベンチマーク

スケールの問題

だからこそ、量子化(ウェイトあたりのビット数を減らすこと)は譲れない要素です。Unslothの極端な1.58ビット圧縮がなければ、これを実行できるのはスーパーコンピューティングクラスターの領域に限定されるでしょう。

ハードウェア要件: 実行できますか?

「1.58ビット」量子化は、知能を損なうことなくモデルサイズを約60%圧縮し、これを可能にする魔法です。

最小仕様 (1.58ビット量子化)

推奨仕様 (パフォーマンス)

実用的な速度(10トークン/秒以上)を得るには:

解決策: Unsloth Dynamic GGUF

Unslothは、Kimi K2.5のダイナミックGGUFバージョンをリリースしました。これらのファイルにより、モデルをllama.cppにロードでき、CPU(RAM)とGPU(VRAM)間でインテリジェントにワークロードを分割することが可能になります。

ダイナミック量子化とは?

標準的な量子化は、すべてのレイヤーに同じ圧縮を適用します。Unslothの「ダイナミック」アプローチはより賢明です。

このハイブリッドアプローチにより、1兆パラメータのモデルを約240GBで実行しながら、フル精度で動作する70Bの小規模モデルを凌駕する推論能力を維持できます。

ステップバイステップインストールガイド

CPU/GPUのワークロード分割において最も効率的な推論エンジンを提供するため、llama.cppを使用します。

ステップ1: llama.cppのインストール

最新のKimi K2.5サポートを確実にするため、llama.cppソースからビルドする必要があります。

Mac/Linux:

# 依存関係をインストール
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# リポジトリをクローン
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# CUDAサポート付きでビルド (NVIDIA GPUがある場合)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# または CPU/Mac Metal向けにビルド (デフォルト)
# cmake -B build

# コンパイル
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

ステップ2: モデルのダウンロード

Unsloth GGUFバージョンをダウンロードします。ほとんどの「ホームラボ」セットアップには1.58ビットバージョンが推奨されます。

huggingface-cliまたはllama-cliを直接使用できます。

オプションA: llama-cliによる直接ダウンロード

# モデル用のディレクトリを作成
mkdir -p models/kimi-k2.5

# ダウンロードして実行 (これによりモデルがキャッシュされます)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

オプションB: 手動ダウンロード (管理に最適)

pip install huggingface_hub

# 特定の量子化バージョンをダウンロード
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

ステップ3: 推論の実行

さあ、モデルを起動しましょう。最適なパフォーマンスを得るために、Moonshot AIが推奨する特定のサンプリングパラメータ(temp 1.0, min-p 0.01)を設定する必要があります。

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

主要パラメータ:

ローカルAPIサーバーとして実行する

Kimi K2.5をアプリやApidogと統合するには、OpenAI互換のサーバーとして実行します。

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

ローカルAPIがhttp://127.0.0.1:8001/v1でアクティブになりました。

ApidogをローカルのKimi K2.5に接続する

Apidogは、ローカルLLMをテストするのに最適なツールです。視覚的にリクエストを構築し、会話履歴を管理し、cURLスクリプトを書くことなくトークンの使用状況をデバッグできます。

Apidog インターフェース

1. 新しいリクエストを作成する

Apidogを開き、新しいHTTPプロジェクトを作成します。以下のエンドポイントにPOSTリクエストを作成します。
http://127.0.0.1:8001/v1/chat/completions

2. ヘッダーを設定する

以下のヘッダーを追加します。

3. ボディを設定する

OpenAI互換の形式を使用します。

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "あなたはローカルで動作するKimiです。"
    },
    {
      "role": "user",
      "content": "量子コンピュータについて一文で説明してください。"
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. 送信して確認する

送信をクリックします。レスポンスがストリームで表示されるはずです。

なぜApidogを使うのか?

詳細なトラブルシューティングとパフォーマンスチューニング

1兆パラメータのモデルを実行することは、消費者向けハードウェアを限界まで追い込みます。これを安定させるための高度なヒントを以下に示します。

「モデルのロードに失敗しました: メモリ不足」

これは最も一般的なエラーです。

  1. コンテキストを減らす: --ctx-sizeを4096または8192に下げます。
  2. アプリを閉じる: Chrome、VS Code、Dockerをシャットダウンします。RAMのすべてのバイトが必要です。
  3. ディスクオフロードを使用する (最終手段): llama.cppはモデルの一部をディスクにマッピングできますが、推論速度は1トークン/秒未満に低下します。

「ゴミのような出力」または反復的なテキスト

Kimi K2.5はサンプリングに敏感です。以下を使用していることを確認してください。

生成速度が遅い

0.5トークン/秒の速度しか得られない場合、システムRAMの帯域幅またはCPU速度がボトルネックになっている可能性が高いです。

クラッシュの対処法

モデルがロードされるものの、生成中にクラッシュする場合:

  1. スワップの確認: 大容量のスワップファイル(100GB以上)が有効になっていることを確認してください。256GBのRAMがあったとしても、一時的なスパイクでプロセスが終了する可能性があります。
  2. KVキャッシュオフロードを無効にする: VRAMが不足している場合は、KVキャッシュをCPUに保持してください(--no-kv-offload)。

構築の準備はできましたか?
Kimi K2.5をローカルで実行できるかどうかに関わらず、あるいはAPIを使用することにした場合でも、ApidogはAI統合のテスト、ドキュメント化、監視のための統合プラットフォームを提供します。Apidogを無料でダウンロードして、今すぐ実験を始めましょう。

ダウンロード

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる