Cara Menjalankan Kimi K2.5 Secara Lokal

Ashley Innocent

Ashley Innocent

29 January 2026

Cara Menjalankan Kimi K2.5 Secara Lokal

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Perilisan Kimi K2.5 oleh Moonshot AI telah menetapkan standar baru untuk model sumber terbuka. Dengan 1 Triliun parameter dan arsitektur Mixture-of-Experts (MoE), model ini menyaingi raksasa proprietary seperti GPT-4o. Namun, ukurannya yang besar membuatnya sulit untuk dijalankan.

Bagi pengembang dan peneliti, menjalankan K2.5 secara lokal menawarkan privasi yang tak tertandingi, latensi nol (dalam hal jaringan), dan penghematan biaya pada token API. Namun tidak seperti model 7B atau 70B yang lebih kecil, Anda tidak bisa begitu saja memuatnya ke laptop gaming standar.

Panduan ini akan membahas cara memanfaatkan teknik kuantisasi terobosan Unsloth untuk memuat model masif ini ke perangkat keras yang (agak) terjangkau menggunakan llama.cpp, dan cara mengintegrasikannya ke dalam alur kerja pengembangan Anda dengan Apidog.

💡
Sebelum Anda mulai mengkompilasi kode, pastikan Anda memiliki cara untuk menguji server lokal Anda secara efisien. Unduh Apidog secara gratis—ini adalah alat terbaik untuk men-debug endpoint LLM lokal, memeriksa streaming token, dan memverifikasi kompatibilitas API tanpa menulis satu baris pun kode klien.
tombol

Mengapa Kimi K2.5 Sulit Dijalankan (Tantangan MoE)

Kimi K2.5 tidak hanya "besar"; arsitekturnya kompleks. Model ini menggunakan arsitektur Mixture-of-Experts (MoE) dengan jumlah expert yang jauh lebih banyak daripada model terbuka pada umumnya seperti Mixtral 8x7B.

Kimi k2.5 benchmark

Masalah Skala

Inilah mengapa kuantisasi (mengurangi bit per bobot) adalah hal yang tidak bisa ditawar. Tanpa kompresi 1.58-bit ekstrem Unsloth, menjalankan ini akan sepenuhnya menjadi domain klaster superkomputer.

Persyaratan Perangkat Keras: Bisakah Anda Menjalankannya?

Kuantisasi "1.58-bit" adalah keajaiban yang memungkinkan hal ini, mengkompresi ukuran model sekitar 60% tanpa merusak kecerdasannya.

Spesifikasi Minimum (Kuantisasi 1.58-bit)

Spesifikasi yang Direkomendasikan (Performa)

Untuk mendapatkan kecepatan yang dapat digunakan (>10 token/dtk):

Catatan

Solusi: Unsloth Dynamic GGUF

Unsloth telah merilis versi GGUF dinamis dari Kimi K2.5. File-file ini memungkinkan Anda untuk memuat model ke llama.cpp, yang dapat secara cerdas membagi beban kerja antara CPU (RAM) dan GPU (VRAM) Anda.

Apa itu Kuantisasi Dinamis?

Kuantisasi standar menerapkan kompresi yang sama untuk setiap lapisan. Pendekatan "Dinamis" Unsloth lebih cerdas:

Pendekatan hibrida ini memungkinkan model 1T berjalan dalam ~240GB sambil mempertahankan kemampuan penalaran yang mengalahkan model 70B yang lebih kecil yang berjalan pada presisi penuh.

Panduan Instalasi Langkah-demi-Langkah

Kita akan menggunakan llama.cpp karena menyediakan mesin inferensi paling efisien untuk beban kerja CPU/GPU yang terbagi.

Langkah 1: Instal llama.cpp

Anda perlu membangun llama.cpp dari sumber untuk memastikan Anda memiliki dukungan Kimi K2.5 terbaru.

Mac/Linux:

# Install dependensi
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# Kloning repositori
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# Bangun dengan dukungan CUDA (jika Anda memiliki GPU NVIDIA)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# ATAU Bangun untuk CPU/Mac Metal (default)
# cmake -B build

# Kompilasi
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

Langkah 2: Unduh Model

Kita akan mengunduh versi GGUF Unsloth. Versi 1.58-bit direkomendasikan untuk sebagian besar pengaturan "lab rumah".

Anda dapat menggunakan huggingface-cli atau llama-cli secara langsung.

Opsi A: Unduh Langsung dengan llama-cli

# Buat direktori untuk model
mkdir -p models/kimi-k2.5

# Unduh dan jalankan (ini akan menyimpan model dalam cache)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

Opsi B: Unduh Manual (Lebih baik untuk manajemen)

pip install huggingface_hub

# Unduh kuantisasi spesifik
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

Langkah 3: Jalankan Inferensi

Sekarang, mari kita jalankan modelnya. Kita perlu mengatur parameter sampling spesifik yang direkomendasikan oleh Moonshot AI untuk performa optimal (temp 1.0, min-p 0.01).

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

Parameter Kunci:

Menjalankan sebagai Server API Lokal

Untuk mengintegrasikan Kimi K2.5 dengan aplikasi Anda atau Apidog, jalankan sebagai server yang kompatibel dengan OpenAI.

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

API lokal Anda sekarang aktif di http://127.0.0.1:8001/v1.

Menghubungkan Apidog ke Kimi K2.5 Lokal Anda

Apidog adalah alat yang sempurna untuk menguji LLM lokal Anda. Ini memungkinkan Anda untuk secara visual membangun permintaan, mengelola riwayat percakapan, dan men-debug penggunaan token tanpa menulis skrip curl.

Antarmuka Apidog

1. Buat Permintaan Baru

Buka Apidog dan buat proyek HTTP baru. Buat permintaan POST ke:
http://127.0.0.1:8001/v1/chat/completions

2. Konfigurasi Header

Tambahkan header berikut:

3. Atur Body

Gunakan format yang kompatibel dengan OpenAI:

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "Anda adalah Kimi, berjalan secara lokal."
    },
    {
      "role": "user",
      "content": "Jelaskan Komputasi Kuantum dalam satu kalimat."
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. Kirim dan Verifikasi

Klik Kirim. Anda akan melihat aliran respons.

Mengapa menggunakan Apidog?

Penyelesaian Masalah Terperinci & Penyetelan Performa

Menjalankan model 1T mendorong perangkat keras konsumen hingga batasnya. Berikut adalah tip lanjutan untuk menjaga stabilitasnya.

"Model loading failed: out of memory" (Pemuatan model gagal: memori tidak cukup)

Ini adalah kesalahan paling umum.

  1. Kurangi Konteks: Turunkan --ctx-size ke 4096 atau 8192.
  2. Tutup Aplikasi: Matikan Chrome, VS Code, dan Docker. Anda membutuhkan setiap byte RAM.
  3. Gunakan Offloading Disk (Pilihan terakhir): llama.cpp dapat memetakan bagian model ke disk, tetapi inferensi akan turun menjadi <1 token/dtk.

"Output Sampah" atau Teks Berulang

Kimi K2.5 sensitif terhadap sampling. Pastikan Anda menggunakan:

Kecepatan Generasi Lambat

Jika Anda mendapatkan 0.5 token/dtk, Anda kemungkinan besar dibatasi oleh bandwidth RAM sistem atau kecepatan CPU.

Menangani Crash

Jika model dimuat tetapi crash selama generasi:

  1. Periksa Swap: Pastikan Anda memiliki file swap besar yang diaktifkan (100GB+). Bahkan jika Anda memiliki 256GB RAM, lonjakan transien dapat menghentikan proses.
  2. Nonaktifkan KV Cache Offload: Pertahankan cache KV di CPU jika VRAM terbatas (--no-kv-offload).

Siap membangun?
Baik Anda berhasil menjalankan Kimi K2.5 secara lokal atau memutuskan untuk tetap menggunakan API, Apidog menyediakan platform terpadu untuk menguji, mendokumentasikan, dan memantau integrasi AI Anda. Unduh Apidog secara gratis dan mulailah bereksperimen hari ini.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.