วิธีรัน Kimi K2.5 ในเครื่องตัวเอง

Ashley Innocent

Ashley Innocent

29 January 2026

วิธีรัน Kimi K2.5 ในเครื่องตัวเอง

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

การเปิดตัว Kimi K2.5 โดย Moonshot AI ได้สร้างมาตรฐานใหม่ให้กับโมเดลโอเพนซอร์ส ด้วยพารามิเตอร์ 1 ล้านล้านตัว และสถาปัตยกรรมแบบ Mixture-of-Experts (MoE) มันสามารถเทียบเคียงกับโมเดลกรรมสิทธิ์ขนาดใหญ่อย่าง GPT-4o ได้ อย่างไรก็ตาม ขนาดที่ใหญ่โตมหาศาลทำให้การรันมันเป็นเรื่องที่ท้าทาย

สำหรับนักพัฒนาและนักวิจัย การรัน K2.5 บนเครื่องตัวเองจะให้ความเป็นส่วนตัวที่เหนือกว่า ไม่มีค่าความหน่วง (ด้านเครือข่าย) และประหยัดค่าใช้จ่ายโทเค็น API แต่แตกต่างจากโมเดลขนาดเล็ก 7B หรือ 70B คุณไม่สามารถโหลดโมเดลนี้ลงบนแล็ปท็อปเกมมิ่งทั่วไปได้

คู่มือนี้จะสำรวจวิธีใช้ประโยชน์จากเทคนิคการควอนไทซ์ที่ก้าวหน้าของ Unsloth เพื่อให้โมเดลขนาดมหึมานี้สามารถทำงานบนฮาร์ดแวร์ที่เข้าถึงได้ (ในระดับหนึ่ง) โดยใช้ llama.cpp และวิธีรวมเข้ากับเวิร์กโฟลว์การพัฒนาของคุณด้วย Apidog

💡
ก่อนที่คุณจะเริ่มคอมไพล์โค้ด ตรวจสอบให้แน่ใจว่าคุณมีวิธีทดสอบเซิร์ฟเวอร์โลคัลของคุณได้อย่างมีประสิทธิภาพ ดาวน์โหลด Apidog ฟรี—มันเป็นเครื่องมือที่ดีที่สุดในการดีบักปลายทาง LLM โลคัล ตรวจสอบการสตรีมโทเค็น และยืนยันความเข้ากันได้ของ API โดยไม่ต้องเขียนโค้ดฝั่งไคลเอนต์แม้แต่บรรทัดเดียว
ปุ่ม

ทำไม Kimi K2.5 จึงรันยาก (ความท้าทายของ MoE)

Kimi K2.5 ไม่ได้แค่ "ใหญ่" เท่านั้น แต่ยังมีสถาปัตยกรรมที่ซับซ้อนด้วย มันใช้สถาปัตยกรรมแบบ Mixture-of-Experts (MoE) ซึ่งมีผู้เชี่ยวชาญมากกว่าโมเดลโอเพนทั่วไปอย่าง Mixtral 8x7B อย่างมีนัยสำคัญ

ผลการวัด Kimi k2.5

ปัญหาด้านขนาด

นี่คือเหตุผลว่าทำไม การควอนไทซ์ (การลดจำนวนบิตต่อค่าน้ำหนัก) จึงเป็นสิ่งที่หลีกเลี่ยงไม่ได้ หากไม่มีการบีบอัด 1.58 บิตขั้นสุดยอดของ Unsloth การรันโมเดลนี้จะจำกัดอยู่เฉพาะในกลุ่มซูเปอร์คอมพิวเตอร์เท่านั้น

ข้อกำหนดฮาร์ดแวร์: คุณสามารถรันได้หรือไม่?

การควอนไทซ์ "1.58 บิต" คือเวทมนตร์ที่ทำให้สิ่งนี้เป็นไปได้ โดยบีบอัดขนาดโมเดลลงประมาณ 60% โดยไม่ทำลายความสามารถในการทำงาน

คุณสมบัติขั้นต่ำ (การควอนไทซ์ 1.58 บิต)

คุณสมบัติที่แนะนำ (ประสิทธิภาพ)

เพื่อให้ได้ความเร็วที่ใช้งานได้ (>10 โทเค็น/วินาที):

หมายเหตุ

ทางออก: Unsloth Dynamic GGUF

Unsloth ได้เปิดตัว Kimi K2.5 เวอร์ชัน GGUF แบบไดนามิก ไฟล์เหล่านี้ช่วยให้คุณสามารถโหลดโมเดลเข้าสู่ llama.cpp ซึ่งสามารถแบ่งงานระหว่าง CPU (RAM) และ GPU (VRAM) ของคุณได้อย่างชาญฉลาด

การควอนไทซ์แบบไดนามิกคืออะไร?

การควอนไทซ์มาตรฐานจะใช้การบีบอัดแบบเดียวกันกับทุกเลเยอร์ แต่วิธีการ "ไดนามิก" ของ Unsloth นั้นฉลาดกว่า:

วิธีการแบบไฮบริดนี้ช่วยให้โมเดล 1T สามารถทำงานได้ในหน่วยความจำประมาณ 240GB ในขณะที่ยังคงความสามารถในการให้เหตุผลที่เหนือกว่าโมเดล 70B ขนาดเล็กที่รันด้วยความแม่นยำเต็มรูปแบบ

คู่มือการติดตั้งทีละขั้นตอน

เราจะใช้ llama.cpp เนื่องจากเป็นเอ็นจิ้นการอนุมานที่มีประสิทธิภาพสูงสุดสำหรับการแบ่งภาระงานระหว่าง CPU/GPU

ขั้นตอนที่ 1: ติดตั้ง llama.cpp

คุณต้องคอมไพล์ llama.cpp จากซอร์สโค้ด เพื่อให้แน่ใจว่าคุณได้รับการสนับสนุน Kimi K2.5 ล่าสุด

Mac/Linux:

# Install dependencies
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# Clone repository
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# Build with CUDA support (if you have NVIDIA GPUs)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# OR Build for CPU/Mac Metal (default)
# cmake -B build

# Compile
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

ขั้นตอนที่ 2: ดาวน์โหลดโมเดล

เราจะดาวน์โหลด เวอร์ชัน Unsloth GGUF เวอร์ชัน 1.58 บิตแนะนำสำหรับ "โฮมแล็บ" ทั่วไปส่วนใหญ่

คุณสามารถใช้ huggingface-cli หรือ llama-cli ได้โดยตรง

ตัวเลือก A: ดาวน์โหลดโดยตรงด้วย llama-cli

# Create a directory for the model
mkdir -p models/kimi-k2.5

# Download and run (this will cache the model)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

ตัวเลือก B: ดาวน์โหลดด้วยตนเอง (ดีกว่าสำหรับการจัดการ)

pip install huggingface_hub

# Download specific quantization
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

ขั้นตอนที่ 3: รันการอนุมาน

ทีนี้ มาเริ่มรันโมเดลกัน เราจำเป็นต้องตั้งค่าพารามิเตอร์การสุ่มตัวอย่างเฉพาะที่ Moonshot AI แนะนำเพื่อประสิทธิภาพสูงสุด (temp 1.0, min-p 0.01)

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

พารามิเตอร์หลัก:

การรันเป็นเซิร์ฟเวอร์ API โลคัล

หากต้องการรวม Kimi K2.5 เข้ากับแอปของคุณหรือ Apidog ให้รันเป็นเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

API โลคัลของคุณพร้อมใช้งานแล้วที่ http://127.0.0.1:8001/v1

การเชื่อมต่อ Apidog เข้ากับ Kimi K2.5 บนเครื่องของคุณ

Apidog เป็นเครื่องมือที่สมบูรณ์แบบในการทดสอบ LLM โลคัลของคุณ มันช่วยให้คุณสร้างคำขอ จัดการประวัติการสนทนา และดีบักการใช้โทเค็นด้วยภาพ โดยไม่ต้องเขียนสคริปต์ curl

อินเทอร์เฟซ Apidog

1. สร้างคำขอใหม่

เปิด Apidog และสร้างโปรเจกต์ HTTP ใหม่ สร้างคำขอ POST ไปที่:
http://127.0.0.1:8001/v1/chat/completions

2. กำหนดค่าส่วนหัว

เพิ่มส่วนหัวต่อไปนี้:

3. ตั้งค่าเนื้อหา

ใช้รูปแบบที่เข้ากันได้กับ OpenAI:

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "You are Kimi, running locally."
    },
    {
      "role": "user",
      "content": "Explain Quantum Computing in one sentence."
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. ส่งและยืนยัน

คลิก **ส่ง** คุณควรเห็นการสตรีมคำตอบเข้ามา

ทำไมต้องใช้ Apidog?

การแก้ไขปัญหาและปรับแต่งประสิทธิภาพโดยละเอียด

การรันโมเดล 1T ทำให้ฮาร์ดแวร์ของผู้บริโภคทำงานถึงขีดจำกัดสูงสุด นี่คือเคล็ดลับขั้นสูงเพื่อให้มันเสถียร

"โหลดโมเดลล้มเหลว: หน่วยความจำไม่พอ"

นี่คือข้อผิดพลาดที่พบบ่อยที่สุด

  1. ลด Context: ลด --ctx-size เหลือ 4096 หรือ 8192
  2. ปิดแอป: ปิด Chrome, VS Code และ Docker คุณต้องการ RAM ทุกไบต์
  3. ใช้ Disk Offloading (ทางเลือกสุดท้าย): llama.cpp สามารถแมปส่วนของโมเดลไปยังดิสก์ได้ แต่การอนุมานจะลดลงเหลือ <1 โทเค็น/วินาที

"เอาต์พุตที่ไม่ถูกต้อง" หรือ ข้อความซ้ำซาก

Kimi K2.5 มีความอ่อนไหวต่อการสุ่มตัวอย่าง ตรวจสอบให้แน่ใจว่าคุณกำลังใช้:

ความเร็วในการสร้างช้า

หากคุณได้ 0.5 โทเค็น/วินาที คุณมีแนวโน้มว่าจะติดขัดที่แบนด์วิดธ์ RAM ของระบบหรือความเร็ว CPU

การจัดการกับการแครช

หากโมเดลโหลดได้แต่แครชระหว่างการสร้าง:

  1. ตรวจสอบ Swap: ตรวจสอบให้แน่ใจว่าคุณได้เปิดใช้งานไฟล์ swap ขนาดใหญ่ (100GB+) แม้ว่าคุณจะมี RAM 256GB การกระชากชั่วคราวก็สามารถทำให้กระบวนการหยุดทำงานได้
  2. ปิดใช้งาน KV Cache Offload: เก็บ KV cache ไว้บน CPU หาก VRAM ไม่พอ (--no-kv-offload)

พร้อมที่จะสร้างแล้วหรือยัง?
ไม่ว่าคุณจะจัดการรัน Kimi K2.5 บนเครื่องของคุณได้หรือไม่ หรือตัดสินใจที่จะใช้ API, Apidog มอบแพลตฟอร์มแบบครบวงจรเพื่อทดสอบ จัดทำเอกสาร และตรวจสอบการรวม AI ของคุณ ดาวน์โหลด Apidog ฟรีและเริ่มทดลองได้เลยวันนี้

ปุ่ม

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API