تشغيل نموذج كيمي K2.5 محليًا: دليل شامل

Ashley Innocent

Ashley Innocent

29 يناير 2026

تشغيل نموذج كيمي K2.5 محليًا: دليل شامل

لقد أحدث إصدار Kimi K2.5 من Moonshot AI معيارًا جديدًا للنماذج مفتوحة المصدر. بمليار معلمة وبنية مزيج الخبراء (MoE)، فإنه ينافس عمالقة النماذج الخاصة مثل GPT-4o. ومع ذلك، فإن حجمه الهائل يجعله صعب التشغيل.

بالنسبة للمطورين والباحثين، يوفر تشغيل K2.5 محليًا خصوصية لا تضاهى، وصفر زمن انتقال (شبكي)، وتوفير في تكاليف رموز API. ولكن على عكس النماذج الأصغر بحجم 7B أو 70B، لا يمكنك تحميل هذا النموذج على جهاز كمبيوتر محمول قياسي للألعاب.

يستكشف هذا الدليل كيفية الاستفادة من تقنيات التكميم الرائدة لـ Unsloth لتناسب هذا النموذج الضخم على أجهزة (نوعًا ما) يمكن الوصول إليها باستخدام llama.cpp، وكيفية دمجها في سير عمل التطوير الخاص بك باستخدام Apidog.

💡
قبل البدء في تجميع الكود، تأكد من أن لديك طريقة لاختبار الخادم المحلي الخاص بك بكفاءة. قم بتنزيل Apidog مجانًا—إنها أفضل أداة لتصحيح أخطاء نقاط نهاية LLM المحلية، والتحقق من تدفق الرموز، والتحقق من توافق API دون كتابة سطر واحد من كود العميل.
زر

لماذا يصعب تشغيل Kimi K2.5 (تحدي MoE)

Kimi K2.5 ليس مجرد "ضخم"؛ إنه معقد من الناحية المعمارية. يستخدم بنية مزج الخبراء (MoE) مع عدد أكبر بكثير من الخبراء مقارنة بالنماذج المفتوحة النموذجية مثل Mixtral 8x7B.

معيار Kimi k2.5

مشكلة الحجم

هذا هو السبب في أن التكميم (تقليل عدد البتات لكل وزن) أمر غير قابل للتفاوض. بدون ضغط Unsloth الشديد بمقدار 1.58 بت، سيكون تشغيل هذا مقتصرًا تمامًا على مجموعات الحوسبة الفائقة.

متطلبات الأجهزة: هل يمكنك تشغيله؟

تكميم "1.58 بت" هو السحر الذي يجعل هذا ممكنًا، حيث يضغط حجم النموذج بنسبة ~60% دون تدمير الذكاء.

الحد الأدنى من المواصفات (تكميم 1.58 بت)

المواصفات الموصى بها (الأداء)

للحصول على سرعات قابلة للاستخدام (>10 رموز/ثانية):

ملاحظة

الحل: Unsloth Dynamic GGUF

أصدرت Unsloth إصدارات GGUF ديناميكية من Kimi K2.5. تتيح لك هذه الملفات تحميل النموذج إلى llama.cpp، والذي يمكنه تقسيم عبء العمل بذكاء بين وحدة المعالجة المركزية (RAM) ووحدة معالجة الرسوميات (VRAM).

ما هو التكميم الديناميكي؟

يطبق التكميم القياسي نفس الضغط على كل طبقة. نهج "الديناميكي" من Unsloth أكثر ذكاءً:

يسمح هذا النهج الهجين لنموذج 1T بالعمل بحجم ~240 جيجابايت مع الاحتفاظ بقدرات التفكير التي تتفوق على نماذج 70B الأصغر التي تعمل بدقة كاملة.

دليل التثبيت خطوة بخطوة

سنستخدم llama.cpp لأنه يوفر محرك الاستدلال الأكثر كفاءة لأعباء عمل وحدة المعالجة المركزية/وحدة معالجة الرسوميات المقسمة.

الخطوة 1: تثبيت llama.cpp

تحتاج إلى بناء llama.cpp من المصدر لضمان حصولك على أحدث دعم لـ Kimi K2.5.

Mac/Linux:

# تثبيت التبعيات
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# استنساخ المستودع
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# بناء مع دعم CUDA (إذا كان لديك وحدات معالجة رسوميات NVIDIA)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# أو بناء لوحدة المعالجة المركزية/Mac Metal (افتراضي)
# cmake -B build

# تجميع
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

الخطوة 2: تنزيل النموذج

سنقوم بتنزيل إصدار Unsloth GGUF. يوصى بإصدار 1.58 بت لمعظم إعدادات "المختبر المنزلي".

يمكنك استخدام huggingface-cli أو llama-cli مباشرة.

الخيار أ: تنزيل مباشر باستخدام llama-cli

# إنشاء دليل للنموذج
mkdir -p models/kimi-k2.5

# تنزيل وتشغيل (سيقوم هذا بتخزين النموذج مؤقتًا)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

الخيار ب: تنزيل يدوي (أفضل للإدارة)

pip install huggingface_hub

# تنزيل تكميم محدد
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

الخطوة 3: تشغيل الاستدلال

الآن، لنقم بتشغيل النموذج. نحتاج إلى تعيين معلمات عينة محددة أوصت بها Moonshot AI للحصول على الأداء الأمثل (temp 1.0، min-p 0.01).

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

المعلمات الرئيسية:

التشغيل كخادم API محلي

لدمج Kimi K2.5 مع تطبيقاتك أو Apidog، قم بتشغيله كخادم متوافق مع OpenAI.

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

واجهة برمجة التطبيقات المحلية الخاصة بك نشطة الآن على http://127.0.0.1:8001/v1.

ربط Apidog بـ Kimi K2.5 المحلي الخاص بك

يعد Apidog الأداة المثالية لاختبار LLM المحلي الخاص بك. يتيح لك إنشاء الطلبات بصريًا، وإدارة سجل المحادثات، وتصحيح أخطاء استخدام الرموز دون كتابة برامج curl النصية.

واجهة Apidog

1. إنشاء طلب جديد

افتح Apidog وأنشئ مشروع HTTP جديدًا. أنشئ طلب POST إلى:
http://127.0.0.1:8001/v1/chat/completions

2. تكوين الرؤوس

أضف الرؤوس التالية:

3. تعيين الجسم

استخدم التنسيق المتوافق مع OpenAI:

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "أنت كيمي، تعمل محليًا."
    },
    {
      "role": "user",
      "content": "اشرح الحوسبة الكمومية في جملة واحدة."
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. إرسال والتحقق

انقر فوق إرسال. يجب أن ترى استجابة التدفق.

لماذا تستخدم Apidog؟

استكشاف الأخطاء وإصلاحها وضبط الأداء بالتفصيل

تشغيل نموذج 1T يدفع أجهزة المستهلكين إلى نقطة الانهيار. فيما يلي نصائح متقدمة للحفاظ على استقراره.

"فشل تحميل النموذج: نفاد الذاكرة"

هذا هو الخطأ الأكثر شيوعًا.

  1. تقليل السياق: خفض --ctx-size إلى 4096 أو 8192.
  2. إغلاق التطبيقات: أغلق Chrome وVS Code وDocker. تحتاج إلى كل بايت من ذاكرة الوصول العشوائي.
  3. استخدام تحميل القرص (الملاذ الأخير): يمكن لـ llama.cpp تعيين أجزاء النموذج على القرص، لكن الاستدلال سينخفض إلى <1 رمز/ثانية.

"إخراج غير مرغوب فيه" أو نص متكرر

Kimi K2.5 حساس لأخذ العينات. تأكد من أنك تستخدم:

سرعة توليد بطيئة

إذا كنت تحصل على 0.5 رمز/ثانية، فمن المحتمل أن تكون مقيدًا بعرض النطاق الترددي لذاكرة RAM النظام أو سرعة وحدة المعالجة المركزية.

التعامل مع الأعطال

إذا تم تحميل النموذج ولكنه تعطل أثناء التوليد:

  1. التحقق من ملف التبادل (Swap): تأكد من تمكين ملف تبادل ضخم (100 جيجابايت+). حتى لو كان لديك 256 جيجابايت من ذاكرة الوصول العشوائي، يمكن أن تؤدي الارتفاعات العابرة إلى قتل العملية.
  2. تعطيل تحميل ذاكرة التخزين المؤقت KV: احتفظ بذاكرة التخزين المؤقت KV على وحدة المعالجة المركزية إذا كانت VRAM ضيقة (--no-kv-offload).

هل أنت مستعد للبناء؟
سواء تمكنت من تشغيل Kimi K2.5 محليًا أو قررت الالتزام بواجهة برمجة التطبيقات، يوفر Apidog النظام الأساسي الموحد لاختبار ووثيقة ومراقبة عمليات دمج الذكاء الاصطناعي الخاصة بك. قم بتنزيل Apidog مجانًا وابدأ التجربة اليوم.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات