Comment exécuter Kimi K2.5 en local ?

Ashley Innocent

Ashley Innocent

29 January 2026

Comment exécuter Kimi K2.5 en local ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

La sortie de Kimi K2.5 par Moonshot AI a établi une nouvelle référence pour les modèles open source. Avec 1 billion de paramètres et une architecture de Mixture-of-Experts (MoE), il rivalise avec des géants propriétaires comme GPT-4o. Cependant, sa taille considérable en fait une bête à exécuter.

Pour les développeurs et les chercheurs, exécuter K2.5 localement offre une confidentialité imbattable, une latence nulle (en termes de réseau) et des économies sur les jetons d'API. Mais contrairement aux modèles plus petits de 7B ou 70B, vous ne pouvez pas simplement le charger sur un ordinateur portable de jeu standard.

Ce guide explore comment tirer parti des techniques de quantification révolutionnaires d'Unsloth pour adapter ce modèle massif à un matériel (plus ou moins) accessible à l'aide de llama.cpp, et comment l'intégrer dans votre flux de travail de développement avec Apidog.

💡
Avant de commencer à compiler du code, assurez-vous d'avoir un moyen de tester efficacement votre serveur local. Téléchargez Apidog gratuitement—c'est le meilleur outil pour déboguer les points d'accès LLM locaux, vérifier le streaming de jetons et vérifier la compatibilité des API sans écrire une seule ligne de code client.
bouton

Pourquoi Kimi K2.5 est difficile à exécuter (Le défi MoE)

Kimi K2.5 n'est pas seulement "grand" ; il est architecturalement complexe. Il utilise une architecture de Mixture-of-Experts (MoE) avec beaucoup plus d'experts que les modèles ouverts typiques comme Mixtral 8x7B.

Benchmark de Kimi k2.5

Le problème d'échelle

C'est pourquoi la quantification (réduction des bits par poids) est non négociable. Sans la compression extrême de 1,58 bit d'Unsloth, l'exécution de cela serait strictement du ressort des clusters de supercalcul.

Exigences matérielles : Pouvez-vous l'exécuter ?

La quantification "1,58 bit" est la magie qui rend cela possible, compressant la taille du modèle d'environ 60 % sans détruire l'intelligence.

Spécifications minimales (Quantification 1,58 bit)

Spécifications recommandées (Performance)

Pour obtenir des vitesses utilisables (>10 jetons/s) :

Note

La solution : Unsloth Dynamic GGUF

Unsloth a publié des versions GGUF dynamiques de Kimi K2.5. Ces fichiers vous permettent de charger le modèle dans llama.cpp, qui peut répartir intelligemment la charge de travail entre votre CPU (RAM) et votre GPU (VRAM).

Qu'est-ce que la quantification dynamique ?

La quantification standard applique la même compression à chaque couche. L'approche "Dynamique" d'Unsloth est plus intelligente :

Cette approche hybride permet à un modèle de 1T de fonctionner avec ~240 Go tout en conservant des capacités de raisonnement qui surpassent les modèles plus petits de 70B fonctionnant en pleine précision.

Guide d'installation étape par étape

Nous utiliserons llama.cpp car il fournit le moteur d'inférence le plus efficace pour les charges de travail CPU/GPU réparties.

Étape 1 : Installer llama.cpp

Vous devez compiler llama.cpp à partir des sources pour vous assurer d'avoir la dernière prise en charge de Kimi K2.5.

Mac/Linux :

# Install dependencies
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# Clone repository
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# Build with CUDA support (if you have NVIDIA GPUs)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# OR Build for CPU/Mac Metal (default)
# cmake -B build

# Compile
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

Étape 2 : Télécharger le modèle

Nous téléchargerons la version GGUF d'Unsloth. La version 1,58 bit est recommandée pour la plupart des configurations de "laboratoire domestique".

Vous pouvez utiliser huggingface-cli ou llama-cli directement.

Option A : Téléchargement direct avec llama-cli

# Create a directory for the model
mkdir -p models/kimi-k2.5

# Download and run (this will cache the model)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

Option B : Téléchargement manuel (Mieux pour la gestion)

pip install huggingface_hub

# Download specific quantization
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

Étape 3 : Exécuter l'inférence

Maintenant, lançons le modèle. Nous devons définir des paramètres d'échantillonnage spécifiques recommandés par Moonshot AI pour des performances optimales (temp 1.0, min-p 0.01).

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

Paramètres clés :

Exécuter en tant que serveur API local

Pour intégrer Kimi K2.5 à vos applications ou à Apidog, exécutez-le en tant que serveur compatible OpenAI.

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

Votre API locale est maintenant active à l'adresse http://127.0.0.1:8001/v1.

Connecter Apidog à votre Kimi K2.5 local

Apidog est l'outil parfait pour tester votre LLM local. Il vous permet de construire visuellement des requêtes, de gérer l'historique des conversations et de déboguer l'utilisation des jetons sans écrire de scripts curl.

Interface Apidog

1. Créer une nouvelle requête

Ouvrez Apidog et créez un nouveau projet HTTP. Créez une requête POST vers :
http://127.0.0.1:8001/v1/chat/completions

2. Configurer les en-têtes

Ajoutez les en-têtes suivants :

3. Définir le corps de la requête

Utilisez le format compatible OpenAI :

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "Vous êtes Kimi, fonctionnant localement."
    },
    {
      "role": "user",
      "content": "Expliquez l'informatique quantique en une phrase."
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. Envoyer et vérifier

Cliquez sur Envoyer. Vous devriez voir le flux de réponse arriver.

Pourquoi utiliser Apidog ?

Dépannage détaillé et optimisation des performances

L'exécution d'un modèle de 1T pousse le matériel grand public à son point de rupture. Voici des conseils avancés pour le maintenir stable.

"Échec du chargement du modèle : mémoire insuffisante"

C'est l'erreur la plus courante.

  1. Réduire le contexte : Diminuez --ctx-size à 4096 ou 8192.
  2. Fermer les applications : Arrêtez Chrome, VS Code et Docker. Vous avez besoin de chaque octet de RAM.
  3. Utiliser le déchargement sur disque (dernier recours) : llama.cpp peut mapper des parties du modèle sur le disque, mais l'inférence tombera à <1 jeton/s.

"Sortie indésirable" ou Texte répétitif

Kimi K2.5 est sensible à l'échantillonnage. Assurez-vous d'utiliser :

Vitesse de génération lente

Si vous obtenez 0,5 jeton/s, vous êtes probablement limité par la bande passante de la RAM système ou la vitesse du CPU.

Gérer les plantages

Si le modèle se charge mais plante pendant la génération :

  1. Vérifier le swap : Assurez-vous d'avoir un fichier d'échange (swap) massif activé (100 Go+). Même si vous avez 256 Go de RAM, les pics transitoires peuvent tuer le processus.
  2. Désactiver le déchargement du cache KV : Maintenez le cache KV sur le CPU si la VRAM est limitée (--no-kv-offload).

Prêt à construire ?
Que vous réussissiez à exécuter Kimi K2.5 localement ou que vous décidiez de vous en tenir à l'API, Apidog fournit la plateforme unifiée pour tester, documenter et surveiller vos intégrations d'IA. Téléchargez Apidog gratuitement et commencez à expérimenter dès aujourd'hui.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API