Cómo Ejecutar Kimi K2.5 Localmente

Ashley Innocent

Ashley Innocent

29 January 2026

Cómo Ejecutar Kimi K2.5 Localmente

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

El lanzamiento de Kimi K2.5 por Moonshot AI ha establecido un nuevo punto de referencia para los modelos de código abierto. Con 1 billón de parámetros y una arquitectura de Mezcla de Expertos (MoE), rivaliza con gigantes propietarios como GPT-4o. Sin embargo, su enorme tamaño lo convierte en una bestia difícil de ejecutar.

Para desarrolladores e investigadores, ejecutar K2.5 localmente ofrece privacidad inmejorable, latencia cero (a nivel de red) y ahorro de costos en tokens de API. Pero a diferencia de los modelos más pequeños de 7B o 70B, no se puede simplemente cargar esto en un ordenador portátil de juegos estándar.

Esta guía explora cómo aprovechar las innovadoras técnicas de cuantificación de Unsloth para adaptar este modelo masivo a hardware (algo) accesible usando llama.cpp, y cómo integrarlo en su flujo de trabajo de desarrollo con Apidog.

💡
Antes de empezar a compilar código, asegúrate de tener una forma de probar tu servidor local de manera eficiente. Descarga Apidog gratis, es la mejor herramienta para depurar puntos finales de LLM locales, verificar la transmisión de tokens y la compatibilidad de la API sin escribir una sola línea de código cliente.
botón

Por qué Kimi K2.5 es Difícil de Ejecutar (El Desafío MoE)

Kimi K2.5 no es solo "grande"; es arquitectónicamente complejo. Utiliza una arquitectura de Mezcla de Expertos (MoE) con significativamente más expertos que los modelos abiertos típicos como Mixtral 8x7B.

Benchmark de Kimi k2.5

El Problema de la Escala

Por eso la cuantificación (reducir los bits por peso) no es negociable. Sin la compresión extrema de 1.58 bits de Unsloth, ejecutar esto sería estrictamente el dominio de clústeres de supercomputación.

Requisitos de Hardware: ¿Puedes Ejecutarlo?

La cuantificación de "1.58 bits" es la magia que hace esto posible, comprimiendo el tamaño del modelo en un ~60% sin destruir la inteligencia.

Especificaciones Mínimas (Cuantificación de 1.58 bits)

Especificaciones Recomendadas (Rendimiento)

Para obtener velocidades utilizables (>10 tokens/s):

Nota

La Solución: Unsloth Dynamic GGUF

Unsloth ha lanzado versiones GGUF dinámicas de Kimi K2.5. Estos archivos permiten cargar el modelo en llama.cpp, que puede dividir inteligentemente la carga de trabajo entre tu CPU (RAM) y GPU (VRAM).

¿Qué es la Cuantificación Dinámica?

La cuantificación estándar aplica la misma compresión a cada capa. El enfoque "Dinámico" de Unsloth es más inteligente:

Este enfoque híbrido permite que un modelo de 1T se ejecute en ~240 GB mientras conserva capacidades de razonamiento que superan a modelos más pequeños de 70B que se ejecutan a precisión completa.

Guía de Instalación Paso a Paso

Utilizaremos llama.cpp, ya que proporciona el motor de inferencia más eficiente para cargas de trabajo divididas entre CPU/GPU.

Paso 1: Instalar llama.cpp

Necesitas construir llama.cpp desde la fuente para asegurarte de tener la última compatibilidad con Kimi K2.5.

Mac/Linux:

# Instalar dependencias
sudo apt-get update && sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# Clonar repositorio
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

# Construir con soporte CUDA (si tienes GPUs NVIDIA)
cmake -B build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON

# O Construir para CPU/Mac Metal (predeterminado)
# cmake -B build

# Compilar
cmake --build build --config Release -j --clean-first --target llama-cli llama-server

Paso 2: Descargar el Modelo

Descargaremos la versión GGUF de Unsloth. La versión de 1.58 bits se recomienda para la mayoría de las configuraciones de "laboratorio casero".

Puedes usar huggingface-cli o llama-cli directamente.

Opción A: Descarga Directa con llama-cli

# Crear un directorio para el modelo
mkdir -p models/kimi-k2.5

# Descargar y ejecutar (esto almacenará en caché el modelo)
./build/bin/llama-cli \
    -hf unsloth/Kimi-K2.5-GGUF:UD-TQ1_0 \
    --model-url unsloth/Kimi-K2.5-GGUF \
    --print-token-count 0

Opción B: Descarga Manual (Mejor para la gestión)

pip install huggingface_hub

# Descargar cuantificación específica
huggingface-cli download unsloth/Kimi-K2.5-GGUF \
  --include "*UD-TQ1_0*" \
  --local-dir models/kimi-k2.5

Paso 3: Ejecutar Inferencia

Ahora, pongamos en marcha el modelo. Necesitamos establecer parámetros de muestreo específicos recomendados por Moonshot AI para un rendimiento óptimo (temp 1.0, min-p 0.01).

./build/bin/llama-cli \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --temp 1.0 \
    --min-p 0.01 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --threads 16 \
    --prompt "User: Write a Python script to scrape a website.\nAssistant:"

Parámetros Clave:

Ejecutar como Servidor API Local

Para integrar Kimi K2.5 con tus aplicaciones o Apidog, ejecútalo como un servidor compatible con OpenAI.

./build/bin/llama-server \
    -m models/kimi-k2.5/Kimi-K2.5-UD-TQ1_0-00001-of-00005.gguf \
    --port 8001 \
    --alias "kimi-k2.5-local" \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --host 0.0.0.0

Tu API local ahora está activa en http://127.0.0.1:8001/v1.

Conectando Apidog a tu Kimi K2.5 Local

Apidog es la herramienta perfecta para probar tu LLM local. Te permite construir visualmente solicitudes, gestionar el historial de conversaciones y depurar el uso de tokens sin escribir scripts curl.

Interfaz de Apidog

1. Crear una Nueva Solicitud

Abre Apidog y crea un nuevo proyecto HTTP. Crea una solicitud POST a:
http://127.0.0.1:8001/v1/chat/completions

2. Configurar Encabezados

Agrega los siguientes encabezados:

3. Establecer el Cuerpo

Usa el formato compatible con OpenAI:

{
  "model": "kimi-k2.5-local",
  "messages": [
    {
      "role": "system",
      "content": "Eres Kimi, ejecutándose localmente."
    },
    {
      "role": "user",
      "content": "Explica la Computación Cuántica en una frase."
    }
  ],
  "temperature": 1.0,
  "max_tokens": 1024
}

4. Enviar y Verificar

Haz clic en Enviar. Deberías ver la transmisión de la respuesta.

¿Por qué usar Apidog?

Resolución Detallada de Problemas y Ajuste de Rendimiento

Ejecutar un modelo de 1T lleva el hardware de consumo a su límite. Aquí tienes consejos avanzados para mantenerlo estable.

"Error al cargar el modelo: sin memoria"

Este es el error más común.

  1. Reducir Contexto: Reduce --ctx-size a 4096 u 8192.
  2. Cerrar Aplicaciones: Cierra Chrome, VS Code y Docker. Necesitas cada byte de RAM.
  3. Usar Descarga a Disco (Último recurso): llama.cpp puede mapear partes del modelo al disco, pero la inferencia caerá a <1 token/s.

"Salida sin sentido" o Texto Repetitivo

Kimi K2.5 es sensible al muestreo. Asegúrate de usar:

Velocidad de Generación Lenta

Si obtienes 0.5 tokens/s, es probable que estés limitado por el ancho de banda de la RAM del sistema o la velocidad de la CPU.

Cómo Lidiar con los Bloqueos

Si el modelo se carga pero se bloquea durante la generación:

  1. Comprueba el Espacio de Intercambio (Swap): Asegúrate de tener un archivo de intercambio masivo habilitado (más de 100GB). Incluso si tienes 256GB de RAM, los picos transitorios pueden matar el proceso.
  2. Desactivar la Descarga de la Caché KV: Mantén la caché KV en la CPU si la VRAM es limitada (--no-kv-offload).

¿Listo para construir?
Ya sea que logres ejecutar Kimi K2.5 localmente o decidas quedarte con la API, Apidog proporciona la plataforma unificada para probar, documentar y monitorear tus integraciones de IA. Descarga Apidog gratis y comienza a experimentar hoy mismo.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs