Cómo Ejecutar DeepSeek V4 Localmente

Ashley Innocent

Ashley Innocent

24 April 2026

Cómo Ejecutar DeepSeek V4 Localmente

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

DeepSeek V4 se lanzó el 23 de abril de 2026 con pesos bajo licencia MIT en Hugging Face. Esa única elección de licencia cambia las reglas del juego para cualquier equipo que desee IA de vanguardia en su propio hardware. V4-Flash (284B total, 13B activo) cabe en un par de H100 a FP8. V4-Pro (1.6T total, 49B activo) necesita un clúster pero funciona competitivamente con GPT-5.5 y Claude Opus 4.6 en código y razonamiento.

Esta guía es un tutorial de implementación local. Cubre los requisitos de hardware, las opciones de cuantificación, las configuraciones de vLLM y SGLang, la configuración de uso de herramientas y un flujo de trabajo de prueba en Apidog que valida el servidor local antes de dirigir el tráfico de producción hacia él.

botón

Para una descripción general del producto, consulte qué es DeepSeek V4. Para la ruta de la API alojada, consulte cómo usar la API de DeepSeek V4. Para la comparación de costos, consulte precios de la API de DeepSeek V4.

En resumen

Quién debería autoalojarse

El autoalojamiento de V4 es la decisión correcta para tres tipos de equipos.

  1. Con requisitos de cumplimiento. Trabajo en salud, finanzas, legal o defensa donde los datos no pueden salir de la red. La licencia MIT de pesos abiertos significa que no hay acuerdo de uso ni flujos de datos transfronterizos.
  2. Cargas de trabajo grandes y estables. A tasas de caché fallida, la API V4-Pro cuesta $1.74 / M de entrada y $3.48 / M de salida. Para cargas de trabajo de más de aproximadamente 200 mil millones de tokens por mes, el hardware dedicado comienza a superar la economía de pago por token.
  3. Ajuste fino e investigación. Los puntos de control Base existen específicamente para el preentrenamiento continuo y la adaptación de dominio. La licencia MIT cubre la redistribución comercial del modelo resultante.

Quién no debería autoalojarse: creadores de prototipos, equipos sin experiencia en operaciones de GPU y cualquiera cuya carga de trabajo quepa dentro de $200/mes de uso de la API alojada. Los gastos operativos anulan rápidamente el ahorro de costos a pequeña escala.

Requisitos de hardware

DeepSeek V4 usa precisión mixta FP4 + FP8 de forma nativa. Esto significa que el cálculo de memoria es más favorable de lo que sugiere un cálculo ingenuo de la cantidad de parámetros.

Variante Parámetros totales Parámetros activos VRAM FP8 VRAM INT4 Tarjetas mínimas
V4-Flash 284B 13B ~500GB ~140GB 2 × H100 80GB (FP8) o 1 × H100 (INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB 16 × H100 80GB (FP8) o 8 × H100 (INT4)

Algunas aclaraciones:

Paso 1: Descargar los pesos

Los repositorios oficiales:

Instale la CLI y obtenga:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Reserve ~500GB de disco para V4-Flash y varios terabytes para V4-Pro. ModelScope (modelscope.cn) replica los mismos puntos de control y suele ser más rápido para usuarios en China.

Paso 2: Elegir un motor de servicio

Dos motores son importantes: vLLM y SGLang.

Ambos soportan V4 de forma predeterminada a partir de las versiones lanzadas esta semana.

Paso 3: Servir V4-Flash con vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

Parámetros a tener en cuenta:

Una vez que el servidor está en funcionamiento, cualquier cliente compatible con OpenAI funciona con http://localhost:8000/v1.

Paso 4: Servir V4-Pro con vLLM

V4-Pro necesita un clúster. La forma del comando no cambia, solo el paralelismo.

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

El contexto se reduce a 512K aquí para que quepa cómodamente en una caja de 16 H100; auméntelo a 1M si la VRAM lo permite. El paralelismo de pipeline más el paralelismo de tensores es la forma común para la implementación entre nodos.

Paso 5: Servir con SGLang (la alternativa para el uso de herramientas)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

SGLang expone la misma superficie compatible con OpenAI en http://localhost:30000/v1. Su DSL lang proporciona primitivas de llamada a funciones y modo JSON más limpias que la guía de esquema JSON de vLLM.

Paso 6: Cuantificar para una caja de una sola GPU

La cuantificación INT4 ejecuta V4-Flash en una única tarjeta de 80GB con una caída de calidad medible pero pequeña. Dos caminos.

AWQ (recomendado)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# Siga la receta de cuantificación de GPTQ; patrón similar al de AWQ.

Sirva el punto de control cuantificado con vLLM pasando --quantization awq o --quantization gptq al iniciar.

Paso 7: Probar con Apidog

No envíe tráfico de producción a un servidor local recién instalado. Valídelo primero.

Una captura de pantalla de la interfaz de Apidog mostrando una solicitud a un servidor local de DeepSeek V4.
  1. Descargue Apidog.
  2. Cree una colección que apunte a http://localhost:8000/v1/chat/completions.
  3. Pegue el mismo prompt de prueba que usa con la API alojada. Compare las respuestas lado a lado.
  4. Pruebe el endpoint con una prueba de contexto de 500K tokens para confirmar que la caché KV se mantiene.
  5. Ejecute un flujo de llamada a herramientas de principio a fin antes de conectar un bucle de agente.

La colección exacta que usa con la API alojada de DeepSeek V4 funciona con un servidor local con un solo cambio de URL base; esa es la ventaja de los endpoints compatibles con OpenAI.

Observabilidad y monitorización

Cuatro métricas para seguir desde el primer día:

  1. Tokens por segundo. Tanto del prompt como de la generación. vLLM los expone en /metrics en formato Prometheus.
  2. Utilización de GPU. nvidia-smi o DCGM. Un uso sostenido <70% suele significar que su tamaño de lote es incorrecto.
  3. Tasa de acierto de caché KV. Con --enable-prefix-caching, vLLM informa esto; una tasa de acierto decreciente indica una rotación de prompts que está costando rendimiento.
  4. Latencia de solicitud p50/p95/p99. Use el rastreo estándar; un p99 en aumento con un p50 estable significa que una forma de solicitud está bloqueando la cola.

Envíe los cuatro a Grafana o a cualquier pila de observabilidad que ya utilice.

Ajuste fino de los puntos de control Base de V4

Los puntos de control Base existen para el preentrenamiento continuo y SFT. El pipeline estándar:

pip install "torch>=2.6" transformers accelerate peft trl

# SFT estándar con LoRA en V4-Flash-Base
python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

El ajuste fino de parámetros completos en V4-Pro es una tarea de investigación seria. Los adaptadores LoRA en V4-Flash-Base son el techo realista para la mayoría de los equipos; mucha ganancia de calidad, una fracción del cómputo.

Errores comunes

  1. OOM al iniciar. Por lo general, --max-model-len se establece más alto de lo que permite la VRAM o --tensor-parallel-size se establece demasiado bajo. Reduzca el contexto a la mitad o duplique el paralelismo.
  2. Primera solicitud lenta. vLLM compila los kernels de forma perezosa. La primera llamada por forma siempre es lenta; caliéntelo con una solicitud simulada.
  3. Errores de análisis en el uso de herramientas. El esquema de codificación de DeepSeek difiere ligeramente del de OpenAI. Fije su SDK a una versión que soporte explícitamente V4.
  4. Errores de FP8 en tarjetas antiguas. Las A100 no soportan FP8 de forma nativa. Use BF16 en cualquier cosa anterior a Hopper; espere aproximadamente el doble de VRAM.

Cuándo vale la pena el autoalojamiento

Cálculo aproximado del punto de equilibrio, basado en los precios de la API alojada de DeepSeek V4:

El punto de equilibrio para V4-Flash se sitúa en aproximadamente 100B tokens/mes en mezclas de producción. Por debajo de eso, la API alojada es más barata y los gastos operativos no valen la pena.

Preguntas frecuentes

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs