DeepSeek V4 se lanzó el 23 de abril de 2026 con pesos bajo licencia MIT en Hugging Face. Esa única elección de licencia cambia las reglas del juego para cualquier equipo que desee IA de vanguardia en su propio hardware. V4-Flash (284B total, 13B activo) cabe en un par de H100 a FP8. V4-Pro (1.6T total, 49B activo) necesita un clúster pero funciona competitivamente con GPT-5.5 y Claude Opus 4.6 en código y razonamiento.
Esta guía es un tutorial de implementación local. Cubre los requisitos de hardware, las opciones de cuantificación, las configuraciones de vLLM y SGLang, la configuración de uso de herramientas y un flujo de trabajo de prueba en Apidog que valida el servidor local antes de dirigir el tráfico de producción hacia él.
Para una descripción general del producto, consulte qué es DeepSeek V4. Para la ruta de la API alojada, consulte cómo usar la API de DeepSeek V4. Para la comparación de costos, consulte precios de la API de DeepSeek V4.
En resumen
- V4-Flash se ejecuta en 2 × H100 de 80GB a FP8, o 1 × H100 a INT4. Los pesos son de ~500GB a FP8.
- V4-Pro necesita más de 16 H100 a FP8 para el rendimiento de producción; no es un modelo para portátiles.
- vLLM es el camino más rápido a un servidor compatible con OpenAI.
vllm>=0.9.0añade soporte para V4. - SGLang es la alternativa para equipos que desean mejores características de uso de herramientas y salida estructurada.
- La cuantificación a AWQ INT4 o GPTQ INT4 permite que V4-Flash quepa en una única tarjeta de 80GB con una pérdida de calidad de ~5%.
- Use Apidog para apuntar a
http://localhost:8000/v1y reutilizar la colección exacta que usa con la API alojada.
Quién debería autoalojarse
El autoalojamiento de V4 es la decisión correcta para tres tipos de equipos.
- Con requisitos de cumplimiento. Trabajo en salud, finanzas, legal o defensa donde los datos no pueden salir de la red. La licencia MIT de pesos abiertos significa que no hay acuerdo de uso ni flujos de datos transfronterizos.
- Cargas de trabajo grandes y estables. A tasas de caché fallida, la API V4-Pro cuesta $1.74 / M de entrada y $3.48 / M de salida. Para cargas de trabajo de más de aproximadamente 200 mil millones de tokens por mes, el hardware dedicado comienza a superar la economía de pago por token.
- Ajuste fino e investigación. Los puntos de control Base existen específicamente para el preentrenamiento continuo y la adaptación de dominio. La licencia MIT cubre la redistribución comercial del modelo resultante.
Quién no debería autoalojarse: creadores de prototipos, equipos sin experiencia en operaciones de GPU y cualquiera cuya carga de trabajo quepa dentro de $200/mes de uso de la API alojada. Los gastos operativos anulan rápidamente el ahorro de costos a pequeña escala.
Requisitos de hardware
DeepSeek V4 usa precisión mixta FP4 + FP8 de forma nativa. Esto significa que el cálculo de memoria es más favorable de lo que sugiere un cálculo ingenuo de la cantidad de parámetros.
| Variante | Parámetros totales | Parámetros activos | VRAM FP8 | VRAM INT4 | Tarjetas mínimas |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | 2 × H100 80GB (FP8) o 1 × H100 (INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | 16 × H100 80GB (FP8) o 8 × H100 (INT4) |
Algunas aclaraciones:
- La memoria de MoE es total, no activa. Necesita suficiente VRAM para todos los expertos, aunque solo un subconjunto se activa por token. La cifra de 13B “activos” solo refleja el costo de cómputo por token, no la memoria.
- H200 y MI300X se intercambian limpiamente. 141GB o 192GB por tarjeta significan menos tarjetas para el mismo modelo.
- Las GPU de consumo no son adecuadas. Incluso V4-Flash en INT4 no se ejecuta en una RTX 5090 de 24GB.
- Apple Silicon: M3 Max y M4 Max con 128GB de memoria unificada pueden ejecutar V4-Flash con cuantificación pesada, lentamente. Es un juguete para desarrolladores, no un objetivo de implementación.
Paso 1: Descargar los pesos
Los repositorios oficiales:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Prodeepseek-ai/DeepSeek-V4-Flash-BaseyDeepSeek-V4-Pro-Basepara ajuste fino.
Instale la CLI y obtenga:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Reserve ~500GB de disco para V4-Flash y varios terabytes para V4-Pro. ModelScope (modelscope.cn) replica los mismos puntos de control y suele ser más rápido para usuarios en China.
Paso 2: Elegir un motor de servicio
Dos motores son importantes: vLLM y SGLang.
- vLLM. Mejor rendimiento, la interfaz compatible con OpenAI más limpia, la comunidad más grande. Elección predeterminada.
- SGLang. Mejores primitivas de uso de herramientas, salida estructurada y algunas mejoras en contexto largo. Elija esto si su carga de trabajo se basa en gran medida en la llamada a funciones.
Ambos soportan V4 de forma predeterminada a partir de las versiones lanzadas esta semana.
Paso 3: Servir V4-Flash con vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
Parámetros a tener en cuenta:
--tensor-parallel-size 2divide el modelo entre 2 H100. Auméntelo para más tarjetas.--max-model-len 1048576habilita la ventana de contexto completa de 1M de tokens. Redúzcalo a 131072 si no lo necesita; un contexto más corto libera VRAM.--enable-prefix-cachingreplica localmente el precio de acierto de caché de la API alojada. Mismo efecto: los prefijos repetidos se ejecutan mucho más rápido.--dtype autorespeta la precisión mixta FP8 de V4.
Una vez que el servidor está en funcionamiento, cualquier cliente compatible con OpenAI funciona con http://localhost:8000/v1.
Paso 4: Servir V4-Pro con vLLM
V4-Pro necesita un clúster. La forma del comando no cambia, solo el paralelismo.
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
El contexto se reduce a 512K aquí para que quepa cómodamente en una caja de 16 H100; auméntelo a 1M si la VRAM lo permite. El paralelismo de pipeline más el paralelismo de tensores es la forma común para la implementación entre nodos.
Paso 5: Servir con SGLang (la alternativa para el uso de herramientas)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
SGLang expone la misma superficie compatible con OpenAI en http://localhost:30000/v1. Su DSL lang proporciona primitivas de llamada a funciones y modo JSON más limpias que la guía de esquema JSON de vLLM.
Paso 6: Cuantificar para una caja de una sola GPU
La cuantificación INT4 ejecuta V4-Flash en una única tarjeta de 80GB con una caída de calidad medible pero pequeña. Dos caminos.
AWQ (recomendado)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# Siga la receta de cuantificación de GPTQ; patrón similar al de AWQ.
Sirva el punto de control cuantificado con vLLM pasando --quantization awq o --quantization gptq al iniciar.
Paso 7: Probar con Apidog
No envíe tráfico de producción a un servidor local recién instalado. Valídelo primero.

- Descargue Apidog.
- Cree una colección que apunte a
http://localhost:8000/v1/chat/completions. - Pegue el mismo prompt de prueba que usa con la API alojada. Compare las respuestas lado a lado.
- Pruebe el endpoint con una prueba de contexto de 500K tokens para confirmar que la caché KV se mantiene.
- Ejecute un flujo de llamada a herramientas de principio a fin antes de conectar un bucle de agente.
La colección exacta que usa con la API alojada de DeepSeek V4 funciona con un servidor local con un solo cambio de URL base; esa es la ventaja de los endpoints compatibles con OpenAI.
Observabilidad y monitorización
Cuatro métricas para seguir desde el primer día:
- Tokens por segundo. Tanto del prompt como de la generación. vLLM los expone en
/metricsen formato Prometheus. - Utilización de GPU.
nvidia-smio DCGM. Un uso sostenido <70% suele significar que su tamaño de lote es incorrecto. - Tasa de acierto de caché KV. Con
--enable-prefix-caching, vLLM informa esto; una tasa de acierto decreciente indica una rotación de prompts que está costando rendimiento. - Latencia de solicitud p50/p95/p99. Use el rastreo estándar; un p99 en aumento con un p50 estable significa que una forma de solicitud está bloqueando la cola.
Envíe los cuatro a Grafana o a cualquier pila de observabilidad que ya utilice.
Ajuste fino de los puntos de control Base de V4
Los puntos de control Base existen para el preentrenamiento continuo y SFT. El pipeline estándar:
pip install "torch>=2.6" transformers accelerate peft trl
# SFT estándar con LoRA en V4-Flash-Base
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
El ajuste fino de parámetros completos en V4-Pro es una tarea de investigación seria. Los adaptadores LoRA en V4-Flash-Base son el techo realista para la mayoría de los equipos; mucha ganancia de calidad, una fracción del cómputo.
Errores comunes
- OOM al iniciar. Por lo general,
--max-model-lense establece más alto de lo que permite la VRAM o--tensor-parallel-sizese establece demasiado bajo. Reduzca el contexto a la mitad o duplique el paralelismo. - Primera solicitud lenta. vLLM compila los kernels de forma perezosa. La primera llamada por forma siempre es lenta; caliéntelo con una solicitud simulada.
- Errores de análisis en el uso de herramientas. El esquema de codificación de DeepSeek difiere ligeramente del de OpenAI. Fije su SDK a una versión que soporte explícitamente V4.
- Errores de FP8 en tarjetas antiguas. Las A100 no soportan FP8 de forma nativa. Use BF16 en cualquier cosa anterior a Hopper; espere aproximadamente el doble de VRAM.
Cuándo vale la pena el autoalojamiento
Cálculo aproximado del punto de equilibrio, basado en los precios de la API alojada de DeepSeek V4:
- V4-Flash con 200B tokens de entrada/mes + 20B tokens de salida/mes: ~$33.6K en la API alojada. Una caja de 8 × H100 se alquila por ~$20K/mes. El autoalojamiento gana por ~40%.
- V4-Pro con 500B de entrada + 50B de salida por mes: ~$1.04M en la API alojada. Un clúster de 16 × H100 se alquila por ~$35K/mes. El autoalojamiento gana por más del 95%.
El punto de equilibrio para V4-Flash se sitúa en aproximadamente 100B tokens/mes en mezclas de producción. Por debajo de eso, la API alojada es más barata y los gastos operativos no valen la pena.
Preguntas frecuentes
- ¿Puedo ejecutar V4-Flash en una sola A100?Con cuantificación pesada y contexto más corto, sí, pero lentamente. INT4 en una A100 de 80GB ejecuta de 5 a 15 tok/s. La H100 es donde la arquitectura realmente quiere funcionar.
- ¿Soporta V4 el ajuste fino con LoRA?Sí. Use los puntos de control Base y los pipelines estándar de TRL o Axolotl. El enrutamiento MoE no cambia la matemática de LoRA.
- ¿El servidor local es compatible con OpenAI?Sí. vLLM y SGLang exponen
/v1/chat/completionsy/v1/completionscon el formato de solicitud de OpenAI. La guía de la API alojada funciona sin cambios contra localhost. - ¿Cómo habilito el modo de pensamiento localmente?Pase
thinking_mode: "thinking"o"thinking_max"en el cuerpo de la solicitud. vLLM y SGLang reenvían el flag al modelo. - ¿Puedo hacer streaming desde un servidor V4 local?Sí. Configure
stream: trueexactamente como lo haría con OpenAI o la API alojada de DeepSeek. - ¿Cuál es la forma más barata de experimentar antes de comprar hardware?Alquile una sola H100 en RunPod o Lambda por unas horas, ejecute V4-Flash a INT4 y mida el rendimiento con sus prompts reales. Una prueba de $10 a $30 responde la pregunta del hardware más rápido que una semana de planificación.
