DeepSeek V4 se lanzó el 23 de abril de 2026 con cuatro puntos de control, una API en vivo y pesos con licencia MIT en Hugging Face. Esa combinación significa que no hay una única "manera correcta" de usarlo; el mejor camino depende de si desea acceso instantáneo, llamadas a la API de producción o implementación local. Esta guía recorre los tres, con sus ventajas, desventajas, advertencias y un flujo de trabajo de prompts listo para producción que puede reutilizar.
Si solo desea la descripción general del producto, lea primero qué es DeepSeek V4. Para un tutorial puro de la API, consulte la guía de la API de DeepSeek V4. Para la ruta de costo cero, consulte cómo usar DeepSeek V4 gratis. Cuando esté listo para probar solicitudes reales, obtenga Apidog y pre-construya la colección.
TL;DR
- Ruta más rápida: chat.deepseek.com. Chat web gratuito, V4-Pro por defecto, tres modos de razonamiento.
- Ruta de producción:
https://api.deepseek.com/v1/chat/completionscon IDs de modelodeepseek-v4-proodeepseek-v4-flash. - Ruta autoalojada: obtenga los pesos de Hugging Face, ejecute los scripts
/inferenceen el repositorio. - Elija Non-Think para enrutamiento y clasificación, Think High para código y análisis, Think Max solo cuando la precisión importe más que el costo.
- Recomendación de muestreo de DeepSeek:
temperature=1.0, top_p=1.0. No lo cuestione. - Use Apidog como cliente de API; el formato compatible con OpenAI significa que una solicitud guardada se reproduce en DeepSeek, OpenAI y Anthropic.

Elija el camino correcto para su carga de trabajo
Existen cuatro caminos realistas. Cada uno destaca en algo diferente.
| Ruta | Costo | Tiempo de configuración | Ideal para |
|---|---|---|---|
| chat.deepseek.com | Gratis | 30 segundos | Pruebas rápidas, trabajo ad-hoc |
| API de DeepSeek | Facturación por token | 5 minutos | Producción, agentes, trabajos por lotes |
| V4-Flash autoalojado | Solo costo de hardware | Unas pocas horas | Cumplimiento local, inferencia sin conexión |
| V4-Pro autoalojado | Solo costo de clúster | Un día | Investigación, ajustes finos personalizados |
| OpenRouter / agregador | Facturación por token | 2 minutos | Respaldo multi-proveedor |
Ruta 1: Usar V4 en el chat web
La forma más rápida de formarse una opinión sobre V4 es la interfaz de chat oficial.
- Vaya a chat.deepseek.com.
- Inicie sesión con correo electrónico, Google o WeChat.
- V4-Pro es el modelo predeterminado. El interruptor en la parte superior del compositor alterna entre Non-Think, Think High y Think Max.
- Empiece a escribir.

El chat web admite carga de archivos, búsqueda web y el contexto completo de 1M de tokens. Se aplican límites de tasa a nivel de cuenta; el uso intensivo puede ralentizar las respuestas, pero rara vez las bloquea por completo.
Buenas tareas para la interfaz de usuario web: pegar un rastro de error para diagnosticar, subir un PDF de 200 páginas para un resumen, comparar con el mismo prompt que ejecuta a través de GPT-5.5 o Claude. Malas tareas: cualquier cosa que desee automatizar o reproducir.
Ruta 2: Usar la API de DeepSeek
Este es el camino que la mayoría de los equipos tomarán. La API está en vivo, la forma de la solicitud es compatible con OpenAI y los IDs de modelo son los mismos que DeepSeek mantendrá después de la eliminación de deepseek-chat en julio de 2026.
Obtener una clave
- Regístrese en platform.deepseek.com.
- Agregue un método de pago. Las recargas comienzan en $2.
- Cree una clave de API en API Keys y cópiela una vez; no volverá a ver el secreto.
Exporte la clave para que todos los clientes la recojan:
export DEEPSEEK_API_KEY="sk-..."
La solicitud mínima viable
DeepSeek expone dos URLs base. La interfaz compatible con OpenAI es la que debe usar por defecto.
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
Intercambie deepseek-v4-pro por deepseek-v4-flash si desea la variante más económica. Intercambie thinking por non-thinking si desea la ruta rápida.
Cliente Python
El SDK oficial de openai funciona con una única anulación de URL base. Esa es la ventaja silenciosa de los puntos finales compatibles con OpenAI; cada biblioteca envolvente, incluyendo LangChain, LlamaIndex y DSPy, funciona sin modificaciones.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Cliente Node
Mismo patrón en Node:
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
Los detalles completos del endpoint, las tablas de parámetros y el manejo de errores se encuentran en la guía de la API de DeepSeek V4.
Ruta 3: Iterar con Apidog
Curl está bien para una sola llamada. Después de eso, cada nueva ejecución desperdicia créditos y llena su terminal. Apidog resuelve ambos problemas.
- Descargue Apidog para Mac, Windows o Linux.
- Cree un nuevo proyecto de API, agregue una solicitud POST dirigida a
https://api.deepseek.com/v1/chat/completions. - Agregue
Authorization: Bearer {{DEEPSEEK_API_KEY}}como encabezado y guarde la clave en variables de entorno, no en el cuerpo de la solicitud. - Pegue su primer cuerpo JSON y guarde. Cada ajuste a partir de aquí es un clic para reproducir.
- Use el visor de respuestas incorporado para comparar los rastros de razonamiento entre las ejecuciones de Non-Think y Think Max en el mismo prompt.
La misma colección puede contener una solicitud de OpenAI GPT-5.5, una solicitud de Claude y una solicitud de DeepSeek V4 una al lado de la otra. Esto hace que las pruebas A/B entre proveedores sean triviales y mantiene su facturación visible en una sola ventana. Para los equipos que ya usan Apidog con otras APIs de IA, el flujo de trabajo se mapea uno a uno; la colección de API GPT-5.5 guardada se convierte en una colección V4 con un solo cambio de URL base.
Ruta 4: Autoalojar V4-Flash
Si los requisitos de cumplimiento, las necesidades de separación de red o la economía unitaria lo alejan de las APIs alojadas, la licencia MIT significa que usted es el propietario absoluto de este camino.
Hardware
- V4-Flash (13B activo, 284B total): 2 a 4 tarjetas H100 / H200 / MI300X en FP8. Cuantizado a INT4, cabe en una sola tarjeta de 80 GB con lotes ajustados.
- V4-Pro (49B activo, 1.6T total): territorio de clúster genuino. De 16 a 32 H100 es el límite realista para la inferencia en producción.
Obtener los pesos
# Instalar la CLI una vez
pip install -U "huggingface_hub[cli]"
# Iniciar sesión si el repositorio está restringido (V4 es público, pero el inicio de sesión ayuda con los límites de tasa)
huggingface-cli login
# Descargar V4-Flash
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
Espere que la descarga tarde un tiempo. V4-Flash es aproximadamente 500 GB en FP8; V4-Pro está en el rango de varios terabytes.
Ejecutar inferencia
La carpeta /inference en el repositorio del modelo tiene código de referencia. Para pruebas rápidas, vLLM y SGLang han publicado ramas de soporte para V4 dentro de un día de su lanzamiento.
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
Una vez que vLLM esté funcionando, apunte cualquier cliente compatible con OpenAI a http://localhost:8000/v1. La misma colección de Apidog, diferente URL base.
Cómo crear prompts efectivos para V4
V4 responde a los prompts de manera diferente que GPT-5.5 o Claude. Tres patrones que funcionan.
- Pida explícitamente el modo de razonamiento que desea. Configure
thinking_modepara que coincida con la tarea. No confíe en que el modelo elija. - Use prompts de sistema para la persona, no para la forma de la tarea. V4-Pro sigue bien los prompts de sistema para el tono y las restricciones; es menos confiable cuando intenta introducir toda la especificación de la tarea en el mensaje del sistema. Ponga la tarea en el mensaje del usuario.
- Proporcione a las tareas de código un arnés de prueba. La puntuación de LiveCodeBench de 93.5 provino de evaluaciones con casos de prueba claros. Sus tareas de código se beneficiarán de lo mismo; pegue la prueba fallida y el modelo escribirá código que la hará pasar con más frecuencia que si pide "una función que haga X".
Para trabajos de contexto largo (cientos de miles de tokens), mantenga el material más relevante cerca de la parte superior e inferior de la ventana de entrada. La atención híbrida de V4 es eficiente, pero aún aparecen sesgos de recencia y primacía.
Control de costos
Incluso con los bajos precios de token de V4, un agente descontrolado puede agotar un presupuesto rápidamente. Tres salvaguardas:
- Use V4-Flash por defecto. Use V4-Pro solo cuando haya medido una brecha de calidad que importe.
- Use Non-Think por defecto. Escale a Think High para tareas difíciles; reserve Think Max para trabajos críticos en cuanto a corrección.
- Limite
max_tokens. El contexto de 1M es un límite superior, no un objetivo. La mayoría de las respuestas caben en 2,000 tokens de salida.
Dentro de Apidog, establezca variables con ámbito de entorno para DEEPSEEK_API_KEY para que las ejecuciones de prueba lleguen a una cuenta de facturación separada de la de producción. Apidog también registra el conteo de tokens en cada respuesta, que es la forma más sencilla de detectar un prompt que se alargó demasiado.
Migración desde DeepSeek V3 u otros modelos
Tres rutas de migración cubren a la mayoría de los equipos:
- Desde
deepseek-chat/deepseek-reasoner: cambie el ID del modelo adeepseek-v4-proodeepseek-v4-flash. Los IDs antiguos se desaprobarán el 24 de julio de 2026. Realice esta migración antes de esa fecha. - Desde OpenAI GPT-5.x: cambie la URL base a
https://api.deepseek.com/v1, cambie el ID del modelo y deje todo lo demás como está. Consulte la guía de la API de GPT-5.5 correspondiente para la forma de solicitud paralela. - Desde Anthropic Claude: apunte a
https://api.deepseek.com/anthropicpara mantener el formato de mensaje de Anthropic, o reformatee al formato de OpenAI y use el endpoint principal.
Preguntas frecuentes
¿Necesito una cuenta de pago para usar V4?El chat web es gratuito. La API requiere una recarga, pero el mínimo es de $2. Consulte cómo usar DeepSeek V4 gratis para conocer las rutas sin costo.
¿Qué variante debería usar por defecto?Empiece con V4-Flash en modo Non-Think. Mida la calidad. Escale solo donde valga la pena.
¿Puedo ejecutar V4 en mi MacBook?V4-Flash se ejecutará en un M3 Max o M4 Max con 128 GB de memoria unificada con cuantificación pesada, lentamente. V4-Pro no lo hará. Para la experimentación a nivel de portátil, quédese con la API o el chat web.
¿V4 admite el uso de herramientas y la llamada a funciones?Sí. El endpoint compatible con OpenAI acepta el array estándar tools; las respuestas devuelven tool_calls con la misma forma. El endpoint en formato Anthropic utiliza el esquema nativo de uso de herramientas de Anthropic.
¿Cómo transmito las respuestas?Establezca stream: true en el cuerpo de la solicitud. La respuesta es un flujo SSE estándar compatible con OpenAI; cualquier biblioteca que maneje la transmisión de OpenAI funciona sin cambios.
¿Existe un límite de tasa?La API alojada publica límites por nivel en api-docs.deepseek.com. V4 autoalojado no tiene límite por solicitud más allá de su hardware.
