DeepSeek publicó los precios de V4 el mismo día en que se lanzaron los modelos, el 23 de abril de 2026, y las cifras reajustaron el punto de partida para la IA de frontera. V4-Flash funciona a **$0.14 por millón de tokens de entrada y $0.28 por millón de tokens de salida**. V4-Pro funciona a **$1.74 de entrada y $3.48 de salida**. Ambos modelos tienen una ventana de contexto de 1 millón de tokens y hasta 384 mil tokens de salida. Ambos también ofrecen un agresivo descuento por acierto de caché que reduce los costos de entrada entre un 80% y un 90% en solicitudes repetidas.
Esta guía cubre la lista de precios completa, cómo el almacenamiento en caché de contexto cambia el costo real por llamada, una comparación honesta con GPT-5.5 y Claude Opus, y cuatro formas de mantener el gasto predecible dentro de Apidog.
Para la descripción general del producto, consulte qué es DeepSeek V4. Para el tutorial para desarrolladores, consulte cómo usar la API de DeepSeek V4. Para rutas de costo cero, consulte cómo usar DeepSeek V4 gratis.
En resumen
- V4-Flash: $0.14 / M de entrada (sin caché), $0.028 / M de entrada (con caché), $0.28 / M de salida.
- V4-Pro: $1.74 / M de entrada (sin caché), $0.145 / M de entrada (con caché), $3.48 / M de salida.
- Ventana de contexto: 1 millón de tokens de entrada, 384 mil tokens de salida, en ambas variantes.
- Descuento por acierto de caché: aproximadamente un 80% de descuento en Flash, un 92% de descuento en Pro en prefijos repetidos.
deepseek-chatydeepseek-reasonerse deprecian el 24 de julio de 2026; la facturación se asigna a V4-Flash.- Con tasas de caché fallido, V4-Pro es ~2.9 veces más barato que GPT-5.5 en entrada y ~8.6 veces más barato en salida.
La lista de precios completa
| Modelo | Entrada (sin caché) | Entrada (con caché) | Salida | Contexto |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (obsoleto 24-07-2026) |
se asigna a V4-Flash sin razonamiento | — | — | — |
deepseek-reasoner (obsoleto 24-07-2026) |
se asigna a V4-Flash con razonamiento | — | — | — |
Tres detalles importan más que las cifras brutas.
Primero, los precios son los mismos tanto si estás en modo de razonamiento como en modo sin razonamiento. El ID del modelo establece la tarifa; el modo de razonamiento solo cambia cuántos tokens consumes a esa tarifa.
Segundo, la tarificación por acierto de caché es automática. Cada solicitud con un prefijo repetido en la misma cuenta se beneficia; no necesitas activar ni configurar nada. Los prefijos deben tener al menos 1,024 tokens de longitud y deben coincidir byte a byte.
Tercero, los IDs más antiguos deepseek-chat y deepseek-reasoner ahora se facturan como alias de V4-Flash. Si no has migrado, ya estás obteniendo la calidad de V4-Flash a precios de V4-Flash; la fecha límite de deprecación del ID es el 24 de julio de 2026.
Almacenamiento en caché de contexto en lenguaje sencillo
El almacenamiento en caché es la mayor palanca de costos en DeepSeek V4. El patrón es simple: cualquier cosa que se repita en varias llamadas, especialmente indicaciones de sistema largas, esquemas de herramientas de agente y contexto RAG, se factura a una fracción de la tarifa de entrada completa en la segunda llamada y las posteriores.
Un ejemplo concreto. Ejecutas un agente con una indicación de sistema de 20,000 tokens que nunca cambia, y luego haces 100 preguntas diferentes de usuario de 200 tokens cada una.
Sin almacenamiento en caché:
- Entrada: 100 llamadas × 20,200 tokens × $1.74 / M = $3.52
- Salida: 100 llamadas × 500 tokens × $3.48 / M = $0.17
- Total: $3.69
Con almacenamiento en caché (la primera llamada falla, las siguientes 99 aciertan):
- Entrada de la primera llamada: 20,200 × $1.74 / M = $0.035
- Siguientes 99 prefijos con acierto de caché: 99 × 20,000 × $0.145 / M = $0.287
- Siguientes 99 turnos de usuario sin caché: 99 × 200 × $1.74 / M = $0.034
- Salida: 100 × 500 × $3.48 / M = $0.174
- Total: $0.53
Aproximadamente 7 veces más barato en una carga de trabajo idéntica. El efecto de almacenamiento en caché es aún más drástico en V4-Flash, donde la tarifa bruta ya es baja.
Cómo se compara con GPT-5.5 y Claude
La comparación que a la mayoría de los equipos realmente les importa:
| Modelo | Entrada (estándar) | Entrada (en caché) | Salida | Contexto |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
Tres lecturas de esta tabla.
- En tokens de salida, V4-Pro es aproximadamente 8.6 veces más barato que GPT-5.5 y 21 veces más barato que Claude Opus 4.6. La salida es donde la mayoría de las cargas de trabajo de los agentes gastan su presupuesto; la diferencia se agrava.
- En entrada en caché, V4-Pro es aproximadamente 10 veces más barato que GPT-5.5 en caché y 10 veces más barato que Claude en caché. Las indicaciones de sistema largas, los esquemas de herramientas y el contexto RAG repetido son los más afectados aquí.
- En la relación de rendimiento bruto, V4-Pro iguala o supera a GPT-5.5 en LiveCodeBench (93.5 frente al nivel superior) y Codeforces (3206 frente a 3168), mientras que cuesta una pequeña fracción. Ese es el núcleo de la propuesta de valor de los pesos abiertos. Consulte qué es DeepSeek V4 para ver la tabla de rendimiento completa.
Advertencias honestas: Claude sigue superando a V4-Pro en los puntos de referencia de recuperación de contexto largo, y Gemini 3.1 Pro sigue liderando MMLU-Pro. Si tu carga de trabajo depende de la recuperación de 'una aguja en un pajar' en un millón de tokens, el ahorro por token podría no compensar la brecha de calidad.
Modelado de costos para cargas de trabajo comunes
Cuatro cargas de trabajo cubren la mayoría de los casos de uso en producción. Aquí se muestra lo que cuesta cada una en V4-Pro (línea base sin caché; los ahorros por acierto de caché se acumulan).
1. Bucle de codificación agéntico (50K de contexto, 2K de salida, 20 llamadas por tarea)
- Entrada: 50,000 × 20 × $1.74 / M = $1.74
- Salida: 2,000 × 20 × $3.48 / M = $0.14
- Costo por tarea: ~$1.88
Comparado con GPT-5.5, que cuesta aproximadamente $6.20 por tarea con la misma forma.
2. Preguntas y respuestas de documentos largos (500K de contexto, 1K de salida)
- Entrada: 500,000 × $1.74 / M = $0.87
- Salida: 1,000 × $3.48 / M = $0.003
- Costo por llamada: ~$0.87
Comparado con GPT-5.5, que cuesta aproximadamente $2.53 por llamada.
3. Clasificación de alto volumen (2K de contexto, 200 de salida, 10,000 llamadas)
Usa V4-Flash aquí; V4-Pro es excesivo.
- Entrada: 2,000 × 10,000 × $0.14 / M = $2.80
- Salida: 200 × 10,000 × $0.28 / M = $0.56
- Costo de ejecución: ~$3.36
Comparado con GPT-5.5, que cuesta aproximadamente $110 por la misma ejecución.
4. Chatbot con indicaciones repetidas (10K de indicación del sistema, 500 tokens de usuario, 1K de salida, 1,000 sesiones)
- Entrada de la primera llamada: 10,500 × $1.74 / M = $0.018
- Entrada con caché: 999 × 10,000 × $0.145 / M = $1.45
- Turnos de usuario sin caché: 999 × 500 × $1.74 / M = $0.87
- Salida: 1,000 × 1,000 × $3.48 / M = $3.48
- Costo de ejecución por sesión: ~$5.82
Comparado con GPT-5.5 con almacenamiento en caché a aproximadamente $26.35 para la misma carga de trabajo.
Costos ocultos a tener en cuenta
El precio de etiqueta no es toda la historia. Cuatro elementos muerden a los equipos después del primer mes:
- Inflación de tokens en modo de razonamiento.
thinking_maxconsume de 3 a 10 veces más tokens de salida quenon-thinkingen la misma indicación. Esos tokens de razonamiento se facturan a la tarifa de salida. Limita Think Max con un indicador. - Crecimiento silencioso del contexto. Los bucles de agente a menudo realimentan la conversación completa en cada turno. Con contextos de 1 millón de tokens, esto se dispara rápidamente. Trunca o resume agresivamente.
- Tormentas de reintentos. Un bucle con errores que reintenta en cada respuesta 500 puede duplicar tu factura en una hora. Añade un retroceso exponencial y un límite estricto de reintentos por solicitud.
- Cambios constantes en el desarrollo. Iterar sobre una indicación a través de curl vuelve a ejecutar el contexto completo cada vez. Usar Apidog reduce esto a casi cero porque la sustitución de variables hace que los ajustes de las indicaciones sean gratuitos para reintentar sin volver a escribir la carga útil completa.
Seguimiento de costos en Apidog
El flujo de trabajo que la mayoría de los equipos adoptan una vez que las facturas se vuelven reales:
- Descarga Apidog y almacena
DEEPSEEK_API_KEYcomo una variable secreta por entorno. - Guarda una única solicitud POST en
https://api.deepseek.com/v1/chat/completions. - En el panel de respuesta, ancla
usage.prompt_tokens,usage.completion_tokensyusage.reasoning_tokens. Cada llamada muestra el cálculo de costos en la misma pantalla que la salida. - Parametriza
modelythinking_modepara que puedas hacer pruebas A/B entre V4-Flash y V4-Pro, y entre Non-Think y Think Max, sin duplicar solicitudes. - Replica la misma colección para GPT-5.5 (la guía de la API de GPT-5.5 correspondiente documenta la configuración). Una ventana, ambos proveedores, costos visibles.
Ese flujo de trabajo detecta aproximadamente el 80% de las sorpresas de costos que aparecen en las facturas de fin de mes.
Cuatro reglas para mantener el gasto predecible
- Por defecto, usa V4-Flash. Cambia a V4-Pro solo cuando hayas medido una brecha de calidad que impacte los ingresos.
- Por defecto, usa Non-Think. Escala a Think High en tareas difíciles. Reserva Think Max para trabajos críticos en cuanto a corrección.
- Limita
max_tokens. El límite de salida de 384 mil es una seguridad, no un objetivo. La mayoría de las respuestas de producción caben en 2 mil. - Envía telemetría de uso. Registra
prompt_tokens,completion_tokensyreasoning_tokensen cada llamada. Alerta sobre picos de tokens de razonamiento; estos indican que las indicaciones se desviaron accidentalmente al territorio de Think Max.
Preguntas frecuentes
¿Existe un nivel gratuito? No hay un nivel de API sin costo de uso, pero las cuentas nuevas ocasionalmente reciben un pequeño crédito de prueba. Para rutas de costo cero fuera de la API, consulte cómo usar DeepSeek V4 gratis.
¿Cómo funciona la tarificación por acierto de caché? Los prefijos de 1,024 tokens o más que se repiten en las solicitudes dentro de la misma cuenta se facturan a la tarifa de acierto de caché. La primera llamada paga la tarifa de fallo de caché; las llamadas posteriores con prefijo idéntico pagan la tarifa con descuento. El almacenamiento en caché es automático.
¿Los modos de razonamiento cuestan más? La tarifa por token es la misma. Los modos de razonamiento consumen más tokens porque el modelo escribe rastros de razonamiento. Rastrea reasoning_tokens en el objeto usage para medir el costo real.
¿Los precios son estables? DeepSeek cambia los precios periódicamente. Las tarifas de V3.2 se mantuvieron durante la mayor parte de 2025; los precios de V4 no tienen una fecha de finalización publicada. Consulta la página de precios en vivo antes de presupuestar.
¿V4-Pro y V4-Flash se facturan a la misma tarifa de salida? No. La salida de V4-Pro es de $3.48 / M; la salida de V4-Flash es de $0.28 / M. La relación de 12.4x es la razón más importante para usar V4-Flash por defecto.
¿El endpoint en formato Anthropic cambia la tarificación? No. https://api.deepseek.com/anthropic utiliza las mismas tarifas que el endpoint en formato OpenAI. El formato no afecta la facturación.
