DeepSeek convirtió el descuento temporal más agresivo en los precios de LLM de 2026 en la nueva normalidad. El 22 de mayo, el equipo anunció que la oferta de DeepSeek-V4-Pro con un 75% de descuento, originalmente programada para expirar el 31 de mayo de 2026 a las 15:59 UTC, no se revertiría. La tarifa promocional se convierte en el precio de lista permanente. La entrada baja a $0.435 por millón de tokens, la salida a $0.87 y los aciertos de caché a $0.003625. A continuación, desglosamos lo que cambió, lo que se mantuvo igual y lo que todo desarrollador de API debería reconsiderar esta semana.
En resumen
- El precio de la API de DeepSeek-V4-Pro es ahora permanente a 1/4 del precio de lista original: $0.435/MTok de entrada, $0.87/MTok de salida, $0.003625/MTok de acierto de caché.
- El descuento promocional del 75% que iba a terminar el 31 de mayo de 2026 es ahora la tarifa regular. Sin reversión. Sin caducidad sorpresa.
- V4-Pro es ahora aproximadamente 34 veces más barato que GPT-5.5 en la salida, mientras que se sitúa en torno al 95% de GPT-5.5 en la mayoría de los benchmarks de codificación y razonamiento.
- El precio de acierto de caché de $0.003625/MTok, un recorte del 90% además del recorte principal, es el detalle subestimado. Las indicaciones de sistema largas son ahora casi gratuitas en el prefijo.
- Si el último trimestre valoraste tus funciones de IA en comparación con GPT-5.5 o Claude Opus 4.7, los cálculos de construcción cambiaron esta semana.
¿Por qué esto importa ahora?
El precio de los LLM suele moverse en una dirección: hacia abajo, lentamente, con letra pequeña. DeepSeek se saltó la letra pequeña. El equipo lanzó una promoción agresiva durante mayo, observó cómo aumentaba el tráfico de desarrolladores y decidió fijar el precio en lugar de dejar que volviera a subir. Esto es una señal estructural sobre hacia dónde se dirige la economía de los modelos frontera chinos, no una simple maniobra.
Si estás lanzando algún producto que llama a un LLM en una ruta crítica (autocompletado, chat con recuperación aumentada, revisión de código, bucles de agente), la diferencia entre $3.48 y $0.87 por millón de tokens de salida se reflejará en tu factura este mes. Envía 50 millones de tokens de salida al día, una carga realista para cualquier agente con usuarios no triviales, y el nuevo precio reduce tu factura mensual de LLM de aproximadamente $5,200 a $1,300. Eso equivale a contratar un comercial o un año de créditos de GPU.
¿Estás construyendo sobre DeepSeek? Apidog te permite generar, probar y monitorear llamadas a la API V4-Pro en un único espacio de trabajo, incluyendo streaming, llamadas a herramientas y validación de esquemas JSON. Descarga Apidog y podrás clonar las solicitudes de este artículo en menos de un minuto.
En el resto de esta publicación, verás la nueva hoja de precios completa, una comparación directa con GPT-5.5 y Claude Opus 4.7, los cálculos de aciertos de caché que la mayoría de los artículos omiten, tres escenarios de factura real y un marco de decisión de cinco pasos sobre si migrar hoy.
Qué cambió: el anuncio decodificado
El aviso oficial de precios de DeepSeek es breve, pero cada línea mueve un número. Tres hechos que vale la pena destacar:
- El descuento del 75% es permanente. La promoción que duraba hasta el 31 de mayo de 2026 a las 15:59 UTC se suponía que revertiría al precio de lista de lanzamiento el 1 de junio. No lo hará. La tarifa promocional es la nueva tarifa de lista, retroactiva al lanzamiento y en adelante indefinidamente.
- El recorte se aplica solo a V4-Pro. DeepSeek-V4-Flash, a $0.14 / $0.28 por millón de tokens, ya era barato. V4-Pro, el modelo de nivel frontera, es lo que bajó de precio. Consulta Qué es DeepSeek V4 para la división entre Flash y Pro.
- El precio de acierto de caché se redujo a 1/10 del lanzamiento, efectivo el 26 de abril de 2026 a las 12:15 UTC. Este es un cambio separado del recorte principal del 75%, y ambos se suman. El resultado: aciertos de caché a $0.003625/MTok, el precio de caché de modelo frontera de primera parte más bajo del mercado en 2026.
En conjunto, el anuncio dice: DeepSeek está dispuesta a absorber el margen bruto en el modelo principal para mantener la preferencia de los desarrolladores. La jugada del acierto de caché dice: quieren que construyas agentes y herramientas de contexto largo específicamente en V4-Pro. Ambas jugadas apuntan al mismo manual. Gana la carga de trabajo de inferencia ahora, monetiza la plataforma después.
La nueva hoja de precios permanente
Precios por 1 millón de tokens, USD, efectivos de inmediato y permanentes:
| Tipo de token | Precio de lista anterior | Nuevo precio permanente | Recorte |
|---|---|---|---|
| Entrada (fallo de caché) | $1.74 | $0.435 | 75% |
| Entrada (acierto de caché) | $0.0145 | $0.003625 | 75% |
| Salida | $3.48 | $0.87 | 75% |
Algunas conclusiones que la tabla oculta:
- La caída del precio de salida es la que más afecta tu factura, porque los tokens de salida dominan cualquier bucle de agente donde el modelo razona o escribe código.
- La fila de aciertos de caché parece insignificante porque los números absolutos son pequeños. La proporción es donde residen los ahorros. La relación de fallo de entrada a acierto de entrada es aproximadamente de 120:1. Un prompt de sistema bien diseñado que acierta en el caché el 90% de las veces paga casi nada por la entrada, lo cual es la clave para cualquier agente con una estructura estable.
- Estas tarifas se aplican solo a la API. El chat web de DeepSeek sigue siendo gratuito para particulares.
Para un contexto histórico más profundo sobre los niveles de precios de V4 y las ventajas y desventajas de Flash vs Pro, consulta nuestra referencia Precios de la API de DeepSeek V4.
Cómo se compara V4-Pro ahora con GPT-5.5, Claude Opus 4.7 y Gemini 3.5 Flash
La comparación interesante no es con el antiguo V4-Pro. Es con el resto de los modelos frontera.
| Modelo | Entrada ($/MTok) | Salida ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (nuevo) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Dos cifras a recordar. En los tokens de salida, el elemento que más influye en tu factura, DeepSeek-V4-Pro es 34 veces más barato que GPT-5.5 y 17 veces más barato que Claude Opus 4.7. En los benchmarks, V4-Pro se sitúa entre 3 y 7 puntos porcentuales de GPT-5.5 en la mayoría de las evaluaciones públicas de codificación y razonamiento, según la comparación de DataCamp.
Si tu carga de trabajo tolera la latencia y la calidad es aceptable en ese pequeño rango, la migración es un problema matemático con una sola respuesta. Para cargas de trabajo donde los últimos 5 puntos de la puntuación de benchmark importan (fiabilidad de la herramienta del agente, planificación a largo plazo, matemáticas complejas), V4-Pro sigue siendo más barato de usar como modelo de borrador detrás de un patrón de decodificación especulativa o crítico.
Para revisiones más profundas, consulta DeepSeek V4 vs Claude Opus 4.5 para codificación y GLM-5 vs DeepSeek V3 vs GPT-5: velocidad, coste y comparación práctica para desarrolladores.
El ángulo del acierto de caché que la mayoría de los artículos pasan por alto
Todo el mundo cita la cifra de salida de $0.87. Pocos explican lo que el precio de entrada de $0.003625 por acierto de caché hace al diseño del sistema.
El caché de prompts de DeepSeek acierta cuando el prefijo de tu solicitud es idéntico en bytes a una solicitud anterior reciente, dentro de una ventana de aproximadamente 30 minutos. Para agentes de chat y pipelines de recuperación, el prefijo suele ser tu prompt de sistema más las definiciones de herramientas más el andamiaje de instrucciones. Esto suele ser de 4,000 a 10,000 tokens que no cambian entre turnos.
Ejemplo concreto. Supongamos que tu asistente utiliza un prompt de sistema de 6,000 tokens y maneja 100,000 turnos de chat al día, con un mensaje de usuario promedio de 200 tokens de entrada y una respuesta promedio de 800 tokens de salida.
- Sin aciertos de caché: 100,000 turnos × 6,200 tokens de entrada × $0.435 / 1,000,000 = $269.70 por día solo en entrada.
- Con el 90% de esos tokens del prompt del sistema acertando en el caché: los mismos 100,000 turnos pagan 200 × $0.435 más 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) por millón de tokens. Eso resulta en aproximadamente $32 por día. Una reducción del 88% en el coste de entrada.
Eso no es un error de redondeo. Es la diferencia entre que el modelo sea un elemento sostenible y uno de lujo. Para más información sobre cómo funciona el caché de prefijos en los diferentes proveedores, nuestra exploración profunda del caché de prompts explica los mecanismos.
Tres patrones para obtener aciertos de caché en agentes reales:
- Fija el prefijo. Mantén el prompt del sistema, los esquemas de herramientas y los ejemplos de pocas muestras en un solo bloque al inicio de cada solicitud. No intercales texto específico de la sesión en el prefijo.
- Ordena o aplica hash al contexto dinámico. Si añades fragmentos recuperados, ordénalos de manera estable o aplica hash a la solicitud y dirige los hashes idénticos al mismo nodo. Pequeños cambios en la huella digital anulan el caché.
- Realiza una llamada de calentamiento. Al iniciar el agente, envía una solicitud con el prefijo completo para que se asiente en el caché del proveedor antes de que llegue el tráfico de usuarios.
Qué deberías hacer esta semana
La decisión de migración no es binaria. Depende del tipo de carga de trabajo de LLM que estés ejecutando. Un marco de cinco pasos:
1. Mide tu relación actual de salida:entrada. Si estás gastando el 80% de tu presupuesto de tokens en salida (cualquier agente, generador de código o herramienta de contenido), los ahorros de V4-Pro son grandes. Si estás gastando el 80% en entrada (RAG sobre documentos largos), los ahorros son menores pero aún reales una vez que se producen los aciertos de caché.
2. Ejecuta una evaluación de 100 muestras en tu carga de trabajo real. No confíes en los benchmarks públicos. Extrae 100 trazas de tu tráfico de producción, ejecútalas contra V4-Pro y tu modelo actual con prompts idénticos, y puntúa con tu propio criterio. La mayoría de los equipos encuentran que V4-Pro es "suficientemente bueno" para el 70% al 85% de su tráfico.
3. Haz coincidir patrones por ruta. Dirige el 70% al 85% a V4-Pro y mantén tu modelo premium en la cola difícil. Este único cambio ofrece más del 70% de los ahorros de costes con una regresión de calidad casi nula.
4. Fija los prefijos de caché. Audita tus prompts del sistema. Cualquier cosa que varíe por solicitud (marcas de tiempo, IDs de usuario, IDs de sesión) pertenece al mensaje del usuario, no al prompt del sistema. Muévelo.
5. Configura pruebas de regresión antes de enviar. Aquí es donde Apidog se gana su valor. Registra respuestas de referencia de tu modelo actual, luego reproduce las mismas solicitudes contra V4-Pro y compara las salidas. La validación de esquemas JSON de Apidog detecta desviaciones en las formas de las llamadas a herramientas antes de que lleguen a producción. Descarga Apidog, importa tu colección compatible con OpenAI, cambia la URL base a https://api.deepseek.com, y podrás ejecutar una prueba de humo lado a lado en menos de diez minutos.
Para una guía práctica de la forma del endpoint de V4-Pro, consulta Cómo usar la API de DeepSeek V4.
Cómo se compara V4-Pro con otras caídas de precios de 2026
DeepSeek no es el único laboratorio que recorta precios. El mercado de LLM de 2026 se encuentra en una clara fase de compresión de márgenes:
- OpenAI O3 bajó un 80% a principios de este año. Consulta nuestro desglose de precios de O3 para ver los cálculos.
- Kimi K2 revisó agresivamente sus precios para competir con el nivel V3 de DeepSeek. Los precios de la API de Kimi K2 cubren los detalles.
- Anthropic Claude mantuvo el precio de Opus, pero introdujo niveles más baratos, Haiku y Sonnet. El desglose completo de los costes de la API de Claude explica dónde encaja cada nivel.
El recorte de V4-Pro es el más agresivo del año porque apunta a la banda de capacidad frontera, no al nivel económico. Por eso este anuncio reestableció el mercado y los otros no.
La matemática de construcción cambió
DeepSeek no bajó el precio. Redibujaron la curva. La capacidad frontera a precios de salida por debajo del dólar es ahora la base, no la excepción, y el resto del mercado responderá. Si has estado posponiendo una función de LLM por motivos de coste, el presupuesto de 2026 que calculaste el trimestre pasado probablemente exagera tus necesidades en 4x.
Tres próximos pasos:
- Audita tus tres cargas de trabajo de LLM principales según el marco anterior y elige una para migrar esta semana.
- Fija tus prefijos de caché. Esa es la victoria fácil, independientemente del modelo que uses.
- Configura un conjunto de pruebas de regresión con Apidog para que el próximo recorte de precios, y lo habrá, tarde horas en evaluarse en lugar de semanas.
La bandera de la promoción se quitó. El descuento no.
