Recorte Permanente del 75% en DeepSeek V4-Pro: Impacto para Desarrolladores (2026)

Ashley Innocent

Ashley Innocent

25 May 2026

Recorte Permanente del 75% en DeepSeek V4-Pro: Impacto para Desarrolladores (2026)

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

DeepSeek convirtió el descuento temporal más agresivo en los precios de LLM de 2026 en la nueva normalidad. El 22 de mayo, el equipo anunció que la oferta de DeepSeek-V4-Pro con un 75% de descuento, originalmente programada para expirar el 31 de mayo de 2026 a las 15:59 UTC, no se revertiría. La tarifa promocional se convierte en el precio de lista permanente. La entrada baja a $0.435 por millón de tokens, la salida a $0.87 y los aciertos de caché a $0.003625. A continuación, desglosamos lo que cambió, lo que se mantuvo igual y lo que todo desarrollador de API debería reconsiderar esta semana.

En resumen

¿Por qué esto importa ahora?

El precio de los LLM suele moverse en una dirección: hacia abajo, lentamente, con letra pequeña. DeepSeek se saltó la letra pequeña. El equipo lanzó una promoción agresiva durante mayo, observó cómo aumentaba el tráfico de desarrolladores y decidió fijar el precio en lugar de dejar que volviera a subir. Esto es una señal estructural sobre hacia dónde se dirige la economía de los modelos frontera chinos, no una simple maniobra.

Si estás lanzando algún producto que llama a un LLM en una ruta crítica (autocompletado, chat con recuperación aumentada, revisión de código, bucles de agente), la diferencia entre $3.48 y $0.87 por millón de tokens de salida se reflejará en tu factura este mes. Envía 50 millones de tokens de salida al día, una carga realista para cualquier agente con usuarios no triviales, y el nuevo precio reduce tu factura mensual de LLM de aproximadamente $5,200 a $1,300. Eso equivale a contratar un comercial o un año de créditos de GPU.

¿Estás construyendo sobre DeepSeek? Apidog te permite generar, probar y monitorear llamadas a la API V4-Pro en un único espacio de trabajo, incluyendo streaming, llamadas a herramientas y validación de esquemas JSON. Descarga Apidog y podrás clonar las solicitudes de este artículo en menos de un minuto.

botón

En el resto de esta publicación, verás la nueva hoja de precios completa, una comparación directa con GPT-5.5 y Claude Opus 4.7, los cálculos de aciertos de caché que la mayoría de los artículos omiten, tres escenarios de factura real y un marco de decisión de cinco pasos sobre si migrar hoy.

Qué cambió: el anuncio decodificado

El aviso oficial de precios de DeepSeek es breve, pero cada línea mueve un número. Tres hechos que vale la pena destacar:

  1. El descuento del 75% es permanente. La promoción que duraba hasta el 31 de mayo de 2026 a las 15:59 UTC se suponía que revertiría al precio de lista de lanzamiento el 1 de junio. No lo hará. La tarifa promocional es la nueva tarifa de lista, retroactiva al lanzamiento y en adelante indefinidamente.
  2. El recorte se aplica solo a V4-Pro. DeepSeek-V4-Flash, a $0.14 / $0.28 por millón de tokens, ya era barato. V4-Pro, el modelo de nivel frontera, es lo que bajó de precio. Consulta Qué es DeepSeek V4 para la división entre Flash y Pro.
  3. El precio de acierto de caché se redujo a 1/10 del lanzamiento, efectivo el 26 de abril de 2026 a las 12:15 UTC. Este es un cambio separado del recorte principal del 75%, y ambos se suman. El resultado: aciertos de caché a $0.003625/MTok, el precio de caché de modelo frontera de primera parte más bajo del mercado en 2026.

En conjunto, el anuncio dice: DeepSeek está dispuesta a absorber el margen bruto en el modelo principal para mantener la preferencia de los desarrolladores. La jugada del acierto de caché dice: quieren que construyas agentes y herramientas de contexto largo específicamente en V4-Pro. Ambas jugadas apuntan al mismo manual. Gana la carga de trabajo de inferencia ahora, monetiza la plataforma después.

La nueva hoja de precios permanente

Precios por 1 millón de tokens, USD, efectivos de inmediato y permanentes:

Tipo de token Precio de lista anterior Nuevo precio permanente Recorte
Entrada (fallo de caché) $1.74 $0.435 75%
Entrada (acierto de caché) $0.0145 $0.003625 75%
Salida $3.48 $0.87 75%

Algunas conclusiones que la tabla oculta:

Para un contexto histórico más profundo sobre los niveles de precios de V4 y las ventajas y desventajas de Flash vs Pro, consulta nuestra referencia Precios de la API de DeepSeek V4.

Cómo se compara V4-Pro ahora con GPT-5.5, Claude Opus 4.7 y Gemini 3.5 Flash

La comparación interesante no es con el antiguo V4-Pro. Es con el resto de los modelos frontera.

Modelo Entrada ($/MTok) Salida ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro (nuevo) $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

Dos cifras a recordar. En los tokens de salida, el elemento que más influye en tu factura, DeepSeek-V4-Pro es 34 veces más barato que GPT-5.5 y 17 veces más barato que Claude Opus 4.7. En los benchmarks, V4-Pro se sitúa entre 3 y 7 puntos porcentuales de GPT-5.5 en la mayoría de las evaluaciones públicas de codificación y razonamiento, según la comparación de DataCamp.

Si tu carga de trabajo tolera la latencia y la calidad es aceptable en ese pequeño rango, la migración es un problema matemático con una sola respuesta. Para cargas de trabajo donde los últimos 5 puntos de la puntuación de benchmark importan (fiabilidad de la herramienta del agente, planificación a largo plazo, matemáticas complejas), V4-Pro sigue siendo más barato de usar como modelo de borrador detrás de un patrón de decodificación especulativa o crítico.

Para revisiones más profundas, consulta DeepSeek V4 vs Claude Opus 4.5 para codificación y GLM-5 vs DeepSeek V3 vs GPT-5: velocidad, coste y comparación práctica para desarrolladores.

El ángulo del acierto de caché que la mayoría de los artículos pasan por alto

Todo el mundo cita la cifra de salida de $0.87. Pocos explican lo que el precio de entrada de $0.003625 por acierto de caché hace al diseño del sistema.

El caché de prompts de DeepSeek acierta cuando el prefijo de tu solicitud es idéntico en bytes a una solicitud anterior reciente, dentro de una ventana de aproximadamente 30 minutos. Para agentes de chat y pipelines de recuperación, el prefijo suele ser tu prompt de sistema más las definiciones de herramientas más el andamiaje de instrucciones. Esto suele ser de 4,000 a 10,000 tokens que no cambian entre turnos.

Ejemplo concreto. Supongamos que tu asistente utiliza un prompt de sistema de 6,000 tokens y maneja 100,000 turnos de chat al día, con un mensaje de usuario promedio de 200 tokens de entrada y una respuesta promedio de 800 tokens de salida.

Eso no es un error de redondeo. Es la diferencia entre que el modelo sea un elemento sostenible y uno de lujo. Para más información sobre cómo funciona el caché de prefijos en los diferentes proveedores, nuestra exploración profunda del caché de prompts explica los mecanismos.

Tres patrones para obtener aciertos de caché en agentes reales:

Qué deberías hacer esta semana

La decisión de migración no es binaria. Depende del tipo de carga de trabajo de LLM que estés ejecutando. Un marco de cinco pasos:

1. Mide tu relación actual de salida:entrada. Si estás gastando el 80% de tu presupuesto de tokens en salida (cualquier agente, generador de código o herramienta de contenido), los ahorros de V4-Pro son grandes. Si estás gastando el 80% en entrada (RAG sobre documentos largos), los ahorros son menores pero aún reales una vez que se producen los aciertos de caché.

2. Ejecuta una evaluación de 100 muestras en tu carga de trabajo real. No confíes en los benchmarks públicos. Extrae 100 trazas de tu tráfico de producción, ejecútalas contra V4-Pro y tu modelo actual con prompts idénticos, y puntúa con tu propio criterio. La mayoría de los equipos encuentran que V4-Pro es "suficientemente bueno" para el 70% al 85% de su tráfico.

3. Haz coincidir patrones por ruta. Dirige el 70% al 85% a V4-Pro y mantén tu modelo premium en la cola difícil. Este único cambio ofrece más del 70% de los ahorros de costes con una regresión de calidad casi nula.

4. Fija los prefijos de caché. Audita tus prompts del sistema. Cualquier cosa que varíe por solicitud (marcas de tiempo, IDs de usuario, IDs de sesión) pertenece al mensaje del usuario, no al prompt del sistema. Muévelo.

5. Configura pruebas de regresión antes de enviar. Aquí es donde Apidog se gana su valor. Registra respuestas de referencia de tu modelo actual, luego reproduce las mismas solicitudes contra V4-Pro y compara las salidas. La validación de esquemas JSON de Apidog detecta desviaciones en las formas de las llamadas a herramientas antes de que lleguen a producción. Descarga Apidog, importa tu colección compatible con OpenAI, cambia la URL base a https://api.deepseek.com, y podrás ejecutar una prueba de humo lado a lado en menos de diez minutos.

Para una guía práctica de la forma del endpoint de V4-Pro, consulta Cómo usar la API de DeepSeek V4.

Cómo se compara V4-Pro con otras caídas de precios de 2026

DeepSeek no es el único laboratorio que recorta precios. El mercado de LLM de 2026 se encuentra en una clara fase de compresión de márgenes:

El recorte de V4-Pro es el más agresivo del año porque apunta a la banda de capacidad frontera, no al nivel económico. Por eso este anuncio reestableció el mercado y los otros no.

La matemática de construcción cambió

DeepSeek no bajó el precio. Redibujaron la curva. La capacidad frontera a precios de salida por debajo del dólar es ahora la base, no la excepción, y el resto del mercado responderá. Si has estado posponiendo una función de LLM por motivos de coste, el presupuesto de 2026 que calculaste el trimestre pasado probablemente exagera tus necesidades en 4x.

Tres próximos pasos:

La bandera de la promoción se quitó. El descuento no.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs