¿Qué es DeepSeek V4?

DeepSeek lanzó V4 el 23 de abril de 2026, y este no es un lanzamiento de punto menor. El laboratorio de Hangzhou lanzó cuatro puntos de control (checkpoints) a la vez, encabezados por DeepSeek-V4-Pro con 1.6 billones de parámetros totales, una licencia MIT y una ventana de contexto de 1 millón de tokens. Su hermano menor, DeepSeek-V4-Flash, llega con 284 mil millones de parámetros con el mismo contexto y los mismos pesos abiertos. Los benchmarks sitúan la variante Pro por delante de Claude Opus 4.6 en LiveCodeBench y Codeforces, y al alcance de GPT-5.4 xHigh en MMLU-Pro.

Si estás decidiendo si cambiar Claude, GPT-5.5 o Qwen por DeepSeek V4, esta guía cubre qué es el modelo, qué cambió de V3.2, las elecciones de arquitectura que impulsan los resultados del benchmark y dónde ejecutarlo hoy.

Para las guías detalladas para desarrolladores, tenemos una guía de la API de DeepSeek V4, una guía de acceso gratuito, y una guía completa de uso de DeepSeek V4. El formato de la solicitud se mapea limpiamente con el formato de OpenAI, por lo que puedes preconstruir la colección en Apidog antes de que una clave llegue a tu bandeja de entrada.

botón

En resumen

DeepSeek V4 es una familia de Mixture-of-Experts lanzada el 23 de abril de 2026 bajo la licencia MIT.
Se lanzan cuatro puntos de control (checkpoints): V4-Pro, V4-Pro-Base, V4-Flash y V4-Flash-Base.
V4-Pro tiene 1.6 billones de parámetros totales con 49 mil millones activos; V4-Flash tiene 284 mil millones totales con 13 mil millones activos.
Ambas variantes tienen una ventana de contexto de 1 millón de tokens y tres modos de razonamiento: Sin-Pensar, Pensar Alto y Pensar Máximo.
Puntuaciones destacadas: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (variante Pro).
La API está activa en api.deepseek.com con deepseek-v4-pro y deepseek-v4-flash como IDs de modelo; los pesos están en Hugging Face y ModelScope.

Qué es DeepSeek V4 en realidad

DeepSeek V4 es el sucesor de las líneas V3 y V3.2 que convirtieron al laboratorio en un nombre conocido el año pasado. La arquitectura sigue siendo Mixture-of-Experts, pero la forma del modelo ha cambiado. V4-Pro activa solo 49 mil millones de sus 1.6 billones de parámetros por token, por lo que el costo de cómputo por token se parece más al de un modelo denso de 50 mil millones que al de un sistema de frontera de un billón de parámetros. Lee el informe técnico completo en la ficha del modelo DeepSeek V4.

Se lanzan cuatro puntos de control (checkpoints):

DeepSeek-V4-Pro — el buque insignia. 1.6T total, 49B activo, 1M contexto. Este es el que la mayoría de los equipos llamarán a través de la API.
DeepSeek-V4-Pro-Base — la base preentrenada sin post-entrenamiento. Dirigida a investigadores y equipos que construyen ajustes finos personalizados.
DeepSeek-V4-Flash — la variante de eficiencia. 284B total, 13B activo, el mismo contexto de 1M. Dirigida a cargas de trabajo sensibles a la latencia y despliegue local en dos o tres H100s.
DeepSeek-V4-Flash-Base — el checkpoint base correspondiente para Flash.

Los cuatro se lanzan bajo la licencia MIT, lo cual es la historia silenciosa. GPT-5.5 es cerrado y cuesta $5 por millón de tokens de entrada; Claude Opus 4.6 es cerrado y sus precios se acercan a los $15. DeepSeek V4-Pro tiene pesos abiertos que puedes descargar, replicar, ajustar y desplegar en tu propio hardware sin costo de licencia.

Qué cambió de V3.2

V3 ya era competitivo en razonamiento y código. V4 reescribe la pila de atención y el pipeline de entrenamiento para impulsar el contexto largo y la eficiencia al mismo tiempo.

Capacidad	V3.2	V4-Pro
Parámetros totales	685B	1.6T
Parámetros activos	37B	49B
Ventana de contexto	128K	1M
FLOPs de inferencia (contexto de 1M)	base	27% de V3.2
Caché KV (contexto de 1M)	base	10% de V3.2
Precisión	FP8	FP4 + FP8 mixto
Licencia	Licencia DeepSeek	MIT
Modos de razonamiento	uno	tres

Tres cosas impulsan el salto. Primero, una nueva pila de atención híbrida que combina la Atención Dispersa Comprimida con la Atención Fuertemente Comprimida; de ahí proviene el número del 10% de caché KV. Segundo, Hiperconexiones Restringidas por Manifold que estabilizan los gradientes a la profundidad que V4 necesita. Tercero, un cambio al optimizador Muon para una convergencia más rápida. El corpus de entrenamiento también superó los 32 billones de tokens, y el post-entrenamiento utiliza un pipeline de dos etapas que primero cultiva expertos específicos de dominio y luego los consolida con destilación basada en políticas.

Benchmarks que importan

Los números reportados por DeepSeek sitúan a V4-Pro en el tablero de frontera para codificación y conocimiento, con algunas brechas en la recuperación de contexto largo.

Para V4-Flash, la variante más pequeña, DeepSeek reporta MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052 y SWE Verified 79.0. Ese es territorio de frontera para un modelo de 13 mil millones de activos, y es la razón por la que Flash es el checkpoint interesante para cualquiera que despliegue en su propio hardware. Consulta la ficha de DeepSeek V4-Flash para ver la tabla completa.

La lectura honesta: V4-Pro gana en código, gana en recuperación de hechos de final abierto, va por detrás de Gemini 3.1 Pro en conocimiento general y va por detrás de Claude Opus en los benchmarks de recuperación de 1 millón de tokens. Si tu carga de trabajo es codificación agéntica o análisis con mucho razonamiento, V4-Pro está en la conversación. Si se trata de recuperación de una aguja en un pajar a través de un millón de tokens, Claude todavía tiene la ventaja.

Tres modos de razonamiento

Cada checkpoint V4 expone tres esfuerzos de razonamiento, y elegir el correcto es el mayor factor de costo.

Sin-Pensar — ruta rápida. Generación de una sola pasada, sin cadena de pensamiento, sin tokens de razonamiento adicionales. Úsalo para clasificación, enrutamiento, resúmenes cortos y cualquier cosa donde la latencia importe más que la precisión.
Pensar Alto — el predeterminado para trabajos difíciles. El modelo escribe tokens de razonamiento antes de la respuesta, planifica llamadas a herramientas y verifica su salida. Coincide con lo que GPT-5.5 llama “modo de pensamiento” y lo que Claude llama “pensamiento extendido”.
Pensar Máximo — el techo. Trazas de razonamiento más largas, autocrítica más agresiva y una recomendación de ventana de contexto mínima de 384K tokens. Esto es lo que produce el número de 93.5 en LiveCodeBench; espera un aumento correspondiente en el costo de los tokens.

Cambia entre ellos con un solo parámetro thinking_mode en la API o un flag en el script de inferencia local. La recomendación de muestreo de DeepSeek es temperature=1.0, top_p=1.0 en los tres.

Arquitectura en lenguaje sencillo

El documento de arquitectura de V4 es denso, pero tres elecciones explican la historia de la eficiencia.

Atención híbrida. La mayoría de las capas del transformador utilizan Atención Dispersa Comprimida, que mantiene un pequeño grupo de tokens de alto valor completamente atendidos y comprime el resto. Un puñado de capas utilizan Atención Fuertemente Comprimida, que tiene un costo más cercano al lineal en la longitud de la secuencia. La combinación es lo que proporciona los números de 27% de FLOPs y 10% de caché KV con 1 millón de tokens.
Hiperconexiones Restringidas por Manifold. En lugar de conexiones residuales simples, V4 envuelve los residuales de cada capa en una restricción que mantiene las activaciones en un manifold estable. El efecto práctico es que puedes apilar más capas sin caos de gradientes.
Optimizador Muon. Reemplaza a AdamW para la mayor parte del entrenamiento. Muon converge más rápido y maneja mejor las enormes normas de gradiente que producen los modelos MoE que AdamW.

Ninguna de estas ideas es completamente nueva por sí sola. La contribución de V4 es lograr que las tres funcionen juntas a escala de billones de parámetros sin que el entrenamiento se descontrole.

Disponibilidad hoy

DeepSeek lanzó los cuatro checkpoints y la API el mismo día. Aquí está la instantánea a partir del 24 de abril de 2026.

Superficie	Acceso
chat.deepseek.com	Chat web gratuito, V4-Pro por defecto, se requiere iniciar sesión
API de DeepSeek	Activa en `api.deepseek.com`; IDs de modelo `deepseek-v4-pro`, `deepseek-v4-flash`
Pesos de Hugging Face	V4-Pro, V4-Flash, ambos MIT
ModelScope	Pesos replicados para usuarios en China
OpenRouter y agregadores	Se espera en días; patrón de lanzamiento típico de DeepSeek
`deepseek-chat` / `deepseek-reasoner`	Obsoleto el 24 de julio de 2026

El aviso de obsolescencia merece ser destacado. Si todavía estás llamando a deepseek-chat en producción, tienes tres meses para migrar a deepseek-v4-pro o deepseek-v4-flash.

Cómo se compara con GPT-5.5 y Claude

La comparación a tres bandas que la mayoría de los equipos realmente les importa:

Costo. V4-Pro y V4-Flash tienen pesos abiertos. GPT-5.5 y Claude Opus 4.6 no. Si puedes autoalojarlo, V4 gana en economía unitaria a cualquier escala seria.
Codificación. Los 93.5 de V4-Pro en LiveCodeBench y 3206 en Codeforces superan tanto la línea de benchmark de GPT-5.5 como a Claude Opus en las mismas suites.
Amplitud de conocimiento. Gemini 3.1 Pro aún lidera MMLU-Pro con 91.0. GPT-5.5 y V4-Pro empatan en 87.5. En SimpleQA-Verified, V4 supera a GPT-5.5 y Claude por cifras de dos dígitos.
Recuperación de contexto largo. Claude Opus gana MRCR 1M por aproximadamente 9 puntos. Si tu carga de trabajo es “encontrar la frase en un millón de tokens”, Claude sigue siendo la opción más segura.
Licencia. MIT significa que puedes enviar V4-Pro dentro de un producto sin un acuerdo de uso. Nada de lo que ofrecen OpenAI o Anthropic iguala eso.

Qué construir con él

Cuatro cargas de trabajo se alinean limpiamente con las fortalezas de V4:

Bucles de codificación agéntica. Los números de SWE Verified 79.0 y Codeforces 3206 apuntan directamente a la depuración de múltiples archivos, refactorizaciones conscientes del repositorio y correcciones autónomas de pruebas. Combínalo con un buen cliente de API como Apidog para inspeccionar cada solicitud y respuesta mientras ajustas los prompts.
Razonamiento sobre documentos largos. 1 millón de tokens es suficiente para la mayoría de los monorepos, la mayoría de los contratos y la mayoría de los corpus de investigación. Pensar Alto es el modo correcto para esto.
Productos de IA autoalojados. Si tu historia de cumplimiento requiere inferencia on-premise, V4-Flash es el primer modelo de pesos abiertos que compite con las APIs de frontera cerradas en calidad.
Investigación y ajuste fino. Los checkpoints Base están ahí específicamente para entrenamiento personalizado. Combínalos con tus datos de dominio y un pipeline SFT estándar. La licencia MIT cubre la redistribución comercial del modelo resultante.

Donde no encaja: clasificación de alto volumen, recuperación de embeddings o chat de prompts cortos. V4-Flash sigue siendo excesivo para eso, y los checkpoints más antiguos de DeepSeek cuestan menos.

Precios en una línea

DeepSeek no había publicado la tarjeta de tarifas final de la API al momento de escribir este artículo. V3.2 funcionaba a aproximadamente $0.28 por millón de tokens de entrada y $0.42 por millón de tokens de salida, y el laboratorio tiene un historial de mantener los precios de la serie V cerca de ese mínimo. Espera V4-Flash en el mismo rango y V4-Pro con un modesto sobreprecio. Los competidores cerrados tienen precios de $5 a $15 por millón de tokens de entrada, por lo que incluso un aumento de 3 veces desde V3.2 deja a DeepSeek muy por debajo de la mediana de las APIs de frontera. Rastrea los números en vivo en la página de precios de DeepSeek.

Cómo probar V4 hoy

Tres caminos, clasificados por tiempo hasta el primer token.

Chat web. Abre chat.deepseek.com e inicia sesión. V4-Pro es el predeterminado; cambia a Pensar Alto en la interfaz de usuario. Gratis, sin tarjeta, funciona ahora.
API. Obtén una clave, apunta tu cliente a https://api.deepseek.com, establece "model": "deepseek-v4-pro" y listo. El formato de la solicitud es compatible con OpenAI, por lo que cualquier cliente OpenAI existente funciona con un cambio de URL base. Guía completa en la guía de la API de DeepSeek V4.
Pesos locales. Descarga de Hugging Face o ModelScope. V4-Flash se ejecuta en 2 a 4 H100s; V4-Pro necesita un clúster serio. El código de inferencia se encuentra en la carpeta /inference del repositorio del modelo.

Para la guía completa, incluida la iteración de prompts basada en Apidog, consulta cómo usar DeepSeek V4. Para mantener el gasto en cero, consulta cómo usar DeepSeek V4 gratis. Descarga Apidog y preconstruye tu colección; el formato compatible con OpenAI significa que una sola solicitud funciona en DeepSeek, OpenAI y cualquier otra API de frontera.

Preguntas frecuentes

¿Es DeepSeek V4 realmente de código abierto?Sí. Los cuatro checkpoints llevan una licencia MIT, que permite el uso comercial, la modificación y la redistribución sin un acuerdo de uso separado.

¿Necesito un clúster de GPU para ejecutar V4-Flash?Necesitas de dos a cuatro H100s o H200s para V4-Flash a precisión completa, menos si cuantificas. V4-Pro necesita un clúster genuino. Si quieres probar V4 sin hardware, usa la API o chat.deepseek.com.

¿Cuándo llega V4 a la API de DeepSeek?Ya está activo desde el 23 de abril de 2026. Los IDs de modelo son deepseek-v4-pro y deepseek-v4-flash. Los IDs más antiguos deepseek-chat y deepseek-reasoner quedarán obsoletos el 24 de julio de 2026.

¿Cómo se compara V4 con Kimi y Qwen?V4-Pro presenta números más altos en LiveCodeBench y Codeforces que Kimi K2 y Qwen 3 Max en las tablas reportadas por DeepSeek. Los tres son sistemas MoE de pesos abiertos con perfiles de despliegue similares. Elige basándote en el benchmark más cercano a tu carga de trabajo.

¿Puedo ajustar V4 con mis propios datos?Sí. Los checkpoints Base existen para eso; combínalos con tus datos de dominio y un pipeline SFT estándar. La licencia MIT cubre la redistribución comercial del modelo resultante.

¿Funcionará V4 con mis herramientas existentes compatibles con OpenAI?Sí. La API acepta formatos de mensaje tanto de OpenAI como de Anthropic en https://api.deepseek.com y https://api.deepseek.com/anthropic respectivamente. La mayoría de los clientes de OpenAI existentes funcionan con un solo cambio de URL base. Consulta la guía detallada de la API de GPT-5.5 para ver el patrón paralelo.