MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: El Mejor Modelo de Código Open-Weight en 2026

MiniMax M3 contra DeepSeek V4-pro contra Qwen 3.7: ¿qué modelo de peso abierto gana en codificación, ventana de contexto, licencia y precio en 2026? Una comparación lado a lado.

Ashley Innocent

Ashley Innocent

1 June 2026

MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: El Mejor Modelo de Código Open-Weight en 2026

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

Durante la mayor parte de los últimos dos años, la pregunta “¿cuál es el mejor modelo de codificación?” tenía una respuesta occidental. Uno elegía GPT, Claude o Gemini, pagaba la tarifa por token y aceptaba que los pesos permanecieran bloqueados en el centro de datos de otra persona. Ese ya no es el único camino. Una serie de laboratorios chinos ahora envía modelos que igualan la frontera en codificación, ya sea publicando los pesos o fijando el precio de la API tan bajo que cambia las cuentas para cada agente que ejecutes.

MiniMax M3 llegó el 1 de junio de 2026, y es la señal más clara hasta ahora. Es de pesos abiertos, construido para codificación y trabajo agencial, cuenta con una ventana de contexto de 1.000.000 de tokens y añade multimodalidad nativa. Es el tercer contendiente serio de pesos abiertos en llegar en semanas, junto con la familia V4 de DeepSeek y Qwen 3.7 de Alibaba. Si buscas pesos abiertos, bajo costo y sin dependencia del proveedor, ahora tienes una lista real de opciones en lugar de una sola.

Los tres contendientes

MiniMax M3 es el recién llegado. MiniMax lo posiciona como un modelo de codificación de vanguardia con una ventana de contexto de 1 millón de tokens y multimodalidad nativa, lo que significa que maneja entradas de imagen y video y puede realizar tareas de uso de computadora, no solo texto. Se ejecuta en una nueva arquitectura MSA. MiniMax dice que los pesos abiertos y un informe técnico le seguirán aproximadamente diez días después del lanzamiento, y no ha revelado el número de parámetros. El desglose completo está en qué es MiniMax M3.

DeepSeek V4-Pro es el caballo de batalla para el razonamiento y la codificación. Es un modelo pensante: devuelve una cadena de pensamiento reasoning_content antes de su respuesta final, lo que detecta dependencias multificheros que los modelos de finalización plana pasan por alto. DeepSeek tiene una larga y documentada historia de publicación de pesos abiertos en sus líneas R1 y V3, y combina V4-Pro con una variante V4-Flash más económica y no pensante. Lo más destacado es el precio, al que llegaremos. DeepSeek opera su sitio oficial y API en deepseek.com.

Qwen 3.7 es el buque insignia de Alibaba, liderado por Qwen3.7-Max-Preview. Es un modelo de razonamiento con una ventana de contexto de 1 millón de tokens, enfocado fuertemente en el trabajo de agentes de largo plazo. Una advertencia honesta se encuentra en el centro de esta comparación: a partir de su lanzamiento a mediados de mayo de 2026, el modelo insignia Qwen3.7-Max es propietario y de pesos cerrados. Alibaba tiene un sólido historial de abrir el código de la capa inferior a su buque insignia, por lo que los pesos abiertos de 3.7 son plausibles más adelante, pero ninguno se había lanzado. Los detalles completos están en qué es Qwen 3.7. Los repositorios de código abierto de Alibaba se encuentran en github.com/QwenLM.

Tabla de especificaciones

Especificación MiniMax M3 DeepSeek V4-Pro Qwen3.7-Max-Preview
Proveedor MiniMax DeepSeek Alibaba (Qwen)
Lanzamiento 1 de junio de 2026 2026 Mayo de 2026 (vista previa)
Pesos abiertos Sí (pesos en ~10 días) Sí (historial de DeepSeek en R1/V3) Aún no (el buque insignia es de pesos cerrados)
Ventana de contexto 1.000.000 tokens No especificado aquí 1.000.000 tokens
Multimodal Sí (imagen + video, uso de computadora) No (texto + razonamiento) Razonamiento centrado en texto
Modo de razonamiento / pensamiento Sí (reasoning_content) Sí (pensamiento extendido)
Número de parámetros No divulgado No divulgado aquí No divulgado aquí
Arquitectura MSA No especificado aquí No especificado aquí

Una nota sobre la fila de "pesos abiertos", porque es la columna vertebral de esta comparación. M3 se compromete a publicar los pesos y un informe técnico aproximadamente diez días después del lanzamiento. DeepSeek ha lanzado pesos abiertos repetidamente. El buque insignia de Qwen 3.7 está cerrado hoy. Si los pesos abiertos son un requisito estricto en este momento, eso reduce tus opciones antes de que leas un solo benchmark.

Fuerza en codificación y capacidad agencial

Aquí es donde los datos se vuelven irregulares, así que comenzaremos con lo verificado y nos mantendremos cualitativos donde no lo esté.

MiniMax M3 se lanzó con una lista completa de benchmarks de codificación y agenciales reportados por el proveedor. Estos son los propios números de MiniMax, así que trátalos como afirmaciones del proveedor en el día del lanzamiento hasta que terceros los reproduzcan:

Benchmark (reportado por el proveedor, MiniMax) MiniMax M3
SWE-Bench Pro 59.0%
Terminal-Bench 2.1 66.0%
SWE-fficiency 34.8%
KernelBench Hard 28.8%
MCP Atlas 74.2%
PostTrainBench 0.37
SVG-Bench Reportado por encima de Opus 4.7
OmniDocBench Reportado por encima de Gemini 3.1 Pro
Claw-Eval Reportado como el más alto de su conjunto

SWE-Bench Pro y Terminal-Bench miden tareas reales de ingeniería de software: resolver problemas de GitHub, trabajar en una terminal. MCP Atlas mide el uso de herramientas y la orquestación de agentes. Juntos, describen un modelo construido para realizar trabajo de codificación agencial, no solo autocompletado. Puedes verificar el campo SWE-Bench en la tabla de clasificación de SWE-Bench.

Para DeepSeek V4-Pro y Qwen 3.7, los números comparables de codificación agencial no se publican en el mismo formato, por lo que una coincidencia directa celda por celda sería inventada, y no lo haremos. Lo que está documentado:

La lectura honesta: M3 se lanza con la evidencia de codificación agencial más transparente hoy porque publicó números a nivel de tarea. La fuerza de DeepSeek es la calidad de código impulsada por el razonamiento a un bajo precio. La fuerza de Qwen es la inteligencia compuesta y la resistencia en cadenas de agentes largas. Hasta que DeepSeek y Qwen informen sobre las mismas tareas de SWE-Bench Pro y Terminal-Bench, ejecuta tu propia carga de trabajo a través de los tres, lo cual cubrimos al final. Una comparación más amplia de Qwen se encuentra en Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

Ventana de contexto y costo de contexto largo

Dos de los tres anuncian una ventana de contexto de 1.000.000 de tokens: MiniMax M3 y Qwen3.7-Max. El contexto de V4-Pro de DeepSeek no se reproduce aquí, por lo que no indicaremos un número para él.

Un millón de tokens equivale aproximadamente a entre 700.000 y 750.000 palabras. Eso es suficiente para contener un repositorio de tamaño mediano, una pila de PDF largos o meses de conversación en una sola solicitud, sin división manual y sin una capa de recuperación que mantener. Para el razonamiento de repositorios completos, elimina gran parte del trabajo de infraestructura.

Dos advertencias mantienen esto honesto. Primero, una ventana grande es un límite, no una garantía. Los modelos a menudo recuperan y razonan de manera menos fiable a medida que la ventana se llena, y las pruebas independientes de contexto largo para estas nuevas versiones aún son escasas. Segundo, los contextos grandes cuestan dinero. Cada token que envías se factura, por lo que un prompt de un millón de tokens es un prompt caro.

Aquí es donde se supone que importa la arquitectura MSA de M3. MiniMax la presenta como construida para la eficiencia en contextos largos, con una tarifa API estándar de hasta 512K tokens de entrada y una tarifa separada para contextos largos por encima de ese umbral. La división te indica claramente la realidad económica: el contexto largo es un nivel premium, en cada modelo que lo tiene. La defensa práctica es la misma, independientemente del modelo que elijas. Usa la ventana completa solo cuando la tarea lo requiera, y recorta agresivamente cuando no sea necesario. Las tácticas concretas para mantener el contexto del agente ligero están en cómo reducir los costos de tokens del agente.

Precio y acceso

El precio es la razón de esta comparación. La misma carga de trabajo que cuesta dinero real en un buque insignia occidental se ejecuta por una fracción aquí, y esa brecha es el motor de la guerra de precios de LLM chinos 2026.

DeepSeek V4-Pro publica los números por token más claros de los tres. Tarifas estándar, permanentes a partir de mayo de 2026:

Tipo de token Tarifa de DeepSeek V4-Pro por 1M de tokens
Entrada (fallo de caché) $0.435
Entrada (acierto de caché) $0.003625
Salida $0.87

Esa tasa de salida es aproximadamente 1/34 del costo de salida de GPT-5.5. La variante V4-Flash, que no tiene modo de pensamiento, es aún más barata a $0.14 / $0.28 por millón de tokens de entrada/salida. Un día intenso de uso como asistente de codificación ronda los $1. Ese es el número que hace que DeepSeek sea difícil de ignorar para el tráfico de agentes de alto volumen.

MiniMax M3 vende planes de tokens en lugar de un precio único por token publicado: Plus a $20, Max a $50 y Ultra a $120. Su API utiliza una tarifa estándar para entradas de hasta 512K tokens y una tarifa de contexto largo por encima de ese umbral. MiniMax no ha publicado una cifra exacta por token, por lo que no citaremos una. La estructura de planes se adapta a equipos que desean un gasto mensual predecible en lugar de una facturación por consumo. Los detalles de conexión están en cómo usar la API de MiniMax M3.

Qwen 3.7 se factura por token a través de Alibaba Cloud, donde la vista previa de Max se lanzó en mayo de 2026. Alibaba ha fijado precios agresivos para las recientes versiones de Qwen como parte de la misma guerra de precios, pero las tarifas exactas de un modelo de vista previa pueden variar, así que consulta la documentación actual de modelos de Alibaba Cloud para conocer el número actual.

En cuanto al acceso, el ángulo de los pesos abiertos cambia por completo el techo de costos. Los pesos publicados de M3 y los lanzamientos abiertos de DeepSeek significan que puedes autoalojar y pagar solo por el hardware, sin ningún medidor por token. Qwen3.7-Max no se puede autoalojar hoy porque los pesos de su buque insignia no están publicados, por lo que todas las vías para acceder a él pasan por la API de Alibaba. Si el objetivo es evitar la dependencia del proveedor, ese es un verdadero diferenciador.

Cuál elegir

El modelo adecuado depende de lo que estés optimizando. Haz coincidir tu prioridad con la columna.

Tu prioridad Mejor opción Por qué
Codificación agencial con benchmarks publicados MiniMax M3 Números transparentes de SWE-Bench Pro / Terminal-Bench / MCP Atlas en el lanzamiento (reportados por el proveedor)
Entrada multimodal (imagen, video, uso de computadora) MiniMax M3 El único de los tres con multimodalidad nativa
Menor costo en tráfico API de alto volumen DeepSeek V4-Pro ~$0.87/1M de salida, con una variante Flash más barata y precios por acierto de caché
Calidad de código impulsada por el razonamiento en refactorizaciones difíciles DeepSeek V4-Pro La cadena de pensamiento detecta dependencias multificheros en una sola pasada
Puntuación de inteligencia compuesta más alta en una tabla pública Qwen3.7-Max Índice de Inteligencia AA 57, reportado como #1 en el lanzamiento
Ejecuciones de agentes autónomos de largo plazo Qwen3.7-Max o MiniMax M3 Ambos ofrecen resistencia y uso intensivo de herramientas; M3 también publica MCP Atlas
Autoalojamiento / sin dependencia del proveedor hoy MiniMax M3 o DeepSeek V4-Pro Ambos publican pesos abiertos; el buque insignia de Qwen está cerrado

Algunas lecturas sencillas. Si los pesos abiertos y la evidencia de codificación agencial son tus dos prioridades principales, M3 es la opción más clara en este momento, con la salvedad de que sus pesos y el informe técnico aún tardarían días en estar disponibles en el lanzamiento y sus benchmarks son reportados por el proveedor. Si manejas un gran volumen de API y quieres la factura más baja, el precio de DeepSeek V4-Pro es el titular. Si quieres la puntuación compuesta pública más alta y te sientes cómodo con una API alojada, Qwen3.7-Max encaja, siempre y cuando no necesites autoalojamiento.

Pruébalos tú mismo

Una tabla de clasificación te dice cómo funciona un modelo en las tareas de otra persona. No te dice cómo funciona en las tuyas. Los tres modelos exponen una API, y la forma más rápida de decidir es ejecutar prompts idénticos contra cada uno y comparar las respuestas lado a lado.

Ese es un trabajo para Apidog. Configura un proyecto de Apidog con tres entornos, uno por API de modelo, e importa el esquema de finalización de chat compatible con OpenAI que cada uno de ellos utiliza. Luego podrás:

Descarga Apidog, apunta tres entornos a los tres endpoints del modelo, y tendrás un banco de comparación funcional en pocos minutos. Los detalles específicos de configuración de la API para el modelo más nuevo están en cómo usar la API de MiniMax M3.

Preguntas frecuentes

¿Cuál es el mejor modelo de codificación de pesos abiertos en 2026 ahora mismo?

Para evidencia verificable de codificación agencial en el lanzamiento, MiniMax M3 lidera, porque publicó benchmarks a nivel de tarea como SWE-Bench Pro 59.0% y Terminal-Bench 2.1 66.0% (reportados por el proveedor). DeepSeek V4-Pro es la opción de valor: codificación a unos pocos puntos de GPT-5.5 a aproximadamente 1/34 del precio de salida. Qwen3.7-Max encabeza una tabla de clasificación compuesta, pero aún no es de pesos abiertos. La respuesta honesta es que los números de codificación directos no son directamente comparables entre los tres, así que ejecuta tu propia carga de trabajo antes de comprometerte.

¿Son los tres realmente de pesos abiertos?

Todavía no. MiniMax M3 es de pesos abiertos, con los pesos y un informe técnico previstos para aproximadamente diez días después de su lanzamiento el 1 de junio de 2026. DeepSeek tiene un largo historial de publicación de pesos abiertos en sus familias R1 y V3. Qwen3.7-Max-Preview, el buque insignia al que la mayoría de la gente se refiere como “Qwen 3.7”, es propietario y de pesos cerrados a mediados de mayo de 2026. Alibaba podría abrir el código de una capa inferior más adelante, pero eso debe considerarse plausible, no confirmado. Los detalles están en qué es Qwen 3.7.

¿Cuál tiene la ventana de contexto más grande?

MiniMax M3 y Qwen3.7-Max anuncian una ventana de 1.000.000 de tokens, aproximadamente entre 700.000 y 750.000 palabras. El contexto de DeepSeek V4-Pro no se especifica aquí. Recuerda que una ventana grande es un límite, no una promesa de recuperación perfecta, y cada token en ella se factura.

¿Cuál es el más barato de ejecutar?

Según las tarifas por token publicadas, DeepSeek V4-Pro es el líder claro: aproximadamente $0.87 por millón de tokens de salida, con una variante V4-Flash más económica y sin modo de pensamiento a $0.14 / $0.28. MiniMax M3 vende planes de tokens mensuales ($20 / $50 / $120) en lugar de un precio por token publicado. Qwen3.7-Max factura por token en Alibaba Cloud. Si puedes autoalojar, los modelos de pesos abiertos reducen tu costo marginal únicamente al hardware. El panorama general de precios se encuentra en la guerra de precios de LLM chinos 2026.

¿Es MiniMax M3 realmente mejor que DeepSeek V4-Pro en codificación?

Los números de benchmark aún no son directamente comparables. M3 publicó los resultados de SWE-Bench Pro y Terminal-Bench en el lanzamiento; DeepSeek no ha informado sobre esas mismas tareas en el mismo formato. La ventaja de M3 hoy es la evidencia publicada más la multimodalidad. La ventaja de DeepSeek es el precio y una cadena de razonamiento que es sólida en refactorizaciones de múltiples archivos. Los tres modelos hablan una API compatible con OpenAI, por lo que la prueba justa es ejecutar prompts idénticos contra cada uno en tu propio repositorio antes de decidir.

La versión corta

Tres contendientes de pesos abiertos alcanzan ahora la frontera en codificación, y la elección se reduce a lo que estés optimizando. Elige MiniMax M3 si quieres benchmarks de codificación agencial publicados, un contexto de 1M y multimodalidad, y puedes esperar unos días a que sus pesos estén disponibles. Elige DeepSeek V4-Pro si el bajo costo y la calidad de código impulsada por el razonamiento son lo más importante, ya que su precio por token es el más bajo de los tres y sus pesos están disponibles. Considera Qwen3.7-Max si quieres la puntuación compuesta pública más alta y te sientes cómodo con una API alojada, sabiendo que su buque insignia no es de pesos abiertos hoy.

Los números de los benchmarks seguirán cambiando, y varios de los de M3 siguen siendo reportados por el proveedor. El consejo duradero no cambia: ejecuta los mismos prompts contra las tres APIs en un proyecto de Apidog, observa las salidas y las facturas, y deja que tu propia carga de trabajo elija al ganador.

botón para descargar la aplicación

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs