MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: Melhor Modelo de Código Open-Weight em 2026

MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: qual modelo de código aberto vence em codificação, janela de contexto, licença e preço em 2026? Uma comparação lado a lado.

Ashley Innocent

Ashley Innocent

1 junho 2026

MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: Melhor Modelo de Código Open-Weight em 2026

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Durante a maior parte dos últimos dois anos, a pergunta "qual é o melhor modelo de codificação?" tinha uma resposta ocidental. Você escolhia GPT, Claude ou Gemini, pagava a taxa por token e aceitava que os pesos permaneciam bloqueados no data center de outra pessoa. Esse não é mais o único caminho. Uma série de laboratórios chineses agora lança modelos que se equiparam à fronteira em codificação, seja publicando os pesos ou precificando a API tão baixo que muda a matemática de cada agente que você executa.

O MiniMax M3 foi lançado em 1º de junho de 2026, e é o sinal mais claro até agora. É de peso aberto (open-weight), construído para codificação e trabalho de agente, possui uma janela de contexto de 1.000.000 tokens e adiciona multimodalidade nativa. É o terceiro concorrente sério de peso aberto a chegar em semanas, junto com a família V4 da DeepSeek e o Qwen 3.7 da Alibaba. Se você busca pesos abertos, baixo custo e sem bloqueio de fornecedor, agora você tem uma lista real de opções em vez de uma única.

Os três concorrentes

MiniMax M3 é o recém-chegado. A MiniMax o posiciona como um modelo de codificação de fronteira com uma janela de contexto de 1M de tokens e multimodalidade nativa, o que significa que ele lida com entrada de imagem e vídeo e pode realizar tarefas de uso de computador, não apenas texto. Ele roda em uma nova arquitetura MSA. A MiniMax afirma que os pesos abertos e um relatório técnico seguirão dentro de aproximadamente dez dias após o lançamento, e não divulgou a contagem de parâmetros. A análise completa está em o que é MiniMax M3.

DeepSeek V4-Pro é o "burro de carga" para raciocínio e codificação. É um modelo de pensamento: ele retorna uma cadeia de pensamento reasoning_content antes de sua resposta final, o que captura dependências de vários arquivos que modelos de completude simples perdem. A DeepSeek tem um longo e documentado histórico de publicação de pesos abertos em suas linhas R1 e V3, e ela emparelha o V4-Pro com uma variante V4-Flash mais barata e sem modo de pensamento. O destaque é o preço, ao qual chegaremos. A DeepSeek mantém seu site oficial e API em deepseek.com.

Qwen 3.7 é o carro-chefe da Alibaba, liderado pelo Qwen3.7-Max-Preview. É um modelo de raciocínio com uma janela de contexto de 1M de tokens, focado intensamente em trabalho de agente de longo prazo. Uma ressalva honesta está no centro desta comparação: a partir de seu lançamento em meados de maio de 2026, o carro-chefe Qwen3.7-Max é proprietário e de peso fechado. A Alibaba tem um forte histórico de abrir o código-fonte da camada abaixo de seu carro-chefe, então pesos abertos para o 3.7 são plausíveis mais tarde, mas nenhum havia sido lançado. Detalhes completos estão em o que é Qwen 3.7. Os repositórios de código aberto da Alibaba estão em github.com/QwenLM.

Tabela de especificações

Especificação MiniMax M3 DeepSeek V4-Pro Qwen3.7-Max-Preview
Fornecedor MiniMax DeepSeek Alibaba (Qwen)
Lançado 1º de junho de 2026 2026 Maio de 2026 (preview)
Pesos abertos Sim (pesos em ~10 dias) Sim (histórico da DeepSeek em R1/V3) Ainda não (carro-chefe é de peso fechado)
Janela de contexto 1.000.000 tokens Não declarado aqui 1.000.000 tokens
Multimodal Sim (imagem + vídeo, uso de computador) Não (texto + raciocínio) Raciocínio focado em texto
Modo de raciocínio / pensamento Sim Sim (reasoning_content) Sim (pensamento estendido)
Contagem de parâmetros Não divulgada Não divulgada aqui Não divulgada aqui
Arquitetura MSA Não declarado aqui Não declarado aqui

Uma nota sobre a linha "pesos abertos", porque é a espinha dorsal desta comparação. O M3 se compromete a publicar os pesos e um relatório técnico dentro de cerca de dez dias após o lançamento. A DeepSeek já enviou pesos abertos repetidamente. O carro-chefe do Qwen 3.7 está fechado hoje. Se pesos abertos são um requisito rígido agora, isso restringe seu campo antes mesmo de você ler um único benchmark.

Força em codificação e trabalho de agente

Aqui é onde os dados se tornam desiguais, então começaremos com o que é verificado e manteremos o qualitativo onde não for.

O MiniMax M3 foi lançado com um conjunto completo de benchmarks de codificação e trabalho de agente relatados pelo fornecedor. Estes são números do próprio MiniMax, então trate-os como declarações do fornecedor no dia do lançamento até que terceiros os reproduzam:

Benchmark (relatado pelo fornecedor, MiniMax) MiniMax M3
SWE-Bench Pro 59,0%
Terminal-Bench 2.1 66,0%
SWE-fficiency 34,8%
KernelBench Hard 28,8%
MCP Atlas 74,2%
PostTrainBench 0,37
SVG-Bench Reportado acima do Opus 4.7
OmniDocBench Reportado acima do Gemini 3.1 Pro
Claw-Eval Reportado o mais alto em seu conjunto

SWE-Bench Pro e Terminal-Bench medem tarefas reais de engenharia de software: resolver problemas do GitHub, trabalhar em um terminal. O MCP Atlas mede o uso de ferramentas e a orquestração de agentes. Juntos, eles descrevem um modelo construído para fazer trabalho de codificação de agente, não apenas autocomplete. Você pode verificar o campo SWE-Bench no SWE-Bench leaderboard.

Para DeepSeek V4-Pro e Qwen 3.7, os números comparáveis de codificação de agente não são publicados no mesmo formato, então uma correspondência direta célula por célula seria inventada, e não faremos isso. O que está documentado:

A leitura honesta: o M3 é lançado com a evidência de codificação de agente mais transparente hoje porque publicou números de nível de tarefa. A força do DeepSeek é a qualidade de código impulsionada pelo raciocínio a um preço baixo. A força do Qwen é a inteligência composta e a resistência em cadeias longas de agentes. Até que DeepSeek e Qwen relatem as mesmas tarefas SWE-Bench Pro e Terminal-Bench, execute sua própria carga de trabalho nos três, o que abordamos no final. Um confronto de fronteira mais amplo para Qwen está em Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

Janela de contexto e custo de contexto longo

Dois dos três anunciam uma janela de contexto de 1.000.000 de tokens: MiniMax M3 e Qwen3.7-Max. O contexto do DeepSeek V4-Pro não é reproduzido aqui, então não declararemos um número para ele.

Um milhão de tokens equivale a aproximadamente 700.000 a 750.000 palavras. Isso é o suficiente para conter um repositório de tamanho médio, uma pilha de PDFs longos ou meses de conversação em uma única solicitação, sem segmentação manual e sem camada de recuperação para manter. Para raciocínio de repositório inteiro, elimina muito trabalho de infraestrutura.

Duas ressalvas para manter a honestidade. Primeiro, uma janela grande é um teto, não uma garantia. Os modelos frequentemente recuperam e raciocinam com menos confiabilidade à medida que a janela se preenche, e testes independentes de contexto longo para esses novos lançamentos ainda são escassos. Segundo, contextos grandes custam dinheiro. Cada token que você envia é cobrado, então um prompt de um milhão de tokens é um prompt caro.

É aqui que a arquitetura MSA do M3 deveria importar. A MiniMax a apresenta como construída para eficiência de contexto longo, com uma taxa de API padrão de até 512 mil tokens de entrada e uma taxa separada de contexto longo acima desse limite. A divisão mostra claramente a realidade econômica: o contexto longo é um nível premium, em todo modelo que o possui. A defesa prática é a mesma, independentemente do modelo que você escolher. Use a janela completa apenas quando a tarefa exigir, e corte agressivamente quando não for necessário. Táticas concretas para manter o contexto do agente enxuto estão em como reduzir os custos de token do agente.

Preço e acesso

O preço é a razão pela qual esta comparação existe. A mesma carga de trabalho que custa dinheiro real em um carro-chefe ocidental funciona por uma fração aqui, e essa diferença é o motor por trás da guerra de preços chinesa de LLMs 2026.

DeepSeek V4-Pro publica os números por token mais claros dos três. Taxas padrão, permanentes a partir de maio de 2026:

Tipo de token Taxa DeepSeek V4-Pro por 1M de tokens
Entrada (cache miss) $0,435
Entrada (cache hit) $0,003625
Saída $0,87

Essa taxa de saída é aproximadamente 1/34 do custo da saída do GPT-5.5. A variante V4-Flash, que não tem modo de pensamento, é ainda mais barata, a US$ 0,14 / US$ 0,28 por milhão de entrada/saída. Um dia intenso de uso do assistente de codificação custa cerca de US$ 1. Esse é o número que torna o DeepSeek difícil de ignorar para tráfego de agente de alto volume.

MiniMax M3 vende planos de tokens em vez de um único preço por token publicado: Plus por US$ 20, Max por US$ 50 e Ultra por US$ 120. Sua API usa uma taxa padrão para entradas de até 512 mil tokens e uma taxa de contexto longo acima disso. A MiniMax não publicou um valor exato por token, então não citaremos um. A estrutura do plano atende a equipes que desejam gastos mensais previsíveis em vez de cobrança por medição. Detalhes de configuração estão em como usar a API MiniMax M3.

Qwen 3.7 é cobrado por token através do Alibaba Cloud, onde a prévia do Max foi lançada em maio de 2026. A Alibaba precificou os lançamentos recentes do Qwen agressivamente como parte da mesma guerra de preços, mas as taxas exatas de um modelo em prévia podem mudar, então verifique a documentação atual do modelo no Alibaba Cloud para o número em tempo real.

No acesso, o ângulo de pesos abertos muda o teto de custos completamente. Os pesos publicados do M3 e os lançamentos abertos do DeepSeek significam que você pode auto-hospedar e pagar apenas pelo hardware, sem nenhum medidor por token. O Qwen3.7-Max não pode ser auto-hospedado hoje porque seus pesos de carro-chefe não são publicados, então toda rota para ele passa pela API da Alibaba. Se evitar o bloqueio do fornecedor é o objetivo, essa é uma diferenciação real.

Qual escolher

O modelo certo depende do que você está otimizando. Combine sua prioridade com a coluna.

Sua prioridade Melhor opção Porquê
Codificação de agente com benchmarks publicados MiniMax M3 Números transparentes de SWE-Bench Pro / Terminal-Bench / MCP Atlas no lançamento (relatado pelo fornecedor)
Entrada multimodal (imagem, vídeo, uso de computador) MiniMax M3 O único dos três com multimodalidade nativa
Custo mais baixo em tráfego de API de alto volume DeepSeek V4-Pro ~$0,87/1M de saída, com uma variante Flash mais barata e preços de cache-hit
Qualidade de código impulsionada pelo raciocínio em refatorações difíceis DeepSeek V4-Pro A cadeia de pensamento captura dependências de vários arquivos em uma única passagem
Pontuação de inteligência composta mais alta em um painel público Qwen3.7-Max AA Intelligence Index 57, relatado como #1 no lançamento
Execuções de agente autônomo de longo prazo Qwen3.7-Max ou MiniMax M3 Ambos prometem resistência e uso pesado de ferramentas; o M3 também publica o MCP Atlas
Auto-hospedagem / sem bloqueio de fornecedor hoje MiniMax M3 ou DeepSeek V4-Pro Ambos publicam pesos abertos; o carro-chefe do Qwen é fechado

Algumas leituras claras. Se pesos abertos e evidências de codificação de agente são suas duas principais caixas, o M3 é a escolha mais limpa agora, com a ressalva de que seus pesos e relatório técnico ainda estavam a dias do lançamento e seus benchmarks são relatados pelo fornecedor. Se você está executando um grande volume de API e quer a conta mais baixa, o preço do DeepSeek V4-Pro é a manchete. Se você quer a maior pontuação composta pública e se sente confortável em uma API hospedada, o Qwen3.7-Max se encaixa, desde que você não precise de auto-hospedagem.

Teste-os você mesmo

Um ranking informa como um modelo se sai nas tarefas de outra pessoa. Não informa como ele se sai nas suas. Todos os três modelos expõem uma API, e a maneira mais rápida de decidir é executar prompts idênticos em cada um e comparar as respostas lado a lado.

Esse é um trabalho para o Apidog. Configure um projeto Apidog com três ambientes, um por API de modelo, e importe o esquema de Chat Completion compatível com OpenAI que cada um usa. Então você pode:

Baixe o Apidog, aponte três ambientes para os três endpoints dos modelos, e você terá um banco de comparação funcionando em poucos minutos. Os detalhes de configuração da API para o modelo mais recente estão em como usar a API MiniMax M3.

Perguntas frequentes

Qual é o melhor modelo de codificação de peso aberto em 2026 agora?

Para evidências verificáveis de codificação de agente no lançamento, o MiniMax M3 se destaca, pois publicou benchmarks de nível de tarefa como SWE-Bench Pro 59,0% e Terminal-Bench 2.1 66,0% (relatado pelo fornecedor). O DeepSeek V4-Pro é a escolha de valor: codificação a poucos pontos do GPT-5.5 por aproximadamente 1/34 do preço de saída. O Qwen3.7-Max lidera um ranking composto, mas ainda não é de peso aberto. A resposta honesta é que os números de codificação frente a frente não são diretamente comparáveis entre os três, então execute sua própria carga de trabalho antes de se comprometer.

Os três são realmente de peso aberto?

Ainda não. O MiniMax M3 é de peso aberto, com pesos e um relatório técnico previstos para cerca de dez dias após o seu lançamento em 1º de junho de 2026. O DeepSeek tem um longo histórico de publicação de pesos abertos em suas famílias R1 e V3. O Qwen3.7-Max-Preview, o carro-chefe que a maioria das pessoas se refere como "Qwen 3.7", é proprietário e de peso fechado a partir de meados de maio de 2026. A Alibaba pode abrir o código-fonte de uma camada abaixo dele mais tarde, mas trate isso como plausível, não confirmado. Os detalhes estão em o que é Qwen 3.7.

Qual tem a maior janela de contexto?

MiniMax M3 e Qwen3.7-Max ambos anunciam uma janela de 1.000.000 de tokens, aproximadamente 700.000 a 750.000 palavras. O contexto do DeepSeek V4-Pro não é declarado aqui. Lembre-se que uma janela grande é um teto, não uma promessa de recuperação perfeita, e cada token nela é cobrado.

Qual é o mais barato para executar?

Com base nas taxas publicadas por token, o DeepSeek V4-Pro é o claro líder: cerca de US$ 0,87 por milhão de tokens de saída, com uma variante V4-Flash mais barata e sem pensamento a US$ 0,14 / US$ 0,28. O MiniMax M3 vende planos mensais de tokens (US$ 20 / US$ 50 / US$ 120) em vez de um preço por token publicado. O Qwen3.7-Max é cobrado por token no Alibaba Cloud. Se você pode auto-hospedar, os modelos de peso aberto reduzem seu custo marginal apenas para hardware. O panorama de preços mais amplo está na guerra de preços chinesa de LLMs 2026.

O MiniMax M3 é realmente melhor que o DeepSeek V4-Pro em codificação?

Os números de benchmark ainda não são diretamente comparáveis. O M3 publicou resultados do SWE-Bench Pro e Terminal-Bench no lançamento; o DeepSeek não relatou essas mesmas tarefas no mesmo formato. A vantagem do M3 hoje é a evidência publicada mais a multimodalidade. A vantagem do DeepSeek é o preço e uma cadeia de raciocínio forte em refatorações de múltiplos arquivos. Todos os três falam uma API compatível com OpenAI, então o teste justo é executar prompts idênticos em cada um em seu próprio repositório antes de decidir.

A versão curta

Três concorrentes de peso aberto agora alcançam a fronteira em codificação, e a escolha se resume ao que você está otimizando. Escolha o MiniMax M3 se você quer benchmarks de codificação de agente publicados, um contexto de 1M e multimodalidade, e pode esperar alguns dias para que seus pesos sejam lançados. Escolha o DeepSeek V4-Pro se o baixo custo e a qualidade de código impulsionada pelo raciocínio importam mais, já que seu preço por token é o mais baixo dos três e seus pesos estão disponíveis. Considere o Qwen3.7-Max se você quer a pontuação composta pública mais alta e se sente confortável em uma API hospedada, sabendo que seu carro-chefe não é de peso aberto hoje.

Os números de benchmark continuarão mudando, e vários do M3 ainda são relatados pelo fornecedor. O conselho duradouro não muda: execute os mesmos prompts nas três APIs em um projeto Apidog, observe as saídas e as contas, e deixe sua própria carga de trabalho escolher o vencedor.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs