Durante a maior parte dos últimos dois anos, a pergunta "qual é o melhor modelo de codificação?" tinha uma resposta ocidental. Você escolhia GPT, Claude ou Gemini, pagava a taxa por token e aceitava que os pesos permaneciam bloqueados no data center de outra pessoa. Esse não é mais o único caminho. Uma série de laboratórios chineses agora lança modelos que se equiparam à fronteira em codificação, seja publicando os pesos ou precificando a API tão baixo que muda a matemática de cada agente que você executa.
O MiniMax M3 foi lançado em 1º de junho de 2026, e é o sinal mais claro até agora. É de peso aberto (open-weight), construído para codificação e trabalho de agente, possui uma janela de contexto de 1.000.000 tokens e adiciona multimodalidade nativa. É o terceiro concorrente sério de peso aberto a chegar em semanas, junto com a família V4 da DeepSeek e o Qwen 3.7 da Alibaba. Se você busca pesos abertos, baixo custo e sem bloqueio de fornecedor, agora você tem uma lista real de opções em vez de uma única.
Os três concorrentes
MiniMax M3 é o recém-chegado. A MiniMax o posiciona como um modelo de codificação de fronteira com uma janela de contexto de 1M de tokens e multimodalidade nativa, o que significa que ele lida com entrada de imagem e vídeo e pode realizar tarefas de uso de computador, não apenas texto. Ele roda em uma nova arquitetura MSA. A MiniMax afirma que os pesos abertos e um relatório técnico seguirão dentro de aproximadamente dez dias após o lançamento, e não divulgou a contagem de parâmetros. A análise completa está em o que é MiniMax M3.
DeepSeek V4-Pro é o "burro de carga" para raciocínio e codificação. É um modelo de pensamento: ele retorna uma cadeia de pensamento reasoning_content antes de sua resposta final, o que captura dependências de vários arquivos que modelos de completude simples perdem. A DeepSeek tem um longo e documentado histórico de publicação de pesos abertos em suas linhas R1 e V3, e ela emparelha o V4-Pro com uma variante V4-Flash mais barata e sem modo de pensamento. O destaque é o preço, ao qual chegaremos. A DeepSeek mantém seu site oficial e API em deepseek.com.
Qwen 3.7 é o carro-chefe da Alibaba, liderado pelo Qwen3.7-Max-Preview. É um modelo de raciocínio com uma janela de contexto de 1M de tokens, focado intensamente em trabalho de agente de longo prazo. Uma ressalva honesta está no centro desta comparação: a partir de seu lançamento em meados de maio de 2026, o carro-chefe Qwen3.7-Max é proprietário e de peso fechado. A Alibaba tem um forte histórico de abrir o código-fonte da camada abaixo de seu carro-chefe, então pesos abertos para o 3.7 são plausíveis mais tarde, mas nenhum havia sido lançado. Detalhes completos estão em o que é Qwen 3.7. Os repositórios de código aberto da Alibaba estão em github.com/QwenLM.
Tabela de especificações
| Especificação | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Fornecedor | MiniMax | DeepSeek | Alibaba (Qwen) |
| Lançado | 1º de junho de 2026 | 2026 | Maio de 2026 (preview) |
| Pesos abertos | Sim (pesos em ~10 dias) | Sim (histórico da DeepSeek em R1/V3) | Ainda não (carro-chefe é de peso fechado) |
| Janela de contexto | 1.000.000 tokens | Não declarado aqui | 1.000.000 tokens |
| Multimodal | Sim (imagem + vídeo, uso de computador) | Não (texto + raciocínio) | Raciocínio focado em texto |
| Modo de raciocínio / pensamento | Sim | Sim (reasoning_content) |
Sim (pensamento estendido) |
| Contagem de parâmetros | Não divulgada | Não divulgada aqui | Não divulgada aqui |
| Arquitetura | MSA | Não declarado aqui | Não declarado aqui |
Uma nota sobre a linha "pesos abertos", porque é a espinha dorsal desta comparação. O M3 se compromete a publicar os pesos e um relatório técnico dentro de cerca de dez dias após o lançamento. A DeepSeek já enviou pesos abertos repetidamente. O carro-chefe do Qwen 3.7 está fechado hoje. Se pesos abertos são um requisito rígido agora, isso restringe seu campo antes mesmo de você ler um único benchmark.
Força em codificação e trabalho de agente
Aqui é onde os dados se tornam desiguais, então começaremos com o que é verificado e manteremos o qualitativo onde não for.
O MiniMax M3 foi lançado com um conjunto completo de benchmarks de codificação e trabalho de agente relatados pelo fornecedor. Estes são números do próprio MiniMax, então trate-os como declarações do fornecedor no dia do lançamento até que terceiros os reproduzam:
| Benchmark (relatado pelo fornecedor, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Reportado acima do Opus 4.7 |
| OmniDocBench | Reportado acima do Gemini 3.1 Pro |
| Claw-Eval | Reportado o mais alto em seu conjunto |
SWE-Bench Pro e Terminal-Bench medem tarefas reais de engenharia de software: resolver problemas do GitHub, trabalhar em um terminal. O MCP Atlas mede o uso de ferramentas e a orquestração de agentes. Juntos, eles descrevem um modelo construído para fazer trabalho de codificação de agente, não apenas autocomplete. Você pode verificar o campo SWE-Bench no SWE-Bench leaderboard.
Para DeepSeek V4-Pro e Qwen 3.7, os números comparáveis de codificação de agente não são publicados no mesmo formato, então uma correspondência direta célula por célula seria inventada, e não faremos isso. O que está documentado:
- O DeepSeek V4-Pro atinge sua capacidade de codificação a poucos pontos de benchmark do GPT-5.5 de acordo com comparações de terceiros, enquanto custa uma fração do preço. Sua cadeia de raciocínio é a vantagem prática: em refatorações complexas de múltiplos arquivos, renomeações e mudanças de assinatura, a passagem de pensamento captura dependências em uma única vez que modelos simples levariam três rodadas para lidar. Os detalhes de configuração e a matemática de custos estão em como usar DeepSeek V4-Pro com Cursor.
- O Qwen 3.7 obteve 57 no Artificial Analysis Intelligence Index, um composto que mescla raciocínio, conhecimento, matemática e codificação, relatado como o resultado #1 nesse placar no lançamento, além de aproximadamente 1.475 Elo na LM Arena com uma colocação entre os dez primeiros na categoria de codificação. A proposta da Alibaba é o trabalho de agente de longo prazo: execuções autônomas sustentadas e uso pesado de ferramentas em muitas etapas.
A leitura honesta: o M3 é lançado com a evidência de codificação de agente mais transparente hoje porque publicou números de nível de tarefa. A força do DeepSeek é a qualidade de código impulsionada pelo raciocínio a um preço baixo. A força do Qwen é a inteligência composta e a resistência em cadeias longas de agentes. Até que DeepSeek e Qwen relatem as mesmas tarefas SWE-Bench Pro e Terminal-Bench, execute sua própria carga de trabalho nos três, o que abordamos no final. Um confronto de fronteira mais amplo para Qwen está em Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Janela de contexto e custo de contexto longo
Dois dos três anunciam uma janela de contexto de 1.000.000 de tokens: MiniMax M3 e Qwen3.7-Max. O contexto do DeepSeek V4-Pro não é reproduzido aqui, então não declararemos um número para ele.
Um milhão de tokens equivale a aproximadamente 700.000 a 750.000 palavras. Isso é o suficiente para conter um repositório de tamanho médio, uma pilha de PDFs longos ou meses de conversação em uma única solicitação, sem segmentação manual e sem camada de recuperação para manter. Para raciocínio de repositório inteiro, elimina muito trabalho de infraestrutura.
Duas ressalvas para manter a honestidade. Primeiro, uma janela grande é um teto, não uma garantia. Os modelos frequentemente recuperam e raciocinam com menos confiabilidade à medida que a janela se preenche, e testes independentes de contexto longo para esses novos lançamentos ainda são escassos. Segundo, contextos grandes custam dinheiro. Cada token que você envia é cobrado, então um prompt de um milhão de tokens é um prompt caro.
É aqui que a arquitetura MSA do M3 deveria importar. A MiniMax a apresenta como construída para eficiência de contexto longo, com uma taxa de API padrão de até 512 mil tokens de entrada e uma taxa separada de contexto longo acima desse limite. A divisão mostra claramente a realidade econômica: o contexto longo é um nível premium, em todo modelo que o possui. A defesa prática é a mesma, independentemente do modelo que você escolher. Use a janela completa apenas quando a tarefa exigir, e corte agressivamente quando não for necessário. Táticas concretas para manter o contexto do agente enxuto estão em como reduzir os custos de token do agente.
Preço e acesso
O preço é a razão pela qual esta comparação existe. A mesma carga de trabalho que custa dinheiro real em um carro-chefe ocidental funciona por uma fração aqui, e essa diferença é o motor por trás da guerra de preços chinesa de LLMs 2026.
DeepSeek V4-Pro publica os números por token mais claros dos três. Taxas padrão, permanentes a partir de maio de 2026:
| Tipo de token | Taxa DeepSeek V4-Pro por 1M de tokens |
|---|---|
| Entrada (cache miss) | $0,435 |
| Entrada (cache hit) | $0,003625 |
| Saída | $0,87 |
Essa taxa de saída é aproximadamente 1/34 do custo da saída do GPT-5.5. A variante V4-Flash, que não tem modo de pensamento, é ainda mais barata, a US$ 0,14 / US$ 0,28 por milhão de entrada/saída. Um dia intenso de uso do assistente de codificação custa cerca de US$ 1. Esse é o número que torna o DeepSeek difícil de ignorar para tráfego de agente de alto volume.
MiniMax M3 vende planos de tokens em vez de um único preço por token publicado: Plus por US$ 20, Max por US$ 50 e Ultra por US$ 120. Sua API usa uma taxa padrão para entradas de até 512 mil tokens e uma taxa de contexto longo acima disso. A MiniMax não publicou um valor exato por token, então não citaremos um. A estrutura do plano atende a equipes que desejam gastos mensais previsíveis em vez de cobrança por medição. Detalhes de configuração estão em como usar a API MiniMax M3.
Qwen 3.7 é cobrado por token através do Alibaba Cloud, onde a prévia do Max foi lançada em maio de 2026. A Alibaba precificou os lançamentos recentes do Qwen agressivamente como parte da mesma guerra de preços, mas as taxas exatas de um modelo em prévia podem mudar, então verifique a documentação atual do modelo no Alibaba Cloud para o número em tempo real.
No acesso, o ângulo de pesos abertos muda o teto de custos completamente. Os pesos publicados do M3 e os lançamentos abertos do DeepSeek significam que você pode auto-hospedar e pagar apenas pelo hardware, sem nenhum medidor por token. O Qwen3.7-Max não pode ser auto-hospedado hoje porque seus pesos de carro-chefe não são publicados, então toda rota para ele passa pela API da Alibaba. Se evitar o bloqueio do fornecedor é o objetivo, essa é uma diferenciação real.
Qual escolher
O modelo certo depende do que você está otimizando. Combine sua prioridade com a coluna.
| Sua prioridade | Melhor opção | Porquê |
|---|---|---|
| Codificação de agente com benchmarks publicados | MiniMax M3 | Números transparentes de SWE-Bench Pro / Terminal-Bench / MCP Atlas no lançamento (relatado pelo fornecedor) |
| Entrada multimodal (imagem, vídeo, uso de computador) | MiniMax M3 | O único dos três com multimodalidade nativa |
| Custo mais baixo em tráfego de API de alto volume | DeepSeek V4-Pro | ~$0,87/1M de saída, com uma variante Flash mais barata e preços de cache-hit |
| Qualidade de código impulsionada pelo raciocínio em refatorações difíceis | DeepSeek V4-Pro | A cadeia de pensamento captura dependências de vários arquivos em uma única passagem |
| Pontuação de inteligência composta mais alta em um painel público | Qwen3.7-Max | AA Intelligence Index 57, relatado como #1 no lançamento |
| Execuções de agente autônomo de longo prazo | Qwen3.7-Max ou MiniMax M3 | Ambos prometem resistência e uso pesado de ferramentas; o M3 também publica o MCP Atlas |
| Auto-hospedagem / sem bloqueio de fornecedor hoje | MiniMax M3 ou DeepSeek V4-Pro | Ambos publicam pesos abertos; o carro-chefe do Qwen é fechado |
Algumas leituras claras. Se pesos abertos e evidências de codificação de agente são suas duas principais caixas, o M3 é a escolha mais limpa agora, com a ressalva de que seus pesos e relatório técnico ainda estavam a dias do lançamento e seus benchmarks são relatados pelo fornecedor. Se você está executando um grande volume de API e quer a conta mais baixa, o preço do DeepSeek V4-Pro é a manchete. Se você quer a maior pontuação composta pública e se sente confortável em uma API hospedada, o Qwen3.7-Max se encaixa, desde que você não precise de auto-hospedagem.
Teste-os você mesmo
Um ranking informa como um modelo se sai nas tarefas de outra pessoa. Não informa como ele se sai nas suas. Todos os três modelos expõem uma API, e a maneira mais rápida de decidir é executar prompts idênticos em cada um e comparar as respostas lado a lado.
Esse é um trabalho para o Apidog. Configure um projeto Apidog com três ambientes, um por API de modelo, e importe o esquema de Chat Completion compatível com OpenAI que cada um usa. Então você pode:
- Enviar o mesmo lote de prompts para M3, V4-Pro e Qwen3.7-Max e comparar as saídas em um só lugar.
- Gravar respostas douradas e reproduzi-las a cada alteração de prompt para detectar desvios.
- Validar
tool_callsereasoning_contentcom asserções de esquema JSON, para que uma edição ruim de prompt de sistema não quebre seu agente silenciosamente.
Baixe o Apidog, aponte três ambientes para os três endpoints dos modelos, e você terá um banco de comparação funcionando em poucos minutos. Os detalhes de configuração da API para o modelo mais recente estão em como usar a API MiniMax M3.
Perguntas frequentes
Qual é o melhor modelo de codificação de peso aberto em 2026 agora?
Para evidências verificáveis de codificação de agente no lançamento, o MiniMax M3 se destaca, pois publicou benchmarks de nível de tarefa como SWE-Bench Pro 59,0% e Terminal-Bench 2.1 66,0% (relatado pelo fornecedor). O DeepSeek V4-Pro é a escolha de valor: codificação a poucos pontos do GPT-5.5 por aproximadamente 1/34 do preço de saída. O Qwen3.7-Max lidera um ranking composto, mas ainda não é de peso aberto. A resposta honesta é que os números de codificação frente a frente não são diretamente comparáveis entre os três, então execute sua própria carga de trabalho antes de se comprometer.
Os três são realmente de peso aberto?
Ainda não. O MiniMax M3 é de peso aberto, com pesos e um relatório técnico previstos para cerca de dez dias após o seu lançamento em 1º de junho de 2026. O DeepSeek tem um longo histórico de publicação de pesos abertos em suas famílias R1 e V3. O Qwen3.7-Max-Preview, o carro-chefe que a maioria das pessoas se refere como "Qwen 3.7", é proprietário e de peso fechado a partir de meados de maio de 2026. A Alibaba pode abrir o código-fonte de uma camada abaixo dele mais tarde, mas trate isso como plausível, não confirmado. Os detalhes estão em o que é Qwen 3.7.
Qual tem a maior janela de contexto?
MiniMax M3 e Qwen3.7-Max ambos anunciam uma janela de 1.000.000 de tokens, aproximadamente 700.000 a 750.000 palavras. O contexto do DeepSeek V4-Pro não é declarado aqui. Lembre-se que uma janela grande é um teto, não uma promessa de recuperação perfeita, e cada token nela é cobrado.
Qual é o mais barato para executar?
Com base nas taxas publicadas por token, o DeepSeek V4-Pro é o claro líder: cerca de US$ 0,87 por milhão de tokens de saída, com uma variante V4-Flash mais barata e sem pensamento a US$ 0,14 / US$ 0,28. O MiniMax M3 vende planos mensais de tokens (US$ 20 / US$ 50 / US$ 120) em vez de um preço por token publicado. O Qwen3.7-Max é cobrado por token no Alibaba Cloud. Se você pode auto-hospedar, os modelos de peso aberto reduzem seu custo marginal apenas para hardware. O panorama de preços mais amplo está na guerra de preços chinesa de LLMs 2026.
O MiniMax M3 é realmente melhor que o DeepSeek V4-Pro em codificação?
Os números de benchmark ainda não são diretamente comparáveis. O M3 publicou resultados do SWE-Bench Pro e Terminal-Bench no lançamento; o DeepSeek não relatou essas mesmas tarefas no mesmo formato. A vantagem do M3 hoje é a evidência publicada mais a multimodalidade. A vantagem do DeepSeek é o preço e uma cadeia de raciocínio forte em refatorações de múltiplos arquivos. Todos os três falam uma API compatível com OpenAI, então o teste justo é executar prompts idênticos em cada um em seu próprio repositório antes de decidir.
A versão curta
Três concorrentes de peso aberto agora alcançam a fronteira em codificação, e a escolha se resume ao que você está otimizando. Escolha o MiniMax M3 se você quer benchmarks de codificação de agente publicados, um contexto de 1M e multimodalidade, e pode esperar alguns dias para que seus pesos sejam lançados. Escolha o DeepSeek V4-Pro se o baixo custo e a qualidade de código impulsionada pelo raciocínio importam mais, já que seu preço por token é o mais baixo dos três e seus pesos estão disponíveis. Considere o Qwen3.7-Max se você quer a pontuação composta pública mais alta e se sente confortável em uma API hospedada, sabendo que seu carro-chefe não é de peso aberto hoje.
Os números de benchmark continuarão mudando, e vários do M3 ainda são relatados pelo fornecedor. O conselho duradouro não muda: execute os mesmos prompts nas três APIs em um projeto Apidog, observe as saídas e as contas, e deixe sua própria carga de trabalho escolher o vencedor.
