O MiniMax M3 faz uma afirmação que deve fazer com que todos os fornecedores de modelos fechados pensem duas vezes. Ele diz que um modelo de pesos abertos agora supera o GPT-5.5 e o Gemini 3.1 Pro em um benchmark de codificação difícil, e se aproxima do Claude Opus 4.7. Se isso se confirmar, a matemática da construção de ferramentas de codificação agenticas muda da noite para o dia. Você obteria resultados de classe de fronteira a partir de pesos que pode baixar, executar e precificar como quiser.
Aqui está a versão honesta logo de cara. A maioria dos números por trás dessa afirmação vem do próprio MiniMax. Eles são relatados pelo fornecedor, e a confirmação independente em tabelas de classificação ainda está pendente. Então, isto não é uma coroação. É uma olhada no que o M3 diz que pode fazer, como isso se compara a dois modelos de fronteira fechados, e como decidir qual deles pertence à sua pilha. Para o histórico completo do modelo, veja o que é MiniMax M3, e os dados de origem estão no anúncio do MiniMax M3.
Os concorrentes em um relance
Três modelos, três apostas diferentes. O M3 aposta no código aberto e no preço baixo. O Opus 4.7 aposta na confiabilidade e no ecossistema. O GPT-5.5 aposta na posição de plataforma padrão dentro da pilha OpenAI.
| Atributo | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Pesos | Aberto (lançamento previsto para ~10 dias) | Fechado | Fechado |
| Janela de contexto | 1.000.000 tokens | Grande (ver docs Anthropic) | Grande (ver docs OpenAI) |
| Multimodal | Nativo: imagem, vídeo, uso de computador | Imagem + texto | Imagem + texto |
| Arquitetura | MSA (~1/20 do cálculo por token em relação à geração anterior) | Não divulgado | Não divulgado |
| Modelo de precificação | Planos $20 / $50 / $120 + uso da API | Por token, precificação Anthropic | Por token, precificação OpenAI |
| Contagem de parâmetros | Não divulgado | Não divulgado | Não divulgado |
A divisão entre aberto e fechado é o ponto principal. Você não pode hospedar o Opus 4.7 ou o GPT-5.5. Com o M3, a MiniMax diz que os pesos e um relatório técnico serão lançados em cerca de dez dias, o que coloca a implementação on-premise e o controle total de preços de volta à mesa.
Benchmarks de codificação: onde o M3 lidera e onde não
A codificação é onde o M3 faz sua maior afirmação. O destaque é o SWE-Bench Pro, um teste de tarefas de engenharia de software do mundo real. Aqui estão os números relatados pela MiniMax.
| Benchmark (relatado pela MiniMax) | MiniMax M3 | Posicionamento reivindicado pela MiniMax |
|---|---|---|
| SWE-Bench Pro | 59,0% | Acima do GPT-5.5, acima do Gemini 3.1 Pro, se aproxima do Opus 4.7 |
| Terminal-Bench 2.1 | 66,0% | Pontuação forte de terminal agentico |
| SWE-fficiency | 34,8% | Eficiência na resolução de problemas |
| KernelBench Hard | 28,8% | Geração de kernel de baixo nível |
| PostTrainBench | 0,37 | Atrás do Opus 4.7 (0,42) e do GPT-5.5 (0,39) |
Leia essa tabela com atenção, porque ela tem dois lados. No SWE-Bench Pro, os 59,0% do M3 são o número que permitiria a um modelo de código aberto estar em companhia de fronteira. Você pode verificar a tabela de classificação pública do SWE-Bench para ver como isso se alinha quando terceiros o verificarem. Mas no PostTrainBench, o M3 fica atrás. O Opus 4.7 lidera com 0,42, o GPT-5.5 segue com 0,39 e o M3 fica em 0,37. A MiniMax está atrás nesse quesito, e fingir o contrário seria um desserviço.
Portanto, o cenário não é "M3 vence na codificação". É "M3 alcança a faixa de fronteira no benchmark de codificação principal, embora ainda esteja atrás em outros". Isso é um passo significativo para um modelo de código aberto. Não é uma vitória limpa. Já vimos esse padrão antes com lançamentos fortes de código aberto. Se você acompanhou a comparação entre Qwen 3.7 vs GPT-5.5 vs Opus 4.7, a forma é familiar: modelos de código aberto fecham a lacuna em tarefas específicas mais rapidamente do que a fecham em todos os lugares.
Mais uma ressalva que vale a pena repetir. Essas são as próprias execuções da MiniMax. Os sistemas de benchmark, a infraestrutura e as configurações de prompt variam entre os fornecedores, e pequenas escolhas metodológicas podem mover as pontuações em pontos. Trate a comparação como direcional até que os líderes independentes reportem seus próprios números.
Uso de agentes e ferramentas: a aposta de longo prazo
Se a codificação é a manchete, o comportamento agentico é onde a arquitetura do M3 se destaca. O modelo obtém 74,2% no MCP Atlas, um teste de orquestração de ferramentas através do Model Context Protocol, e a MiniMax relata a maior pontuação no campo no Claw-Eval, uma avaliação agentica.
As demonstrações são a parte que chama a atenção. A MiniMax mostra o M3 executando uma tarefa de otimização de kernel CUDA de 24 horas que resulta em uma aceleração de 9,4x, e uma reprodução autônoma de um artigo que produziu 18 commits e 23 figuras sem intervenção humana. Trabalhos agenticos de longo prazo como esse são exatamente onde a maioria dos modelos se desvia, perde o contexto ou gasta tokens em becos sem saída.
A confiabilidade de um agente depende tanto da estrutura em torno do modelo quanto do próprio modelo. A forma como você estrutura as chamadas de ferramentas, o contexto e os loops de recuperação decide se uma execução de 24 horas termina ou falha. Nossa análise da arquitetura da estrutura do agente Claude Code aborda essa infraestrutura em profundidade, e os mesmos princípios se aplicam, não importa qual modelo esteja no centro. Uma forte pontuação agentica em um benchmark de fornecedor é promissora. Observar se ela se mantém em seus próprios fluxos de trabalho de várias etapas é o verdadeiro teste.
Multimodal e compreensão de documentos
O M3 vem com suporte multimodal nativo pronto para uso: imagem, vídeo e uso de computador. Essa é uma superfície de entrada mais ampla do que as configurações de imagem mais texto do Opus 4.7 e GPT-5.5.
Dois benchmarks sustentam a afirmação. No SVG-Bench, que testa a geração de gráficos estruturados, a MiniMax reporta que o M3 está acima do Opus 4.7. No OmniDocBench, um teste de compreensão de documentos, ela reporta que o M3 está acima do Gemini 3.1 Pro. Junte isso com o uso de computador, e o M3 se posiciona para fluxos de trabalho que leem documentos, analisam telas e agem, não apenas conversam. Como sempre, esses dados estão na coluna de "relatados pelo fornecedor" até que outra pessoa os execute.
Janela de contexto e o custo de um contexto longo
O M3 possui uma janela de contexto de 1.000.000 tokens, e a maneira como ele chega lá é mais importante do que o número. O modelo usa uma arquitetura que a MiniMax chama de MSA, que, segundo ela, reduz o custo de computação por token para aproximadamente 1/20 da geração anterior, com preenchimento mais de 9x mais rápido e decodificação mais de 15x mais rápida.
Essa aceleração é a notícia discreta. Um contexto longo é fácil de anunciar e caro de usar. Cada token que você coloca em um prompt custa computação em cada etapa de um loop de agente, e é por isso que agentes de longa duração ficam lentos e caros rapidamente. Se o custo por token do M3 realmente é uma fração dos modelos anteriores, alimentá-lo com uma grande base de código ou um longo rastro de documentos se torna muito menos punitivo.
Essa questão econômica se aplica aos três modelos. Antes de assumir que uma janela de 1M é gratuita para preencher, leia como reduzir os custos de token do agente na CLI. O token mais barato é aquele que você nunca envia, independentemente do modelo que você escolher.
Realidade dos preços
É aqui que o aberto e o fechado divergem mais. O M3 possui planos de tokens a US$ 20 (Plus), US$ 50 (Max) e US$ 120 (Ultra), além de uma API com uma taxa padrão para entradas de até 512 mil tokens e uma taxa de contexto longo acima disso, em níveis padrão e prioritário. A MiniMax ainda não publicou um preço exato por token, então trate os níveis de plano como o sinal concreto por enquanto.
O Opus 4.7 e o GPT-5.5 cobram por token, e você deve obter os números atuais diretamente da fonte: página de preços da Anthropic e página de preços da OpenAI. Os preços mudam, e codificá-los aqui apenas o enganaria mais tarde.
O trade-off estrutural é o ponto durável. Com os pesos abertos do M3, você pode hospedar-se e transformar o custo da API em custo de infraestrutura, o que compensa em alto volume se você tiver capacidade operacional. Com o Opus 4.7 e o GPT-5.5, você aluga inferência a uma taxa por token conhecida e pula a infraestrutura por completo. Essa pressão de preços de pesos abertos faz parte de uma mudança maior; a guerra de preços de LLMs chineses de 2026 mostra como lançamentos abertos agressivos estão arrastando os custos de fronteira para baixo em toda a linha.
Qual você deve escolher
Combine o modelo com sua restrição, não com o placar.
| Sua situação | Escolha | Por que |
|---|---|---|
| Sensível ao custo ou precisa de auto-hospedagem | MiniMax M3 | Pesos abertos, planos baratos, controle total de preço e implantação |
| Máxima confiabilidade e ecossistema maduro | Claude Opus 4.7 | Ferramentas comprovadas, lidera o PostTrainBench, suporte de integração profundo |
| Já padronizado no OpenAI | GPT-5.5 | Permanece dentro da sua pilha, ferramentas e faturamento existentes |
| Execuções agenticas longas com orçamento limitado | MiniMax M3 | Contexto de 1M mais eficiência MSA reduz o custo de longo prazo |
| Residência de dados ou necessidades de "air-gapped" | MiniMax M3 | Única opção que você pode executar em seu próprio hardware |
Se você é avesso a riscos e está lançando em produção hoje, a ressalva do fornecedor importa, e o histórico do Opus 4.7 tem peso. Se você é guiado por custos, construindo em volume ou precisa de controle sobre onde o modelo é executado, os pesos abertos do M3 são difíceis de ignorar assim que forem lançados. Não há um único vencedor aqui, apenas o ajuste certo para suas restrições.
Como fazer o benchmark você mesmo
Os números do fornecedor mostram o que é possível. Seus próprios prompts dizem o que é verdadeiro para sua carga de trabalho. A maneira mais rápida de resolver isso é executar prompts idênticos contra todas as três APIs de modelos e comparar a saída real, latência e uso de tokens lado a lado.
Você pode configurar isso em um único projeto do Apidog. Crie uma solicitação para o endpoint de chat de cada provedor, insira o mesmo prompt e parâmetros, salve-os como um cenário de teste e execute o lote. O Apidog mostra o tempo de resposta e a saída completa por solicitação, para que você compare M3, Opus 4.7 e GPT-5.5 na mesma tarefa em uma única janela, em vez de alternar entre três playgrounds. Adicione algumas asserções e você pode até verificar se cada modelo retorna JSON válido ou atinge uma estrutura que seu aplicativo espera. Baixe o Apidog para acompanhar e use variáveis de ambiente para trocar chaves de API de forma limpa entre os três.
Quando estiver pronto para conectar o M3 especificamente, nosso guia sobre como usar a API MiniMax M3 explica a autenticação e a forma da solicitação. A partir daí, executar a mesma suíte contra o Opus 4.7 e o GPT-5.5 no Apidog é uma questão de copiar e colar.
FAQ
O MiniMax M3 é realmente melhor que o GPT-5.5? No SWE-Bench Pro, o MiniMax reporta o M3 com 59,0%, acima do GPT-5.5. No PostTrainBench, o GPT-5.5 lidera com 0,39 contra 0,37 do M3. Portanto, depende da tarefa, e esses são números relatados pelo fornecedor aguardando confirmação independente. O M3 não está uniformemente à frente.
O MiniMax M3 é de código aberto? O M3 possui pesos abertos, com pesos e um relatório técnico previstos para serem lançados em cerca de dez dias após o anúncio. Você poderá baixar e executar o modelo. A MiniMax não divulgou a contagem de parâmetros, e peso aberto nem sempre é o mesmo que uma licença de código totalmente aberto, então leia os termos de lançamento quando eles forem disponibilizados.
O M3 pode substituir o Opus 4.7 para codificação agentica? Possivelmente, para configurações sensíveis ao custo ou auto-hospedadas. O M3 apresenta números agenticos fortes (66,0% no Terminal-Bench 2.1, 74,2% no MCP Atlas) e demonstrações de longo prazo. Mas o Opus 4.7 lidera o PostTrainBench e tem um histórico de produção mais comprovado. Teste ambos em seus próprios fluxos de trabalho, idealmente com uma estrutura sólida, antes de mudar.
Esses números de benchmark são independentes? Na maioria das vezes, não. Os números aqui são, em grande parte, os próprios resultados relatados pela MiniMax. Tabelas de classificação públicas como o SWE-Bench permitirão que você verifique a principal reivindicação de codificação assim que terceiros executarem o M3. Até então, trate a comparação como direcional.
Qual é o problema com a janela de contexto de 1M tokens do M3? A janela é real, e a arquitetura MSA é construída para tornar o preenchimento dela mais barato, com preenchimento mais de 9x mais rápido e decodificação mais de 15x mais rápida. Mas um contexto longo ainda custa computação em cada etapa do agente em qualquer modelo, então a disciplina de prompt ainda importa.
Como comparo os três sem me comprometer com um? Execute os mesmos prompts contra cada API e meça a saída, latência e custo. Um único projeto Apidog com uma solicitação por provedor oferece uma visão lado a lado sem a necessidade de escrever scripts descartáveis.
A conclusão
O MiniMax M3 é o desafio de peso aberto mais sério para a fronteira que vimos, e sua afirmação no SWE-Bench Pro redefiniria as expectativas se os placares independentes a confirmassem. Mas os dados são, em sua maioria, da própria MiniMax, e o PostTrainBench mostra Opus 4.7 e GPT-5.5 ainda à frente. Escolha o M3 se o custo, a auto-hospedagem ou o controle forem o motor da sua decisão. Escolha o Opus 4.7 para confiabilidade comprovada, ou o GPT-5.5 se você vive na pilha OpenAI. Então execute os três contra seus próprios prompts antes de se comprometer, porque sua carga de trabalho é o único benchmark que importa.
