MiniMax M2.5: O Que É?

Ashley Innocent

Ashley Innocent

3 março 2026

MiniMax M2.5: O Que É?

TL;DR

MiniMax M2.5 é um modelo de IA de fronteira lançado em 12 de fevereiro de 2026, alcançando desempenho de ponta em codificação (80.2% no SWE-Bench Verified), uso de ferramentas agênticas e tarefas de produtividade de escritório. Custando apenas $0.30 por hora com uma taxa de transferência de 50 tokens/segundo, ele tem um preço de um décimo a um vigésimo do preço de concorrentes como Claude Opus 4.6 e GPT-5, tornando-o o primeiro modelo de fronteira de "inteligência barata demais para ser medida". O modelo completa tarefas complexas de codificação 37% mais rápido que seu predecessor, igualando a velocidade do Claude Opus 4.6 enquanto custa 90% menos por tarefa.

Introdução

A MiniMax acaba de apresentar o M2.5, um modelo de fronteira que desafia tudo o que pensávamos saber sobre a relação custo-desempenho em grandes modelos de linguagem. O anúncio oficial fornece detalhes técnicos completos. Com uma pontuação de 80.2% no SWE-Bench Verified – o padrão ouro para capacidade de codificação – o M2.5 não é apenas competitivo com modelos de alto nível como Claude Opus 4.6 e GPT-5. Em muitas métricas, ele os supera.

Mas aqui está o que torna este anúncio verdadeiramente disruptivo: o preço. A $0.30 por hora para rodar continuamente a 50 tokens por segundo, ou apenas $1 por hora a 100 tokens por segundo, a MiniMax afirma que o M2.5 oferece "inteligência barata demais para ser medida". Para desenvolvedores e empresas, a barreira para implantar agentes de IA sofisticados simplesmente desabou.

💡
Ao construir aplicações que se integram com modelos de IA como o MiniMax M2.5, você precisará testar completamente suas integrações de API. O Apidog fornece uma plataforma completa de testes de API que suporta endpoints HTTP, WebSocket e GraphQL – perfeito para validar aplicações alimentadas por IA.

O que é o MiniMax M2.5?

O MiniMax M2.5 é o mais recente modelo carro-chefe da empresa chinesa de IA MiniMax, representando a terceira iteração da série M2 da empresa lançada em apenas três meses e meio (M2 no final de outubro, M2.1 no final de 2025 e M2.5 em fevereiro de 2026).

Diagrama mostrando a arquitetura e as capacidades do MiniMax M2.5.

O que diferencia o M2.5 é o seu foco na produtividade no mundo real em vez de apenas no desempenho de benchmarks. Treinado extensivamente com aprendizado por reforço em centenas de milhares de ambientes complexos do mundo real, o M2.5 é projetado para lidar com tarefas economicamente valiosas que desenvolvedores e trabalhadores do conhecimento enfrentam diariamente.

Gráfico mostrando o desempenho do M2.5 em diferentes benchmarks.

O modelo vem em duas variantes:

Ambas as versões suportam cache de contexto e são funcionalmente idênticas em capacidade, diferindo apenas em velocidade e preço.

Principais Especificações em Resumo

Especificação Valor
Data de Lançamento 12 de fevereiro de 2026
SWE-Bench Verified 80.2%
Multi-SWE-Bench 51.3%
BrowseComp 76.3%
Taxa de Transferência (Padrão) 50 TPS
Taxa de Transferência (Lightning) 100 TPS
Preço de Entrada $0.30 por milhão de tokens
Preço de Saída $2.40 por milhão de tokens

Capacidades de Codificação

Se há uma área onde o MiniMax M2.5 mostra seus músculos de forma mais dramática, é na codificação. O modelo alcança 80.2% no SWE-Bench Verified – um benchmark que testa a capacidade de resolver problemas reais do GitHub – uma figura que o coloca firmemente no território de ponta.

Gráfico de barras comparando o desempenho do SWE-Bench do M2.5 com outros modelos.

Mas os resultados brutos dos benchmarks não contam a história completa. O que torna o M2.5 particularmente interessante para desenvolvedores é a sua capacidade de pensamento arquitetônico. Durante o treinamento, o modelo desenvolveu o que a MiniMax descreve como uma "tendência de escrita de especificações" – antes de escrever qualquer código, o M2.5 decompõe e planeja ativamente funcionalidades, estrutura e design de UI da perspectiva de um arquiteto de software experiente.

Excelência em Programação Multilíngue

O M2.5 foi treinado em mais de 10 linguagens de programação em mais de 200.000 ambientes do mundo real:

Isso não é apenas sobre correção de bugs. O modelo lida com todo o ciclo de vida de desenvolvimento:

Desenvolvimento Full-Stack Multiplataforma

Ao contrário de muitos assistentes de codificação que se concentram principalmente em demonstrações de frontend, o M2.5 aborda projetos full-stack em várias plataformas: Web, Android, iOS e Windows. Ele lida com APIs de servidor, lógica de negócios, bancos de dados e arquitetura de sistema complexa – não apenas componentes de página da web.

Desempenho de Benchmark Contra a Concorrência

A MiniMax testou o M2.5 em diferentes estruturas de agentes de codificação para avaliar a generalização em ambientes fora da distribuição:

Estrutura M2.5 Opus 4.6
Droid 79.7% 78.9%
OpenCode 76.1% 75.9%

O M2.5 supera o Claude Opus 4.6 em ambas as estruturas de agente populares, sugerindo fortes capacidades de generalização.

Ao construir aplicações alimentadas por IA com o M2.5, você precisará testar as APIs que conectam seu aplicativo ao modelo. O Apidog permite que você crie cenários de teste que validam o tratamento de requisições/respostas, fluxos de autenticação e tratamento de erros – essenciais para aplicações de IA em produção.

Uso de Ferramentas Agênticas e Busca

A IA moderna não é apenas sobre responder a perguntas – é sobre agir. O M2.5 demonstra fortes capacidades agênticas, particularmente na chamada de ferramentas e busca autônoma.

BrowseComp e Busca Ampla

Em benchmarks como BrowseComp e Busca Ampla, o M2.5 alcança desempenho líder da indústria. Mas, mais importante, a MiniMax construiu o **RISE (Avaliação de Busca Interativa Realista)** para testar tarefas de busca profissional do mundo real – o tipo que exige exploração profunda em páginas da web densas em informações, não apenas consultas de busca simples.

Tomada de Decisão Eficiente

Talvez o aspecto mais impressionante das capacidades agênticas do M2.5 seja sua eficiência. Em várias tarefas agênticas, incluindo BrowseComp, Busca Ampla e RISE, o M2.5 alcançou **melhores resultados com aproximadamente 20% menos rodadas de raciocínio** em comparação com o M2.1. Isso indica que o modelo não apenas obtém a resposta certa – ele encontra caminhos eficientes para chegar lá.

Isso tem implicações práticas: menos chamadas de API, custos mais baixos e conclusão mais rápida de tarefas ao implantar o M2.5 como um agente autônomo.

Recursos de Produtividade de Escritório

A codificação não é a única área onde o M2.5 se destaca. A MiniMax projetou especificamente o modelo para a **produtividade de escritório no mundo real**, colaborando com profissionais seniores em finanças, direito e ciências sociais para treinar o modelo em resultados genuinamente entregáveis.

Domínio de Word, PowerPoint e Excel

O M2.5 demonstra melhorias significativas de capacidade em cenários de trabalho de alto valor:

A MiniMax construiu uma estrutura de avaliação interna chamada **GDPval-MM** que avalia tanto a qualidade da saída quanto o profissionalismo de toda a trajetória do fluxo de trabalho do agente. Em comparações diretas com outros modelos convencionais, o M2.5 alcançou uma **taxa média de vitória de 59.0%**.

Especialização em Modelagem Financeira

O modelo foi especificamente treinado em problemas de modelagem financeira construídos por especialistas da indústria. Isso envolve tarefas de pesquisa e análise de ponta a ponta realizadas através de ferramentas Excel, pontuadas usando rubricas projetadas por especialistas. Para profissionais de finanças, isso poderia representar um salto significativo de produtividade.

Desempenho e Velocidade

A velocidade é importante em implantações no mundo real. Um modelo que é mais inteligente, mas mais lento, geralmente proporciona uma experiência de usuário pior do que uma alternativa ligeiramente menos capaz, mas mais rápida.

Velocidade de Geração de Tokens

O M2.5 é fornecido nativamente a **100 tokens por segundo** para a variante Lightning – quase **duas vezes mais rápido** que outros modelos de fronteira. Essa vantagem de taxa de transferência nativa se multiplica significativamente ao lidar com tarefas agênticas de longa duração.

Comparação de Tempo de Execução do SWE-Bench

Métrica M2.1 M2.5 Opus 4.6
Tokens médios/tarefa 3.72M 3.52M -
Tempo médio de execução 31.3 min 22.8 min 22.9 min
Melhoria de velocidade - -37% -
Gráfico mostrando a comparação de tempo de execução do M2.1, M2.5 e Opus 4.6 no SWE-Bench.

O M2.5 completa a avaliação SWE-Bench Verified **37% mais rápido que o M2.1**, igualando o tempo de execução do Claude Opus 4.6 enquanto usa apenas 3.52 milhões de tokens por tarefa (em comparação com 3.72M do M2.1).

Preços e Eficiência de Custo

É aqui que o M2.5 se torna verdadeiramente disruptivo. A MiniMax posicionou o modelo como a primeira IA de fronteira onde os usuários "não precisam se preocupar com o custo".

Estrutura de Preços

Modelo Taxa de Transferência Preço de Entrada Preço de Saída
M2.5 50 TPS $0.30/milhão de tokens $2.40/milhão de tokens
M2.5-Lightning 100 TPS $0.60/milhão de tokens $4.80/milhão de tokens

Comparações de Custo

Com taxa de transferência de saída total:

Isso se traduz em aproximadamente **um décimo a um vigésimo do custo** de Opus, Gemini 3 Pro e GPT-5 com base nos preços de saída.

Exemplo de Custo no Mundo Real

Rodar o M2.5 continuamente por uma hora custa apenas $1 na velocidade máxima. A 50 TPS, esse valor cai para $0.30. Para contextualizar, você poderia rodar **quatro instâncias do M2.5 continuamente por um ano inteiro por $10.000**.

Para empresas que implantam agentes de IA em escala, este preço muda fundamentalmente a economia. Tarefas que eram proibitivamente caras tornam-se viáveis. Projetos experimentais que teriam esgotado as restrições orçamentárias tornam-se explorações acessíveis.

Arquitetura Técnica

Aprendizado por Reforço em Escala

Um fator chave das capacidades do M2.5 é a escala do aprendizado por reforço. A MiniMax converteu a maioria das tarefas e ambientes de trabalho da empresa em ambientes de treinamento – centenas de milhares de cenários do mundo real onde o modelo aprende por tentativa e erro.

Forge: Estrutura de RL Nativa para Agentes

A MiniMax desenvolveu o **Forge**, uma estrutura de RL nativa para agentes interna que introduz uma camada intermediária que desacopla totalmente o motor subjacente de treinamento-inferência do agente. Isso suporta a integração de agentes arbitrários e permite a otimização em diferentes estruturas e ferramentas de agente.

Diagrama ilustrando a estrutura de RL nativa para agentes Forge.

As principais otimizações incluem:

Algoritmo CISPO

Para estabilidade algorítmica durante o treinamento em larga escala de MoE (Mistura de Especialistas), o M2.5 continua usando o **algoritmo CISPO** que a MiniMax propôs no início de 2025. Para abordar os desafios de atribuição de crédito em contextos longos, eles introduziram um **mecanismo de recompensa de processo** para monitoramento de ponta a ponta da qualidade da geração.

Escala do Ambiente de Treinamento

Pelos números:

Integração com Agente MiniMax

O M2.5 não é apenas uma API – ele já está impulsionando os próprios produtos da MiniMax.

Integração de Habilidades de Escritório

A MiniMax destilou capacidades centrais de processamento de informações em **Habilidades de Escritório padronizadas** profundamente integradas ao Agente MiniMax. No modo MAX, ao lidar com formatação de Word, edição de PowerPoint e cálculos de Excel, o Agente carrega automaticamente as Habilidades de Escritório correspondentes com base no tipo de arquivo.

Criação de Especialistas

Os usuários podem combinar Habilidades de Escritório com expertise da indústria específica do domínio para criar **Especialistas** reutilizáveis para cenários de tarefas específicos. Por exemplo:

Métricas de Adoção

Isso não é capacidade teórica – é tecnologia testada em produção.

Como o M2.5 se Compara aos Concorrentes

vs Claude Opus 4.6

Métrica M2.5 Opus 4.6
SWE-Bench Verified 80.2% ~77%
Estrutura Droid 79.7% 78.9%
Estrutura OpenCode 76.1% 75.9%
Tempo de Execução no SWE-Bench 22.8 min 22.9 min
Custo/tarefa ~$1.50 ~$15+

O M2.5 iguala ou supera o Opus 4.6 em benchmarks de codificação, enquanto custa aproximadamente 10% por tarefa.

vs GPT-5

vs Gemini 3 Pro

Conclusão

O MiniMax M2.5 representa uma verdadeira mudança de paradigma no cenário da IA. Pela primeira vez, temos um modelo de fronteira que combina capacidade de ponta com um preço que permite a implantação ilimitada.

Os principais pontos a serem destacados:

A questão não é se vale a pena experimentar o M2.5 – é se você pode se dar ao luxo de não fazê-lo.

Pronto para construir e testar APIs alimentadas por IA? Baixe o Apidog gratuitamente e crie suítes de teste abrangentes para suas integrações MiniMax. Importe suas coleções Postman existentes com um clique e comece a testar em minutos.
botão

FAQ

O que é o MiniMax M2.5?

MiniMax M2.5 é um modelo de IA de fronteira lançado em fevereiro de 2026 que alcança desempenho de ponta em codificação, tarefas agênticas e produtividade de escritório. Ele se destaca pela combinação de benchmarks de alto nível e preços extremamente baixos.

Como o MiniMax M2.5 se compara ao Claude Opus 4.6?

O M2.5 iguala ou supera o Claude Opus 4.6 na maioria dos benchmarks de codificação (80.2% vs ~77% no SWE-Bench Verified) enquanto custa aproximadamente 90% menos por tarefa. Ele iguala a velocidade de tempo de execução do Opus 4.6 (22.8 vs 22.9 minutos no SWE-Bench).

Qual é o preço do MiniMax M2.5?

O M2.5 custa $0.30 por milhão de tokens de entrada e $2.40 por milhão de tokens de saída (a 50 TPS). Com taxa de transferência total, rodar o M2.5 continuamente por uma hora custa apenas $0.30-$1.00, dependendo da variante.

Quais linguagens de programação o M2.5 suporta?

O M2.5 foi treinado em mais de 10 linguagens, incluindo Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart e Ruby em mais de 200.000 ambientes do mundo real.

O MiniMax M2.5 é bom para trabalho de escritório?

Sim. O M2.5 foi especificamente treinado para tarefas de produtividade de escritório, incluindo modelagem financeira em Word, PowerPoint e Excel. Ele alcançou uma taxa de vitória de 59% contra outros modelos convencionais em tarefas de escritório nas avaliações internas da MiniMax.

Posso usar o MiniMax M2.5 via API?

Sim. A MiniMax fornece acesso à API através de sua plataforma em minimax.io. A API suporta as variantes padrão M2.5 (50 TPS) e M2.5-Lightning (100 TPS).

O que torna o MiniMax M2.5 especial?

O M2.5 é o primeiro "modelo de fronteira" onde o custo é baixo o suficiente para que os usuários não precisem se preocupar com ele – a empresa afirma que é "inteligência barata demais para ser medida". Combinado com benchmarks de codificação de alto nível e capacidades agênticas, isso o torna viável para implantação de agentes em larga escala.

Qual a velocidade do MiniMax M2.5?

O M2.5-Lightning gera a 100 tokens por segundo – quase o dobro da velocidade de outros modelos de fronteira. Mesmo o M2.5 padrão opera a 50 TPS. Em tarefas SWE-Bench, ele completa as avaliações 37% mais rápido que o M2.1.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs