TL;DR
MiniMax M2.5 é um modelo de IA de fronteira lançado em 12 de fevereiro de 2026, alcançando desempenho de ponta em codificação (80.2% no SWE-Bench Verified), uso de ferramentas agênticas e tarefas de produtividade de escritório. Custando apenas $0.30 por hora com uma taxa de transferência de 50 tokens/segundo, ele tem um preço de um décimo a um vigésimo do preço de concorrentes como Claude Opus 4.6 e GPT-5, tornando-o o primeiro modelo de fronteira de "inteligência barata demais para ser medida". O modelo completa tarefas complexas de codificação 37% mais rápido que seu predecessor, igualando a velocidade do Claude Opus 4.6 enquanto custa 90% menos por tarefa.
Introdução
A MiniMax acaba de apresentar o M2.5, um modelo de fronteira que desafia tudo o que pensávamos saber sobre a relação custo-desempenho em grandes modelos de linguagem. O anúncio oficial fornece detalhes técnicos completos. Com uma pontuação de 80.2% no SWE-Bench Verified – o padrão ouro para capacidade de codificação – o M2.5 não é apenas competitivo com modelos de alto nível como Claude Opus 4.6 e GPT-5. Em muitas métricas, ele os supera.
Mas aqui está o que torna este anúncio verdadeiramente disruptivo: o preço. A $0.30 por hora para rodar continuamente a 50 tokens por segundo, ou apenas $1 por hora a 100 tokens por segundo, a MiniMax afirma que o M2.5 oferece "inteligência barata demais para ser medida". Para desenvolvedores e empresas, a barreira para implantar agentes de IA sofisticados simplesmente desabou.
O que é o MiniMax M2.5?
O MiniMax M2.5 é o mais recente modelo carro-chefe da empresa chinesa de IA MiniMax, representando a terceira iteração da série M2 da empresa lançada em apenas três meses e meio (M2 no final de outubro, M2.1 no final de 2025 e M2.5 em fevereiro de 2026).

O que diferencia o M2.5 é o seu foco na produtividade no mundo real em vez de apenas no desempenho de benchmarks. Treinado extensivamente com aprendizado por reforço em centenas de milhares de ambientes complexos do mundo real, o M2.5 é projetado para lidar com tarefas economicamente valiosas que desenvolvedores e trabalhadores do conhecimento enfrentam diariamente.

O modelo vem em duas variantes:
- M2.5: Taxa de transferência de 50 tokens por segundo, metade do custo do Lightning
- M2.5-Lightning: 100 tokens por segundo, otimizado para velocidade
Ambas as versões suportam cache de contexto e são funcionalmente idênticas em capacidade, diferindo apenas em velocidade e preço.
Principais Especificações em Resumo
| Especificação | Valor |
|---|---|
| Data de Lançamento | 12 de fevereiro de 2026 |
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
| Taxa de Transferência (Padrão) | 50 TPS |
| Taxa de Transferência (Lightning) | 100 TPS |
| Preço de Entrada | $0.30 por milhão de tokens |
| Preço de Saída | $2.40 por milhão de tokens |
Capacidades de Codificação
Se há uma área onde o MiniMax M2.5 mostra seus músculos de forma mais dramática, é na codificação. O modelo alcança 80.2% no SWE-Bench Verified – um benchmark que testa a capacidade de resolver problemas reais do GitHub – uma figura que o coloca firmemente no território de ponta.

Mas os resultados brutos dos benchmarks não contam a história completa. O que torna o M2.5 particularmente interessante para desenvolvedores é a sua capacidade de pensamento arquitetônico. Durante o treinamento, o modelo desenvolveu o que a MiniMax descreve como uma "tendência de escrita de especificações" – antes de escrever qualquer código, o M2.5 decompõe e planeja ativamente funcionalidades, estrutura e design de UI da perspectiva de um arquiteto de software experiente.
Excelência em Programação Multilíngue
O M2.5 foi treinado em mais de 10 linguagens de programação em mais de 200.000 ambientes do mundo real:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart e Ruby
Isso não é apenas sobre correção de bugs. O modelo lida com todo o ciclo de vida de desenvolvimento:
- 0-para-1: Design do sistema e configuração do ambiente
- 1-para-10: Desenvolvimento do sistema
- 10-para-90: Iteração de funcionalidades
- 90-para-100: Revisão abrangente de código e testes de sistema
Desenvolvimento Full-Stack Multiplataforma
Ao contrário de muitos assistentes de codificação que se concentram principalmente em demonstrações de frontend, o M2.5 aborda projetos full-stack em várias plataformas: Web, Android, iOS e Windows. Ele lida com APIs de servidor, lógica de negócios, bancos de dados e arquitetura de sistema complexa – não apenas componentes de página da web.
Desempenho de Benchmark Contra a Concorrência
A MiniMax testou o M2.5 em diferentes estruturas de agentes de codificação para avaliar a generalização em ambientes fora da distribuição:
| Estrutura | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79.7% | 78.9% |
| OpenCode | 76.1% | 75.9% |
O M2.5 supera o Claude Opus 4.6 em ambas as estruturas de agente populares, sugerindo fortes capacidades de generalização.
Ao construir aplicações alimentadas por IA com o M2.5, você precisará testar as APIs que conectam seu aplicativo ao modelo. O Apidog permite que você crie cenários de teste que validam o tratamento de requisições/respostas, fluxos de autenticação e tratamento de erros – essenciais para aplicações de IA em produção.
Uso de Ferramentas Agênticas e Busca
A IA moderna não é apenas sobre responder a perguntas – é sobre agir. O M2.5 demonstra fortes capacidades agênticas, particularmente na chamada de ferramentas e busca autônoma.
BrowseComp e Busca Ampla
Em benchmarks como BrowseComp e Busca Ampla, o M2.5 alcança desempenho líder da indústria. Mas, mais importante, a MiniMax construiu o **RISE (Avaliação de Busca Interativa Realista)** para testar tarefas de busca profissional do mundo real – o tipo que exige exploração profunda em páginas da web densas em informações, não apenas consultas de busca simples.
Tomada de Decisão Eficiente
Talvez o aspecto mais impressionante das capacidades agênticas do M2.5 seja sua eficiência. Em várias tarefas agênticas, incluindo BrowseComp, Busca Ampla e RISE, o M2.5 alcançou **melhores resultados com aproximadamente 20% menos rodadas de raciocínio** em comparação com o M2.1. Isso indica que o modelo não apenas obtém a resposta certa – ele encontra caminhos eficientes para chegar lá.
Isso tem implicações práticas: menos chamadas de API, custos mais baixos e conclusão mais rápida de tarefas ao implantar o M2.5 como um agente autônomo.
Recursos de Produtividade de Escritório
A codificação não é a única área onde o M2.5 se destaca. A MiniMax projetou especificamente o modelo para a **produtividade de escritório no mundo real**, colaborando com profissionais seniores em finanças, direito e ciências sociais para treinar o modelo em resultados genuinamente entregáveis.
Domínio de Word, PowerPoint e Excel
O M2.5 demonstra melhorias significativas de capacidade em cenários de trabalho de alto valor:
- Word: Criação de documentos, formatação e redação profissional
- PowerPoint: Design de apresentações e geração de slides
- Excel: Modelagem financeira e operações complexas de planilha
A MiniMax construiu uma estrutura de avaliação interna chamada **GDPval-MM** que avalia tanto a qualidade da saída quanto o profissionalismo de toda a trajetória do fluxo de trabalho do agente. Em comparações diretas com outros modelos convencionais, o M2.5 alcançou uma **taxa média de vitória de 59.0%**.
Especialização em Modelagem Financeira
O modelo foi especificamente treinado em problemas de modelagem financeira construídos por especialistas da indústria. Isso envolve tarefas de pesquisa e análise de ponta a ponta realizadas através de ferramentas Excel, pontuadas usando rubricas projetadas por especialistas. Para profissionais de finanças, isso poderia representar um salto significativo de produtividade.
Desempenho e Velocidade
A velocidade é importante em implantações no mundo real. Um modelo que é mais inteligente, mas mais lento, geralmente proporciona uma experiência de usuário pior do que uma alternativa ligeiramente menos capaz, mas mais rápida.
Velocidade de Geração de Tokens
O M2.5 é fornecido nativamente a **100 tokens por segundo** para a variante Lightning – quase **duas vezes mais rápido** que outros modelos de fronteira. Essa vantagem de taxa de transferência nativa se multiplica significativamente ao lidar com tarefas agênticas de longa duração.
Comparação de Tempo de Execução do SWE-Bench
| Métrica | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| Tokens médios/tarefa | 3.72M | 3.52M | - |
| Tempo médio de execução | 31.3 min | 22.8 min | 22.9 min |
| Melhoria de velocidade | - | -37% | - |

O M2.5 completa a avaliação SWE-Bench Verified **37% mais rápido que o M2.1**, igualando o tempo de execução do Claude Opus 4.6 enquanto usa apenas 3.52 milhões de tokens por tarefa (em comparação com 3.72M do M2.1).
Preços e Eficiência de Custo
É aqui que o M2.5 se torna verdadeiramente disruptivo. A MiniMax posicionou o modelo como a primeira IA de fronteira onde os usuários "não precisam se preocupar com o custo".
Estrutura de Preços
| Modelo | Taxa de Transferência | Preço de Entrada | Preço de Saída |
|---|---|---|---|
| M2.5 | 50 TPS | $0.30/milhão de tokens | $2.40/milhão de tokens |
| M2.5-Lightning | 100 TPS | $0.60/milhão de tokens | $4.80/milhão de tokens |
Comparações de Custo
Com taxa de transferência de saída total:
- $1 por hora a 100 TPS (Lightning)
- $0.30 por hora a 50 TPS (padrão)
Isso se traduz em aproximadamente **um décimo a um vigésimo do custo** de Opus, Gemini 3 Pro e GPT-5 com base nos preços de saída.
Exemplo de Custo no Mundo Real
Rodar o M2.5 continuamente por uma hora custa apenas $1 na velocidade máxima. A 50 TPS, esse valor cai para $0.30. Para contextualizar, você poderia rodar **quatro instâncias do M2.5 continuamente por um ano inteiro por $10.000**.
Para empresas que implantam agentes de IA em escala, este preço muda fundamentalmente a economia. Tarefas que eram proibitivamente caras tornam-se viáveis. Projetos experimentais que teriam esgotado as restrições orçamentárias tornam-se explorações acessíveis.
Arquitetura Técnica
Aprendizado por Reforço em Escala
Um fator chave das capacidades do M2.5 é a escala do aprendizado por reforço. A MiniMax converteu a maioria das tarefas e ambientes de trabalho da empresa em ambientes de treinamento – centenas de milhares de cenários do mundo real onde o modelo aprende por tentativa e erro.
Forge: Estrutura de RL Nativa para Agentes
A MiniMax desenvolveu o **Forge**, uma estrutura de RL nativa para agentes interna que introduz uma camada intermediária que desacopla totalmente o motor subjacente de treinamento-inferência do agente. Isso suporta a integração de agentes arbitrários e permite a otimização em diferentes estruturas e ferramentas de agente.

As principais otimizações incluem:
- Estratégias de agendamento assíncrono que equilibram a taxa de transferência com a não-politicidade da amostra
- Estratégia de fusão com estrutura de árvore para amostras de treinamento
- Aproximadamente **40x de aceleração no treinamento** alcançada
Algoritmo CISPO
Para estabilidade algorítmica durante o treinamento em larga escala de MoE (Mistura de Especialistas), o M2.5 continua usando o **algoritmo CISPO** que a MiniMax propôs no início de 2025. Para abordar os desafios de atribuição de crédito em contextos longos, eles introduziram um **mecanismo de recompensa de processo** para monitoramento de ponta a ponta da qualidade da geração.
Escala do Ambiente de Treinamento
Pelos números:
- Centenas de milhares de ambientes de treinamento do mundo real
- Mais de 10 linguagens de programação
- Mais de 200.000 ambientes de código
- Tarefas abrangendo desenvolvimento web, Android, iOS e Windows
Integração com Agente MiniMax
O M2.5 não é apenas uma API – ele já está impulsionando os próprios produtos da MiniMax.
Integração de Habilidades de Escritório
A MiniMax destilou capacidades centrais de processamento de informações em **Habilidades de Escritório padronizadas** profundamente integradas ao Agente MiniMax. No modo MAX, ao lidar com formatação de Word, edição de PowerPoint e cálculos de Excel, o Agente carrega automaticamente as Habilidades de Escritório correspondentes com base no tipo de arquivo.
Criação de Especialistas
Os usuários podem combinar Habilidades de Escritório com expertise da indústria específica do domínio para criar **Especialistas** reutilizáveis para cenários de tarefas específicos. Por exemplo:
- Pesquisa de mercado: Funda um SOP de estrutura de pesquisa com Habilidades de Word para buscar dados automaticamente, organizar a lógica e gerar relatórios formatados
- Modelagem financeira: Combine padrões de modelagem proprietários com Habilidades de Excel para seguir lógicas de controle de risco e padrões de cálculo específicos
Métricas de Adoção
- Mais de 10.000 Especialistas criados no Agente MiniMax
- 30% das tarefas gerais da MiniMax concluídas autonomamente pelo M2.5
- 80% do código recém-comprometido na MiniMax é gerado pelo M2.5
Isso não é capacidade teórica – é tecnologia testada em produção.
Como o M2.5 se Compara aos Concorrentes
vs Claude Opus 4.6
| Métrica | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80.2% | ~77% |
| Estrutura Droid | 79.7% | 78.9% |
| Estrutura OpenCode | 76.1% | 75.9% |
| Tempo de Execução no SWE-Bench | 22.8 min | 22.9 min |
| Custo/tarefa | ~$1.50 | ~$15+ |
O M2.5 iguala ou supera o Opus 4.6 em benchmarks de codificação, enquanto custa aproximadamente 10% por tarefa.
vs GPT-5
- Custo significativamente menor (1/10 a 1/20 do preço)
- Benchmarks de codificação competitivos
- Recursos nativos de produtividade de escritório
- Velocidade de inferência mais rápida (100 TPS vs 30-50 TPS típico)
vs Gemini 3 Pro
- Preços muito mais baixos
- Pontuações SWE-Bench mais altas
- Melhor integração de produtividade de escritório
- Abordagem de escalonamento de RL mais agressiva
Conclusão
O MiniMax M2.5 representa uma verdadeira mudança de paradigma no cenário da IA. Pela primeira vez, temos um modelo de fronteira que combina capacidade de ponta com um preço que permite a implantação ilimitada.
Os principais pontos a serem destacados:
- Desempenho de codificação de alto nível (80.2% SWE-Bench, superando o Opus 4.6 em múltiplas estruturas)
- Eficiência agêntica (20% menos rodadas de raciocínio, 37% mais rápido que o M2.1)
- Produtividade de escritório (59% de taxa de vitória contra concorrentes em tarefas de escritório do mundo real)
- Preços imbatíveis ($0.30-$1/hora, 1/10 a 1/20 dos concorrentes)
- Pronto para produção (já impulsionando os próprios produtos da MiniMax, gerando 80% do código da empresa)
A questão não é se vale a pena experimentar o M2.5 – é se você pode se dar ao luxo de não fazê-lo.
Pronto para construir e testar APIs alimentadas por IA? Baixe o Apidog gratuitamente e crie suítes de teste abrangentes para suas integrações MiniMax. Importe suas coleções Postman existentes com um clique e comece a testar em minutos.
FAQ
O que é o MiniMax M2.5?
MiniMax M2.5 é um modelo de IA de fronteira lançado em fevereiro de 2026 que alcança desempenho de ponta em codificação, tarefas agênticas e produtividade de escritório. Ele se destaca pela combinação de benchmarks de alto nível e preços extremamente baixos.
Como o MiniMax M2.5 se compara ao Claude Opus 4.6?
O M2.5 iguala ou supera o Claude Opus 4.6 na maioria dos benchmarks de codificação (80.2% vs ~77% no SWE-Bench Verified) enquanto custa aproximadamente 90% menos por tarefa. Ele iguala a velocidade de tempo de execução do Opus 4.6 (22.8 vs 22.9 minutos no SWE-Bench).
Qual é o preço do MiniMax M2.5?
O M2.5 custa $0.30 por milhão de tokens de entrada e $2.40 por milhão de tokens de saída (a 50 TPS). Com taxa de transferência total, rodar o M2.5 continuamente por uma hora custa apenas $0.30-$1.00, dependendo da variante.
Quais linguagens de programação o M2.5 suporta?
O M2.5 foi treinado em mais de 10 linguagens, incluindo Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart e Ruby em mais de 200.000 ambientes do mundo real.
O MiniMax M2.5 é bom para trabalho de escritório?
Sim. O M2.5 foi especificamente treinado para tarefas de produtividade de escritório, incluindo modelagem financeira em Word, PowerPoint e Excel. Ele alcançou uma taxa de vitória de 59% contra outros modelos convencionais em tarefas de escritório nas avaliações internas da MiniMax.
Posso usar o MiniMax M2.5 via API?
Sim. A MiniMax fornece acesso à API através de sua plataforma em minimax.io. A API suporta as variantes padrão M2.5 (50 TPS) e M2.5-Lightning (100 TPS).
O que torna o MiniMax M2.5 especial?
O M2.5 é o primeiro "modelo de fronteira" onde o custo é baixo o suficiente para que os usuários não precisem se preocupar com ele – a empresa afirma que é "inteligência barata demais para ser medida". Combinado com benchmarks de codificação de alto nível e capacidades agênticas, isso o torna viável para implantação de agentes em larga escala.
Qual a velocidade do MiniMax M2.5?
O M2.5-Lightning gera a 100 tokens por segundo – quase o dobro da velocidade de outros modelos de fronteira. Mesmo o M2.5 padrão opera a 50 TPS. Em tarefas SWE-Bench, ele completa as avaliações 37% mais rápido que o M2.1.
