O preço da API Xiaomi MiMo V2.5 caiu para um valor fixo de US$ 1 por milhão de tokens de entrada e US$ 3 por milhão de tokens de saída em 27 de maio de 2026, e a equipe tornou a nova tarifa permanente. A antiga camada de longo contexto, onde os prompts com mais de 256 mil tokens carregavam um multiplicador acentuado sobre a taxa base, foi eliminada. Um preço agora, independentemente do tamanho do contexto. Para a maioria das cargas de trabalho, a manchete é uma única frase: MiMo V2.5 é um dos três modelos de contexto de 1M mais baratos em produção, e assim permanecerá.
TL;DR
- Preços permanentes do Xiaomi MiMo V2.5 a partir de 27 de maio de 2026: US$ 1,00 de entrada, US$ 3,00 de saída, US$ 0,20 armazenado em cache por milhão de tokens, com uma janela de contexto de 1M de tokens.
- A afirmação de “até 99% de desconto” é real na camada de longo contexto. A tabela anterior escalava agressivamente acima de 256 mil tokens de entrada. A nova taxa fixa elimina o multiplicador.
- Clientes do Plano de Tokens obtiveram um aumento de cota de 5x a 8x e uma redefinição completa dos créditos utilizados dentro de sua janela de validade.
- O corte é permanente, não promocional. O aviso oficial da Xiaomi diz “renovar permanentemente todo o sistema de preços do modelo”.
- Contexto: A Xiaomi é o segundo laboratório chinês a fazer um corte permanente na camada de ponta esta semana. A DeepSeek tornou o V4-Pro permanente a 1/4 do preço de tabela três dias antes.
O que mudou em 27 de maio de 2026
O aviso oficial de atualização de preços da Xiaomi apresenta três mudanças. Todas as três entraram em vigor às 00:00, horário de Pequim, em 27 de maio, o que corresponde às 16:00 UTC de 26 de maio.

1. Preço fixo em todas as janelas de contexto. A tabela antiga do MiMo V2.5 usava taxas em camadas: um preço base para prompts de até 32 mil tokens de entrada, um multiplicador para a faixa de 32 mil a 256 mil, e uma taxa ainda mais alta acima de 256 mil. A nova tabela tem um único número por tipo de token. Aplicações de longo contexto deixam de pagar um imposto de longo contexto.
2. Permanente, não promocional. O aviso usa a frase “Redução Permanente de Preço” duas vezes e “renovar permanentemente todo o sistema de preços do modelo” uma vez. Sem data de expiração. Sem cláusula de reversão. Trate-o como o novo preço de tabela.
3. Recompensas do Plano de Tokens redefinidas. Se você está em um Plano de Tokens (sistema de cota pré-paga da Xiaomi), seu saldo de créditos foi aumentado de 5 a 8 vezes e todos os créditos que você já havia consumido dentro de sua janela de validade foram reembolsados. O período de validade em si não foi estendido, então os planos existentes tiveram um ganho orçamentário inesperado, mas não mais tempo.

A afirmação principal de “até 99% de desconto” aplica-se especificamente à faixa de longo contexto. O preço anterior para mais de 256 mil tokens de entrada era alto o suficiente para que nivelá-lo a US$ 1/M produzisse uma redução de mais de 90%. Para cargas de trabalho que se enquadravam na camada base, o corte é menor, mas ainda significativo.
A nova tabela de preços permanente
Preços por 1 milhão de tokens, em USD, com efeito imediato e permanente:
| Modelo | Entrada | Saída | Armazenado em Cache | Contexto |
|---|---|---|---|---|
| MiMo V2.5 Pro | US$ 1,00 | US$ 3,00 | US$ 0,20 | 1M tokens |
| MiMo V2 Flash | ~US$ 0,10 | ~US$ 0,40 | US$ 0,02 | 256K tokens |
Alguns detalhes que a tabela não torna óbvios:
- A taxa de cache (US$ 0,20/M para V2.5 Pro) é 5x a taxa de entrada. Essa é uma proporção pior do que o DeepSeek, que é de 120:1 (falha de entrada para acerto de entrada). O cache da Xiaomi ainda é útil para prompts de sistema repetidos, mas as economias são menores em termos absolutos.
- A janela de contexto de 1M é a parte que a maioria dos artigos subestima. A maioria dos modelos de ponta hospedados nos EUA limita-se a 200 mil a 400 mil. O MiMo V2.5 Pro aceita o documento completo.
- O aviso menciona, mas não detalha, as variantes V2.5 Omni e TTS. Verifique-as separadamente na plataforma.
Para os preços antigos do V2-Pro como ponto de referência, consulte nosso guia de preços MiMo V2-Pro & Omni existente.
O que o MiMo V2.5 oferece além de preços mais baixos
O anúncio de 27 de maio é um evento de preços, mas o V2.5 em si também é uma atualização significativa em relação ao V2-Pro lançado em abril. Três mudanças que valem a pena notar:
- Contexto prático mais longo. O V2.5 Pro mantém a janela teórica de 1M de tokens, mas a Xiaomi aprimorou a qualidade de recuperação na faixa de 200 mil a 800 mil onde a maioria dos modelos de longo contexto se degrada. A precisão tipo 'agulha no palheiro' se mantém acima de 95% até 800 mil tokens.
- Melhor conformidade com o formato de chamada de ferramenta. O V2-Pro tinha problemas conhecidos com chamadas de ferramenta paralelas retornando JSON malformado dentro de respostas transmitidas. O V2.5 reduz essas falhas, embora não as elimine por completo. Planeje a validação de esquema JSON de qualquer forma.
- Corpus de treinamento atualizado. O V2.5 foi treinado com dados até o primeiro trimestre de 2026. Citações e corte de conhecimento chegam aproximadamente três meses antes do V2-Pro.
Nenhuma dessas são benchmarks de destaque, mas são as mudanças que aparecem em implementações de produção reais. Combine os preços mais baixos com a janela de contexto confiável mais longa e você terá uma opção que não existia para trabalhos sérios com documentos longos antes de 27 de maio.
Como o MiMo V2.5 se compara com o restante do mercado
A comparação interessante não é o MiMo V2.5 com seu antigo "eu". É contra as outras opções de API de ponta disponíveis em maio de 2026:
| Modelo | Entrada (US$/MTok) | Saída (US$/MTok) | Contexto |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | US$ 1,00 | US$ 3,00 | 1M |
| DeepSeek V4-Pro | US$ 0,435 | US$ 0,87 | 128K |
| GPT-5.5 | US$ 5,00 | US$ 30,00 | 200K |
| Claude Opus 4.7 | US$ 3,00 | US$ 15,00 | 200K |
| Gemini 3.5 Flash | ~US$ 1,50 | ~US$ 9,00 | 1M |
Três pontos importantes:
- DeepSeek V4-Pro ainda é mais barato que MiMo V2.5 por token. Aproximadamente 2,3x mais barato na entrada e 3,5x mais barato na saída. Se o custo bruto por token é sua única métrica, DeepSeek ganha.
- MiMo V2.5 vence em cargas de trabalho de contexto de 1M. Gemini 3.5 Flash é a única outra opção de contexto de 1M na tabela, e é 1,5x mais caro na entrada e 3x mais caro na saída.
- MiMo V2.5 é 5x mais barato que GPT-5.5 na entrada e 10x mais barato na saída, com desempenho de benchmark comparável, segundo Artificial Analysis.
Para o lado DeepSeek desta comparação, consulte O Corte de Preço de 75% do DeepSeek V4-Pro Agora É Permanente. Os dois artigos são leituras complementares. Ambos cobrem os cortes permanentes na camada de ponta de laboratórios chineses desta semana.
Três cargas de trabalho, três novas contas
Três casos concretos usando as novas tarifas permanentes:
1. RAG de documentos longos em PDFs corporativos. 50.000 consultas/dia, contexto de 800 mil tokens por consulta, 1 mil tokens de respostas. Antiga camada de longo contexto do MiMo V2.5 (taxa efetiva estimada de US$ 50/M): cerca de US$ 60.000/mês. Nova taxa fixa: cerca de US$ 1.225/mês. Economia: US$ 58.775/mês.
2. Agente de revisão de código. 5.000 pull requests/dia, contexto de repositório de 30 mil tokens, 2 mil tokens de saída de comentário. Antiga conta mensal do GPT-5.5: cerca de US$ 5.250. Novo MiMo V2.5: cerca de US$ 510. Economia: US$ 4.740/mês.
3. Chatbot de suporte ao cliente. 200.000 interações/dia, prompt de sistema de 4 mil tokens, 300 tokens de respostas. Antiga conta mensal do Claude Opus 4.7: cerca de US$ 11.250. Novo MiMo V2.5: cerca de US$ 805. Economia: US$ 10.445/mês.
A carga de trabalho nº 1 é onde o MiMo V2.5 se destaca dos demais. Trabalhos de longo contexto eram proibitivamente caros em todas as APIs de ponta antes desse corte. Não são mais. Os mesmos documentos que antes eram enviados para sumarizadores e pipelines de segmentação agora podem ir para o modelo integralmente, sem malabarismos com o orçamento de tokens.
Uma breve nota sobre acertos de cache
A taxa de entrada em cache de US$ 0,20/M é 5x mais barata que a taxa de falha de cache de US$ 1,00. Esse é um desconto de cache menor que a proporção de 120:1 do DeepSeek, mas ainda é significativo para qualquer agente que reutiliza um prompt de sistema estável.
Um exemplo prático. Suponha que seu assistente use um prompt de sistema de 6.000 tokens e lide com 80.000 interações de chat por dia, com uma mensagem média do usuário de 250 tokens de entrada e uma resposta média de 600 tokens de saída:
- Sem acertos de cache: 80.000 interações × 6.250 tokens de entrada × US$ 1,00 / 1.000.000 = US$ 500 por dia apenas de entrada.
- Com 60% de acertos de cache no prefixo do prompt de sistema: 80.000 × (250 × US$ 1,00 + 6.000 × (0,6 × US$ 0,20 + 0,4 × US$ 1,00)) / 1.000.000 = cerca de US$ 271 por dia. Uma redução de 46%.
Isso não é os 88% que o cache do DeepSeek oferece, mas em uma carga de trabalho que chega a US$ 500/dia em entrada, metade do preço é dinheiro de verdade. Fixe o prompt de sistema, classifique o contexto recuperado de forma estável e não injete carimbos de data/hora por requisição no prefixo. As mesmas regras que geram acertos de cache em outros lugares também se aplicam aqui.
Quando o MiMo V2.5 é a escolha certa, e quando não é
O novo preço torna o MiMo V2.5 a escolha padrão para duas classes de cargas de trabalho e uma escolha inadequada para uma.
Escolha certa:
- RAG de documentos longos, agentes de base de código, refatorações em todo o repositório. Qualquer coisa que se encaixe naturalmente em um contexto de >200 mil tokens. O preço fixo mais a janela de 1M é incomparável na camada barata.
- Processamento de documentos de alto volume. O preço é previsível e a taxa em cache (US$ 0,20/M) permite processar lotes de prefixos idênticos de forma barata. Consulte Como o cache de prompts otimiza o desempenho de LLMs e reduz custos para a mecânica de cache entre provedores.
Escolha inadequada:
- Chat interativo crítico em termos de latência. O MiMo V2.5 Pro não é o modelo mais rápido para o primeiro token. Para preenchimento automático, autocompletar ou chat em submilisegundos, DeepSeek V4-Flash ou Gemini 3.5 Flash oferecem perfis de latência melhores a um custo similar.
Ressalvas:
- Residência de dados. As chamadas são roteadas pela infraestrutura da Xiaomi na China. É a mesma conversa de aquisição que com o DeepSeek.
- Confiabilidade. A API de primeira parte da Xiaomi tem um histórico operacional mais curto do que os modelos de ponta hospedados nos EUA. Para produção com SLA, roteie via OpenRouter ou outro agregador.
- Paridade de chamada de função. Compatível com OpenAI no nível do esquema, com casos de contorno em torno de argumentos de ferramentas transmitidos e chamadas de ferramentas paralelas. Teste antes de implantar.
Para o contexto de lançamento do V2-Pro que prepara o V2.5, consulte Xiaomi Acabou de Lançar Seu Próprio Modelo de IA, E É Grátis no OpenRouter. Para a entrada na camada gratuita, o programa de 100 mil tokens gratuitos Xiaomi MiMo Orbit aborda elegibilidade e inscrição.
Testando o MiMo V2.5 com Apidog
A compatibilidade da plataforma com OpenAI é boa, não perfeita. Verifique sua integração antes de liberar para o tráfego de produção.

O Apidog permite que você direcione uma requisição de Chat Completions para https://platform.xiaomimimo.com/v1 com sua chave de API do MiMo, e então:
- Registre respostas "golden" do V2.5 Pro e reproduza-as a cada alteração de prompt para que desvios sejam detectados antes que os usuários percebam.
- Valide os formatos de
tool_callscom asserções de Schema JSON. Argumentos de função transmitidos são onde as falhas de compatibilidade com OpenAI tendem a aparecer. - Execute comparações lado a lado com seu modelo atual (GPT-5.5, Claude, DeepSeek V4-Pro) com o mesmo lote de entrada usando os cenários de teste do Apidog.
Baixe o Apidog, importe o esquema de Chat Completion do OpenAI, altere a URL base e você terá um ambiente de teste V2.5 funcionando em menos de dez minutos. O mesmo fluxo de trabalho que recomendamos em Como usar a API do DeepSeek V4.
Como a guerra de preços de LLMs de 2026 está se desenrolando
O corte do MiMo V2.5 não é um truque de marketing. É uma reprecificação estrutural da camada de contexto de 1M, e o corte é permanente. Se você tem adiado RAG de documentos longos, agentes de código para todo o repositório ou qualquer carga de trabalho que precise de um contexto de >200 mil tokens por motivos de custo, o orçamento que você precificou no último trimestre provavelmente superestima a necessidade deste trimestre em uma ordem de magnitude.
Três próximos passos concretos:
- Pegue suas três principais cargas de trabalho por volume de tokens e recalcule seus custos com a nova taxa fixa. As que rodam contextos longos vão te surpreender.
- Execute uma avaliação de 100 amostras contra o V2.5 Pro e seu modelo atual com prompts idênticos. A maioria das equipes considera a faixa de qualidade aceitável para 70% a 85% do tráfego.
- Configure um pacote de regressão no Apidog para que o próximo corte de preço, e haverá um, leve horas para ser avaliado em vez de semanas.
O preço mínimo mudou novamente. Construa de acordo.
