El precio de la API Xiaomi MiMo V2.5 se redujo a una tarifa fija de $1 por millón de tokens de entrada y $3 por millón de tokens de salida el 27 de mayo de 2026, y el equipo hizo permanente la nueva tarifa. El antiguo nivel de contexto largo, donde los prompts de más de 256K tokens conllevaban un multiplicador elevado sobre la tarifa base, ha desaparecido. Ahora hay un único precio, independientemente de la longitud del contexto. Para la mayoría de las cargas de trabajo, el titular es una sola frase: MiMo V2.5 es uno de los tres modelos de 1M de contexto más baratos en producción, y así se mantiene.
En resumen
- Precios permanentes de Xiaomi MiMo V2.5 a partir del 27 de mayo de 2026: $1.00 de entrada, $3.00 de salida, $0.20 en caché por millón de tokens, con una ventana de contexto de 1M de tokens.
- La afirmación de "hasta 99% de descuento" es real en el nivel de contexto largo. El esquema anterior escalaba fuertemente a partir de los 256K tokens de entrada. La nueva tarifa plana elimina el multiplicador.
- Los clientes de planes de tokens obtuvieron un aumento de cuota de 5x a 8x y un restablecimiento completo de los créditos utilizados dentro de su período de validez.
- La reducción es permanente, no promocional. El aviso oficial de Xiaomi dice "renovar permanentemente todo el sistema de precios del modelo".
- Contexto: Xiaomi es el segundo laboratorio chino en hacer una reducción permanente en el nivel "frontier" esta semana. DeepSeek hizo permanente el V4-Pro a 1/4 del precio de lista tres días antes.
Lo que cambió el 27 de mayo de 2026
El aviso oficial de actualización de precios de Xiaomi detalla tres cambios. Los tres entraron en vigor a las 00:00 hora de Beijing del 27 de mayo, que es las 16:00 UTC del 26 de mayo.

1. Precios planos en todas las ventanas de contexto. El antiguo esquema de MiMo V2.5 utilizaba tarifas escalonadas: un precio base para prompts de hasta 32K tokens de entrada, un multiplicador para la banda de 32K a 256K, y una tarifa aún más pronunciada por encima de 256K. El nuevo esquema tiene un número por tipo de token. Las aplicaciones de contexto largo dejan de pagar un impuesto por contexto largo.
2. Permanente, no promocional. El aviso utiliza la frase "Reducción de Precios Permanente" dos veces y "renovar permanentemente todo el sistema de precios del modelo" una vez. Sin fecha de caducidad. Sin cláusula de reversión. Trátelo como el nuevo precio de lista.
3. Restablecimiento de recompensas de planes de tokens. Si usted tiene un Plan de Tokens (el sistema de cuota prepago de Xiaomi), su saldo de crédito se aumentó de 5 a 8 veces y cada crédito que ya había consumido dentro de su período de validez fue reembolsado. El período de validez en sí no se extendió, por lo que los planes existentes obtuvieron un inesperado aumento de presupuesto pero no más tiempo.

La afirmación principal de "hasta 99% de descuento" se aplica específicamente a la banda de contexto largo. El precio anterior para más de 256K tokens de entrada era lo suficientemente alto como para que su reducción a $1/M produzca una disminución de más del 90%. Para las cargas de trabajo que se mantenían en el nivel base, la reducción es menor pero sigue siendo significativa.
La nueva hoja de precios permanente
Precios por 1 millón de tokens, en USD, efectivos de inmediato y permanentes:
| Modelo | Entrada | Salida | Caché | Contexto |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M tokens |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K tokens |
Algunos detalles que la tabla no hace obvios:
- La tarifa de caché ($0.20/M para V2.5 Pro) es 5 veces la tarifa de entrada. Esa es una proporción peor que la de 120:1 de DeepSeek entre fallo de caché de entrada y acierto de caché de entrada. La caché de Xiaomi sigue siendo útil para prompts de sistema repetidos, pero los ahorros son menores en términos absolutos.
- La ventana de contexto de 1M es la parte que la mayoría de los artículos subestiman. La mayoría de los modelos "frontier" alojados en EE. UU. tienen un límite de 200K a 400K. MiMo V2.5 Pro toma el documento completo.
- El aviso menciona, pero no desglosa, las variantes V2.5 Omni y TTS. Verifique esas por separado en la plataforma.
Para la fijación de precios de la versión V2-Pro como punto de referencia, consulte nuestra guía de precios de MiMo V2-Pro y Omni.
Lo que MiMo V2.5 aporta más allá de los precios más baratos
El anuncio del 27 de mayo es un evento de precios, pero el V2.5 en sí mismo es también una mejora significativa respecto al V2-Pro lanzado en abril. Tres cambios que vale la pena destacar:
- Contexto práctico más largo. V2.5 Pro mantiene la ventana teórica de 1M de tokens, pero Xiaomi mejoró la calidad de recuperación en la banda de 200K a 800K donde la mayoría de los modelos de contexto largo se degradan. La precisión de "aguja en el pajar" se mantiene por encima del 95% hasta los 800K tokens.
- Mejor cumplimiento del formato de llamada a herramientas. V2-Pro tenía problemas conocidos con las llamadas a herramientas paralelas que devolvían JSON malformado dentro de las respuestas transmitidas. V2.5 reduce esos fallos, aunque no a cero. En cualquier caso, planifique la validación del esquema JSON.
- Corpus de entrenamiento actualizado. V2.5 fue entrenado con datos hasta el primer trimestre de 2026. Las citas y el límite de conocimiento se sitúan aproximadamente tres meses por delante del V2-Pro.
Ninguno de estos son puntos de referencia principales, pero son los cambios que aparecen en las implementaciones de producción reales. Combine el precio más barato con la ventana de contexto fiable más larga y tendrá una opción que no existía para trabajos serios con documentos largos antes del 27 de mayo.
Cómo se compara MiMo V2.5 con el resto del campo
La comparación interesante no es el antiguo MiMo V2.5. Es contra las otras opciones de API de nivel "frontier" disponibles en mayo de 2026:
| Modelo | Entrada ($/MTok) | Salida ($/MTok) | Contexto |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
Tres conclusiones:
- DeepSeek V4-Pro sigue siendo más barato que MiMo V2.5 por token. Aproximadamente 2.3 veces más barato en entrada y 3.5 veces más barato en salida. Si el costo por token es su única métrica, DeepSeek gana.
- MiMo V2.5 gana en cargas de trabajo de 1M de contexto. Gemini 3.5 Flash es la única otra opción de 1M de contexto en la tabla, y es 1.5 veces más cara en entrada y 3 veces más cara en salida.
- MiMo V2.5 es 5 veces más barato que GPT-5.5 en entrada y 10 veces más barato en salida, con un rendimiento de referencia comparable según Artificial Analysis.
Para el lado DeepSeek de esta comparación, vea La reducción del 75% del precio de DeepSeek V4-Pro ahora es permanente. Los dos artículos son lecturas complementarias. Ambos cubren las reducciones permanentes de nivel "frontier" de esta semana por parte de laboratorios chinos.
Tres cargas de trabajo, tres nuevas facturas
Tres casos concretos utilizando las nuevas tarifas permanentes:
1. RAG de documentos largos sobre PDFs empresariales. 50,000 consultas/día, 800K tokens de contexto por consulta, 1K tokens de respuesta. Antiguo nivel de contexto largo de MiMo V2.5 (tarifa efectiva estimada de $50/M): aproximadamente $60,000/mes. Nueva tarifa plana: aproximadamente $1,225/mes. Ahorros: $58,775/mes.
2. Agente de revisión de código. 5,000 solicitudes de extracción/día, 30K tokens de contexto de repositorio, 2K tokens de salida de comentarios. Factura mensual antigua de GPT-5.5: aproximadamente $5,250. Nuevo MiMo V2.5: aproximadamente $510. Ahorros: $4,740/mes.
3. Chatbot de atención al cliente. 200,000 interacciones/día, 4K tokens de prompt del sistema, 300 tokens de respuesta. Factura mensual antigua de Claude Opus 4.7: aproximadamente $11,250. Nuevo MiMo V2.5: aproximadamente $805. Ahorros: $10,445/mes.
La carga de trabajo #1 es donde MiMo V2.5 se diferencia del resto. Los trabajos de contexto largo eran prohibitivamente caros en cualquier API "frontier" antes de esta reducción. Ya no lo son. Los mismos documentos que solían enviarse a resumidores y pipelines de fragmentación ahora pueden ir completos al modelo, sin trucos de presupuesto de tokens.
Una breve nota sobre los aciertos de caché
La tarifa de entrada en caché de $0.20/M es 5 veces más barata que la tarifa de $1.00 por fallo de caché. Eso es un descuento de caché menor que la proporción de 120:1 de DeepSeek, pero sigue siendo significativo para cualquier agente que reutilice un prompt de sistema estable.
Un ejemplo práctico. Suponga que su asistente utiliza un prompt de sistema de 6,000 tokens y maneja 80,000 interacciones de chat por día, con un mensaje de usuario promedio de 250 tokens de entrada y una respuesta promedio de 600 tokens de salida:
- Sin aciertos de caché: 80,000 interacciones × 6,250 de entrada × $1.00 / 1,000,000 = $500 por día solo en entrada.
- Con un 60% de aciertos de caché en el prefijo del prompt del sistema: 80,000 × (250 × $1.00 + 6,000 × (0.6 × $0.20 + 0.4 × $1.00)) / 1,000,000 = aproximadamente $271 por día. Una reducción del 46%.
Eso no es el 88% que ofrece el almacenamiento en caché de DeepSeek, pero en una carga de trabajo que asciende a $500/día en entrada, la mitad de descuento es dinero real. Fije el prompt del sistema, ordene el contexto recuperado de manera estable y no inyecte marcas de tiempo por solicitud en el prefijo. Las mismas reglas que obtienen aciertos de caché en cualquier otro lugar también se aplican aquí.
Cuándo MiMo V2.5 es la elección correcta y cuándo no
El nuevo precio convierte a MiMo V2.5 en la opción predeterminada para dos clases de carga de trabajo y en una mala elección para una.
Elección correcta:
- RAG de documentos largos, agentes de bases de código, refactorizaciones a nivel de repositorio. Cualquier cosa que encaje naturalmente en un contexto de más de 200K tokens. El precio plano más la ventana de 1M es inigualable en el nivel económico.
- Procesamiento de documentos de alto volumen. El precio es predecible y la tarifa en caché ($0.20/M) le permite procesar por lotes prefijos idénticos de forma económica. Consulte Cómo el almacenamiento en caché de prompts sobrealimenta el rendimiento de los LLM y reduce los costos para conocer la mecánica del almacenamiento en caché en los distintos proveedores.
Mala elección:
- Chat interactivo crítico en latencia. MiMo V2.5 Pro no es el modelo más rápido en el primer token. Para escritura anticipada, autocompletado o chat en menos de un segundo, DeepSeek V4-Flash o Gemini 3.5 Flash ofrecen mejores perfiles de latencia a un costo similar.
Advertencias:
- Residencia de datos. Las llamadas se enrutan a través de la infraestructura de Xiaomi en China. La misma conversación de adquisición que con DeepSeek.
- Fiabilidad. La API de primera parte de Xiaomi tiene un historial operativo más corto que los modelos "frontier" alojados en EE. UU. Para producción respaldada por SLA, enrute a través de OpenRouter u otro agregador.
- Paridad de llamada a funciones. Compatible con OpenAI a nivel de esquema, con casos excepcionales en torno a argumentos de herramientas transmitidas y llamadas a herramientas paralelas. Pruebe antes de implementar.
Para el contexto de lanzamiento de V2-Pro que prepara el V2.5, vea Xiaomi acaba de lanzar su propio modelo de IA, y es gratuito en OpenRouter. Para el acceso gratuito, el programa de 100T tokens gratis de Xiaomi MiMo Orbit cubre la elegibilidad y el registro.
Probando MiMo V2.5 con Apidog
La compatibilidad de la plataforma con OpenAI es buena, no perfecta. Verifique su integración antes de lanzar el tráfico de producción.

Apidog le permite dirigir una solicitud de Chat Completions a https://platform.xiaomimimo.com/v1 con su clave API de MiMo, y luego:
- Registre respuestas "golden" de V2.5 Pro y reprodúzcalas en cada cambio de prompt para que las desviaciones aparezcan antes de que lo hagan los usuarios.
- Valide las formas de
tool_callscon aserciones de esquema JSON. Los argumentos de función de streaming son donde las grietas de compatibilidad con OpenAI suelen aparecer. - Ejecute comparaciones lado a lado contra su modelo actual (GPT-5.5, Claude, DeepSeek V4-Pro) con el mismo lote de entrada usando los escenarios de prueba de Apidog.
Descargue Apidog, importe el esquema de OpenAI Chat Completion, cambie la URL base y tendrá un entorno de prueba V2.5 funcional en menos de diez minutos. El mismo flujo de trabajo que recomendamos en Cómo usar la API de DeepSeek V4.
Cómo se perfila la guerra de precios de LLM de 2026
MiMo V2.5 es el segundo recorte permanente en el nivel "frontier" de un laboratorio chino en una sola semana. DeepSeek hizo permanente el V4-Pro a 1/4 del precio de lista el 22 de mayo. Kimi K2 hizo un recorte a principios del primer trimestre. OpenAI O3 bajó un 80% en febrero. El patrón es claro:
- Los laboratorios chinos compiten por precio. Estos recortes no son promocionales. Son estructurales.
- Los laboratorios estadounidenses compiten por capacidad y empaquetamiento. OpenAI y Anthropic mantienen los precios de sus niveles insignia y lanzan características (modos de pensamiento, servidores MCP, flujos de trabajo de agente) para justificar la prima.
- La brecha de rendimiento es lo suficientemente pequeña como para que la mayoría de las cargas de trabajo deban volver a evaluarse. Los benchmarks públicos sitúan a MiMo V2.5 a pocos puntos porcentuales de GPT-5.5 en la mayoría de las tareas de codificación y razonamiento, según Artificial Analysis.
Para el resto de esta imagen:
- El recorte de precio permanente de DeepSeek V4-Pro cubre el movimiento comparable del laboratorio chino.
- Precios de la API Kimi K2 detalla el tercer recorte importante chino de 2026.
- La caída de precios de la API OpenAI O3 cubre la respuesta estadounidense en febrero.
- El costo de la API Gemini 3.0 mapea la estrategia de niveles de Google.
- El desglose completo del costo de la API de Claude explica dónde encajan Opus, Sonnet y Haiku. MiMo-7B se sitúa en un nicho diferente; vea los benchmarks de MiMo-7B-RL para el lado de los modelos pequeños de la línea de Xiaomi.
Cómo esto afecta su desarrollo
La reducción de MiMo V2.5 no es un truco de marketing. Es una reevaluación estructural del nivel de contexto de 1M, y la reducción es permanente. Si ha estado posponiendo el RAG de documentos largos, los agentes de código a nivel de repositorio o cualquier carga de trabajo que necesite un contexto de más de 200K tokens por razones de costo, el presupuesto que calculó el trimestre pasado probablemente sobrestima la necesidad de este trimestre en un orden de magnitud.
Tres pasos concretos a seguir:
- Tome sus tres cargas de trabajo principales por volumen de tokens y recalcule su costo con la nueva tarifa plana. Las que manejan contextos largos le sorprenderán.
- Realice una evaluación de 100 muestras contra V2.5 Pro y su modelo actual con prompts idénticos. La mayoría de los equipos encuentran que la banda de calidad es aceptable para el 70% al 85% del tráfico.
- Conecte una suite de regresión Apidog para que el próximo recorte de precios, y habrá uno, tarde horas en evaluarse en lugar de semanas.
El precio mínimo se movió de nuevo. Construya en consecuencia.
