Los laboratorios chinos redujeron los precios de las API de LLM seis veces en la primera mitad de 2026, y tres de esos recortes fueron declarados permanentes. DeepSeek V4-Pro ahora cuesta $0.87 por millón de tokens de salida. Xiaomi MiMo V2.5 acaba de aplanar su nivel de contexto largo a $3 por salida. Qwen3 Max de Alibaba se lanza a $3.90. Kimi K2.6 de Moonshot mantiene el precio mínimo de aciertos de caché en $0.07. GLM-5 de Zhipu se sitúa en $3.20 por salida. A continuación se presenta el desglose completo de precios de las cinco principales API frontera de China en mayo de 2026, con notas de capacidad y una matriz para el comprador al final para que pueda elegir la adecuada para su carga de trabajo.
En resumen
- Más barato por token (salida): DeepSeek V4-Pro a $0.87/MTok. Aproximadamente 34 veces por debajo de GPT-5.5.
- Más barato con 1M de contexto: Xiaomi MiMo V2.5 Pro a $3/MTok de salida, tarifa plana independientemente de la longitud de entrada.
- Mejor equilibrio precio-calidad para producción general: Alibaba Qwen3 Max a $3.90/MTok de salida, 262K de contexto.
- Precio mínimo de aciertos de caché más bajo (prompts de sistema largos): Moonshot Kimi K2.6 a $0.07/MTok en caché.
- Cargas de trabajo con mucho razonamiento: Zhipu GLM-5 a $3.20/MTok de salida, 200K de contexto, el más fuerte en razonamiento estructurado paso a paso.
- Los cinco laboratorios compiten en precio. Tres (DeepSeek, MiMo, Kimi) consideran permanentes sus recortes de 2026.
Cómo se desarrolló la guerra de precios de LLM chinos en 2026
El patrón comenzó en el cuarto trimestre de 2025 y se aceleró en el segundo trimestre de 2026. Una cronología aproximada:
- Cuarto trimestre de 2025: DeepSeek V3.2 se lanza a $0.28/MTok de entrada, socavando los precios frontera de EE. UU. en un orden de magnitud. Kimi K2.6 sigue con precios por niveles sensibles al contexto y una tarifa de acierto de caché de $0.07/MTok, la más baja de la industria.
- Marzo de 2026: Xiaomi presenta MiMo V2-Pro en OpenRouter con tarifas competitivas pero basadas en niveles.
- Abril de 2026: DeepSeek V4 se lanza con un descuento promocional del 75% programado para expirar el 31 de mayo.
- 22 de mayo de 2026: DeepSeek anuncia que el descuento del 75% es permanente. V4-Pro se mantiene en $0.435/$0.87 indefinidamente. El desglose completo está aquí.
- 27 de mayo de 2026: Xiaomi hace permanentes los precios de MiMo V2.5 en $1/$3, eliminando el multiplicador de contexto largo. Más sobre el recorte de MiMo.
Los recortes no son aleatorios. Cada laboratorio apunta a una brecha competitiva específica. DeepSeek busca el costo por token más bajo. MiMo busca cargas de trabajo de contexto largo que otros modelos encarecen demasiado. Qwen y GLM mantienen precios de nivel medio y compiten en capacidad. Kimi compite en flujos de trabajo de agentes y codificación a través del precio mínimo de aciertos de caché.
Un vistazo rápido: las 5 principales API de LLM chinos en mayo de 2026
| Modelo | Entrada ($/MTok) | Salida ($/MTok) | Acierto de caché | Contexto | Ideal para |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Más barato por token, codificación |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG de documentos largos, agentes de repositorio |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Equilibrio para producción |
| Moonshot Kimi K2.6 | $0.16–$2.00 (por niveles) | ~$2.50 | $0.07 | 128K | Prompts de sistema largos, agentes de codificación |
| Zhipu GLM-5 | $1.00 | $3.20 | (definido por el proveedor) | 200K | Razonamiento estructurado |
Algunos detalles para interpretar la tabla:
- DeepSeek y MiMo tienen tarifa plana. Todos los demás laboratorios de este conjunto todavía utilizan alguna forma de precios por niveles o multiplicador de contexto. La tarifa plana hace que la planificación de la capacidad de producción sea predecible. Los precios por niveles pueden sorprenderle en meses con mucho contexto.
- Las tasas de acierto de caché varían ampliamente. Los $0.07 de Kimi K2.6 y los $0.003625 de DeepSeek V4-Pro son las dos excepciones. Para cualquier agente con un prompt de sistema estable, estas son las tasas con las que debe comparar, no el precio de lista por fallo de caché. Consulte nuestro análisis profundo del almacenamiento en caché de prompts para conocer los mecanismos.
- Las ventanas de contexto se dividen bruscamente. MiMo V2.5, por sí solo, le da 1M de tokens en el nivel económico. El siguiente más grande en este conjunto es Qwen3 Max con 262K. Si su carga de trabajo necesita >300K tokens, MiMo no es opcional.
A continuación: cada modelo tiene una sección con precios, capacidad y la carga de trabajo en la que sobresale.
DeepSeek: el más barato por token
Modelos: V4-Pro ($0.435 entrada / $0.87 salida / $0.003625 acierto de caché, 128K contexto), V4-Flash ($0.14 / $0.28).
V4-Pro de DeepSeek es el precio mínimo de la gama de modelos frontera chinos. El recorte permanente del 22 de mayo situó los tokens de salida en $0.87/MTok, aproximadamente 34 veces por debajo de GPT-5.5 y 17 veces por debajo de Claude Opus 4.7. El acierto de caché a $0.003625/MTok es la tarifa propia más baja de cualquier laboratorio importante. Confirmado en la página oficial de precios de DeepSeek.
Ventajas de V4-Pro:
- Cargas de trabajo con mucha salida (generación de código, cadenas de agentes, herramientas de contenido) donde se gasta más del 70% del presupuesto de tokens en la salida.
- Cualquier cosa con un prompt de sistema estable de 5K a 10K tokens. Los aciertos de caché reducen el costo efectivo de entrada a casi cero.
- Producción sensible al costo donde se pueden absorber de 3 a 7 puntos de diferencia en el benchmark con respecto a GPT-5.5.
Casos en los que no es adecuado:
- Cargas de trabajo de documentos largos (>128K de contexto). MiMo V2.5 es la opción más económica en términos absolutos, incluso con tarifas por token más altas, porque DeepSeek no puede manejar el prompt.
- Chat en tiempo real con latencia crítica. V4-Pro es un modelo de pensamiento con un tiempo hasta el primer token de 600 a 900 ms.
Para una cobertura más profunda: Recorte permanente de precios de DeepSeek V4-Pro, Qué es DeepSeek V4, Cómo usar la API de DeepSeek V4.
Xiaomi MiMo: la opción más barata con 1M de contexto
Modelos: MiMo V2.5 Pro ($1.00 entrada / $3.00 salida / $0.20 caché, 1M contexto), MiMo V2 Flash (~$0.10 / ~$0.40, 256K contexto).
El recorte permanente del 27 de mayo de Xiaomi aplanó los precios de MiMo V2.5 en todas las ventanas de contexto. Los antiguos niveles de contexto largo, que aplicaban multiplicadores elevados por encima de 256K tokens de entrada, han desaparecido. La nueva política de precios aplica la misma tarifa de $1/$3, ya sea que envíe 5K o 950K tokens. El aviso oficial de actualización de precios etiqueta el recorte como “permanente”.
Ventajas de V2.5 Pro:
- RAG de documentos largos, análisis de código a nivel de repositorio, resumen de múltiples documentos, cualquier carga de trabajo que encaje entre 300K y 1M de tokens de contexto.
- Procesamiento de documentos de alto volumen donde la predictibilidad de los precios importa más que el precio mínimo absoluto.
Casos en los que no es adecuado:
- Chat con prompts cortos. V2.5 Pro es más caro que DeepSeek V4-Pro en cualquier longitud de contexto que DeepSeek pueda manejar.
- Cargas de trabajo con latencia crítica. Existen modelos chinos más rápidos para presupuestos de respuesta de menos de un segundo.
La ventana de contexto de 1M más una tarifa de caché competitiva le da a MiMo un lugar estructuralmente único en el mercado. Hasta que DeepSeek extienda el contexto más allá de 128K o Alibaba aplane los precios de Qwen, MiMo domina el cuadrante de bajo costo y contexto largo.
Para una cobertura más profunda: Cuánto cuesta usar Xiaomi MiMo V2.5 en 2026, Precios de MiMo V2-Pro y Omni, Programa de 100T tokens gratis de Xiaomi MiMo Orbit.
Alibaba Qwen: el caballo de batalla de la producción
Modelos: Qwen3 Max ($0.78 entrada / $3.90 salida / $0.156 caché, 262K contexto). El más reciente Qwen 3.7 Max, con entrada de $2.50/MTok y 1M de contexto, está en fase de lanzamiento inicial. Tarifas verificadas contra la hoja de Qwen3 Max de pricepertoken.
Qwen3 Max es el modelo insignia de Alibaba y el modelo chino más desplegado en producción internacional. Se sitúa en un punto de precio competitivo pero no al nivel más bajo: 1.8 veces DeepSeek V4-Pro en entrada, 4.5 veces en salida. La prima paga el ecosistema de herramientas más amplio (compatible con el protocolo Anthropic, compatible con OpenAI, alojamiento empresarial en Alibaba Cloud) y una ventana de contexto de 262K que maneja la mayoría de las cargas de trabajo de documentos empresariales.
Ventajas de Qwen3 Max:
- Producción multilingüe. El corpus de entrenamiento de Qwen se inclina fuertemente hacia el mandarín y los idiomas asiáticos, lo que lo convierte en el de mejor rendimiento no inglés en este conjunto.
- Escenarios de cumplimiento empresarial. El SLA empresarial de Alibaba y las opciones de regiones de la nube son las más maduras de cualquier laboratorio chino.
- Cargas de trabajo que necesitan entre 200K y 262K de contexto pero no justifican la banda de calidad premium de MiMo.
Casos en los que no es adecuado:
- Cargas de trabajo sensibles al costo y con mucha salida. A $3.90/MTok de salida, está pagando 4.5 veces la tarifa de DeepSeek. Si su carga de trabajo tolera la calidad de DeepSeek, cambie.
Para una cobertura más profunda: Qwen 3 vs OpenAI y DeepSeek: comparación técnica en profundidad para desarrolladores de API.
Moonshot Kimi: el especialista en codificación
Modelos: Kimi K2.6 con precios de entrada por niveles de contexto ($0.16 a $2.00/MTok en las bandas de 8K, 32K, 64K y 128K), precio mínimo de acierto de caché de $0.07/MTok, tasas de salida alrededor de $2.50/MTok en la banda media.
Kimi K2.6 es el campeón de aciertos de caché. La tarifa de $0.07/MTok por acierto es la cifra propia más baja de cualquier laboratorio importante. Combinado con el fuerte soporte de Kimi para llamadas a herramientas y agentes de larga duración, K2.6 es el modelo que gana en flujos de trabajo donde se reutiliza un prompt de sistema extenso en muchas interacciones: agentes de codificación, chatbots de soporte al cliente con prompts de persona estables, pipelines de recuperación con bloques de contexto estables.
Ventajas de K2.6:
- Agentes de codificación (flujos de trabajo estilo Claude Code). Una fuerte conformidad con el formato de llamada a herramientas y el precio mínimo de aciertos de caché más bajo hacen que los patrones de contexto repetido sean casi gratuitos.
- Sesiones de chat de larga duración donde el prompt del sistema y los ejemplos de pocas-tomas son estables.
Casos en los que no es adecuado:
- Cargas de trabajo intermitentes y variadas donde los prefijos cambian en cada solicitud. El precio de entrada por niveles significa que las sorpresas en la longitud del contexto pueden disparar su factura.
- Presupuesto predecible. Las transiciones de nivel en 32K, 64K y 128K tokens de entrada significan que el mismo tipo de consulta puede costar 4 veces más en un día largo que en uno corto.
Para una cobertura más profunda: ¿Vale realmente la pena el bombo del precio de la API de Kimi K2 para los desarrolladores en 2026?
Zhipu GLM: el contendiente del razonamiento
Modelos: GLM-5 ($1.00 entrada / $3.20 salida, 200K contexto), GLM-5.1 ($0.98 / $3.08, 200K contexto). Tarifas verificadas contra la descripción general de precios oficial de Z.AI.
GLM-5 de Zhipu se lanzó con un aumento del 30% en el precio sobre GLM-4.7 (un movimiento contracultural en un mercado que compite por los precios más bajos), luego lanzó GLM-5.1 con un descuento marginal. Los precios reflejan el posicionamiento de Zhipu: no es el más barato, pero es el más fuerte en razonamiento estructurado y tareas de cadena de pensamiento.
Ventajas de GLM-5:
- Matemáticas, razonamiento formal, tareas de razonamiento estructurado paso a paso. GLM-5 lidera en múltiples benchmarks de clase GPQA entre los modelos frontera chinos.
- Cargas de trabajo donde el costo marginal es pequeño en relación con el costo de las respuestas incorrectas (análisis financiero, resumen legal, razonamiento científico).
- Flujos de trabajo de agentes de varios pasos que se benefician de rastros de razonamiento claros.
Casos en los que no es adecuado:
- Aplicaciones sensibles al costo. GLM-5 es la opción más cara de este conjunto en la combinación de entrada y salida. Si el costo bruto es lo que optimiza, busque en otro lugar.
- Cargas de trabajo que no recompensan un razonamiento fuerte. Para la generación o resumen directo de contenido, la prima de GLM no vale la pena.
Para una cobertura más profunda: GLM-5 vs DeepSeek V3 vs GPT-5: velocidad, costo y comparación práctica para desarrolladores, GLM-5.1 vs Claude, GPT, Gemini, DeepSeek.
El más barato por carga de trabajo: una matriz para el comprador
Para cinco cargas de trabajo de producción comunes, aquí está el modelo que gana:
| Carga de trabajo | Ganador | Por qué |
|---|---|---|
| Generación de código (con mucha salida) | DeepSeek V4-Pro | $0.87/MTok de salida es imbatible |
| RAG de documentos largos (>300K contexto) | Xiaomi MiMo V2.5 Pro | Única opción con 1M de contexto a precio fijo |
| Agente de codificación con prompt de sistema estable | Kimi K2.6 | Precio mínimo de acierto de caché de $0.07/MTok |
| Soporte al cliente multilingüe | Alibaba Qwen3 Max | El mejor rendimiento no inglés |
| Matemáticas, razonamiento formal, análisis estructurado | Zhipu GLM-5 | La mejor calidad de razonamiento paso a paso |
Tres patrones combinados que vale la pena señalar:
- Enrutamiento de dos modelos. Muchos equipos de producción enrutan del 70 al 85% del tráfico a DeepSeek V4-Pro y mantienen su modelo secundario para los casos específicos. Los ahorros son grandes y la pérdida de calidad es pequeña para la mayoría de las cargas de trabajo.
- Segmentación de contexto largo. Si su carga de trabajo se divide entre contextos cortos y largos, dirija los cortos a DeepSeek y los largos a MiMo. El inconveniente de la facturación unificada es real, pero el arbitraje de costos es demasiado grande para ignorarlo.
- Consolidación de prefijos de caché. Independientemente del modelo que elija, audite sus prompts de sistema. Los aciertos de caché son la victoria económica que sobrevive a cualquier cambio de modelo.
Notas de calidad y benchmarks
Una nota sobre la calidad, ya que el precio no significa nada si el modelo no puede hacer el trabajo.
Según Artificial Analysis, los cinco modelos en esta comparación se agrupan dentro de 5 a 10 puntos porcentuales entre sí en la mayoría de los benchmarks públicos. Las interesantes diferencias finales:
- DeepSeek V4-Pro: Fuerte en codificación (SWE-bench Pro alrededor del 55%) y razonamiento (GPQA alrededor del 90%). Ligera brecha con GPT-5.5 en tareas de agente de largo horizonte.
- MiMo V2.5 Pro: Fuerte en recuperación de contexto largo (>95% de precisión de aguja a 800K), en el promedio en codificación.
- Qwen3 Max: Mejor rendimiento no inglés, fuerte calidad general de producción.
- Kimi K2.6: La mayor conformidad con el formato de llamada a herramientas, particularmente para llamadas a herramientas paralelas.
- GLM-5: La mejor calidad de razonamiento paso a paso en el conjunto.
Realice su propia evaluación de 100 muestras antes de comprometerse. Los benchmarks públicos son útiles como guía, pero la brecha que importa es la de su propio tráfico.
Probando los cinco con Apidog
Un despliegue de producción multimodo necesita un arnés de prueba multimodo. Apidog maneja las cinco API chinas desde un solo espacio de trabajo porque las cinco aceptan cuerpos de solicitud de OpenAI Chat Completions, con pequeñas peculiaridades de compatibilidad. El flujo de trabajo:

- Cree un entorno por proveedor en Apidog:
api.deepseek.com,platform.xiaomimimo.com, Alibaba Cloud Model Studio,api.moonshot.cnde Moonshot, yopen.bigmodel.cnde Zhipu. - Importe el esquema de OpenAI Chat Completion una vez. Cambie la URL base por entorno.
- Ejecute el mismo escenario de prueba en los cinco con un solo clic. Compare las respuestas, puntuaciones y latencias.
- Configure la validación de esquemas JSON contra las formas de
tool_callspara detectar las peculiaridades del formato de streaming únicas de cada proveedor.
Descargue Apidog, importe sus casos de prueba y tendrá una comparación funcional de cinco vías en menos de quince minutos. El mismo flujo de trabajo que recomendamos en los análisis profundos por modelo: Recorte permanente de DeepSeek V4-Pro, Costo de MiMo V2.5, Precios de Kimi K2.
Hacia dónde se dirige la guerra de precios
El precio mínimo se movió dos veces en mayo. Es probable que haya dos movimientos más antes de que finalice el tercer trimestre.
- Respuesta de Qwen. Alibaba rara vez ha sido el primero en recortar, pero consistentemente sigue en cuestión de semanas. Espere una revisión de Qwen3 Max o un anuncio de Qwen 3.8 para julio.
- Respuesta de GLM. El aumento del 30% de Zhipu en GLM-5 parece cada vez más contracultural. Un GLM-5.2 con un recorte estructural es plausible.
- Simplificación estructural de Kimi. Los precios de contexto por niveles están pasando de moda. Moonshot podría aplanar K2.6 para igualar la estructura de MiMo.
Construya en consecuencia. Tres próximos pasos:
- Audite sus tres principales cargas de trabajo con la matriz del comprador anterior. Elija una para una prueba de migración esta semana.
- Fije sus prefijos de caché. Esa es la victoria económica, independientemente del modelo que elija.
- Configure una suite de regresión en Apidog que apunte a los cinco proveedores para que la próxima ronda de recortes se evalúe en horas en lugar de semanas.
El precio mínimo no ha terminado de caer. Prepare su pila para lo que viene.
