¿Qué es MiniMax M2.5?

Ashley Innocent

Ashley Innocent

3 March 2026

¿Qué es MiniMax M2.5?

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

En resumen (TL;DR)

MiniMax M2.5 es un modelo de IA de vanguardia lanzado el 12 de febrero de 2026, que logra un rendimiento de última generación en codificación (80.2% en SWE-Bench Verified), uso de herramientas por agentes y tareas de productividad de oficina. Con un costo de solo $0.30 por hora a un rendimiento de 50 tokens/segundo, tiene un precio de una décima a una vigésima parte de competidores como Claude Opus 4.6 y GPT-5, lo que lo convierte en el primer modelo de vanguardia de "inteligencia demasiado barata para medir". El modelo completa tareas de codificación complejas un 37% más rápido que su predecesor, igualando la velocidad de Claude Opus 4.6 y costando un 90% menos por tarea.

Introducción

MiniMax acaba de presentar M2.5, un modelo de vanguardia que desafía todo lo que creíamos saber sobre la relación costo-rendimiento en los modelos de lenguaje grandes. El anuncio oficial proporciona todos los detalles técnicos. Con una puntuación del 80.2% en SWE-Bench Verified, el estándar de oro para la capacidad de codificación, M2.5 no solo es competitivo con modelos de primer nivel como Claude Opus 4.6 y GPT-5. En muchas métricas, los supera.

Pero aquí está lo que hace que este anuncio sea realmente disruptivo: el precio. A $0.30 por hora para funcionar continuamente a 50 tokens por segundo, o solo $1 por hora a 100 tokens por segundo, MiniMax afirma que M2.5 ofrece "inteligencia demasiado barata para medir". Para desarrolladores y empresas, la barrera para implementar agentes de IA sofisticados acaba de colapsar.

💡
Al crear aplicaciones que se integran con modelos de IA como MiniMax M2.5, necesitará probar exhaustivamente sus integraciones de API. Apidog proporciona una plataforma integral de prueba de API que admite puntos finales HTTP, WebSocket y GraphQL, perfecta para validar aplicaciones impulsadas por IA.

¿Qué es MiniMax M2.5?

MiniMax M2.5 es el último modelo insignia de la empresa china de IA MiniMax, que representa la tercera iteración de la serie M2 de la compañía lanzada en solo tres meses y medio (M2 a fines de octubre, M2.1 a fines de 2025 y M2.5 en febrero de 2026).

Gráfico mostrando la evolución de los modelos MiniMax M2.x

Lo que distingue a M2.5 es su enfoque en la productividad en el mundo real en lugar de solo el rendimiento de los benchmarks. Entrenado extensamente con aprendizaje por refuerzo en cientos de miles de entornos complejos del mundo real, M2.5 está diseñado para manejar tareas económicamente valiosas que los desarrolladores y trabajadores del conocimiento enfrentan a diario.

Gráfico mostrando la mejora de MiniMax M2.5 sobre otros modelos

El modelo viene en dos variantes:

Ambas versiones admiten el almacenamiento en caché de contexto y son funcionalmente idénticas en capacidad, diferenciándose solo en velocidad y precio.

Especificaciones clave de un vistazo

Especificación Valor
Fecha de lanzamiento 12 de febrero de 2026
SWE-Bench Verified 80.2%
Multi-SWE-Bench 51.3%
BrowseComp 76.3%
Rendimiento (Estándar) 50 TPS
Rendimiento (Lightning) 100 TPS
Precio de entrada $0.30 por millón de tokens
Precio de salida $2.40 por millón de tokens

Capacidades de codificación

Si hay un área donde MiniMax M2.5 muestra su mayor fuerza, es en la codificación. El modelo logra un 80.2% en SWE-Bench Verified, un benchmark que prueba la capacidad de resolver problemas reales de GitHub, una cifra que lo sitúa firmemente en el territorio del estado del arte.

Gráfico de rendimiento de codificación de M2.5 frente a otros modelos

Pero los puntajes brutos de los benchmarks no cuentan toda la historia. Lo que hace que M2.5 sea particularmente interesante para los desarrolladores es su capacidad de pensamiento arquitectónico. Durante el entrenamiento, el modelo desarrolló lo que MiniMax describe como una "tendencia a la escritura de especificaciones": antes de escribir cualquier código, M2.5 descompone y planifica activamente las características, la estructura y el diseño de la interfaz de usuario desde la perspectiva de un arquitecto de software experimentado.

Excelencia en programación multilingüe

M2.5 fue entrenado en más de 10 lenguajes de programación en más de 200,000 entornos del mundo real:

Esto no es solo para corregir errores. El modelo maneja todo el ciclo de desarrollo:

Desarrollo full-stack multiplataforma

A diferencia de muchos asistentes de codificación que se centran principalmente en demostraciones de frontend, M2.5 aborda proyectos full-stack en múltiples plataformas: Web, Android, iOS y Windows. Maneja API del lado del servidor, lógica de negocios, bases de datos y arquitecturas de sistemas complejas, no solo componentes de páginas web.

Rendimiento de referencia frente a la competencia

MiniMax probó M2.5 en diferentes entornos de agentes de codificación para evaluar la generalización en entornos fuera de distribución:

Marco M2.5 Opus 4.6
Droid 79.7% 78.9%
OpenCode 76.1% 75.9%

M2.5 supera a Claude Opus 4.6 en ambos marcos de agentes populares, lo que sugiere sólidas capacidades de generalización.

Al construir aplicaciones impulsadas por IA con M2.5, deberá probar las API que conectan su aplicación con el modelo. Apidog le permite crear escenarios de prueba que validan el manejo de solicitudes/respuestas, los flujos de autenticación y el manejo de errores, esenciales para las aplicaciones de IA en producción.

Uso de herramientas por agentes y búsqueda

La IA moderna no se trata solo de responder preguntas, se trata de tomar acción. M2.5 demuestra sólidas capacidades de agente, particularmente en la llamada a herramientas y la búsqueda autónoma.

BrowseComp y Búsqueda Amplia

En benchmarks como BrowseComp y Wide Search, M2.5 logra un rendimiento líder en la industria. Pero, lo que es más importante, MiniMax construyó RISE (Evaluación de Búsqueda Interactiva Realista) para probar tareas de búsqueda profesional del mundo real, el tipo que requiere una exploración profunda a través de páginas web densas en información, no solo consultas de búsqueda simples.

Toma de decisiones eficiente

Quizás el aspecto más impresionante de las capacidades de agente de M2.5 es su eficiencia. En múltiples tareas de agente, incluyendo BrowseComp, Wide Search y RISE, M2.5 logró mejores resultados con aproximadamente un 20% menos de rondas de razonamiento en comparación con M2.1. Esto indica que el modelo no solo obtiene la respuesta correcta, sino que encuentra caminos eficientes para llegar a ella.

Esto tiene implicaciones prácticas: menos llamadas a la API, menores costos y una finalización de tareas más rápida al implementar M2.5 como un agente autónomo.

Características de productividad de oficina

La codificación no es la única área donde M2.5 sobresale. MiniMax diseñó específicamente el modelo para la productividad de oficina en el mundo real, colaborando con profesionales sénior en finanzas, derecho y ciencias sociales para entrenar el modelo en resultados genuinamente entregables.

Dominio de Word, PowerPoint y Excel

M2.5 demuestra mejoras significativas en la capacidad en escenarios de espacio de trabajo de alto valor:

MiniMax construyó un marco de evaluación interno llamado GDPval-MM que evalúa tanto la calidad de la salida como la profesionalidad de la trayectoria completa del flujo de trabajo del agente. En comparaciones directas con otros modelos principales, M2.5 logró una tasa de victoria promedio del 59.0%.

Especialización en modelado financiero

El modelo fue entrenado específicamente en problemas de modelado financiero construidos por expertos de la industria. Estos implican tareas de investigación y análisis de principio a fin realizadas a través de herramientas de Excel, calificadas utilizando rúbricas diseñadas por expertos. Para los profesionales de las finanzas, esto podría representar un salto significativo en la productividad.

Rendimiento y velocidad

La velocidad importa en las implementaciones del mundo real. Un modelo que es más inteligente pero más lento a menudo proporciona una peor experiencia de usuario que una alternativa ligeramente menos capaz pero más rápida.

Velocidad de generación de tokens

M2.5 se sirve de forma nativa a 100 tokens por segundo para la variante Lightning, casi el doble de rápido que otros modelos de vanguardia. Esta ventaja de rendimiento nativo se acumula significativamente al manejar tareas de agente de larga duración.

Comparación del tiempo de ejecución de SWE-Bench

Métrica M2.1 M2.5 Opus 4.6
Tokens promedio/tarea 3.72M 3.52M -
Tiempo de ejecución promedio 31.3 min 22.8 min 22.9 min
Mejora de velocidad - -37% -
Gráfico de comparación del tiempo de ejecución de SWE-Bench

M2.5 completa la evaluación SWE-Bench Verified un 37% más rápido que M2.1, igualando el tiempo de ejecución de Claude Opus 4.6 mientras utiliza solo 3.52 millones de tokens por tarea (en comparación con los 3.72M de M2.1).

Precios y eficiencia de costos

Aquí es donde M2.5 se vuelve verdaderamente disruptivo. MiniMax ha posicionado el modelo como la primera IA de frontera donde los usuarios "no necesitan preocuparse por el costo".

Estructura de precios

Modelo Rendimiento Precio de entrada Precio de salida
M2.5 50 TPS $0.30/millón de tokens $2.40/millón de tokens
M2.5-Lightning 100 TPS $0.60/millón de tokens $4.80/millón de tokens

Comparaciones de costos

Con un rendimiento de salida completo:

Esto se traduce en aproximadamente una décima a una vigésima parte del costo de Opus, Gemini 3 Pro y GPT-5 basado en el precio de salida.

Ejemplo de costo en el mundo real

Ejecutar M2.5 continuamente durante una hora cuesta solo $1 a máxima velocidad. A 50 TPS, eso baja a $0.30. Para contextualizar, podrías ejecutar cuatro instancias de M2.5 continuamente durante un año entero por $10,000.

Para las empresas que implementan agentes de IA a escala, este precio cambia fundamentalmente la economía. Las tareas que eran prohibitivamente caras se vuelven viables. Los proyectos experimentales que habrían agotado las limitaciones presupuestarias se convierten en exploraciones asequibles.

Arquitectura técnica

Aprendizaje por refuerzo a escala

Un factor clave de las capacidades de M2.5 es la escalada del aprendizaje por refuerzo. MiniMax convirtió la mayoría de las tareas y espacios de trabajo de la empresa en entornos de entrenamiento, cientos de miles de escenarios del mundo real donde el modelo aprende por ensayo y error.

Forge: Marco de RL nativo para agentes

MiniMax desarrolló Forge, un marco de RL nativo para agentes interno que introduce una capa intermedia que desacopla completamente el motor de entrenamiento-inferencia subyacente del agente. Esto permite la integración de agentes arbitrarios y la optimización en diferentes estructuras de agentes y herramientas.

Diagrama de arquitectura del marco Forge

Las optimizaciones clave incluyen:

Algoritmo CISPO

Para la estabilidad algorítmica durante el entrenamiento MoE (Mixture of Experts) a gran escala, M2.5 continúa utilizando el algoritmo CISPO que MiniMax propuso a principios de 2025. Para abordar los desafíos de asignación de crédito en contextos largos, introdujeron un mecanismo de recompensa de proceso para el monitoreo de extremo a extremo de la calidad de la generación.

Escala del entorno de entrenamiento

Según los números:

Integración del Agente MiniMax

M2.5 no es solo una API, ya está impulsando los propios productos de MiniMax.

Integración de Habilidades de Oficina

MiniMax destiló las capacidades básicas de procesamiento de información en Habilidades de Oficina estandarizadas profundamente integradas en MiniMax Agent. En el modo MAX, al manejar el formato de Word, la edición de PowerPoint y los cálculos de Excel, el Agente carga automáticamente las Habilidades de Oficina correspondientes según el tipo de archivo.

Creación de Expertos

Los usuarios pueden combinar las Habilidades de Oficina con la experiencia específica de la industria para crear Expertos reutilizables para escenarios de tareas específicos. Por ejemplo:

Métricas de adopción

Esto no es una capacidad teórica, es tecnología endurecida por la producción.

Cómo se compara M2.5 con sus competidores

Frente a Claude Opus 4.6

Métrica M2.5 Opus 4.6
SWE-Bench Verified 80.2% ~77%
Marco Droid 79.7% 78.9%
Marco OpenCode 76.1% 75.9%
Tiempo de ejecución en SWE-Bench 22.8 min 22.9 min
Costo/tarea ~$1.50 ~$15+

M2.5 iguala o supera a Opus 4.6 en los benchmarks de codificación mientras cuesta aproximadamente un 10% por tarea.

Frente a GPT-5

Frente a Gemini 3 Pro

Conclusión

MiniMax M2.5 representa un verdadero cambio de paradigma en el panorama de la IA. Por primera vez, tenemos un modelo de vanguardia que combina una capacidad de última generación con un precio que permite una implementación ilimitada.

Los puntos clave:

La pregunta no es si vale la pena probar M2.5, sino si puedes permitirte no hacerlo.

¿Listo para construir y probar APIs impulsadas por IA? Descarga Apidog gratis y crea suites de pruebas completas para tus integraciones MiniMax. Importa tus colecciones Postman existentes con un solo clic y comienza a probar en minutos.
botón

Preguntas Frecuentes (FAQ)

¿Qué es MiniMax M2.5?

MiniMax M2.5 es un modelo de IA de vanguardia lanzado en febrero de 2026 que logra un rendimiento de última generación en codificación, tareas de agente y productividad de oficina. Destaca por su combinación de benchmarks de primer nivel y precios extremadamente bajos.

¿Cómo se compara MiniMax M2.5 con Claude Opus 4.6?

M2.5 iguala o supera a Claude Opus 4.6 en la mayoría de los benchmarks de codificación (80.2% frente a ~77% en SWE-Bench Verified) mientras cuesta aproximadamente un 90% menos por tarea. Iguala la velocidad de ejecución de Opus 4.6 (22.8 frente a 22.9 minutos en SWE-Bench).

¿Cuál es el precio de MiniMax M2.5?

M2.5 cuesta $0.30 por millón de tokens de entrada y $2.40 por millón de tokens de salida (a 50 TPS). A pleno rendimiento, ejecutar M2.5 continuamente durante una hora cuesta solo $0.30-$1.00, dependiendo de la variante.

¿Qué lenguajes de programación soporta M2.5?

M2.5 fue entrenado en más de 10 lenguajes, incluyendo Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart y Ruby, en más de 200,000 entornos del mundo real.

¿Es MiniMax M2.5 bueno para el trabajo de oficina?

Sí. M2.5 fue específicamente entrenado para tareas de productividad de oficina, incluyendo Word, PowerPoint y modelado financiero en Excel. Logró una tasa de victoria del 59% frente a otros modelos principales en tareas de oficina en las evaluaciones internas de MiniMax.

¿Puedo usar MiniMax M2.5 a través de API?

Sí. MiniMax proporciona acceso a la API a través de su plataforma en minimax.io. La API soporta tanto la variante estándar M2.5 (50 TPS) como M2.5-Lightning (100 TPS).

¿Qué hace especial a MiniMax M2.5?

M2.5 es el primer "modelo de frontera" donde el costo es lo suficientemente bajo como para que los usuarios no necesiten preocuparse por él; la compañía afirma que es "inteligencia demasiado barata para medir". Combinado con benchmarks de codificación de primer nivel y capacidades de agente, esto lo hace viable para la implementación de agentes a gran escala.

¿Qué tan rápido es MiniMax M2.5?

M2.5-Lightning genera a 100 tokens por segundo, casi el doble de rápido que otros modelos de frontera. Incluso el M2.5 estándar funciona a 50 TPS. En las tareas de SWE-Bench, completa las evaluaciones un 37% más rápido que M2.1.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs