¿Qué es MiniMax M2.5?

En resumen (TL;DR)

MiniMax M2.5 es un modelo de IA de vanguardia lanzado el 12 de febrero de 2026, que logra un rendimiento de última generación en codificación (80.2% en SWE-Bench Verified), uso de herramientas por agentes y tareas de productividad de oficina. Con un costo de solo $0.30 por hora a un rendimiento de 50 tokens/segundo, tiene un precio de una décima a una vigésima parte de competidores como Claude Opus 4.6 y GPT-5, lo que lo convierte en el primer modelo de vanguardia de "inteligencia demasiado barata para medir". El modelo completa tareas de codificación complejas un 37% más rápido que su predecesor, igualando la velocidad de Claude Opus 4.6 y costando un 90% menos por tarea.

Introducción

MiniMax acaba de presentar M2.5, un modelo de vanguardia que desafía todo lo que creíamos saber sobre la relación costo-rendimiento en los modelos de lenguaje grandes. El anuncio oficial proporciona todos los detalles técnicos. Con una puntuación del 80.2% en SWE-Bench Verified, el estándar de oro para la capacidad de codificación, M2.5 no solo es competitivo con modelos de primer nivel como Claude Opus 4.6 y GPT-5. En muchas métricas, los supera.

Pero aquí está lo que hace que este anuncio sea realmente disruptivo: el precio. A $0.30 por hora para funcionar continuamente a 50 tokens por segundo, o solo $1 por hora a 100 tokens por segundo, MiniMax afirma que M2.5 ofrece "inteligencia demasiado barata para medir". Para desarrolladores y empresas, la barrera para implementar agentes de IA sofisticados acaba de colapsar.

💡

Al crear aplicaciones que se integran con modelos de IA como MiniMax M2.5, necesitará probar exhaustivamente sus integraciones de API. Apidog proporciona una plataforma integral de prueba de API que admite puntos finales HTTP, WebSocket y GraphQL, perfecta para validar aplicaciones impulsadas por IA.

¿Qué es MiniMax M2.5?

MiniMax M2.5 es el último modelo insignia de la empresa china de IA MiniMax, que representa la tercera iteración de la serie M2 de la compañía lanzada en solo tres meses y medio (M2 a fines de octubre, M2.1 a fines de 2025 y M2.5 en febrero de 2026).

Gráfico mostrando la evolución de los modelos MiniMax M2.x

Lo que distingue a M2.5 es su enfoque en la productividad en el mundo real en lugar de solo el rendimiento de los benchmarks. Entrenado extensamente con aprendizaje por refuerzo en cientos de miles de entornos complejos del mundo real, M2.5 está diseñado para manejar tareas económicamente valiosas que los desarrolladores y trabajadores del conocimiento enfrentan a diario.

Gráfico mostrando la mejora de MiniMax M2.5 sobre otros modelos

El modelo viene en dos variantes:

M2.5: 50 tokens por segundo de rendimiento, la mitad del costo de Lightning
M2.5-Lightning: 100 tokens por segundo, optimizado para la velocidad

Ambas versiones admiten el almacenamiento en caché de contexto y son funcionalmente idénticas en capacidad, diferenciándose solo en velocidad y precio.

Especificaciones clave de un vistazo

Especificación	Valor
Fecha de lanzamiento	12 de febrero de 2026
SWE-Bench Verified	80.2%
Multi-SWE-Bench	51.3%
BrowseComp	76.3%
Rendimiento (Estándar)	50 TPS
Rendimiento (Lightning)	100 TPS
Precio de entrada	$0.30 por millón de tokens
Precio de salida	$2.40 por millón de tokens

Capacidades de codificación

Si hay un área donde MiniMax M2.5 muestra su mayor fuerza, es en la codificación. El modelo logra un 80.2% en SWE-Bench Verified, un benchmark que prueba la capacidad de resolver problemas reales de GitHub, una cifra que lo sitúa firmemente en el territorio del estado del arte.

Gráfico de rendimiento de codificación de M2.5 frente a otros modelos

Pero los puntajes brutos de los benchmarks no cuentan toda la historia. Lo que hace que M2.5 sea particularmente interesante para los desarrolladores es su capacidad de pensamiento arquitectónico. Durante el entrenamiento, el modelo desarrolló lo que MiniMax describe como una "tendencia a la escritura de especificaciones": antes de escribir cualquier código, M2.5 descompone y planifica activamente las características, la estructura y el diseño de la interfaz de usuario desde la perspectiva de un arquitecto de software experimentado.

Excelencia en programación multilingüe

M2.5 fue entrenado en más de 10 lenguajes de programación en más de 200,000 entornos del mundo real:

Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart y Ruby

Esto no es solo para corregir errores. El modelo maneja todo el ciclo de desarrollo:

0 a 1: Diseño del sistema y configuración del entorno
1 a 10: Desarrollo del sistema
10 a 90: Iteración de características
90 a 100: Revisión integral del código y pruebas del sistema

Desarrollo full-stack multiplataforma

A diferencia de muchos asistentes de codificación que se centran principalmente en demostraciones de frontend, M2.5 aborda proyectos full-stack en múltiples plataformas: Web, Android, iOS y Windows. Maneja API del lado del servidor, lógica de negocios, bases de datos y arquitecturas de sistemas complejas, no solo componentes de páginas web.

Rendimiento de referencia frente a la competencia

MiniMax probó M2.5 en diferentes entornos de agentes de codificación para evaluar la generalización en entornos fuera de distribución:

Marco	M2.5	Opus 4.6
Droid	79.7%	78.9%
OpenCode	76.1%	75.9%

M2.5 supera a Claude Opus 4.6 en ambos marcos de agentes populares, lo que sugiere sólidas capacidades de generalización.

Al construir aplicaciones impulsadas por IA con M2.5, deberá probar las API que conectan su aplicación con el modelo. Apidog le permite crear escenarios de prueba que validan el manejo de solicitudes/respuestas, los flujos de autenticación y el manejo de errores, esenciales para las aplicaciones de IA en producción.

Uso de herramientas por agentes y búsqueda

La IA moderna no se trata solo de responder preguntas, se trata de tomar acción. M2.5 demuestra sólidas capacidades de agente, particularmente en la llamada a herramientas y la búsqueda autónoma.

BrowseComp y Búsqueda Amplia

En benchmarks como BrowseComp y Wide Search, M2.5 logra un rendimiento líder en la industria. Pero, lo que es más importante, MiniMax construyó RISE (Evaluación de Búsqueda Interactiva Realista) para probar tareas de búsqueda profesional del mundo real, el tipo que requiere una exploración profunda a través de páginas web densas en información, no solo consultas de búsqueda simples.

Toma de decisiones eficiente

Quizás el aspecto más impresionante de las capacidades de agente de M2.5 es su eficiencia. En múltiples tareas de agente, incluyendo BrowseComp, Wide Search y RISE, M2.5 logró mejores resultados con aproximadamente un 20% menos de rondas de razonamiento en comparación con M2.1. Esto indica que el modelo no solo obtiene la respuesta correcta, sino que encuentra caminos eficientes para llegar a ella.

Esto tiene implicaciones prácticas: menos llamadas a la API, menores costos y una finalización de tareas más rápida al implementar M2.5 como un agente autónomo.

Características de productividad de oficina

La codificación no es la única área donde M2.5 sobresale. MiniMax diseñó específicamente el modelo para la productividad de oficina en el mundo real, colaborando con profesionales sénior en finanzas, derecho y ciencias sociales para entrenar el modelo en resultados genuinamente entregables.

Dominio de Word, PowerPoint y Excel

M2.5 demuestra mejoras significativas en la capacidad en escenarios de espacio de trabajo de alto valor:

Word: Creación, formato de documentos y escritura profesional
PowerPoint: Diseño de presentaciones y generación de diapositivas
Excel: Modelado financiero y operaciones complejas de hojas de cálculo

MiniMax construyó un marco de evaluación interno llamado GDPval-MM que evalúa tanto la calidad de la salida como la profesionalidad de la trayectoria completa del flujo de trabajo del agente. En comparaciones directas con otros modelos principales, M2.5 logró una tasa de victoria promedio del 59.0%.

Especialización en modelado financiero

El modelo fue entrenado específicamente en problemas de modelado financiero construidos por expertos de la industria. Estos implican tareas de investigación y análisis de principio a fin realizadas a través de herramientas de Excel, calificadas utilizando rúbricas diseñadas por expertos. Para los profesionales de las finanzas, esto podría representar un salto significativo en la productividad.

Rendimiento y velocidad

La velocidad importa en las implementaciones del mundo real. Un modelo que es más inteligente pero más lento a menudo proporciona una peor experiencia de usuario que una alternativa ligeramente menos capaz pero más rápida.

Velocidad de generación de tokens

M2.5 se sirve de forma nativa a 100 tokens por segundo para la variante Lightning, casi el doble de rápido que otros modelos de vanguardia. Esta ventaja de rendimiento nativo se acumula significativamente al manejar tareas de agente de larga duración.

Comparación del tiempo de ejecución de SWE-Bench

Métrica	M2.1	M2.5	Opus 4.6
Tokens promedio/tarea	3.72M	3.52M	-
Tiempo de ejecución promedio	31.3 min	22.8 min	22.9 min
Mejora de velocidad	-	-37%	-

M2.5 completa la evaluación SWE-Bench Verified un 37% más rápido que M2.1, igualando el tiempo de ejecución de Claude Opus 4.6 mientras utiliza solo 3.52 millones de tokens por tarea (en comparación con los 3.72M de M2.1).

Precios y eficiencia de costos

Aquí es donde M2.5 se vuelve verdaderamente disruptivo. MiniMax ha posicionado el modelo como la primera IA de frontera donde los usuarios "no necesitan preocuparse por el costo".

Estructura de precios

Modelo	Rendimiento	Precio de entrada	Precio de salida
M2.5	50 TPS	$0.30/millón de tokens	$2.40/millón de tokens
M2.5-Lightning	100 TPS	$0.60/millón de tokens	$4.80/millón de tokens

Comparaciones de costos

Con un rendimiento de salida completo:

$1 por hora a 100 TPS (Lightning)
$0.30 por hora a 50 TPS (estándar)

Esto se traduce en aproximadamente una décima a una vigésima parte del costo de Opus, Gemini 3 Pro y GPT-5 basado en el precio de salida.

Ejemplo de costo en el mundo real

Ejecutar M2.5 continuamente durante una hora cuesta solo $1 a máxima velocidad. A 50 TPS, eso baja a $0.30. Para contextualizar, podrías ejecutar cuatro instancias de M2.5 continuamente durante un año entero por $10,000.

Para las empresas que implementan agentes de IA a escala, este precio cambia fundamentalmente la economía. Las tareas que eran prohibitivamente caras se vuelven viables. Los proyectos experimentales que habrían agotado las limitaciones presupuestarias se convierten en exploraciones asequibles.

Arquitectura técnica

Aprendizaje por refuerzo a escala

Un factor clave de las capacidades de M2.5 es la escalada del aprendizaje por refuerzo. MiniMax convirtió la mayoría de las tareas y espacios de trabajo de la empresa en entornos de entrenamiento, cientos de miles de escenarios del mundo real donde el modelo aprende por ensayo y error.

Forge: Marco de RL nativo para agentes

MiniMax desarrolló Forge, un marco de RL nativo para agentes interno que introduce una capa intermedia que desacopla completamente el motor de entrenamiento-inferencia subyacente del agente. Esto permite la integración de agentes arbitrarios y la optimización en diferentes estructuras de agentes y herramientas.

Diagrama de arquitectura del marco Forge

Las optimizaciones clave incluyen:

Estrategias de programación asíncrona que equilibran el rendimiento con la desviación de la política de muestreo
Estrategia de fusión de muestras de entrenamiento con estructura de árbol
Se logró una aceleración de entrenamiento de aproximadamente 40x

Algoritmo CISPO

Para la estabilidad algorítmica durante el entrenamiento MoE (Mixture of Experts) a gran escala, M2.5 continúa utilizando el algoritmo CISPO que MiniMax propuso a principios de 2025. Para abordar los desafíos de asignación de crédito en contextos largos, introdujeron un mecanismo de recompensa de proceso para el monitoreo de extremo a extremo de la calidad de la generación.

Escala del entorno de entrenamiento

Según los números:

Cientos de miles de entornos de entrenamiento del mundo real
Más de 10 lenguajes de programación
Más de 200,000 entornos de código
Tareas que abarcan el desarrollo web, Android, iOS y Windows

Integración del Agente MiniMax

M2.5 no es solo una API, ya está impulsando los propios productos de MiniMax.

Integración de Habilidades de Oficina

MiniMax destiló las capacidades básicas de procesamiento de información en Habilidades de Oficina estandarizadas profundamente integradas en MiniMax Agent. En el modo MAX, al manejar el formato de Word, la edición de PowerPoint y los cálculos de Excel, el Agente carga automáticamente las Habilidades de Oficina correspondientes según el tipo de archivo.

Creación de Expertos

Los usuarios pueden combinar las Habilidades de Oficina con la experiencia específica de la industria para crear Expertos reutilizables para escenarios de tareas específicos. Por ejemplo:

Investigación de la industria: Fusionar un SOP de marco de investigación con Habilidades de Word para recuperar datos automáticamente, organizar la lógica y generar informes formateados
Modelado financiero: Combinar estándares de modelado propietarios con Habilidades de Excel para seguir lógicas de control de riesgos y estándares de cálculo específicos

Métricas de adopción

Más de 10,000 Expertos creados en MiniMax Agent
El 30% de las tareas generales de MiniMax completadas de forma autónoma por M2.5
El 80% del código recién enviado en MiniMax es generado por M2.5

Esto no es una capacidad teórica, es tecnología endurecida por la producción.

Cómo se compara M2.5 con sus competidores

Frente a Claude Opus 4.6

Métrica	M2.5	Opus 4.6
SWE-Bench Verified	80.2%	~77%
Marco Droid	79.7%	78.9%
Marco OpenCode	76.1%	75.9%
Tiempo de ejecución en SWE-Bench	22.8 min	22.9 min
Costo/tarea	~$1.50	~$15+

M2.5 iguala o supera a Opus 4.6 en los benchmarks de codificación mientras cuesta aproximadamente un 10% por tarea.

Frente a GPT-5

Costo significativamente menor (1/10 a 1/20 del precio)
Benchmarks de codificación competitivos
Funciones nativas de productividad de oficina
Mayor velocidad de inferencia (100 TPS frente a los típicos 30-50 TPS)

Frente a Gemini 3 Pro

Precios mucho más bajos
Puntuaciones más altas en SWE-Bench
Mejor integración de productividad de oficina
Enfoque de escalado de RL más agresivo

Conclusión

MiniMax M2.5 representa un verdadero cambio de paradigma en el panorama de la IA. Por primera vez, tenemos un modelo de vanguardia que combina una capacidad de última generación con un precio que permite una implementación ilimitada.

Los puntos clave:

Rendimiento de codificación de primer nivel (80.2% en SWE-Bench, superando a Opus 4.6 en múltiples marcos)
Eficiencia agéntica (20% menos de rondas de razonamiento, 37% más rápido que M2.1)
Productividad de oficina (59% de tasa de victorias frente a competidores en tareas de oficina del mundo real)
Precios imbatibles ($0.30-$1/hora, 1/10 a 1/20 de los competidores)
Listo para producción (ya impulsa los propios productos de MiniMax, generando el 80% del código de la empresa)

La pregunta no es si vale la pena probar M2.5, sino si puedes permitirte no hacerlo.

¿Listo para construir y probar APIs impulsadas por IA? Descarga Apidog gratis y crea suites de pruebas completas para tus integraciones MiniMax. Importa tus colecciones Postman existentes con un solo clic y comienza a probar en minutos.

botón

Preguntas Frecuentes (FAQ)

¿Qué es MiniMax M2.5?

MiniMax M2.5 es un modelo de IA de vanguardia lanzado en febrero de 2026 que logra un rendimiento de última generación en codificación, tareas de agente y productividad de oficina. Destaca por su combinación de benchmarks de primer nivel y precios extremadamente bajos.

¿Cómo se compara MiniMax M2.5 con Claude Opus 4.6?

M2.5 iguala o supera a Claude Opus 4.6 en la mayoría de los benchmarks de codificación (80.2% frente a ~77% en SWE-Bench Verified) mientras cuesta aproximadamente un 90% menos por tarea. Iguala la velocidad de ejecución de Opus 4.6 (22.8 frente a 22.9 minutos en SWE-Bench).

¿Cuál es el precio de MiniMax M2.5?

M2.5 cuesta $0.30 por millón de tokens de entrada y $2.40 por millón de tokens de salida (a 50 TPS). A pleno rendimiento, ejecutar M2.5 continuamente durante una hora cuesta solo $0.30-$1.00, dependiendo de la variante.

¿Qué lenguajes de programación soporta M2.5?

M2.5 fue entrenado en más de 10 lenguajes, incluyendo Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart y Ruby, en más de 200,000 entornos del mundo real.

¿Es MiniMax M2.5 bueno para el trabajo de oficina?

Sí. M2.5 fue específicamente entrenado para tareas de productividad de oficina, incluyendo Word, PowerPoint y modelado financiero en Excel. Logró una tasa de victoria del 59% frente a otros modelos principales en tareas de oficina en las evaluaciones internas de MiniMax.

¿Puedo usar MiniMax M2.5 a través de API?

Sí. MiniMax proporciona acceso a la API a través de su plataforma en minimax.io. La API soporta tanto la variante estándar M2.5 (50 TPS) como M2.5-Lightning (100 TPS).

¿Qué hace especial a MiniMax M2.5?

M2.5 es el primer "modelo de frontera" donde el costo es lo suficientemente bajo como para que los usuarios no necesiten preocuparse por él; la compañía afirma que es "inteligencia demasiado barata para medir". Combinado con benchmarks de codificación de primer nivel y capacidades de agente, esto lo hace viable para la implementación de agentes a gran escala.

¿Qué tan rápido es MiniMax M2.5?

M2.5-Lightning genera a 100 tokens por segundo, casi el doble de rápido que otros modelos de frontera. Incluso el M2.5 estándar funciona a 50 TPS. En las tareas de SWE-Bench, completa las evaluaciones un 37% más rápido que M2.1.