MiniMax M2.5: Qu'est-ce que c'est ?

En bref

MiniMax M2.5 est un modèle d'IA de pointe, lancé le 12 février 2026, qui atteint des performances de pointe en codage (80,2 % sur SWE-Bench Verified), en utilisation d'outils d'agent et en tâches de productivité bureautique. Avec un coût de seulement 0,30 $ par heure pour un débit de 50 jetons/seconde, son prix représente un dixième à un vingtième de celui de concurrents comme Claude Opus 4.6 et GPT-5, ce qui en fait le premier modèle de pointe où l'« intelligence est trop bon marché pour être mesurée ». Le modèle accomplit des tâches de codage complexes 37 % plus rapidement que son prédécesseur, égalant la vitesse de Claude Opus 4.6 tout en coûtant 90 % moins cher par tâche.

Introduction

MiniMax vient de présenter M2.5, un modèle de pointe qui remet en question tout ce que nous pensions savoir sur le compromis coût-performance dans les grands modèles linguistiques. L'annonce officielle fournit tous les détails techniques. Avec un score de 80,2 % sur SWE-Bench Verified – la référence absolue pour les capacités de codage – M2.5 n'est pas seulement compétitif avec les modèles de haut niveau comme Claude Opus 4.6 et GPT-5. Sur de nombreuses métriques, il les surpasse.

Mais voici ce qui rend cette annonce véritablement révolutionnaire : sa tarification. À 0,30 $ par heure pour fonctionner en continu à 50 jetons par seconde, ou seulement 1 $ par heure à 100 jetons par seconde, MiniMax affirme que M2.5 offre une « intelligence trop bon marché pour être mesurée ». Pour les développeurs et les entreprises, la barrière au déploiement d'agents d'IA sophistiqués vient de s'effondrer.

💡

Lorsque vous développez des applications qui s'intègrent à des modèles d'IA comme MiniMax M2.5, vous devrez tester minutieusement vos intégrations d'API. Apidog fournit une plateforme complète de test d'API qui prend en charge les points de terminaison HTTP, WebSocket et GraphQL, ce qui est parfait pour valider les applications basées sur l'IA.

Qu'est-ce que MiniMax M2.5 ?

MiniMax M2.5 est le dernier modèle phare de la société chinoise d'IA MiniMax, représentant la troisième itération de la série M2 de l'entreprise, publiée en seulement trois mois et demi (M2 fin octobre, M2.1 fin 2025 et M2.5 en février 2026).

Ce qui distingue M2.5, c'est son accent sur la productivité dans le monde réel plutôt que sur les seules performances des benchmarks. Entraîné de manière intensive avec l'apprentissage par renforcement à travers des centaines de milliers d'environnements complexes du monde réel, M2.5 est conçu pour gérer des tâches économiquement précieuses auxquelles les développeurs et les travailleurs du savoir sont confrontés quotidiennement.

Le modèle est disponible en deux variantes :

M2.5 : débit de 50 jetons par seconde, la moitié du coût de Lightning
M2.5-Lightning : 100 jetons par seconde, optimisé pour la vitesse

Les deux versions prennent en charge la mise en cache contextuelle et sont fonctionnellement identiques en termes de capacités, ne différant que par la vitesse et la tarification.

Spécifications clés en un coup d'œil

Spécification	Valeur
Date de sortie	12 février 2026
SWE-Bench Verified	80,2 %
Multi-SWE-Bench	51,3 %
BrowseComp	76,3 %
Débit (Standard)	50 TPS
Débit (Lightning)	100 TPS
Prix d'entrée	0,30 $ par million de jetons
Prix de sortie	2,40 $ par million de jetons

Capacités de codage

S'il y a un domaine où MiniMax M2.5 montre ses muscles de la manière la plus spectaculaire, c'est bien le codage. Le modèle atteint 80,2 % sur SWE-Bench Verified – un benchmark qui teste la capacité à résoudre des problèmes GitHub du monde réel – un chiffre qui le place fermement dans le territoire de l'état de l'art.

Mais les scores bruts des benchmarks ne racontent pas toute l'histoire. Ce qui rend M2.5 particulièrement intéressant pour les développeurs est sa capacité de réflexion architecturale. Pendant l'entraînement, le modèle a développé ce que MiniMax décrit comme une « tendance à la rédaction de spécifications » – avant d'écrire tout code, M2.5 décompose et planifie activement les fonctionnalités, la structure et la conception de l'interface utilisateur du point de vue d'un architecte logiciel expérimenté.

Excellence en programmation multilingue

M2.5 a été entraîné sur plus de 10 langages de programmation à travers plus de 200 000 environnements réels :

Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart et Ruby

Il ne s'agit pas seulement de corriger des bugs. Le modèle gère l'ensemble du cycle de vie du développement :

0 à 1 : Conception du système et configuration de l'environnement
1 à 10 : Développement du système
10 à 90 : Itération des fonctionnalités
90 à 100 : Révision complète du code et tests système

Développement Full-Stack Multiplateforme

Contrairement à de nombreux assistants de codage qui se concentrent principalement sur les démonstrations frontend, M2.5 s'attaque aux projets full-stack sur plusieurs plateformes : Web, Android, iOS et Windows. Il gère les API côté serveur, la logique métier, les bases de données et l'architecture système complexe – pas seulement les composants de pages web.

Performances des benchmarks par rapport à la concurrence

MiniMax a testé M2.5 sur différentes architectures d'agents de codage pour évaluer la généralisation à travers des environnements hors distribution :

Architecture	M2.5	Opus 4.6
Droid	79,7 %	78,9 %
OpenCode	76,1 %	75,9 %

M2.5 devance Claude Opus 4.6 sur les deux architectures d'agents populaires, suggérant de fortes capacités de généralisation.

Lorsque vous développez des applications basées sur l'IA avec M2.5, vous devrez tester les API qui connectent votre application au modèle. Apidog vous permet de créer des scénarios de test qui valident la gestion des requêtes/réponses, les flux d'authentification et la gestion des erreurs, ce qui est essentiel pour les applications d'IA en production.

Utilisation d'outils d'agent et recherche

L'IA moderne ne consiste pas seulement à répondre à des questions, mais à agir. M2.5 démontre de fortes capacités d'agent, notamment en matière d'appel d'outils et de recherche autonome.

BrowseComp et recherche étendue

Sur des benchmarks comme BrowseComp et Wide Search, M2.5 atteint des performances de pointe. Mais plus important encore, MiniMax a construit RISE (Realistic Interactive Search Evaluation) pour tester les tâches de recherche professionnelles du monde réel, celles qui nécessitent une exploration approfondie de pages web riches en informations, et pas seulement de simples requêtes de recherche.

Prise de décision efficace

L'aspect peut-être le plus impressionnant des capacités d'agent de M2.5 est son efficacité. Sur plusieurs tâches d'agent, y compris BrowseComp, Wide Search et RISE, M2.5 a obtenu de meilleurs résultats avec environ 20 % de cycles de raisonnement en moins par rapport à M2.1. Cela indique que le modèle ne se contente pas de trouver la bonne réponse, il trouve des chemins efficaces pour y parvenir.

Cela a des implications pratiques : moins d'appels API, des coûts réduits et une exécution des tâches plus rapide lors du déploiement de M2.5 en tant qu'agent autonome.

Fonctionnalités de productivité bureautique

Le codage n'est pas le seul domaine où M2.5 excelle. MiniMax a spécifiquement conçu le modèle pour la productivité bureautique réelle, en collaborant avec des professionnels seniors de la finance, du droit et des sciences sociales pour entraîner le modèle sur des résultats véritablement exploitables.

Maîtrise de Word, PowerPoint et Excel

M2.5 démontre des améliorations significatives de ses capacités dans les scénarios d'espace de travail à forte valeur ajoutée :

Word : Création de documents, mise en forme et rédaction professionnelle
PowerPoint : Conception de présentations et génération de diapositives
Excel : Modélisation financière et opérations complexes sur tableurs

MiniMax a construit un cadre d'évaluation interne appelé GDPval-MM qui évalue à la fois la qualité de la production et le professionnalisme de l'ensemble de la trajectoire de travail de l'agent. Lors de comparaisons directes avec d'autres modèles grand public, M2.5 a atteint un taux de victoire moyen de 59,0 %.

Spécialisation en modélisation financière

Le modèle a été spécifiquement entraîné sur des problèmes de modélisation financière construits par des experts de l'industrie. Ceux-ci impliquent des tâches de recherche et d'analyse de bout en bout effectuées via des outils Excel, notées à l'aide de rubriques conçues par des experts. Pour les professionnels de la finance, cela pourrait représenter un bond significatif en termes de productivité.

Performances et vitesse

La vitesse est cruciale dans les déploiements réels. Un modèle plus intelligent mais plus lent offre souvent une moins bonne expérience utilisateur qu'une alternative légèrement moins performante mais plus rapide.

Vitesse de génération de jetons

M2.5 est servi nativement à 100 jetons par seconde pour la variante Lightning, soit près de deux fois plus vite que les autres modèles de pointe. Cet avantage de débit natif se multiplie considérablement lors de la gestion de tâches d'agent de longue durée.

Comparaison du temps d'exécution de SWE-Bench

Métrique	M2.1	M2.5	Opus 4.6
Jetons moyens/tâche	3,72M	3,52M	-
Temps d'exécution moyen	31,3 min	22,8 min	22,9 min
Amélioration de la vitesse	-	-37 %	-

M2.5 achève l'évaluation SWE-Bench Verified 37 % plus rapidement que M2.1, égalant le temps d'exécution de Claude Opus 4.6 tout en utilisant seulement 3,52 millions de jetons par tâche (comparé aux 3,72 millions de M2.1).

Tarification et efficacité des coûts

C'est ici que M2.5 devient véritablement disruptif. MiniMax a positionné le modèle comme la première IA de pointe où les utilisateurs « n'ont pas à se soucier du coût ».

Structure tarifaire

Modèle	Débit	Prix d'entrée	Prix de sortie
M2.5	50 TPS	0,30 $/million de jetons	2,40 $/million de jetons
M2.5-Lightning	100 TPS	0,60 $/million de jetons	4,80 $/million de jetons

Comparaisons de coûts

À plein débit de sortie :

1 $ par heure à 100 TPS (Lightning)
0,30 $ par heure à 50 TPS (standard)

Cela représente environ un dixième à un vingtième du coût d'Opus, Gemini 3 Pro et GPT-5, basé sur la tarification de sortie.

Exemple de coût réel

Faire fonctionner M2.5 en continu pendant une heure coûte seulement 1 $ à pleine vitesse. À 50 TPS, ce coût tombe à 0,30 $. Pour situer, vous pourriez faire fonctionner quatre instances M2.5 en continu pendant une année entière pour 10 000 $.

Pour les entreprises qui déploient des agents d'IA à grande échelle, cette tarification modifie fondamentalement l'économie. Des tâches qui étaient prohibitivement chères deviennent réalisables. Les projets expérimentaux qui auraient dépassé les contraintes budgétaires deviennent des explorations abordables.

Architecture technique

Apprentissage par renforcement à grande échelle

Un moteur clé des capacités de M2.5 est la mise à l'échelle de l'apprentissage par renforcement. MiniMax a converti la plupart des tâches et des espaces de travail de l'entreprise en environnements d'entraînement – des centaines de milliers de scénarios réels où le modèle apprend par essais et erreurs.

Forge : Cadre RL natif pour agents

MiniMax a développé Forge, un cadre RL natif pour agents en interne qui introduit une couche intermédiaire découplant entièrement le moteur d'entraînement-inférence sous-jacent de l'agent. Cela permet l'intégration d'agents arbitraires et l'optimisation à travers différentes architectures d'agents et outils.

Les optimisations clés incluent :

Des stratégies de planification asynchrones équilibrant le débit par rapport à la non-conformité des échantillons
Une stratégie de fusion des échantillons d'entraînement structurée en arbre
Une accélération de l'entraînement d'environ 40x a été atteinte

Algorithme CISPO

Pour la stabilité algorithmique lors de l'entraînement MoE (Mixture of Experts) à grande échelle, M2.5 continue d'utiliser l'algorithme CISPO que MiniMax a proposé début 2025. Pour relever les défis d'attribution de crédit dans les contextes longs, ils ont introduit un mécanisme de récompense de processus pour un suivi de bout en bout de la qualité de génération.

Échelle de l'environnement d'entraînement

En chiffres :

Des centaines de milliers d'environnements d'entraînement réels
Plus de 10 langages de programmation
Plus de 200 000 environnements de code
Des tâches couvrant le développement web, Android, iOS et Windows

Intégration de l'agent MiniMax

M2.5 n'est pas seulement une API, il alimente déjà les propres produits de MiniMax.

Intégration des compétences bureautiques

MiniMax a condensé les capacités essentielles de traitement de l'information en compétences bureautiques standardisées profondément intégrées à l'Agent MiniMax. En mode MAX, lors de la gestion du formatage Word, de l'édition PowerPoint et des calculs Excel, l'Agent charge automatiquement les compétences bureautiques correspondantes en fonction du type de fichier.

Création d'experts

Les utilisateurs peuvent combiner les compétences bureautiques avec l'expertise sectorielle spécifique à un domaine pour créer des Experts réutilisables pour des scénarios de tâches spécifiques. Par exemple :

Recherche sectorielle : Fusionner un SOP de cadre de recherche avec les compétences Word pour récupérer automatiquement les données, organiser la logique et produire des rapports formatés
Modélisation financière : Combiner des normes de modélisation propriétaires avec les compétences Excel pour suivre une logique de contrôle des risques et des normes de calcul spécifiques

Statistiques d'adoption

Plus de 10 000 Experts créés sur MiniMax Agent
30 % des tâches globales de MiniMax accomplies de manière autonome par M2.5
80 % du nouveau code commis chez MiniMax est généré par M2.5

Il ne s'agit pas d'une capacité théorique, mais d'une technologie éprouvée en production.

Comparaison de M2.5 avec ses concurrents

vs Claude Opus 4.6

Métrique	M2.5	Opus 4.6
SWE-Bench Verified	80,2 %	~77 %
Architecture Droid	79,7 %	78,9 %
Architecture OpenCode	76,1 %	75,9 %
Temps d'exécution sur SWE-Bench	22,8 min	22,9 min
Coût/tâche	~1,50 $	~15 $+

M2.5 égale ou dépasse Opus 4.6 sur les benchmarks de codage tout en coûtant environ 10 % par tâche.

vs GPT-5

Coût significativement plus bas (1/10e à 1/20e du prix)
Benchmarks de codage compétitifs
Fonctionnalités natives de productivité bureautique
Vitesse d'inférence plus rapide (100 TPS contre 30-50 TPS typiques)

vs Gemini 3 Pro

Tarification beaucoup plus basse
Scores SWE-Bench plus élevés
Meilleure intégration de la productivité bureautique
Approche de mise à l'échelle RL plus agressive

Conclusion

MiniMax M2.5 représente un véritable changement de paradigme dans le paysage de l'IA. Pour la première fois, nous disposons d'un modèle de pointe qui combine des capacités de pointe avec une tarification permettant un déploiement illimité.

Les points clés à retenir :

Performances de codage de premier ordre (80,2 % sur SWE-Bench, surpassant Opus 4.6 sur plusieurs architectures)
Efficacité d'agent (20 % de cycles de raisonnement en moins, 37 % plus rapide que M2.1)
Productivité bureautique (taux de victoire de 59 % contre les concurrents sur des tâches bureautiques réelles)
Tarification imbattable (0,30 $ à 1 $/heure, 1/10e à 1/20e du prix des concurrents)
Prêt pour la production (alimente déjà les propres produits de MiniMax, générant 80 % du code de l'entreprise)

La question n'est pas de savoir si M2.5 vaut la peine d'être essayé, mais si vous pouvez vous permettre de ne pas le faire.

Prêt à construire et tester des API basées sur l'IA ? Téléchargez Apidog gratuitement et créez des suites de tests complètes pour vos intégrations MiniMax. Importez vos collections Postman existantes en un clic et commencez à tester en quelques minutes.

button

FAQ

Qu'est-ce que MiniMax M2.5 ?

MiniMax M2.5 est un modèle d'IA de pointe lancé en février 2026 qui atteint des performances de pointe en codage, en tâches d'agent et en productivité bureautique. Il est remarquable par sa combinaison de benchmarks de premier ordre et de sa tarification extrêmement basse.

Comment MiniMax M2.5 se compare-t-il à Claude Opus 4.6 ?

M2.5 égale ou dépasse Claude Opus 4.6 sur la plupart des benchmarks de codage (80,2 % contre ~77 % sur SWE-Bench Verified) tout en coûtant environ 90 % moins cher par tâche. Il égale la vitesse d'exécution d'Opus 4.6 (22,8 contre 22,9 minutes sur SWE-Bench).

Quelle est la tarification de MiniMax M2.5 ?

M2.5 coûte 0,30 $ par million de jetons d'entrée et 2,40 $ par million de jetons de sortie (à 50 TPS). À plein débit, faire fonctionner M2.5 en continu pendant une heure coûte seulement 0,30 $ à 1,00 $, selon la variante.

Quels langages de programmation M2.5 prend-il en charge ?

M2.5 a été entraîné sur plus de 10 langages, dont Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart et Ruby, à travers plus de 200 000 environnements réels.

MiniMax M2.5 est-il adapté au travail de bureau ?

Oui. M2.5 a été spécifiquement entraîné pour les tâches de productivité bureautique, y compris Word, PowerPoint et la modélisation financière Excel. Il a obtenu un taux de victoire de 59 % contre d'autres modèles grand public sur les tâches de bureau lors des évaluations internes de MiniMax.

Puis-je utiliser MiniMax M2.5 via une API ?

Oui. MiniMax fournit un accès API via sa plateforme minimax.io. L'API prend en charge les variantes standard M2.5 (50 TPS) et M2.5-Lightning (100 TPS).

Qu'est-ce qui rend MiniMax M2.5 spécial ?

M2.5 est le premier « modèle de pointe » dont le coût est si bas que les utilisateurs n'ont pas à s'en soucier – l'entreprise affirme que c'est une « intelligence trop bon marché pour être mesurée ». Combiné à des benchmarks de codage de premier ordre et à des capacités d'agent, cela le rend viable pour un déploiement d'agents à grande échelle.

Quelle est la vitesse de MiniMax M2.5 ?

M2.5-Lightning génère à 100 jetons par seconde – près de deux fois plus vite que les autres modèles de pointe. Même le M2.5 standard fonctionne à 50 TPS. Sur les tâches SWE-Bench, il complète les évaluations 37 % plus rapidement que M2.1.