TL;DR
MiniMax M2.5 ist ein bahnbrechendes KI-Modell, das am 12. Februar 2026 veröffentlicht wurde und Spitzenleistungen in den Bereichen Programmierung (80,2 % auf SWE-Bench Verified), agentischer Werkzeugnutzung und Büroproduktivitätsaufgaben erzielt. Mit nur 0,30 $ pro Stunde bei einem Durchsatz von 50 Tokens/Sekunde ist es ein Zehntel bis Zwanzigstel so teuer wie Konkurrenten wie Claude Opus 4.6 und GPT-5, was es zum ersten bahnbrechenden Modell macht, dessen "Intelligenz zu billig ist, um sie zu messen". Das Modell erledigt komplexe Programmieraufgaben 37 % schneller als sein Vorgänger und erreicht dabei die Geschwindigkeit von Claude Opus 4.6, kostet aber 90 % weniger pro Aufgabe.
Einleitung
MiniMax hat soeben M2.5 vorgestellt, ein bahnbrechendes Modell, das alles in Frage stellt, was wir über den Kosten-Leistungs-Kompromiss bei großen Sprachmodellen zu wissen glaubten. Die offizielle Ankündigung enthält alle technischen Details. Mit einem Wert von 80,2 % auf SWE-Bench Verified – dem Goldstandard für Programmierfähigkeiten – ist M2.5 nicht nur mit Top-Modellen wie Claude Opus 4.6 und GPT-5 konkurrenzfähig. In vielen Metriken übertrifft es sie.
Aber hier ist, was diese Ankündigung wirklich disruptiv macht: die Preise. Mit 0,30 $ pro Stunde für den kontinuierlichen Betrieb bei 50 Tokens pro Sekunde, oder nur 1 $ pro Stunde bei 100 Tokens pro Sekunde, beansprucht MiniMax, dass M2.5 "Intelligenz liefert, die zu billig ist, um sie zu messen". Für Entwickler und Unternehmen ist die Hürde für den Einsatz ausgeklügelter KI-Agenten damit gefallen.
Was ist MiniMax M2.5?
MiniMax M2.5 ist das neueste Flaggschiffmodell des chinesischen KI-Unternehmens MiniMax und stellt die dritte Iteration der M2-Serie dar, die innerhalb von nur dreieinhalb Monaten veröffentlicht wurde (M2 Ende Oktober, M2.1 Ende 2025 und M2.5 im Februar 2026).

Was M2.5 auszeichnet, ist sein Fokus auf reale Produktivität statt nur auf Benchmark-Leistung. Ausgiebig trainiert mit Reinforcement Learning in Hunderttausenden komplexer realer Umgebungen, ist M2.5 darauf ausgelegt, ökonomisch wertvolle Aufgaben zu bewältigen, denen Entwickler und Wissensarbeiter täglich begegnen.

Das Modell ist in zwei Varianten erhältlich:
- M2.5: 50 Tokens pro Sekunde Durchsatz, die Hälfte der Kosten von Lightning
- M2.5-Lightning: 100 Tokens pro Sekunde, optimiert für Geschwindigkeit
Beide Versionen unterstützen Kontext-Caching und sind funktional identisch in ihren Fähigkeiten, unterscheiden sich nur in Geschwindigkeit und Preisgestaltung.
Wichtige Spezifikationen auf einen Blick
| Spezifikation | Wert |
|---|---|
| Veröffentlichungsdatum | 12. Februar 2026 |
| SWE-Bench Verified | 80,2% |
| Multi-SWE-Bench | 51,3% |
| BrowseComp | 76,3% |
| Durchsatz (Standard) | 50 TPS |
| Durchsatz (Lightning) | 100 TPS |
| Eingabepreis | 0,30 $ pro Million Tokens |
| Ausgabepreis | 2,40 $ pro Million Tokens |
Programmierfähigkeiten
Wenn es einen Bereich gibt, in dem MiniMax M2.5 seine Muskeln am dramatischsten spielen lässt, dann ist es die Programmierung. Das Modell erreicht 80,2 % auf SWE-Bench Verified – ein Benchmark, der die Fähigkeit testet, reale GitHub-Probleme zu lösen – eine Zahl, die es fest im Bereich der Spitzenleistung verankert.

Aber reine Benchmark-Ergebnisse erzählen nicht die ganze Geschichte. Was M2.5 für Entwickler besonders interessant macht, ist seine architektonische Denkweise. Während des Trainings entwickelte das Modell das, was MiniMax als "Spezifikations-Schreibtendenz" beschreibt – bevor M2.5 Code schreibt, zerlegt und plant es aktiv Funktionen, Struktur und UI-Design aus der Perspektive eines erfahrenen Softwarearchitekten.
Exzellenz im mehrsprachigen Programmieren
M2.5 wurde in über 10 Programmiersprachen in mehr als 200.000 realen Umgebungen trainiert:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby
Hier geht es nicht nur um die Fehlerbehebung. Das Modell deckt den gesamten Entwicklungslebenszyklus ab:
- 0-zu-1: Systemdesign und Umgebungseinrichtung
- 1-zu-10: Systementwicklung
- 10-zu-90: Feature-Iteration
- 90-zu-100: Umfassende Code-Überprüfung und Systemtests
Cross-Plattform Full-Stack-Entwicklung
Im Gegensatz zu vielen Programmierassistenten, die sich hauptsächlich auf Frontend-Demos konzentrieren, bewältigt M2.5 Full-Stack-Projekte über mehrere Plattformen hinweg: Web, Android, iOS und Windows. Es verwaltet serverseitige APIs, Geschäftslogik, Datenbanken und komplexe Systemarchitekturen – nicht nur Webseitenkomponenten.
Benchmark-Leistung im Vergleich zur Konkurrenz
MiniMax testete M2.5 auf verschiedenen Coding-Agent-Gerüsten, um die Generalisierung über Out-of-Distribution-Umgebungen hinweg zu bewerten:
| Gerüst | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79,7% | 78,9% |
| OpenCode | 76,1% | 75,9% |
M2.5 übertrifft Claude Opus 4.6 auf beiden beliebten Agenten-Gerüsten, was auf starke Generalisierungsfähigkeiten hindeutet.
Beim Erstellen von KI-gestützten Anwendungen mit M2.5 müssen Sie die APIs testen, die Ihre App mit dem Modell verbinden. Apidog ermöglicht es Ihnen, Testszenarien zu erstellen, die die Anforderungs-/Antwortverarbeitung, Authentifizierungsabläufe und Fehlerbehandlung validieren – unerlässlich für KI-Anwendungen in der Produktion.
Agentische Werkzeugnutzung und Suche
Moderne KI geht nicht nur darum, Fragen zu beantworten – es geht darum, Maßnahmen zu ergreifen. M2.5 zeigt starke agentische Fähigkeiten, insbesondere bei der Werkzeugnutzung und autonomen Suche.
BrowseComp und Wide Search
Bei Benchmarks wie BrowseComp und Wide Search erzielt M2.5 branchenführende Leistungen. Noch wichtiger ist jedoch, dass MiniMax RISE (Realistic Interactive Search Evaluation) entwickelt hat, um reale professionelle Suchaufgaben zu testen – solche, die eine tiefgreifende Erkundung informationsdichter Webseiten erfordern, nicht nur einfache Suchanfragen.
Effiziente Entscheidungsfindung
Der vielleicht beeindruckendste Aspekt der agentischen Fähigkeiten von M2.5 ist seine Effizienz. Bei mehreren agentischen Aufgaben, darunter BrowseComp, Wide Search und RISE, erzielte M2.5 bessere Ergebnisse mit etwa 20 % weniger Denkrunden im Vergleich zu M2.1. Dies deutet darauf hin, dass das Modell nicht nur die richtige Antwort findet – es findet auch effiziente Wege dorthin.
Dies hat praktische Implikationen: weniger API-Aufrufe, geringere Kosten und schnellere Aufgabenerledigung beim Einsatz von M2.5 als autonomem Agenten.
Büroproduktivitätsfunktionen
Programmierung ist nicht der einzige Bereich, in dem M2.5 glänzt. MiniMax hat das Modell speziell für die reale Büroproduktivität entwickelt und mit erfahrenen Fachleuten aus den Bereichen Finanzen, Recht und Sozialwissenschaften zusammengearbeitet, um das Modell für wirklich lieferbare Ergebnisse zu trainieren.
Beherrschung von Word, PowerPoint und Excel
M2.5 zeigt signifikante Leistungsverbesserungen in wertvollen Arbeitsszenarien:
- Word: Dokumenterstellung, Formatierung und professionelles Schreiben
- PowerPoint: Präsentationsdesign und Folienerstellung
- Excel: Finanzmodellierung und komplexe Tabellenkalkulationsoperationen
MiniMax entwickelte ein internes Bewertungsframework namens GDPval-MM, das sowohl die Ausgabequalität als auch die Professionalität des gesamten Arbeitsablaufs des Agenten bewertet. In direkten Vergleichen mit anderen Mainstream-Modellen erzielte M2.5 eine durchschnittliche Gewinnrate von 59,0 %.
Spezialisierung auf Finanzmodellierung
Das Modell wurde speziell für Finanzmodellierungsaufgaben trainiert, die von Branchenexperten erstellt wurden. Diese umfassen End-to-End-Recherche- und Analyseaufgaben, die mit Excel-Tools durchgeführt und anhand von Experten entwickelten Rubriken bewertet werden. Für Finanzfachleute könnte dies einen erheblichen Produktivitätssprung bedeuten.
Leistung und Geschwindigkeit
Geschwindigkeit ist entscheidend bei realen Einsätzen. Ein Modell, das intelligenter, aber langsamer ist, bietet oft eine schlechtere Benutzererfahrung als eine etwas weniger leistungsfähige, aber schnellere Alternative.
Token-Generierungsgeschwindigkeit
M2.5 wird nativ mit 100 Tokens pro Sekunde für die Lightning-Variante ausgeliefert – fast doppelt so schnell wie andere bahnbrechende Modelle. Dieser native Durchsatzvorteil verstärkt sich erheblich bei lang laufenden agentischen Aufgaben.
SWE-Bench Laufzeitvergleich
| Metrik | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| Durchschn. Tokens/Aufgabe | 3,72M | 3,52M | - |
| Durchschn. Laufzeit | 31,3 Min. | 22,8 Min. | 22,9 Min. |
| Geschwindigkeitsverbesserung | - | -37% | - |

M2.5 schließt die SWE-Bench Verified Bewertung 37 % schneller ab als M2.1 und erreicht dabei die Laufzeit von Claude Opus 4.6, während es nur 3,52 Millionen Tokens pro Aufgabe verwendet (im Vergleich zu M2.1s 3,72 Millionen).
Preise und Kosteneffizienz
Hier wird M2.5 wirklich disruptiv. MiniMax hat das Modell als die erste bahnbrechende KI positioniert, bei der sich Benutzer "keine Sorgen um die Kosten machen müssen".
Preisstruktur
| Modell | Durchsatz | Eingabepreis | Ausgabepreis |
|---|---|---|---|
| M2.5 | 50 TPS | 0,30 $/Million Tokens | 2,40 $/Million Tokens |
| M2.5-Lightning | 100 TPS | 0,60 $/Million Tokens | 4,80 $/Million Tokens |
Kostenvergleiche
Bei vollem Ausgabedurchsatz:
- 1 $ pro Stunde bei 100 TPS (Lightning)
- 0,30 $ pro Stunde bei 50 TPS (Standard)
Dies entspricht ungefähr einem Zehntel bis einem Zwanzigstel der Kosten von Opus, Gemini 3 Pro und GPT-5, basierend auf den Ausgabepreisen.
Kostenbeispiel aus der Praxis
Der kontinuierliche Betrieb von M2.5 für eine Stunde kostet bei voller Geschwindigkeit nur 1 $. Bei 50 TPS sinkt dieser Preis auf 0,30 $. Zum Vergleich: Sie könnten vier M2.5-Instanzen ein ganzes Jahr lang kontinuierlich für 10.000 $ betreiben.
Für Unternehmen, die KI-Agenten in großem Maßstab einsetzen, ändert diese Preisgestaltung die Wirtschaftlichkeit grundlegend. Aufgaben, die zuvor unerschwinglich waren, werden realisierbar. Experimentelle Projekte, die sonst Budgetbeschränkungen gesprengt hätten, werden zu erschwinglichen Erkundungen.
Technische Architektur
Verstärkendes Lernen im großen Maßstab
Ein wichtiger Treiber der Fähigkeiten von M2.5 ist die Skalierung des Reinforcement Learnings. MiniMax wandelte die meisten Unternehmensaufgaben und Arbeitsbereiche in Trainingsumgebungen um – Hunderttausende realer Szenarien, in denen das Modell durch Versuch und Irrtum lernt.
Forge: Agent-natives RL-Framework
MiniMax entwickelte Forge, ein internes agent-natives RL-Framework, das eine vermittelnde Schicht einführt, die die zugrunde liegende Trainings-Inferenz-Engine vollständig vom Agenten entkoppelt. Dies unterstützt die Integration beliebiger Agenten und ermöglicht die Optimierung über verschiedene Agenten-Gerüste und Tools hinweg.

Wichtige Optimierungen umfassen:
- Asynchrone Planungsstrategien, die den Durchsatz mit der Stichproben-Off-Policy-Abweichung ausgleichen
- Baumstrukturierte Zusammenführungsstrategie für Trainingsstichproben
- Etwa 40-fache Trainingsbeschleunigung erzielt
CISPO-Algorithmus
Für die algorithmische Stabilität während des großskaligen MoE (Mixture of Experts) Trainings verwendet M2.5 weiterhin den CISPO-Algorithmus, den MiniMax Anfang 2025 vorschlug. Um Herausforderungen bei der Kreditzuweisung in langen Kontexten zu bewältigen, führten sie einen Prozessbelohnungsmechanismus zur End-to-End-Überwachung der Generierungsqualität ein.
Umfang der Trainingsumgebung
In Zahlen:
- Hunderttausende realer Trainingsumgebungen
- Über 10 Programmiersprachen
- Über 200.000 Code-Umgebungen
- Aufgaben, die Web-, Android-, iOS- und Windows-Entwicklung umfassen
MiniMax Agent Integration
M2.5 ist nicht nur eine API – es treibt bereits die eigenen Produkte von MiniMax an.
Integration von Office-Fähigkeiten
MiniMax destillierte Kernfunktionen der Informationsverarbeitung in standardisierte Office Skills, die tief in den MiniMax Agent integriert sind. Im MAX-Modus lädt der Agent bei der Bearbeitung von Word-Formatierungen, PowerPoint-Bearbeitungen und Excel-Berechnungen automatisch entsprechende Office Skills basierend auf dem Dateityp.
Experten-Erstellung
Benutzer können Office Skills mit domänenspezifischem Branchen-Know-how kombinieren, um wiederverwendbare Experten für spezifische Aufgabenszenarien zu erstellen. Zum Beispiel:
- Branchenforschung: Eine Forschungsrahmen-SOP mit Word Skills zusammenführen, um Daten automatisch abzurufen, Logik zu organisieren und formatierte Berichte auszugeben
- Finanzmodellierung: Proprietäre Modellierungsstandards mit Excel Skills kombinieren, um spezifische Risikokontrolllogiken und Berechnungsstandards zu befolgen
Nutzungsmetriken
- Über 10.000 Experten wurden auf MiniMax Agent erstellt
- 30 % der gesamten Aufgaben von MiniMax werden autonom von M2.5 erledigt
- 80 % des neu geschriebenen Codes bei MiniMax wird von M2.5 generiert
Dies ist keine theoretische Fähigkeit – es ist produktionsreife Technologie.
Wie M2.5 im Vergleich zur Konkurrenz abschneidet
vs. Claude Opus 4.6
| Metrik | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80,2% | ~77% |
| Droid Gerüst | 79,7% | 78,9% |
| OpenCode Gerüst | 76,1% | 75,9% |
| Laufzeit auf SWE-Bench | 22,8 Min. | 22,9 Min. |
| Kosten/Aufgabe | ~1,50 $ | ~15 $+ |
M2.5 erreicht oder übertrifft Opus 4.6 bei Programmier-Benchmarks, während es pro Aufgabe etwa 10 % kostet.
vs. GPT-5
- Deutlich geringere Kosten (ein Zehntel bis ein Zwanzigstel des Preises)
- Wettbewerbsfähige Programmier-Benchmarks
- Native Office-Produktivitätsfunktionen
- Schnellere Inferenzgeschwindigkeit (100 TPS vs. typische 30-50 TPS)
vs. Gemini 3 Pro
- Viel niedrigere Preise
- Höhere SWE-Bench-Ergebnisse
- Bessere Office-Produktivitätsintegration
- Aggressiverer RL-Skalierungsansatz
Fazit
MiniMax M2.5 stellt einen echten Paradigmenwechsel in der KI-Landschaft dar. Zum ersten Mal haben wir ein bahnbrechendes Modell, das Spitzenleistungen mit einer Preisgestaltung kombiniert, die einen unbegrenzten Einsatz ermöglicht.
Die wichtigsten Erkenntnisse:
- Erstklassige Programmierleistung (80,2 % SWE-Bench, übertrifft Opus 4.6 auf mehreren Gerüsten)
- Agentische Effizienz (20 % weniger Denkrunden, 37 % schneller als M2.1)
- Büroproduktivität (59 % Gewinnrate gegenüber Wettbewerbern bei realen Büroaufgaben)
- Unschlagbare Preise (0,30–1 $/Stunde, ein Zehntel bis ein Zwanzigstel der Konkurrenz)
- Produktionsreif (treibt bereits MiniMax' eigene Produkte an, generiert 80 % des Unternehmenscodes)
Die Frage ist nicht, ob es sich lohnt, M2.5 auszuprobieren – sondern ob Sie es sich leisten können, es nicht zu tun.
Bereit, KI-gestützte APIs zu erstellen und zu testen? Laden Sie Apidog kostenlos herunter und erstellen Sie umfassende Testsuiten für Ihre MiniMax-Integrationen. Importieren Sie Ihre bestehenden Postman-Sammlungen mit einem Klick und beginnen Sie in wenigen Minuten mit dem Testen.
FAQ
Was ist MiniMax M2.5?
MiniMax M2.5 ist ein bahnbrechendes KI-Modell, das im Februar 2026 veröffentlicht wurde und Spitzenleistungen in den Bereichen Programmierung, agentische Aufgaben und Büroproduktivität erzielt. Es zeichnet sich durch die Kombination aus erstklassigen Benchmarks und extrem niedrigen Preisen aus.
Wie schneidet MiniMax M2.5 im Vergleich zu Claude Opus 4.6 ab?
M2.5 erreicht oder übertrifft Claude Opus 4.6 bei den meisten Programmier-Benchmarks (80,2 % gegenüber ca. 77 % auf SWE-Bench Verified), während es pro Aufgabe etwa 90 % weniger kostet. Es erreicht die Laufzeitgeschwindigkeit von Opus 4.6 (22,8 gegenüber 22,9 Minuten auf SWE-Bench).
Wie ist die Preisgestaltung für MiniMax M2.5?
M2.5 kostet 0,30 $ pro Million Eingabe-Tokens und 2,40 $ pro Million Ausgabe-Tokens (bei 50 TPS). Bei vollem Durchsatz kostet der kontinuierliche Betrieb von M2.5 für eine Stunde je nach Variante nur 0,30 $ bis 1,00 $.
Welche Programmiersprachen unterstützt M2.5?
M2.5 wurde in über 10 Sprachen, darunter Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby, in mehr als 200.000 realen Umgebungen trainiert.
Ist MiniMax M2.5 für Büroarbeiten geeignet?
Ja. M2.5 wurde speziell für Büroproduktivitätsaufgaben trainiert, einschließlich Word, PowerPoint und Excel-Finanzmodellierung. Es erzielte in den internen Bewertungen von MiniMax eine Gewinnrate von 59 % gegenüber anderen Mainstream-Modellen bei Büroaufgaben.
Kann ich MiniMax M2.5 über eine API nutzen?
Ja. MiniMax bietet API-Zugriff über seine Plattform unter minimax.io an. Die API unterstützt sowohl die Standardvarianten M2.5 (50 TPS) als auch M2.5-Lightning (100 TPS).
Was macht MiniMax M2.5 besonders?
M2.5 ist das erste "Frontier-Modell", bei dem die Kosten so niedrig sind, dass sich die Benutzer keine Sorgen machen müssen – das Unternehmen behauptet, es sei "Intelligenz, die zu billig ist, um gemessen zu werden". In Kombination mit erstklassigen Programmier-Benchmarks und agentischen Fähigkeiten macht dies es für den groß angelegten Agenteneinsatz praktikabel.
Wie schnell ist MiniMax M2.5?
M2.5-Lightning generiert 100 Tokens pro Sekunde – fast doppelt so schnell wie andere bahnbrechende Modelle. Selbst der Standard M2.5 läuft mit 50 TPS. Bei SWE-Bench-Aufgaben schließt es Bewertungen 37 % schneller ab als M2.1.
