MiniMax M2.5: Was ist das?

TL;DR

MiniMax M2.5 ist ein bahnbrechendes KI-Modell, das am 12. Februar 2026 veröffentlicht wurde und Spitzenleistungen in den Bereichen Programmierung (80,2 % auf SWE-Bench Verified), agentischer Werkzeugnutzung und Büroproduktivitätsaufgaben erzielt. Mit nur 0,30 $ pro Stunde bei einem Durchsatz von 50 Tokens/Sekunde ist es ein Zehntel bis Zwanzigstel so teuer wie Konkurrenten wie Claude Opus 4.6 und GPT-5, was es zum ersten bahnbrechenden Modell macht, dessen "Intelligenz zu billig ist, um sie zu messen". Das Modell erledigt komplexe Programmieraufgaben 37 % schneller als sein Vorgänger und erreicht dabei die Geschwindigkeit von Claude Opus 4.6, kostet aber 90 % weniger pro Aufgabe.

Einleitung

MiniMax hat soeben M2.5 vorgestellt, ein bahnbrechendes Modell, das alles in Frage stellt, was wir über den Kosten-Leistungs-Kompromiss bei großen Sprachmodellen zu wissen glaubten. Die offizielle Ankündigung enthält alle technischen Details. Mit einem Wert von 80,2 % auf SWE-Bench Verified – dem Goldstandard für Programmierfähigkeiten – ist M2.5 nicht nur mit Top-Modellen wie Claude Opus 4.6 und GPT-5 konkurrenzfähig. In vielen Metriken übertrifft es sie.

Aber hier ist, was diese Ankündigung wirklich disruptiv macht: die Preise. Mit 0,30 $ pro Stunde für den kontinuierlichen Betrieb bei 50 Tokens pro Sekunde, oder nur 1 $ pro Stunde bei 100 Tokens pro Sekunde, beansprucht MiniMax, dass M2.5 "Intelligenz liefert, die zu billig ist, um sie zu messen". Für Entwickler und Unternehmen ist die Hürde für den Einsatz ausgeklügelter KI-Agenten damit gefallen.

💡

Beim Erstellen von Anwendungen, die mit KI-Modellen wie MiniMax M2.5 integriert werden, müssen Sie Ihre API-Integrationen gründlich testen. Apidog bietet eine umfassende API-Testplattform, die HTTP-, WebSocket- und GraphQL-Endpunkte unterstützt – perfekt zur Validierung von KI-gestützten Anwendungen.

Was ist MiniMax M2.5?

MiniMax M2.5 ist das neueste Flaggschiffmodell des chinesischen KI-Unternehmens MiniMax und stellt die dritte Iteration der M2-Serie dar, die innerhalb von nur dreieinhalb Monaten veröffentlicht wurde (M2 Ende Oktober, M2.1 Ende 2025 und M2.5 im Februar 2026).

MiniMax M2.5 Vergleich mit älteren Modellen und Mitbewerbern in Bezug auf Genauigkeit und Geschwindigkeit

Was M2.5 auszeichnet, ist sein Fokus auf reale Produktivität statt nur auf Benchmark-Leistung. Ausgiebig trainiert mit Reinforcement Learning in Hunderttausenden komplexer realer Umgebungen, ist M2.5 darauf ausgelegt, ökonomisch wertvolle Aufgaben zu bewältigen, denen Entwickler und Wissensarbeiter täglich begegnen.

Übersicht über die M2.5-Varianten, ihre Geschwindigkeiten und unterstützten Funktionen.

Das Modell ist in zwei Varianten erhältlich:

M2.5: 50 Tokens pro Sekunde Durchsatz, die Hälfte der Kosten von Lightning
M2.5-Lightning: 100 Tokens pro Sekunde, optimiert für Geschwindigkeit

Beide Versionen unterstützen Kontext-Caching und sind funktional identisch in ihren Fähigkeiten, unterscheiden sich nur in Geschwindigkeit und Preisgestaltung.

Wichtige Spezifikationen auf einen Blick

Spezifikation	Wert
Veröffentlichungsdatum	12. Februar 2026
SWE-Bench Verified	80,2%
Multi-SWE-Bench	51,3%
BrowseComp	76,3%
Durchsatz (Standard)	50 TPS
Durchsatz (Lightning)	100 TPS
Eingabepreis	0,30 $ pro Million Tokens
Ausgabepreis	2,40 $ pro Million Tokens

Programmierfähigkeiten

Wenn es einen Bereich gibt, in dem MiniMax M2.5 seine Muskeln am dramatischsten spielen lässt, dann ist es die Programmierung. Das Modell erreicht 80,2 % auf SWE-Bench Verified – ein Benchmark, der die Fähigkeit testet, reale GitHub-Probleme zu lösen – eine Zahl, die es fest im Bereich der Spitzenleistung verankert.

Leistungsvergleich von MiniMax M2.5 mit anderen Modellen bei der Code-Vervollständigung und Fehlerbehebung

Aber reine Benchmark-Ergebnisse erzählen nicht die ganze Geschichte. Was M2.5 für Entwickler besonders interessant macht, ist seine architektonische Denkweise. Während des Trainings entwickelte das Modell das, was MiniMax als "Spezifikations-Schreibtendenz" beschreibt – bevor M2.5 Code schreibt, zerlegt und plant es aktiv Funktionen, Struktur und UI-Design aus der Perspektive eines erfahrenen Softwarearchitekten.

Exzellenz im mehrsprachigen Programmieren

M2.5 wurde in über 10 Programmiersprachen in mehr als 200.000 realen Umgebungen trainiert:

Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby

Hier geht es nicht nur um die Fehlerbehebung. Das Modell deckt den gesamten Entwicklungslebenszyklus ab:

0-zu-1: Systemdesign und Umgebungseinrichtung
1-zu-10: Systementwicklung
10-zu-90: Feature-Iteration
90-zu-100: Umfassende Code-Überprüfung und Systemtests

Cross-Plattform Full-Stack-Entwicklung

Im Gegensatz zu vielen Programmierassistenten, die sich hauptsächlich auf Frontend-Demos konzentrieren, bewältigt M2.5 Full-Stack-Projekte über mehrere Plattformen hinweg: Web, Android, iOS und Windows. Es verwaltet serverseitige APIs, Geschäftslogik, Datenbanken und komplexe Systemarchitekturen – nicht nur Webseitenkomponenten.

Benchmark-Leistung im Vergleich zur Konkurrenz

MiniMax testete M2.5 auf verschiedenen Coding-Agent-Gerüsten, um die Generalisierung über Out-of-Distribution-Umgebungen hinweg zu bewerten:

Gerüst	M2.5	Opus 4.6
Droid	79,7%	78,9%
OpenCode	76,1%	75,9%

M2.5 übertrifft Claude Opus 4.6 auf beiden beliebten Agenten-Gerüsten, was auf starke Generalisierungsfähigkeiten hindeutet.

Beim Erstellen von KI-gestützten Anwendungen mit M2.5 müssen Sie die APIs testen, die Ihre App mit dem Modell verbinden. Apidog ermöglicht es Ihnen, Testszenarien zu erstellen, die die Anforderungs-/Antwortverarbeitung, Authentifizierungsabläufe und Fehlerbehandlung validieren – unerlässlich für KI-Anwendungen in der Produktion.

Agentische Werkzeugnutzung und Suche

Moderne KI geht nicht nur darum, Fragen zu beantworten – es geht darum, Maßnahmen zu ergreifen. M2.5 zeigt starke agentische Fähigkeiten, insbesondere bei der Werkzeugnutzung und autonomen Suche.

BrowseComp und Wide Search

Bei Benchmarks wie BrowseComp und Wide Search erzielt M2.5 branchenführende Leistungen. Noch wichtiger ist jedoch, dass MiniMax RISE (Realistic Interactive Search Evaluation) entwickelt hat, um reale professionelle Suchaufgaben zu testen – solche, die eine tiefgreifende Erkundung informationsdichter Webseiten erfordern, nicht nur einfache Suchanfragen.

Effiziente Entscheidungsfindung

Der vielleicht beeindruckendste Aspekt der agentischen Fähigkeiten von M2.5 ist seine Effizienz. Bei mehreren agentischen Aufgaben, darunter BrowseComp, Wide Search und RISE, erzielte M2.5 bessere Ergebnisse mit etwa 20 % weniger Denkrunden im Vergleich zu M2.1. Dies deutet darauf hin, dass das Modell nicht nur die richtige Antwort findet – es findet auch effiziente Wege dorthin.

Dies hat praktische Implikationen: weniger API-Aufrufe, geringere Kosten und schnellere Aufgabenerledigung beim Einsatz von M2.5 als autonomem Agenten.

Büroproduktivitätsfunktionen

Programmierung ist nicht der einzige Bereich, in dem M2.5 glänzt. MiniMax hat das Modell speziell für die reale Büroproduktivität entwickelt und mit erfahrenen Fachleuten aus den Bereichen Finanzen, Recht und Sozialwissenschaften zusammengearbeitet, um das Modell für wirklich lieferbare Ergebnisse zu trainieren.

Beherrschung von Word, PowerPoint und Excel

M2.5 zeigt signifikante Leistungsverbesserungen in wertvollen Arbeitsszenarien:

Word: Dokumenterstellung, Formatierung und professionelles Schreiben
PowerPoint: Präsentationsdesign und Folienerstellung
Excel: Finanzmodellierung und komplexe Tabellenkalkulationsoperationen

MiniMax entwickelte ein internes Bewertungsframework namens GDPval-MM, das sowohl die Ausgabequalität als auch die Professionalität des gesamten Arbeitsablaufs des Agenten bewertet. In direkten Vergleichen mit anderen Mainstream-Modellen erzielte M2.5 eine durchschnittliche Gewinnrate von 59,0 %.

Spezialisierung auf Finanzmodellierung

Das Modell wurde speziell für Finanzmodellierungsaufgaben trainiert, die von Branchenexperten erstellt wurden. Diese umfassen End-to-End-Recherche- und Analyseaufgaben, die mit Excel-Tools durchgeführt und anhand von Experten entwickelten Rubriken bewertet werden. Für Finanzfachleute könnte dies einen erheblichen Produktivitätssprung bedeuten.

Leistung und Geschwindigkeit

Geschwindigkeit ist entscheidend bei realen Einsätzen. Ein Modell, das intelligenter, aber langsamer ist, bietet oft eine schlechtere Benutzererfahrung als eine etwas weniger leistungsfähige, aber schnellere Alternative.

Token-Generierungsgeschwindigkeit

M2.5 wird nativ mit 100 Tokens pro Sekunde für die Lightning-Variante ausgeliefert – fast doppelt so schnell wie andere bahnbrechende Modelle. Dieser native Durchsatzvorteil verstärkt sich erheblich bei lang laufenden agentischen Aufgaben.

SWE-Bench Laufzeitvergleich

Metrik	M2.1	M2.5	Opus 4.6
Durchschn. Tokens/Aufgabe	3,72M	3,52M	-
Durchschn. Laufzeit	31,3 Min.	22,8 Min.	22,9 Min.
Geschwindigkeitsverbesserung	-	-37%	-

Vergleich der Laufzeit von M2.1, M2.5 und Opus 4.6 bei SWE-Bench-Aufgaben

M2.5 schließt die SWE-Bench Verified Bewertung 37 % schneller ab als M2.1 und erreicht dabei die Laufzeit von Claude Opus 4.6, während es nur 3,52 Millionen Tokens pro Aufgabe verwendet (im Vergleich zu M2.1s 3,72 Millionen).

Preise und Kosteneffizienz

Hier wird M2.5 wirklich disruptiv. MiniMax hat das Modell als die erste bahnbrechende KI positioniert, bei der sich Benutzer "keine Sorgen um die Kosten machen müssen".

Preisstruktur

Modell	Durchsatz	Eingabepreis	Ausgabepreis
M2.5	50 TPS	0,30 $/Million Tokens	2,40 $/Million Tokens
M2.5-Lightning	100 TPS	0,60 $/Million Tokens	4,80 $/Million Tokens

Kostenvergleiche

Bei vollem Ausgabedurchsatz:

1 $ pro Stunde bei 100 TPS (Lightning)
0,30 $ pro Stunde bei 50 TPS (Standard)

Dies entspricht ungefähr einem Zehntel bis einem Zwanzigstel der Kosten von Opus, Gemini 3 Pro und GPT-5, basierend auf den Ausgabepreisen.

Kostenbeispiel aus der Praxis

Der kontinuierliche Betrieb von M2.5 für eine Stunde kostet bei voller Geschwindigkeit nur 1 $. Bei 50 TPS sinkt dieser Preis auf 0,30 $. Zum Vergleich: Sie könnten vier M2.5-Instanzen ein ganzes Jahr lang kontinuierlich für 10.000 $ betreiben.

Für Unternehmen, die KI-Agenten in großem Maßstab einsetzen, ändert diese Preisgestaltung die Wirtschaftlichkeit grundlegend. Aufgaben, die zuvor unerschwinglich waren, werden realisierbar. Experimentelle Projekte, die sonst Budgetbeschränkungen gesprengt hätten, werden zu erschwinglichen Erkundungen.

Technische Architektur

Verstärkendes Lernen im großen Maßstab

Ein wichtiger Treiber der Fähigkeiten von M2.5 ist die Skalierung des Reinforcement Learnings. MiniMax wandelte die meisten Unternehmensaufgaben und Arbeitsbereiche in Trainingsumgebungen um – Hunderttausende realer Szenarien, in denen das Modell durch Versuch und Irrtum lernt.

Forge: Agent-natives RL-Framework

MiniMax entwickelte Forge, ein internes agent-natives RL-Framework, das eine vermittelnde Schicht einführt, die die zugrunde liegende Trainings-Inferenz-Engine vollständig vom Agenten entkoppelt. Dies unterstützt die Integration beliebiger Agenten und ermöglicht die Optimierung über verschiedene Agenten-Gerüste und Tools hinweg.

Diagramm zur Funktionsweise des Forge RL-Frameworks und seiner Integration mit der Modell-Engine

Wichtige Optimierungen umfassen:

Asynchrone Planungsstrategien, die den Durchsatz mit der Stichproben-Off-Policy-Abweichung ausgleichen
Baumstrukturierte Zusammenführungsstrategie für Trainingsstichproben
Etwa 40-fache Trainingsbeschleunigung erzielt

CISPO-Algorithmus

Für die algorithmische Stabilität während des großskaligen MoE (Mixture of Experts) Trainings verwendet M2.5 weiterhin den CISPO-Algorithmus, den MiniMax Anfang 2025 vorschlug. Um Herausforderungen bei der Kreditzuweisung in langen Kontexten zu bewältigen, führten sie einen Prozessbelohnungsmechanismus zur End-to-End-Überwachung der Generierungsqualität ein.

Umfang der Trainingsumgebung

In Zahlen:

Hunderttausende realer Trainingsumgebungen
Über 10 Programmiersprachen
Über 200.000 Code-Umgebungen
Aufgaben, die Web-, Android-, iOS- und Windows-Entwicklung umfassen

MiniMax Agent Integration

M2.5 ist nicht nur eine API – es treibt bereits die eigenen Produkte von MiniMax an.

Integration von Office-Fähigkeiten

MiniMax destillierte Kernfunktionen der Informationsverarbeitung in standardisierte Office Skills, die tief in den MiniMax Agent integriert sind. Im MAX-Modus lädt der Agent bei der Bearbeitung von Word-Formatierungen, PowerPoint-Bearbeitungen und Excel-Berechnungen automatisch entsprechende Office Skills basierend auf dem Dateityp.

Experten-Erstellung

Benutzer können Office Skills mit domänenspezifischem Branchen-Know-how kombinieren, um wiederverwendbare Experten für spezifische Aufgabenszenarien zu erstellen. Zum Beispiel:

Branchenforschung: Eine Forschungsrahmen-SOP mit Word Skills zusammenführen, um Daten automatisch abzurufen, Logik zu organisieren und formatierte Berichte auszugeben
Finanzmodellierung: Proprietäre Modellierungsstandards mit Excel Skills kombinieren, um spezifische Risikokontrolllogiken und Berechnungsstandards zu befolgen

Nutzungsmetriken

Über 10.000 Experten wurden auf MiniMax Agent erstellt
30 % der gesamten Aufgaben von MiniMax werden autonom von M2.5 erledigt
80 % des neu geschriebenen Codes bei MiniMax wird von M2.5 generiert

Dies ist keine theoretische Fähigkeit – es ist produktionsreife Technologie.

Wie M2.5 im Vergleich zur Konkurrenz abschneidet

vs. Claude Opus 4.6

Metrik	M2.5	Opus 4.6
SWE-Bench Verified	80,2%	~77%
Droid Gerüst	79,7%	78,9%
OpenCode Gerüst	76,1%	75,9%
Laufzeit auf SWE-Bench	22,8 Min.	22,9 Min.
Kosten/Aufgabe	~1,50 $	~15 $+

M2.5 erreicht oder übertrifft Opus 4.6 bei Programmier-Benchmarks, während es pro Aufgabe etwa 10 % kostet.

vs. GPT-5

Deutlich geringere Kosten (ein Zehntel bis ein Zwanzigstel des Preises)
Wettbewerbsfähige Programmier-Benchmarks
Native Office-Produktivitätsfunktionen
Schnellere Inferenzgeschwindigkeit (100 TPS vs. typische 30-50 TPS)

vs. Gemini 3 Pro

Viel niedrigere Preise
Höhere SWE-Bench-Ergebnisse
Bessere Office-Produktivitätsintegration
Aggressiverer RL-Skalierungsansatz

Fazit

MiniMax M2.5 stellt einen echten Paradigmenwechsel in der KI-Landschaft dar. Zum ersten Mal haben wir ein bahnbrechendes Modell, das Spitzenleistungen mit einer Preisgestaltung kombiniert, die einen unbegrenzten Einsatz ermöglicht.

Die wichtigsten Erkenntnisse:

Erstklassige Programmierleistung (80,2 % SWE-Bench, übertrifft Opus 4.6 auf mehreren Gerüsten)
Agentische Effizienz (20 % weniger Denkrunden, 37 % schneller als M2.1)
Büroproduktivität (59 % Gewinnrate gegenüber Wettbewerbern bei realen Büroaufgaben)
Unschlagbare Preise (0,30–1 $/Stunde, ein Zehntel bis ein Zwanzigstel der Konkurrenz)
Produktionsreif (treibt bereits MiniMax' eigene Produkte an, generiert 80 % des Unternehmenscodes)

Die Frage ist nicht, ob es sich lohnt, M2.5 auszuprobieren – sondern ob Sie es sich leisten können, es nicht zu tun.

Bereit, KI-gestützte APIs zu erstellen und zu testen? Laden Sie Apidog kostenlos herunter und erstellen Sie umfassende Testsuiten für Ihre MiniMax-Integrationen. Importieren Sie Ihre bestehenden Postman-Sammlungen mit einem Klick und beginnen Sie in wenigen Minuten mit dem Testen.

Schaltfläche

FAQ

Was ist MiniMax M2.5?

MiniMax M2.5 ist ein bahnbrechendes KI-Modell, das im Februar 2026 veröffentlicht wurde und Spitzenleistungen in den Bereichen Programmierung, agentische Aufgaben und Büroproduktivität erzielt. Es zeichnet sich durch die Kombination aus erstklassigen Benchmarks und extrem niedrigen Preisen aus.

Wie schneidet MiniMax M2.5 im Vergleich zu Claude Opus 4.6 ab?

M2.5 erreicht oder übertrifft Claude Opus 4.6 bei den meisten Programmier-Benchmarks (80,2 % gegenüber ca. 77 % auf SWE-Bench Verified), während es pro Aufgabe etwa 90 % weniger kostet. Es erreicht die Laufzeitgeschwindigkeit von Opus 4.6 (22,8 gegenüber 22,9 Minuten auf SWE-Bench).

Wie ist die Preisgestaltung für MiniMax M2.5?

M2.5 kostet 0,30 $ pro Million Eingabe-Tokens und 2,40 $ pro Million Ausgabe-Tokens (bei 50 TPS). Bei vollem Durchsatz kostet der kontinuierliche Betrieb von M2.5 für eine Stunde je nach Variante nur 0,30 $ bis 1,00 $.

Welche Programmiersprachen unterstützt M2.5?

M2.5 wurde in über 10 Sprachen, darunter Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart und Ruby, in mehr als 200.000 realen Umgebungen trainiert.

Ist MiniMax M2.5 für Büroarbeiten geeignet?

Ja. M2.5 wurde speziell für Büroproduktivitätsaufgaben trainiert, einschließlich Word, PowerPoint und Excel-Finanzmodellierung. Es erzielte in den internen Bewertungen von MiniMax eine Gewinnrate von 59 % gegenüber anderen Mainstream-Modellen bei Büroaufgaben.

Kann ich MiniMax M2.5 über eine API nutzen?

Ja. MiniMax bietet API-Zugriff über seine Plattform unter minimax.io an. Die API unterstützt sowohl die Standardvarianten M2.5 (50 TPS) als auch M2.5-Lightning (100 TPS).

Was macht MiniMax M2.5 besonders?

M2.5 ist das erste "Frontier-Modell", bei dem die Kosten so niedrig sind, dass sich die Benutzer keine Sorgen machen müssen – das Unternehmen behauptet, es sei "Intelligenz, die zu billig ist, um gemessen zu werden". In Kombination mit erstklassigen Programmier-Benchmarks und agentischen Fähigkeiten macht dies es für den groß angelegten Agenteneinsatz praktikabel.

Wie schnell ist MiniMax M2.5?

M2.5-Lightning generiert 100 Tokens pro Sekunde – fast doppelt so schnell wie andere bahnbrechende Modelle. Selbst der Standard M2.5 läuft mit 50 TPS. Bei SWE-Bench-Aufgaben schließt es Bewertungen 37 % schneller ab als M2.1.