MiniMax M3 erhebt einen Anspruch, der jeden Anbieter von Closed-Model-Lösungen aufhorchen lassen sollte. Es besagt, dass ein Open-Weight-Modell GPT-5.5 und Gemini 3.1 Pro bei einem anspruchsvollen Coding-Benchmark übertrifft und nahe an Claude Opus 4.7 herankommt. Sollte sich dies bestätigen, ändert sich die Berechnung für den Bau agentischer Codierungstools über Nacht. Man erhielte Ergebnisse der Spitzenklasse von Gewichten, die man herunterladen, ausführen und nach Belieben bepreisen kann.
Hier ist die ehrliche Version vorab. Die meisten Zahlen hinter dieser Behauptung stammen von MiniMax selbst. Sie sind vom Anbieter gemeldet, und eine unabhängige Bestätigung durch Bestenlisten steht noch aus. Dies ist also keine Krönung. Es ist ein Blick darauf, was M3 nach eigenen Angaben leisten kann, wie es sich gegen zwei geschlossene Spitzenmodelle behauptet und wie Sie entscheiden können, welches davon in Ihren Stack gehört. Den vollständigen Hintergrund zum Modell finden Sie unter Was ist MiniMax M3, und die Originalzahlen sind in der MiniMax M3 Ankündigung.
Die Konkurrenten auf einen Blick
Drei Modelle, drei unterschiedliche Ansätze. M3 setzt auf Offenheit und Kosteneffizienz. Opus 4.7 auf Zuverlässigkeit und Ökosystem. GPT-5.5 auf die Standard-Plattformposition innerhalb des OpenAI-Stacks.
| Attribut | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Gewichte | Offen (Veröffentlichung in ~10 Tagen erwartet) | Geschlossen | Geschlossen |
| Kontextfenster | 1.000.000 Token | Groß (siehe Anthropic-Dokumentation) | Groß (siehe OpenAI-Dokumentation) |
| Multimodal | Nativ: Bild, Video, Computernutzung | Bild + Text | Bild + Text |
| Architektur | MSA (~1/20 des Pro-Token-Rechenaufwands ggü. vorheriger Generation) | Nicht offengelegt | Nicht offengelegt |
| Preismodell | Pläne $20 / $50 / $120 + Nutzungs-API | Pro Token, Anthropic Preise | Pro Token, OpenAI Preise |
| Parameteranzahl | Nicht offengelegt | Nicht offengelegt | Nicht offengelegt |
Die Unterscheidung zwischen offen und geschlossen ist die Schlagzeile. Sie können Opus 4.7 oder GPT-5.5 nicht selbst hosten. Mit M3 kündigt MiniMax an, dass Gewichte und ein technischer Bericht innerhalb von etwa zehn Tagen ausgeliefert werden, was die On-Premise-Bereitstellung und die volle Preiskontrolle wieder ermöglicht.
Coding-Benchmarks: wo M3 führt und wo nicht
Im Bereich Codierung erhebt M3 seinen größten Anspruch. Herausragend ist SWE-Bench Pro, ein Test für reale Software-Engineering-Aufgaben. Hier sind die von MiniMax gemeldeten Zahlen.
| Benchmark (von MiniMax gemeldet) | MiniMax M3 | Von MiniMax behauptete Positionierung |
|---|---|---|
| SWE-Bench Pro | 59.0% | Über GPT-5.5, über Gemini 3.1 Pro, nähert sich Opus 4.7 an |
| Terminal-Bench 2.1 | 66.0% | Starker agentischer Terminal-Score |
| SWE-fficiency | 34.8% | Effizienz bei der Problembehebung |
| KernelBench Hard | 28.8% | Low-Level-Kernel-Generierung |
| PostTrainBench | 0.37 | Hinter Opus 4.7 (0.42) und GPT-5.5 (0.39) |
Lesen Sie diese Tabelle sorgfältig, denn sie hat zwei Seiten. Bei SWE-Bench Pro sind die 59,0% von M3 die Zahl, die ein Open-Weight-Modell in die Spitzenklasse einreihen würde. Sie können die öffentliche SWE-Bench-Bestenliste überprüfen, um zu sehen, wie sich das darstellt, sobald Dritte es verifiziert haben. Aber bei PostTrainBench liegt M3 zurück. Opus 4.7 führt mit 0,42, GPT-5.5 folgt mit 0,39, und M3 liegt bei 0,37. MiniMax liegt hier zurück, und so zu tun, als ob es anders wäre, würde Ihnen einen schlechten Dienst erweisen.
Das Bild ist also nicht „M3 gewinnt beim Codieren“. Es ist vielmehr „M3 erreicht im wichtigsten Codierungs-Benchmark die Spitzenklasse, während es bei anderen immer noch zurückliegt.“ Das ist ein bedeutsamer Schritt für ein offenes Modell. Es ist kein durchschlagender Erfolg. Dieses Muster haben wir schon bei starken Open-Source-Veröffentlichungen gesehen. Wenn Sie den Vergleich Qwen 3.7 vs GPT-5.5 vs Opus 4.7 verfolgt haben, ist die Form bekannt: Offene Modelle schließen die Lücke bei spezifischen Aufgaben schneller, als sie sie überall schließen.
Noch ein Vorbehalt, der es wert ist, wiederholt zu werden. Dies sind MiniMax's eigene Durchläufe. Benchmark-Harnesses, Scaffolding und Prompt-Setups variieren zwischen den Anbietern, und kleine methodische Entscheidungen können die Ergebnisse um Punkte verschieben. Behandeln Sie den Vergleich als richtungsweisend, bis unabhängige Bestenlisten ihre eigenen Zahlen melden.
Agentische und Werkzeugnutzung: die Langzeitwette
Wenn Codierung die Schlagzeile ist, dann ist agentisches Verhalten der Bereich, in dem die Architektur von M3 ihre Stärke zeigt. Das Modell erreicht 74,2% auf MCP Atlas, einem Test zur Werkzeugorchestrierung über das Model Context Protocol, und MiniMax meldet die höchste Punktzahl in diesem Bereich bei Claw-Eval, einer agentischen Bewertung.
Die Demos sind der Teil, der Aufmerksamkeit erregt. MiniMax zeigt M3 bei einer 24-stündigen CUDA-Kernel-Optimierungsaufgabe, die eine 9,4-fache Beschleunigung erzielt, und bei einer autonomen Reproduktion eines Papers, die 18 Commits und 23 Abbildungen ohne menschliches Eingreifen hervorbrachte. Solch langfristige agentische Arbeit ist genau der Punkt, an dem die meisten Modelle abschweifen, den Kontext verlieren oder Token an Sackgassen verschwenden.
Die Zuverlässigkeit eines Agenten hängt ebenso sehr von der Umgebung um das Modell ab wie vom Modell selbst. Wie Sie Werkzeugaufrufe, Kontext und Wiederherstellungsschleifen strukturieren, entscheidet, ob ein 24-Stunden-Lauf erfolgreich beendet wird oder scheitert. Unsere Aufschlüsselung der Claude Code Agent Harness Architektur behandelt dieses Gerüst ausführlich, und dieselben Prinzipien gelten, welches Modell auch immer im Zentrum steht. Ein starker agentischer Score bei einem Anbieter-Benchmark ist vielversprechend. Der wahre Test besteht darin, zu sehen, wie er sich in Ihren eigenen mehrstufigen Workflows bewährt.
Multimodalität und Dokumentenverständnis
M3 bietet native multimodale Unterstützung sofort einsatzbereit: Bild, Video und Computernutzung. Das ist eine breitere Eingabeoberfläche als die Bild-plus-Text-Setups bei Opus 4.7 und GPT-5.5.
Zwei Benchmarks stützen diese Behauptung. Bei SVG-Bench, das die Generierung strukturierter Grafiken testet, meldet MiniMax M3 über Opus 4.7. Bei OmniDocBench, einem Test zum Dokumentenverständnis, meldet es M3 über Gemini 3.1 Pro. Kombiniert man dies mit der Computernutzung, positioniert sich M3 für Workflows, die Dokumente lesen, Bildschirme analysieren und handeln, nicht nur chatten. Wie immer fallen diese in die Kategorie der vom Anbieter gemeldeten Ergebnisse, bis jemand anderes sie durchführt.
Kontextfenster und die Kosten für langen Kontext
M3 verfügt über ein Kontextfenster von 1.000.000 Token, und der Weg dorthin ist wichtiger als die Zahl selbst. Das Modell verwendet eine Architektur, die MiniMax MSA nennt, und die den Pro-Token-Rechenaufwand auf etwa 1/20 der vorherigen Generation reduziert, mit mehr als 9-mal schnellerem Prefill und mehr als 15-mal schnellerem Decode.
Diese Beschleunigung ist die stille Schlagzeile. Langer Kontext lässt sich günstig bewerben, ist aber teuer in der tatsächlichen Nutzung. Jedes Token, das Sie in einen Prompt stecken, kostet Rechenleistung bei jedem Schritt einer Agentenschleife, weshalb lange laufende Agenten schnell langsam und teuer werden. Wenn die Pro-Token-Kosten von M3 wirklich nur ein Bruchteil der früheren Modelle betragen, wird das Einspeisen einer großen Codebasis oder einer langen Dokumentenkette weitaus weniger belastend.
Diese wirtschaftliche Frage gilt für alle drei Modelle. Bevor Sie davon ausgehen, dass ein 1M-Fenster kostenlos zu füllen ist, lesen Sie wie Sie die Token-Kosten von Agenten in der CLI reduzieren können. Das billigste Token ist das, das Sie nie senden, egal welches Modell Sie wählen.
Preisrealität
Hier driften offene und geschlossene Modelle am stärksten auseinander. M3 bietet Token-Pläne für 20 $ (Plus), 50 $ (Max) und 120 $ (Ultra) sowie eine API mit einem Standardtarif für Eingaben bis zu 512K Token und einem Long-Context-Tarif darüber, auf Standard- und Prioritätsstufen. MiniMax hat noch keinen genauen Pro-Token-Preis veröffentlicht, daher sollten die Planstufen vorerst als konkretes Signal betrachtet werden.
Opus 4.7 und GPT-5.5 rechnen pro Token ab, und Sie sollten die aktuellen Zahlen direkt von der Quelle beziehen: Anthropic's Preisgestaltungsseite und OpenAI's Preisgestaltungsseite. Preise ändern sich, und sie hier fest zu kodieren, würde Sie später nur irreführen.
Der strukturelle Kompromiss ist der dauerhafte Punkt. Mit den offenen Gewichten von M3 können Sie selbst hosten und API-Kosten in Infrastrukturkosten umwandeln, was sich bei hohem Volumen auszahlt, wenn Sie die Betriebskapazitäten haben. Mit Opus 4.7 und GPT-5.5 mieten Sie die Inferenz zu einem bekannten Pro-Token-Preis und überspringen die Infrastruktur vollständig. Dieser Preisdruck durch offene Gewichte ist Teil einer größeren Verschiebung; der chinesische LLM-Preiskrieg von 2026 zeigt, wie aggressive Open-Source-Veröffentlichungen die Spitzenkosten generell senken.
Welches sollten Sie wählen?
Passen Sie das Modell an Ihre Einschränkungen an, nicht an die Bestenliste.
| Ihre Situation | Wählen Sie | Warum |
|---|---|---|
| Kostensensibel oder benötigen Sie Self-Hosting | MiniMax M3 | Offene Gewichte, günstige Pläne, volle Preis- und Bereitstellungskontrolle |
| Maximale Zuverlässigkeit und reifes Ökosystem | Claude Opus 4.7 | Bewährte Tools, führt PostTrainBench an, tiefe Integrationsunterstützung |
| Bereits auf OpenAI standardisiert | GPT-5.5 | Bleibt innerhalb Ihres bestehenden Stacks, Ihrer Tools und Abrechnung |
| Lange agentische Läufe mit begrenztem Budget | MiniMax M3 | 1M Kontext plus MSA-Effizienz senkt Langzeitkosten |
| Datenresidenz oder Air-Gapped-Anforderungen | MiniMax M3 | Einzige Option, die Sie auf Ihrer eigenen Hardware ausführen können |
Wenn Sie risikoscheu sind und heute in Produktion gehen, ist der Vorbehalt bezüglich der Anbieterangaben wichtig, und die Erfolgsbilanz von Opus 4.7 hat Gewicht. Wenn Sie kostenorientiert sind, in großem Umfang entwickeln oder Kontrolle darüber benötigen, wo das Modell läuft, sind die offenen Gewichte von M3 schwer zu ignorieren, sobald sie verfügbar sind. Es gibt hier keinen einzelnen Gewinner, sondern nur die passende Lösung für Ihre Anforderungen.
Wie Sie sie selbst benchmarken können
Anbieterzahlen sagen Ihnen, was möglich ist. Ihre eigenen Prompts sagen Ihnen, was für Ihre Arbeitslast zutrifft. Der schnellste Weg, dies zu klären, ist, identische Prompts gegen alle drei Modell-APIs laufen zu lassen und die tatsächliche Ausgabe, Latenz und Token-Nutzung direkt zu vergleichen.
Sie können dies in einem einzigen Apidog-Projekt einrichten. Erstellen Sie eine Anfrage für den Chat-Endpunkt jedes Anbieters, fügen Sie denselben Prompt und dieselben Parameter ein, speichern Sie sie als Testszenario und führen Sie den Batch aus. Apidog zeigt Ihnen die Antwortzeit und die vollständige Ausgabe pro Anfrage, sodass Sie M3, Opus 4.7 und GPT-5.5 bei derselben Aufgabe in einem Fenster vergleichen können, anstatt mit drei Playgrounds zu jonglieren. Fügen Sie ein paar Assertionen hinzu, und Sie können sogar überprüfen, ob jedes Modell gültiges JSON zurückgibt oder eine Struktur trifft, die Ihre App erwartet. Laden Sie Apidog herunter, um mitzumachen, und verwenden Sie Umgebungsvariablen, um API-Schlüssel sauber zwischen den dreien auszutauschen.
Wenn Sie bereit sind, M3 spezifisch anzuschließen, führt Sie unser Leitfaden zur Nutzung der MiniMax M3 API durch die Authentifizierung und die Form der Anfrage. Von dort aus ist das Ausführen derselben Suite gegen Opus 4.7 und GPT-5.5 in Apidog nur einen Copy-Paste-Schritt entfernt.
FAQ
Ist MiniMax M3 wirklich besser als GPT-5.5? Bei SWE-Bench Pro meldet MiniMax M3 mit 59,0%, was über GPT-5.5 liegt. Bei PostTrainBench führt GPT-5.5 mit 0,39 gegenüber 0,37 von M3. Es hängt also von der Aufgabe ab, und dies sind vom Anbieter gemeldete Zahlen, die auf unabhängige Bestätigung warten. M3 ist nicht durchweg überlegen.
Ist MiniMax M3 Open Source? M3 ist Open-Weight, mit Gewichten und einem technischen Bericht, der innerhalb von etwa zehn Tagen nach der Ankündigung fällig ist. Sie können das Modell herunterladen und ausführen. MiniMax hat die Parameteranzahl nicht offengelegt, und Open-Weight ist nicht immer dasselbe wie eine vollständig Open-Source-Lizenz, lesen Sie also die Veröffentlichungsbedingungen, sobald sie verfügbar sind.
Kann M3 Opus 4.7 für agentische Codierung ersetzen? Möglicherweise, für kostensensible oder selbst gehostete Setups. M3 weist starke agentische Zahlen auf (66,0% Terminal-Bench 2.1, 74,2% MCP Atlas) und Langzeit-Demos. Aber Opus 4.7 führt PostTrainBench an und hat eine bewährtere Produktionshistorie. Testen Sie beide in Ihren eigenen Workflows, idealerweise mit einem soliden Harness, bevor Sie wechseln.
Sind diese Benchmark-Zahlen unabhängig? Meistens nein. Die hier gezeigten Zahlen sind größtenteils die von MiniMax selbst gemeldeten Ergebnisse. Öffentliche Bestenlisten wie SWE-Bench werden es Ihnen ermöglichen, die zentrale Codierungsbehauptung zu überprüfen, sobald Dritte M3 ausführen. Bis dahin sollten Sie den Vergleich als richtungsweisend betrachten.
Was ist der Haken am 1M-Token-Kontext von M3? Das Fenster ist real, und die MSA-Architektur wurde entwickelt, um das Befüllen billiger zu machen, mit mehr als 9-mal schnellerem Prefill und mehr als 15-mal schnellerem Decode. Aber langer Kontext kostet immer noch Rechenleistung bei jedem Agentenschritt über jedes Modell hinweg, daher ist Prompt-Disziplin immer noch wichtig.
Wie vergleiche ich alle drei, ohne mich auf eines festzulegen? Führen Sie dieselben Prompts gegen jede API aus und messen Sie Ausgabe, Latenz und Kosten. Ein einzelnes Apidog-Projekt mit einer Anfrage pro Anbieter bietet Ihnen eine Gegenüberstellung, ohne dass Sie Wegwerf-Skripte schreiben müssen.
Fazit
MiniMax M3 ist die ernsthafteste Open-Weight-Herausforderung an die Spitze, die wir bisher gesehen haben, und sein SWE-Bench Pro-Anspruch würde die Erwartungen neu setzen, wenn unabhängige Bestenlisten dies bestätigen. Aber die Daten stammen größtenteils von MiniMax selbst, und PostTrainBench zeigt Opus 4.7 und GPT-5.5 immer noch vorn. Wählen Sie M3, wenn Kosten, Self-Hosting oder Kontrolle Ihre Entscheidung bestimmen. Wählen Sie Opus 4.7 für bewährte Zuverlässigkeit oder GPT-5.5, wenn Sie im OpenAI-Stack arbeiten. Führen Sie dann alle drei mit Ihren eigenen Prompts aus, bevor Sie sich festlegen, denn Ihre Arbeitslast ist der einzige Benchmark, der zählt.
