Die meiste Zeit der letzten zwei Jahre hatte die Frage „was ist das beste Codierungsmodell?“ eine westliche Antwort. Man wählte GPT, Claude oder Gemini, zahlte den Token-Preis und akzeptierte, dass die Gewichte in einem fremden Rechenzentrum gesperrt blieben. Das ist nicht mehr der einzige Weg. Eine Reihe chinesischer Labore liefert jetzt Modelle, die an der Spitze der Codierungsentwicklung mithalten, und veröffentlichen dabei entweder die Gewichte oder bepreisen die API so günstig, dass es die Kalkulation jedes von Ihnen betriebenen Agenten verändert.
MiniMax M3 landete am 1. Juni 2026 und ist das bisher deutlichste Signal. Es ist Open-Weight, für Codierungs- und Agentenarbeit konzipiert, verfügt über ein Kontextfenster von 1.000.000 Tokens und bietet zusätzlich native Multimodalität. Es ist der dritte ernstzunehmende Open-Weight-Kandidat, der innerhalb weniger Wochen eingetroffen ist, neben DeepSeeks V4-Familie und Alibabas Qwen 3.7. Wenn Sie offene Gewichte, niedrige Kosten und keine Anbieterbindung wünschen, haben Sie jetzt eine echte Auswahlliste anstelle einer einzigen Option.
Die drei Anwärter
MiniMax M3 ist der Neuzugang. MiniMax positioniert es als Spitzenmodell für die Codierung mit einem 1M-Token-Kontextfenster und nativer Multimodalität, was bedeutet, dass es Bild- und Videoeingaben verarbeitet und computergestützte Aufgaben, nicht nur Text, steuern kann. Es läuft auf einer neuen MSA-Architektur. MiniMax gibt an, dass offene Gewichte und ein technischer Bericht innerhalb von etwa zehn Tagen nach dem Start folgen werden, und hat die Parameteranzahl nicht offengelegt. Die vollständige Aufschlüsselung finden Sie unter was ist MiniMax M3.
DeepSeek V4-Pro ist das Arbeitstier für Reasoning und Codierung. Es ist ein denkendes Modell: Es gibt eine reasoning_content-Gedankenkette vor seiner endgültigen Antwort zurück, die Abhängigkeiten über mehrere Dateien hinweg erkennt, die einfache Completion-Modelle übersehen. DeepSeek hat eine lange, dokumentierte Geschichte der Veröffentlichung offener Gewichte für seine R1- und V3-Linien und kombiniert V4-Pro mit einer günstigeren, nicht denkenden V4-Flash-Variante. Der herausragende Punkt ist der Preis, auf den wir noch eingehen werden. DeepSeek betreibt seine offizielle Seite und API unter deepseek.com.
Qwen 3.7 ist Alibabas Flaggschiff, angeführt von Qwen3.7-Max-Preview. Es ist ein Reasoning-Modell mit einem 1M-Token-Kontextfenster, das stark auf Langzeit-Agentenarbeit ausgerichtet ist. Ein ehrlicher Vorbehalt steht im Mittelpunkt dieses Vergleichs: Seit dem Start Mitte Mai 2026 ist das Flaggschiff Qwen3.7-Max proprietär und Closed-Weight. Alibaba hat eine starke Erfolgsbilanz beim Open-Sourcing der Stufe unterhalb seines Flaggschiffs, daher sind offene 3.7-Gewichte später plausibel, aber es wurden noch keine ausgeliefert. Volle Details finden Sie unter was ist Qwen 3.7. Alibabas Open-Source-Repos finden Sie unter github.com/QwenLM.
Spezifikationstabelle
| Spezifikation | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Anbieter | MiniMax | DeepSeek | Alibaba (Qwen) |
| Veröffentlichung | 1. Juni 2026 | 2026 | Mai 2026 (Vorschau) |
| Offene Gewichte | Ja (Gewichte innerhalb von ~10 Tagen) | Ja (DeepSeeks Erfolgsbilanz bei R1/V3) | Noch nicht (Flaggschiff ist Closed-Weight) |
| Kontextfenster | 1.000.000 Tokens | Hier nicht angegeben | 1.000.000 Tokens |
| Multimodal | Ja (Bild + Video, Computernutzung) | Nein (Text + Reasoning) | Text-fokussiertes Reasoning |
| Reasoning / Denkmodus | Ja | Ja (reasoning_content) |
Ja (erweitertes Denken) |
| Parameteranzahl | Nicht offengelegt | Hier nicht offengelegt | Hier nicht offengelegt |
| Architektur | MSA | Hier nicht angegeben | Hier nicht angegeben |
Eine Anmerkung zur Zeile „Offene Gewichte“, denn sie ist das Rückgrat dieses Vergleichs. M3 verpflichtet sich, Gewichte und einen technischen Bericht innerhalb von etwa zehn Tagen nach dem Start zu veröffentlichen. DeepSeek hat wiederholt offene Gewichte veröffentlicht. Qwen 3.7s Flaggschiff ist heute geschlossen. Wenn offene Gewichte derzeit eine zwingende Anforderung sind, schränkt das Ihre Auswahl ein, bevor Sie auch nur einen einzigen Benchmark lesen.
Codierungs- und Agentenstärke
Hier werden die Daten ungleichmäßig, daher beginnen wir mit dem Verifizierten und bleiben qualitativ, wo dies nicht der Fall ist.
MiniMax M3 wurde mit einer vollständigen Reihe von vom Anbieter gemeldeten Codierungs- und Agenten-Benchmarks eingeführt. Dies sind MiniMax' eigene Zahlen, behandeln Sie sie daher als Herstellerangaben vom Starttag, bis Dritte sie reproduzieren:
| Benchmark (vom Anbieter gemeldet, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0% |
| Terminal-Bench 2.1 | 66,0% |
| SWE-fficiency | 34,8% |
| KernelBench Hard | 28,8% |
| MCP Atlas | 74,2% |
| PostTrainBench | 0,37 |
| SVG-Bench | Berichtet ĂĽber Opus 4.7 |
| OmniDocBench | Berichtet ĂĽber Gemini 3.1 Pro |
| Claw-Eval | Als höchstes im Set gemeldet |
SWE-Bench Pro und Terminal-Bench messen reale Software-Engineering-Aufgaben: GitHub-Probleme lösen, in einem Terminal arbeiten. MCP Atlas misst den Werkzeugeinsatz und die Agenten-Orchestrierung. Zusammen beschreiben sie ein Modell, das für die agentenbasierte Codierungsarbeit entwickelt wurde, nicht nur für die Autovervollständigung. Sie können das SWE-Bench-Feld auf der SWE-Bench-Bestenliste überprüfen.
Für DeepSeek V4-Pro und Qwen 3.7 sind die vergleichbaren Zahlen für das agentenbasierte Codieren nicht im selben Format veröffentlicht, daher wäre ein direkter Zellen-für-Zellen-Abgleich erfunden, und das werden wir nicht tun. Was dokumentiert ist:
- DeepSeek V4-Pro erreicht seine Codierungsfähigkeit laut Drittvergleichen innerhalb weniger Benchmark-Punkte von GPT-5.5, während es nur einen Bruchteil des Preises kostet. Seine Reasoning-Kette ist der praktische Vorteil: Bei komplexen Multi-Datei-Refaktorierungen, Umbenennungen und Signaturänderungen erkennt der Denkprozess Abhängigkeiten in einem Durchlauf, für die flache Modelle drei Runden benötigen. Die Einrichtungsdetails und die Kostenberechnung finden Sie unter wie man DeepSeek V4-Pro mit Cursor verwendet.
- Qwen 3.7 erzielte 57 Punkte im Artificial Analysis Intelligence Index, einem Verbund, der Reasoning, Wissen, Mathematik und Codierung mischt, und wurde beim Start als Ergebnis #1 auf dieser Bestenliste gemeldet, plus etwa 1.475 Elo auf LM Arena mit einer Top-Ten-Platzierung in der Codierungskategorie. Alibabas Ansatz ist Langzeit-Agentenarbeit: anhaltende autonome Läufe und intensive Werkzeugnutzung über viele Schritte hinweg.
Die ehrliche Einschätzung: M3 liefert heute die transparentesten Beweise für agentenbasierte Codierung, da es Zahlen auf Aufgabenebene veröffentlicht hat. DeepSeeks Stärke ist die Reasoning-gesteuerte Codequalität zu einem niedrigen Preis. Qwens Stärke ist die zusammengesetzte Intelligenz und Ausdauer bei langen Agentenketten. Bis DeepSeek und Qwen dieselben SWE-Bench Pro- und Terminal-Bench-Aufgaben berichten, führen Sie Ihre eigene Arbeitslast durch alle drei, was wir am Ende behandeln. Ein breiterer Vergleich an der Spitze für Qwen findet sich in Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
Kontextfenster und Kosten fĂĽr langen Kontext
Zwei der drei werben mit einem Kontextfenster von 1.000.000 Tokens: MiniMax M3 und Qwen3.7-Max. Der Kontext von DeepSeeks V4-Pro wird hier nicht wiedergegeben, daher werden wir keine Zahl dafĂĽr angeben.
Eine Million Tokens sind ungefähr 700.000 bis 750.000 Wörter. Das reicht aus, um ein mittelgroßes Repository, einen Stapel langer PDFs oder monatelange Konversation in einer einzigen Anfrage zu speichern, ohne manuelles Chunking und ohne eine Retrieval-Schicht pflegen zu müssen. Für das Reasoning über ein ganzes Repository hinweg entfällt viel Aufwand.
Zwei Vorbehalte halten dies ehrlich. Erstens ist ein großes Fenster eine Obergrenze, keine Garantie. Modelle rufen oft weniger zuverlässig ab und argumentieren weniger zuverlässig, wenn das Fenster gefüllt ist, und unabhängige Langzeit-Kontexttests für diese brandneuen Veröffentlichungen sind noch spärlich. Zweitens kosten große Kontexte Geld. Jedes Token, das Sie senden, wird abgerechnet, daher ist ein Prompt mit einer Million Tokens ein teurer Prompt.
Hier soll die MSA-Architektur von M3 eine Rolle spielen. MiniMax preist sie als für lange Kontexteffizienz gebaut an, mit einem Standard-API-Tarif bis zu 512K Eingabe-Tokens und einem separaten Langkontext-Tarif über diesem Schwellenwert. Die Aufteilung zeigt deutlich die wirtschaftliche Realität: Langer Kontext ist eine Premium-Stufe, bei jedem Modell, das sie hat. Die praktische Verteidigung ist dieselbe, egal welches Modell Sie wählen. Nutzen Sie das volle Fenster nur, wenn die Aufgabe es erfordert, und kürzen Sie aggressiv, wenn dies nicht der Fall ist. Konkrete Taktiken zur Reduzierung der Agenten-Kontextkosten finden Sie unter wie man Agenten-Token-Kosten reduziert.
Preis und Zugang
Der Preis ist der Grund für diesen Vergleich. Die gleiche Arbeitslast, die bei einem westlichen Flaggschiff viel Geld kostet, läuft hier zu einem Bruchteil des Preises, und diese Lücke ist der Motor des chinesischen LLM-Preiskriegs 2026.
DeepSeek V4-Pro veröffentlicht die klarsten Pro-Token-Zahlen der drei Modelle. Standardtarife, dauerhaft ab Mai 2026:
| Token-Typ | DeepSeek V4-Pro-Rate pro 1M Tokens |
|---|---|
| Eingabe (Cache-Fehler) | $0.435 |
| Eingabe (Cache-Treffer) | $0.003625 |
| Ausgabe | $0.87 |
Diese Ausgaberate beträgt etwa 1/34 der Kosten für GPT-5.5-Ausgabe. Die nicht-denkende V4-Flash-Variante ist mit 0,14 $ / 0,28 $ pro Million Eingabe-/Ausgabe-Tokens noch günstiger. Ein intensiver Tag der Nutzung eines Codierungsassistenten kostet etwa 1 $. Das ist die Zahl, die DeepSeek für Agentenverkehr mit hohem Volumen schwer ignorierbar macht.
MiniMax M3 verkauft Token-Pläne statt eines einzelnen veröffentlichten Pro-Token-Preises: Plus für 20 $, Max für 50 $ und Ultra für 120 $. Seine API verwendet einen Standardtarif für Eingaben bis zu 512K Tokens und einen Langkontext-Tarif darüber hinaus. MiniMax hat keine genaue Pro-Token-Zahl veröffentlicht, daher werden wir keine angeben. Die Planstruktur eignet sich für Teams, die eine vorhersehbare monatliche Ausgabe gegenüber einer verbrauchsabhängigen Abrechnung wünschen. Verdrahtungsdetails finden Sie unter wie man die MiniMax M3 API verwendet.
Qwen 3.7 wird pro Token über Alibaba Cloud abgerechnet, wo die Max-Vorschau im Mai 2026 live ging. Alibaba hat die jüngsten Qwen-Veröffentlichungen im Rahmen desselben Preiskriegs aggressiv bepreist, aber die genauen Raten eines Vorschaumodells können sich ändern, daher überprüfen Sie die aktuellen Modelldokumente von Alibaba Cloud für die aktuellen Zahlen.
Beim Zugang ändert der Open-Weight-Aspekt die Kostengrenze vollständig. M3s veröffentlichte Gewichte und DeepSeeks offene Veröffentlichungen bedeuten, dass Sie selbst hosten und nur für Hardware bezahlen können, ganz ohne Pro-Token-Zähler. Qwen3.7-Max kann heute nicht selbst gehostet werden, da seine Flaggschiff-Gewichte nicht veröffentlicht sind, so dass jeder Weg dorthin über Alibabas API läuft. Wenn die Vermeidung von Anbieterbindung das Ziel ist, ist das ein echter Unterschied.
Welches Modell wählen
Das richtige Modell hängt davon ab, wofür Sie optimieren. Ordnen Sie Ihre Priorität der Spalte zu.
| Ihre Priorität | Beste Wahl | Warum |
|---|---|---|
| Agentenbasierte Codierung mit veröffentlichten Benchmarks | MiniMax M3 | Transparente SWE-Bench Pro / Terminal-Bench / MCP Atlas-Zahlen beim Start (vom Anbieter gemeldet) |
| Multimodale Eingabe (Bild, Video, Computernutzung) | MiniMax M3 | Einziges der drei Modelle mit nativer Multimodalität |
| Niedrigste Kosten bei hohem API-Verkehr | DeepSeek V4-Pro | ~$0.87/1M Ausgabe, mit einer gĂĽnstigeren Flash-Variante und Cache-Hit-Preisen |
| Reasoning-gesteuerte Codequalität bei schwierigen Refaktorierungen | DeepSeek V4-Pro | Denkkette erkennt Abhängigkeiten über mehrere Dateien in einem Durchlauf |
| Höchster zusammengesetzter Intelligenzwert auf einer öffentlichen Bestenliste | Qwen3.7-Max | AA Intelligence Index 57, gemeldet als Nr. 1 beim Start |
| Langfristige autonome Agentenläufe | Qwen3.7-Max oder MiniMax M3 | Beide werben mit Ausdauer und intensiver Werkzeugnutzung; M3 veröffentlicht auch MCP Atlas |
| Self-Hosting / heute keine Anbieterbindung | MiniMax M3 oder DeepSeek V4-Pro | Beide veröffentlichen offene Gewichte; Qwens Flaggschiff ist geschlossen |
Ein paar einfache Schlussfolgerungen. Wenn offene Gewichte und Nachweise für agentenbasierte Codierung Ihre beiden wichtigsten Kriterien sind, ist M3 derzeit die sauberste Wahl, mit dem Vorbehalt, dass seine Gewichte und der technische Bericht beim Start noch Tage entfernt waren und seine Benchmarks vom Anbieter gemeldet wurden. Wenn Sie ein hohes API-Volumen betreiben und die niedrigste Rechnung wünschen, ist der Preis von DeepSeek V4-Pro das Hauptargument. Wenn Sie den höchsten öffentlichen Gesamtwert wünschen und es Ihnen nichts ausmacht, eine gehostete API zu verwenden, passt Qwen3.7-Max, solange Sie kein Self-Hosting benötigen.
Testen Sie sie selbst
Eine Bestenliste sagt Ihnen, wie ein Modell bei den Aufgaben anderer abschneidet. Sie sagt Ihnen nicht, wie es bei Ihren eigenen Aufgaben abschneidet. Alle drei dieser Modelle stellen eine API bereit, und der schnellste Weg, die Wahl zu treffen, besteht darin, identische Prompts an jedes einzelne zu senden und die Antworten nebeneinander zu vergleichen.
Das ist eine Aufgabe für Apidog. Richten Sie ein Apidog-Projekt mit drei Umgebungen ein, eine pro Modell-API, und importieren Sie das OpenAI-kompatible Chat Completion-Schema, das jedes von ihnen verwendet. Dann können Sie:
- Denselben Prompt-Batch an M3, V4-Pro und Qwen3.7-Max senden und die Ausgaben an einem Ort vergleichen.
- Goldene Antworten aufzeichnen und bei jeder Prompt-Änderung wiedergeben, um Abweichungen zu erkennen.
tool_calls- undreasoning_content-Formen mit JSON-Schema-Assertions validieren, damit eine fehlerhafte System-Prompt-Bearbeitung Ihren Agenten nicht stillschweigend zerstört.
Laden Sie Apidog herunter, richten Sie drei Umgebungen auf die drei Modell-Endpunkte ein, und Sie haben in wenigen Minuten eine funktionierende Vergleichsbank. Die spezifischen API-Einrichtungsdetails fĂĽr das neueste Modell finden Sie unter wie man die MiniMax M3 API verwendet.
Häufig gestellte Fragen
Welches ist derzeit das beste Open-Weight-Codierungsmodell im Jahr 2026?
Für verifizierbare Nachweise agentenbasierter Codierung beim Start führt MiniMax M3, da es Benchmarks auf Aufgabenebene wie SWE-Bench Pro 59,0% und Terminal-Bench 2.1 66,0% (vom Anbieter gemeldet) veröffentlichte. DeepSeek V4-Pro ist die preisgünstige Wahl: Codierung innerhalb weniger Punkte von GPT-5.5 zu etwa 1/34 des Ausgabepreises. Qwen3.7-Max führt eine zusammengesetzte Bestenliste an, ist aber noch nicht Open-Weight. Die ehrliche Antwort ist, dass die direkten Codierungszahlen nicht direkt über alle drei hinweg vergleichbar sind, daher führen Sie Ihre eigene Arbeitslast aus, bevor Sie sich festlegen.
Sind alle drei wirklich Open-Weight?
Noch nicht. MiniMax M3 ist Open-Weight, wobei Gewichte und ein technischer Bericht innerhalb von etwa zehn Tagen nach dem Start am 1. Juni 2026 fällig sind. DeepSeek hat eine lange Erfolgsbilanz bei der Veröffentlichung offener Gewichte für seine R1- und V3-Familien. Qwen3.7-Max-Preview, das Flaggschiff, das die meisten Leute mit „Qwen 3.7“ meinen, ist seit Mitte Mai 2026 proprietär und Closed-Weight. Alibaba könnte später eine Stufe darunter als Open Source veröffentlichen, aber dies ist als plausibel, nicht als bestätigt zu behandeln. Details finden Sie unter was ist Qwen 3.7.
Welches hat das größte Kontextfenster?
MiniMax M3 und Qwen3.7-Max werben beide mit einem 1.000.000-Token-Fenster, ungefähr 700.000 bis 750.000 Wörtern. DeepSeek V4-Pros Kontext wird hier nicht angegeben. Denken Sie daran, dass ein großes Fenster eine Obergrenze ist, keine Garantie für perfekte Erinnerung, und jedes Token darin abgerechnet wird.
Welches ist am gĂĽnstigsten im Betrieb?
Bei den veröffentlichten Pro-Token-Preisen ist DeepSeek V4-Pro der klare Spitzenreiter: etwa 0,87 $ pro Million Ausgabe-Tokens, mit einer günstigeren, nicht-denkenden V4-Flash-Variante zu 0,14 $ / 0,28 $. MiniMax M3 verkauft monatliche Token-Pläne (20 $ / 50 $ / 120 $) statt eines veröffentlichten Pro-Token-Preises. Qwen3.7-Max wird pro Token über Alibaba Cloud abgerechnet. Wenn Sie selbst hosten können, reduzieren die Open-Weight-Modelle Ihre Grenzkosten auf die Hardware allein. Das umfassendere Preisbild finden Sie im chinesischen LLM-Preiskrieg 2026.
Ist MiniMax M3 tatsächlich besser als DeepSeek V4-Pro beim Codieren?
Die Benchmark-Zahlen sind noch nicht direkt vergleichbar. M3 veröffentlichte zum Start SWE-Bench Pro- und Terminal-Bench-Ergebnisse; DeepSeek hat diese Aufgaben nicht im selben Format berichtet. M3s Vorteil heute sind veröffentlichte Nachweise plus Multimodalität. DeepSeeks Vorteil sind der Preis und eine Reasoning-Kette, die bei Multi-Datei-Refaktorierungen stark ist. Alle drei sprechen eine OpenAI-kompatible API, daher ist der faire Test, identische Prompts gegen jedes auf Ihrem eigenen Repo auszuführen, bevor Sie sich entscheiden.
Die Kurzfassung
Drei Open-Weight-Anwärter erreichen nun die Spitze der Codierungsentwicklung, und die Wahl hängt davon ab, wofür Sie optimieren. Wählen Sie MiniMax M3, wenn Sie veröffentlichte agentenbasierte Codierungs-Benchmarks, einen 1M-Kontext und Multimodalität wünschen und ein paar Tage auf die Veröffentlichung seiner Gewichte warten können. Wählen Sie DeepSeek V4-Pro, wenn niedrige Kosten und Reasoning-gesteuerte Codequalität am wichtigsten sind, da sein Pro-Token-Preis der niedrigste der drei ist und seine Gewichte verfügbar sind. Ziehen Sie Qwen3.7-Max in Betracht, wenn Sie den höchsten öffentlichen Gesamtwert wünschen und sich mit einer gehosteten API wohlfühlen, wissend, dass sein Flaggschiff heute nicht Open-Weight ist.
Die Benchmark-Zahlen werden sich weiterentwickeln, und mehrere von M3s Zahlen sind immer noch vom Anbieter gemeldet. Der dauerhafte Ratschlag ändert sich nicht: Führen Sie dieselben Prompts gegen alle drei APIs in einem Apidog-Projekt aus, beobachten Sie die Ausgaben und die Rechnungen und lassen Sie Ihre eigene Arbeitslast den Gewinner wählen.
