MiniMax M3 API: Nutzung & Anleitung

MiniMax M3 ist ein wegweisendes Reasoning- und Coding-Modell mit einem Kontextfenster von bis zu 1.000.000 Tokens. Diese Zahl ist die Schlagzeile. Sie können ihm ein ganzes Repository, Protokolle einer Woche oder ein langes Designdokument eingeben und es bitten, all diese Informationen in einem einzigen Aufruf zu verarbeiten. Wenn Sie den Hintergrund zum Modell und seiner Einordnung erfahren möchten, lesen Sie zuerst was MiniMax M3 ist.

Dieser Leitfaden ist die praktische Version. Sie erhalten einen API-Schlüssel, senden Ihre erste Anfrage auf drei verschiedene Arten und testen jeden Schritt in Apidog, damit Sie die Roh-Anfrage und -Antwort sehen können, bevor Sie etwas in Ihren eigenen Code integrieren. Laden Sie Apidog herunter, wenn Sie mitmachen möchten.

Die offizielle Referenz finden Sie in den MiniMax API-Dokumenten. Lassen Sie sie in einem Tab geöffnet.

Was Sie benötigen

Ein MiniMax-Konto unter platform.minimax.io.
Ein API-Schlüssel (wir generieren unten einen).
Eine Möglichkeit zur Bezahlung der Nutzung: Pay-as-you-go-Guthaben oder ein Abonnement-Token-Plan. Beide funktionieren für dieselben Endpunkte.

Für die curl-Beispiele benötigen Sie nichts weiter installiert. Für die SDK-Beispiele benötigen Sie Python 3.8+ oder Node 18+.

Schritt 1: Ihren API-Schlüssel abrufen

Melden Sie sich unter platform.minimax.io an, öffnen Sie den Bereich API-Schlüssel Ihres Kontos und erstellen Sie einen neuen Schlüssel. MiniMax vergibt zwei Arten von Anmeldeinformationen, und der Unterschied ist wichtig:

Ein regulärer API-Schlüssel wird Ihrem Pay-as-you-go-Guthaben belastet.
Ein Abonnement-Schlüssel nutzt die Token-Guthaben aus Ihrem Plan (Plus, Max oder Ultra). Wenn die Token des Plans aufgebraucht sind, werden Aufrufe mit diesem Schlüssel gestoppt, bis der Plan erneuert wird oder Sie zu einem Pay-as-you-go-Schlüssel wechseln.

Wählen Sie die Option, die Ihrer gewünschten Abrechnungsart entspricht. Kopieren Sie den Schlüssel einmal und speichern Sie ihn. Sie werden ihn nicht wiedersehen.

Fügen Sie den Schlüssel niemals direkt in den Quellcode ein. Exportieren Sie ihn stattdessen als Umgebungsvariable:

export MINIMAX_API_KEY="your-key-here"

Dadurch bleibt das Geheimnis aus Ihrer Git-Historie und aus jeder Datei, die Sie teilen könnten, fern. Wenn Sie auch mit API-Schlüsseln in Ihrem Editor arbeiten, gelten dort dieselben Hygieneregeln. Wir haben die häufigsten Lecks in der API-Schlüsselsicherheit für VS Code-Erweiterungen behandelt.

Schritt 2: Ihre erste Anfrage senden

Die Basis-URL ist https://api.minimax.io/v1 und der Chat befindet sich unter POST https://api.minimax.io/v1/chat/completions. Die Authentifizierung erfolgt über ein Bearer-Token: Authorization: Bearer $MINIMAX_API_KEY. Die Modell-ID-Zeichenfolge ist MiniMax-M3.

Hier ist der kleinste nützliche Aufruf mit curl. Die Aufgabe ist eine echte: das Modell bitten, eine Funktion umzugestalten:

curl https://api.minimax.io/v1/chat/completions \
 -H "Authorization: Bearer $MINIMAX_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{"model":"MiniMax-M3","messages":[{"role":"user","content":"Refactor this function to be async."}]}'

Sie haben drei Möglichkeiten, M3 aufzurufen. MiniMax empfiehlt das Anthropic SDK, aber das OpenAI SDK und reines HTTP funktionieren beide mit demselben Endpunkt. Verwenden Sie das, was Ihr Stack bereits unterstützt.

Hier ist das OpenAI SDK in Python. Die einzige Änderung gegenüber einem normalen OpenAI-Setup ist die base_url:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
)

print(response.choices[0].message.content)

Und dieselbe Idee in Node, wiederum nur durch Neuausrichtung der Basis-URL:

import OpenAI from "openai";

const client = new OpenAI({
 baseURL: "https://api.minimax.io/v1",
 apiKey: process.env.MINIMAX_API_KEY,
});

const response = await client.chat.completions.create({
 model: "MiniMax-M3",
 messages: [
 { role: "user", content: "Refactor this function to be async." },
 ],
});

console.log(response.choices[0].message.content);

Wenn Sie die Qwen 3.7 API verwendet haben, ist dieses Muster vertraut. Die meisten wegweisenden Modelle bieten jetzt eine OpenAI-kompatible Oberfläche, sodass die Migrationskosten eine einzige Zeile betragen. Die OpenAI Python SDK-Dokumentation und die Anthropic SDK-Dokumentation decken die vollständigen Client-Optionen ab.

Schritt 3: In Apidog testen und überprüfen

Bevor Sie diesen Aufruf in einer Anwendung verstecken, senden Sie ihn manuell und lesen Sie die Rohantwort. Hier verdient sich Apidog seinen Platz in der Schleife.

Erstellen Sie eine neue HTTP-Anfrage und setzen Sie die Methode auf POST mit der URL https://api.minimax.io/v1/chat/completions.
Öffnen Sie das Umgebungsfenster und fügen Sie eine Variable namens MINIMAX_API_KEY mit Ihrem Schlüssel als Wert hinzu. Speichern Sie sie als Umgebungsvariable, damit sie niemals im Anfragetext oder in Ihrer geteilten Sammlung liegt.
Fügen Sie in den Anfrage-Headern Authorization mit dem Wert Bearer {{MINIMAX_API_KEY}} hinzu. Apidog ersetzt die Variable zum Sendezeitpunkt.
Setzen Sie den Body auf rohes JSON und fügen Sie dieselbe Payload aus dem curl-Beispiel ein.
Klicken Sie auf Senden und beobachten Sie das Antwortfenster.

[Screenshot: die MiniMax-M3-Anfrage und -Antwort in Apidog]

Das Speichern des Tokens als Umgebungsvariable bedeutet, dass Sie die Anfrage mit Teamkollegen teilen können, ohne das Geheimnis preiszugeben, und Sie können Schlüssel (Pay-as-you-go versus Abonnement) durch Ändern einer Variablen austauschen. Wenn Sie später Streaming aktivieren, zeigt Apidog die Server-Sent Events beim Eintreffen an, sodass Sie das Stream-Format bestätigen können, bevor Sie Parsen-Code schreiben. Die manuelle Überprüfung der Antwort fängt Schema-Überraschungen frühzeitig ab, was der ganze Sinn davon ist, einen Endpunkt zu testen, bevor man ihm vertraut.

Schritt 4: Den Denkmodus ein- und ausschalten

M3 ist ein Reasoning-Modell. Standardmäßig gibt es eine endgültige Antwort zurück. Sie können es auch bitten, sein Zwischen-Reasoning offenzulegen, was nützlich ist, wenn Sie debuggen möchten, warum es zu einem Ergebnis kam, oder das Reasoning in einen Überprüfungsschritt einspeisen möchten.

Mit dem OpenAI SDK übergeben Sie reasoning_split über extra_body:

from openai import OpenAI

client = OpenAI(
 base_url="https://api.minimax.io/v1",
 api_key="YOUR_API_KEY",
)

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Refactor this function to be async."}
 ],
 extra_body={"reasoning_split": True},
)

print(response.choices[0].message.reasoning_details[0]["text"]) # the thinking
print(response.choices[0].message.content) # the final answer

Wenn reasoning_split aktiviert ist, wird der Denktext unter response.choices[0].message.reasoning_details[0]["text"] zurückgegeben und die endgültige Antwort bleibt unter response.choices[0].message.content. Halten Sie die beiden in Ihrer Benutzeroberfläche getrennt. Zeigen Sie den Benutzern die Antwort und behalten Sie das Reasoning für Protokolle oder einen Verifizierungsschritt.

Schalten Sie den Denkmodus für schwierige Probleme ein: mehrstufige Refaktorierungen, knifflige Fehlersuchen, alles, wo Sie die Kette auditieren möchten. Schalten Sie ihn für einfache, latenzempfindliche Aufrufe aus, bei denen die zusätzlichen Reasoning-Tokens Zeit und Geld kosten, die Sie nicht ausgeben müssen.

Schritt 5: Mit dem 1M-Token-Kontext arbeiten

Das große Kontextfenster ist der Grund, warum man M3 wählt. Sie können eine ganze Protokolldatei einfügen und eine einzige Frage dazu stellen:

with open("production-2026-05-30.log") as f:
 log_text = f.read()

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {
 "role": "user",
 "content": f"Find the root cause of the 502 spike at 14:20 UTC.\n\n{log_text}",
 }
 ],
)

Eine Abrechnungseigenheit, die Sie kennen sollten. MiniMax berechnet einen Standardtarif für Aufrufe mit 512K Eingabetokens oder weniger und einen höheren Long-Context-Tarif, sobald die Eingabe 512K Tokens überschreitet. Der Sprung von einem 400K-Token-Prompt zu einem 600K-Token-Prompt ist also nicht linear. Er überschreitet eine Preisschwelle.

Die praktische Erkenntnis: Werfen Sie nicht aus Gewohnheit eine Million Tokens in den Kontext. Senden Sie den Teil, den das Modell benötigt. Wenn Sie viele Aufrufe in einem Agenten verketten, ist das Kürzen des Kontexts pro Aufruf einer der größten Hebel bei Ihrer Rechnung. Wir gehen darauf näher ein in wie man Agenten-Token-Kosten reduziert.

Schritt 6: Tool-Aufruf und multimodale Eingabe

M3 unterstützt Tool-Aufrufe und multimodale Eingaben, sodass es Agenten steuern und Bilder lesen kann, nicht nur Text.

Für Tool-Aufrufe deklarieren Sie die Tools, die das Modell aufrufen darf, und behandeln dann den zurückgegebenen Aufruf:

tools = [
 {
 "type": "function",
 "function": {
 "name": "run_tests",
 "description": "Run the test suite for a given module path.",
 "parameters": {
 "type": "object",
 "properties": {
 "module": {"type": "string"},
 },
 "required": ["module"],
 },
 },
 }
]

response = client.chat.completions.create(
 model="MiniMax-M3",
 messages=[
 {"role": "user", "content": "Fix the failing test in auth/session.py and confirm it passes."}
 ],
 tools=tools,
)

Wenn das Modell entscheidet, ein Tool aufzurufen, enthält die Antwort ein tool_calls-Array. Ihr Code führt die Funktion aus, hängt das Ergebnis als tool-Nachricht an und ruft die API erneut auf, damit das Modell fortfahren kann. Diesen Handshake richtig hinzubekommen, ist der Ort, wo die meisten Agentenfehler auftreten. Die Verdrahtungsmuster und Fehlerarten sollten Sie vor der Veröffentlichung lesen: Verdrahtung von Agenten-Workflow-Tools.

Apidog hilft auch hier. Sie können den vollständigen mehrstufigen Austausch (die ursprüngliche Anfrage, die Tool-Aufruf-Antwort, Ihr Tool-Ergebnis, die Nachverfolgung) als separate gespeicherte Anfragen wiedergeben, sodass Sie jeden Schritt von Anfang bis Ende überprüfen können, anstatt innerhalb Ihrer Agenten-Laufzeit zu raten.

Für multimodale Eingaben übergeben Sie Bildinhalte im selben Nachrichten-Array, zusammen mit Ihrem Text-Prompt, gemäß der Standard-Content-Parts-Struktur. Überprüfen Sie die API-Referenz für die genauen Feldnamen, da diese sich schneller entwickeln als Text-Endpunkte.

Preise und Stufen

Zwei separate Faktoren steuern, was Sie bezahlen und wie schnell Sie bedient werden.

Token-Pläne legen Ihr Kreditbudget fest. Die Abonnementstufen sind Plus für 20 $, Max für 50 $ und Ultra für 120 $, wobei jede ein größeres Kontingent an Token-Guthaben bündelt, das von Ihrem Abonnement-Schlüssel aufgebraucht wird. Pay-as-you-go rechnet stattdessen einen regulären API-Schlüssel gegen Ihr Guthaben ab.

Dienststufen legen die Planungs priorität fest. Es gibt zwei: standard (die Standardeinstellung) und priority. Standard ist für die meisten Workloads ausreichend. Priorität ist für latenzempfindlichen oder SLA-gebundenen Traffic, der nicht in einer Warteschlange hinter allen anderen sitzen kann.

Zusätzlich zum Standard- im Vergleich zum Long-Context-Tarif aus Schritt 5 hängen Ihre tatsächlichen Kosten von der Eingabegröße, dem Plan und der Stufe zusammen ab. Für aktuelle Pro-Token-Zahlen überprüfen Sie die MiniMax Preis- und Modellseite und die API-Dokumente, da sich veröffentlichte Tarife ändern.

Häufig gestellte Fragen

Gibt es eine kostenlose Möglichkeit, M3 auszuprobieren? Ja. Sie können das Modell testen, ohne sich auf einen Plan festzulegen, und es gibt einige kostenlose Wege. Wir haben sie in wie man MiniMax M3 kostenlos nutzt gesammelt.

Welche SDKs funktionieren mit der API? Drei Optionen: reines HTTP, das Anthropic SDK und das OpenAI SDK. MiniMax empfiehlt das Anthropic SDK, aber alle drei treffen denselben https://api.minimax.io/v1/chat/completions-Endpunkt. Für die OpenAI- und Anthropic-Clients ändern Sie nur die base_url, um auf MiniMax zu verweisen.

Wie streame ich Antworten? Fügen Sie "stream": true zu Ihrem Anfragekörper hinzu. Die API gibt Server-Sent Events zurück, und beide SDKs stellen einen Iterator zur Verfügung, über den Sie Schleifen ausführen können, um Blöcke beim Eintreffen zu lesen. Testen Sie den Stream zuerst in Apidog, damit Sie das Ereignisformat sehen können, bevor Sie es parsen.

Was ist das Ratenlimit? Die Limits hängen von Ihrer Kontostufe und davon ab, ob Sie den standard- oder priority-Dienst nutzen. Wenn Sie einen 429-Fehler erhalten, ziehen Sie sich zurück und versuchen Sie es erneut, oder verschieben Sie latenzempfindlichen Traffic in die Prioritätsstufe. Die aktuellen Zahlen finden Sie in Ihrem Kontodashboard und in den API-Dokumenten.

Wie wirkt sich die 512K-Schwelle auf meine Rechnung aus? Aufrufe mit einer Eingabe von 512K Tokens oder weniger werden zum Standardtarif abgerechnet. Nach 512K Eingabetokens gilt der höhere Long-Context-Tarif. Kürzen Sie Ihren Prompt auf die Tokens, die das Modell tatsächlich benötigt, besonders in Agenten-Schleifen, wo sich die Kosten über mehrere Aufrufe summieren.

Kann ich die Gewichte selbst hosten, anstatt die API aufzurufen? Die gehostete API ist der Weg, den dieser Leitfaden abdeckt, und sie ist der schnellste Weg, um zu beginnen. Das Selbst-Hosting hängt davon ab, was MiniMax für M3 zu einem bestimmten Zeitpunkt veröffentlicht, überprüfen Sie also die Modellseite für die aktuelle Gewichtungs- und Lizenzsituation.

Zusammenfassung

Sie haben nun alles, um MiniMax M3 aufzurufen: einen als Umgebungsvariable gespeicherten API-Schlüssel, funktionierende curl-, Python- und Node-Anfragen, einen Denkmodus-Umschalter, die 512K-Abrechnungsschwelle und den Tool-Aufruf-Handshake. Der schnellste Weg, dies zu verinnerlichen, ist, einen echten Aufruf manuell auszuführen. Fügen Sie den Endpunkt in Apidog ein, speichern Sie Ihr Bearer-Token als Umgebungsvariable, senden Sie den Refactoring-Prompt und lesen Sie die Antwort. Sobald Sie die Rohform gesehen haben, dauert es nur Minuten, sie in Ihren Code zu integrieren.

button