xAI führte Grok 4.3 schrittweise ein: Beta am 17. April 2026, API-Zugang am 30. April und vollständige allgemeine Verfügbarkeit am 6. Mai. Das Verkaufsargument ist direkt: ein 1.000.000-Token-Kontextfenster, native Videoeingabe zum ersten Mal in der Grok-Reihe, durchgängiges Reasoning und eine Preissenkung von ungefähr 40 % gegenüber Grok 4.20. Acht ältere Grok-Modelle werden am 15. Mai eingestellt, daher sollte jeder, der mit grok-3 oder grok-4-Serien arbeitet, diese Woche eine Migration planen.
Dieser Leitfaden behandelt, wie Sie Grok 4.3 aus Ihrem Code aufrufen: Endpunktstruktur, Authentifizierung, die OpenAI-kompatible Basis-URL, den Reasoning-Effort-Parameter, Videoeingabe, Funktionsaufrufe und eine funktionierende Testeinrichtung in Apidog.
Für die Sprachseite derselben Veröffentlichung siehe Wie man Grok Voice kostenlos nutzt. Für den direkten Vergleich mit OpenAIs führendem Sprachmodell siehe Grok Voice vs. GPT-Realtime.
TL;DR
- Grok 4.3 wurde am 6. Mai 2026 allgemein verfügbar (GA). Acht ältere Modelle werden am 15. Mai 2026 eingestellt.
- Preise: $1.25 pro 1M Eingabe-Tokens, $2.50 pro 1M Ausgabe-Tokens, zwischengespeicherte Eingabe $0.20 pro 1M. Ungefähr eine 40%ige Senkung gegenüber Grok 4.20.
- 1M-Token-Kontextfenster. Native Videoeingabe. Durchgängiges Reasoning.
- Reasoning Effort:
low/medium/high. Standard istmedium. - Endpunkt:
https://api.x.ai/v1/chat/completions(OpenAI-kompatible Basis-URL). - Durchsatz: ~159 Tokens/Sekunde auf Standard-Tiers.
- Intelligenzindex 53 (Artificial Analysis), weltweit auf Platz 10 von 146 Modellen.
- Verwenden Sie Apidog, um die Anfrage zu skripten, Reasoning-Konfigurationen als Variablen zu halten und sowohl im Grok- als auch im OpenAI-Kompatibilitätsmodus wiederzugeben.
Was sich in Grok 4.3 geändert hat
Die wichtigsten Upgrades, in der Reihenfolge ihrer Auswirkungen für die meisten Teams:
- 40 % Preissenkung. Die Eingabe ist um 37,5 % gegenüber Grok 4.20 gesunken; die Ausgabe um 58,3 %. Der Satz für zwischengespeicherte Eingaben beträgt jetzt 0,20 $ pro 1 Mio., eine aggressive Senkung, die lange stabile System-Prompts deutlich günstiger macht.
- 1M-Token-Kontext. Von 256k bei Grok 4.20 erhöht. Genug, um eine mittelgroße Codebasis, einen vollständigen Geschäftsbericht oder einen vollständigen Rechtsvertrag in einen einzigen Prompt zu integrieren.
- Native Videoeingabe. Zum ersten Mal in der Grok-Reihe. Übergibt eine Video-URL, und das Modell führt Reasoning nativ über Frames durch.
- Durchgängiges Reasoning. Grok 4.3 liefert bei jeder Anfrage einen grundlegenden Reasoning-Schritt. Der Parameter
reasoning_effortskaliert die Tiefe, aber das Modell führt niemals weniger alslowReasoning durch. - Deutlicher agentischer Gewinn. +300 Elo-Punkte auf GDPval-AA gegenüber Grok 4.20. Tool-Dispatch und mehrstufige Workflows verhalten sich spürbar besser.
Der Intelligenzindex von 53 (Artificial Analysis) platziert Grok 4.3 über dem Durchschnitt von 35 für seine Preisklasse und an zehnter Stelle von 146 erfassten Modellen.
Voraussetzungen
Bevor Sie die erste Anfrage stellen, bereiten Sie vier Dinge vor:
- Ein xAI Console-Konto unter
console.x.ai. Derselbe Anmeldevorgang wie bei Grok Voice. - Eine kostenpflichtige Stufe mit einem API-Schlüssel. Projektbezogene Schlüssel werden für die Produktion empfohlen.
- Das OpenAI SDK (Grok 4.3 ist OpenAI-kompatibel) oder das xAI SDK. Beide funktionieren.
- Ein API-Client, der Anfragen wiederholen kann, ohne Ihr Terminal zu überfluten.

Exportieren Sie den Schlüssel einmal:
export XAI_API_KEY="xai-..."
Endpunkt und Authentifizierung
Grok 4.3 wird auf der OpenAI-kompatiblen Chat Completions-Oberfläche mit der Basis-URL von xAI ausgeliefert.
POST https://api.x.ai/v1/chat/completions
Die Authentifizierung erfolgt über einen Bearer-Token. Die Header sind Standard:
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
Die OpenAI-Kompatibilität bedeutet, dass Sie das OpenAI Python- oder Node-SDK einbinden und die base_url ändern können. Dies ist der Weg des geringsten Widerstands für die meisten Teams, die von gpt-4 oder gpt-5 migrieren.
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{"role": "user", "content": "Summarize the trade-offs of GraphQL vs REST in three bullets."}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
Wenn Sie das xAI SDK bevorzugen, ist die Form des Aufrufs dieselbe; die einzige Änderung ist der Import.
Anfrageparameter
Die vollständige Parameterübersicht für Grok 4.3:
| Parameter | Typ | Werte | Anmerkungen |
|---|---|---|---|
model |
string | grok-4.3 |
Erforderlich. |
messages |
array | OpenAI-Nachrichtenstruktur | Erforderlich. Unterstützt role: system / user / assistant. |
reasoning_effort |
string | low, medium, high |
Optional. Standard: medium. Höhere Level erhöhen Latenz und Ausgabe-Tokens. |
max_tokens |
int | 1–32768 | Begrenzt die Ausgabe. |
temperature |
float | 0.0–2.0 | Standard 1.0. |
top_p |
float | 0.0–1.0 | Nucleus Sampling. |
stream |
bool | true / false | Server-sent Events, wenn true. |
tools |
array | OpenAI-Tool-Struktur | Funktionsaufruf. |
tool_choice |
string / object | auto, none, oder spezifisches Tool |
Standard-OpenAI-Semantik. |
response_format |
object | { type: "json_object" } |
Strukturierte Ausgabe. |
seed |
int | beliebig | Für Reproduzierbarkeit bei temperature: 0. |
Eine funktionierende curl-Anfrage:
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{"role": "system", "content": "You are a senior backend engineer."},
{"role": "user", "content": "Review this query plan and flag the bottleneck."}
],
"reasoning_effort": "high"
}'
Die Antwort hat die standardmäßige OpenAI-Form: choices[].message.content, plus ein usage-Objekt mit aufgeschlüsselten prompt_tokens, completion_tokens, reasoning_tokens und total_tokens.
Reasoning-Aufwand
Drei Stufen, mit konkreter Anleitung:
low. Verwenden Sie dies für Klassifizierung, Zusammenfassungen, Regelerkennung, einfache Fragen und Antworten. Die Latenz ist kurz, die Ausgabe direkt.medium. Standard. Verwenden Sie dies für Kundenservice, Funktionsaufrufe, Datenanalyse, einstufige Tool-Nutzung. Die Reasoning-Tiefe ist für den meisten Produktionsverkehr ausreichend.high. Verwenden Sie dies für mehrstufige Agenten, langkettige Code-Reviews, komplexe Mathematik und Aufgaben, bei denen das Modell vor der Beantwortung planen muss.
Durchgängiges Reasoning bedeutet, dass selbst bei low etwas gedacht wird; das ist der Grund für den Gewinn an Faktenrichtigkeit gegenüber Grok 4.20. Erwarten Sie nicht, Geld zu sparen, indem Sie Reasoning gänzlich vermeiden; es ist eingebaut.
Funktionsaufruf
Die standardmäßige OpenAI-Form funktioniert direkt. Deklarieren Sie Tools, das Modell gibt ein tool_calls-Array in der Assistentennachricht aus, Sie führen es aus, Sie antworten mit einer tool-Rollen-Nachricht:
tools = [{
"type": "function",
"function": {
"name": "lookup_user",
"description": "Look up a user by ID.",
"parameters": {
"type": "object",
"properties": {"user_id": {"type": "string"}},
"required": ["user_id"],
},
},
}]
response = client.chat.completions.create(
model="grok-4.3",
messages=[{"role": "user", "content": "Find user u_42 and tell me their last login."}],
tools=tools,
reasoning_effort="medium",
)
tool_calls = response.choices[0].message.tool_calls
Der Elo-Gewinn von 300 auf GDPval-AA zeigt sich hier in der Praxis; Grok 4.3 wählt bessere Tools, weniger redundante Aufrufe und erholt sich von einem Tool-Fehler, ohne zu stottern. Wenn Sie Tool-Abläufe testen, deckt MCP-Servertests in Apidog die interne Wiedergabe-Einrichtung ab, die wir verwenden.
Videoeingabe
Grok 4.3 ist das erste Grok-Modell mit nativer Videoeingabe. Übergeben Sie eine Video-URL in einem Inhaltsblock:
response = client.chat.completions.create(
model="grok-4.3",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Describe what happens in this clip and flag any anomalies."},
{"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}},
],
}],
)
Video-Tokens werden auf den Eingabezähler angerechnet. Lange Clips verbrauchen den Kontext schnell; falls Kosten wichtig sind, vor dem Senden herunterskalieren oder kürzen. Das Modell führt Reasoning nativ über Frames durch, sodass Sie Schlüsselbilder nicht manuell extrahieren müssen.
1M-Token-Kontext
Das 1M-Kontextfenster ist ein echtes Produktionswerkzeug, keine Benchmark-Trophäe. Häufige Muster:
- Code-Review der gesamten Codebasis. Verketten Sie den Diff, alle betroffenen Dateien und die Lint-Ausgabe. Bitten Sie Grok um ein Review.
- Langform-Dokumenten-QA. Legen Sie einen 200-seitigen Vertrag ab und stellen Sie gezielte Fragen.
- Konversationsspeicher. Halten Sie einen ganzen Monat an Agentenkonversationen im Kontext für die Personalisierung.
Zwischengespeicherte Eingaben für 0,20 $ pro 1 Mio. machen dies erschwinglich. Ein System-Prompt mit 400.000 Tokens, den Sie stabil halten, verbraucht 0,08 $ pro zwischengespeichertem Aufruf anstelle von 0,50 $ für einen neuen Aufruf.
Migration von älteren Grok-Modellen
Acht ältere Grok-Modelle werden am 15. Mai 2026, 12:00 Uhr PT, eingestellt. Wenn Sie eines davon verwenden, tauschen Sie die model-Zeichenfolge vor dem Stichtag gegen grok-4.3 aus. Die meisten Aufrufe funktionieren ohne weitere Änderungen, da die Anforderungsstruktur unverändert ist.
Zwei Dinge, auf die Sie achten sollten:
- Reasoning-Aufwand. Einige ältere Modelle akzeptierten
reasoning_effortnicht. Grok 4.3 argumentiert immer; wenn Ihr vorheriger Code auf einem schnellen, nicht-argumentierenden Pfad beruhte, akzeptieren Sie die erhöhte Latenz oder bleiben Sie beilow. - Ausgabeformatierung. Grok 4.3 ist standardmäßig strukturierter als Grok 4.20. Wenn Sie eine starke Regex-Nachbearbeitung verwendet haben, testen Sie dies vor dem Austausch erneut.
Für den vollständigen Preisvergleich über die OpenAI-Linie hinweg siehe GPT-5.5-Preise; für die direkten Vergleichsmodelle für Reasoning siehe Wie man die GPT-5.5 API verwendet.
Testen in Apidog
Der schnellste Weg, Grok 4.3 für Ihren eigenen Anwendungsfall zu validieren:
- Erstellen Sie eine Apidog-Umgebung mit
XAI_API_KEYundBASE_URL = https://api.x.ai/v1. - Speichern Sie eine Anfragereferenz mit drei Varianten:
low,medium,highReasoning. Derselbe Prompt, unterschiedlicher Aufwand. - Führen Sie alle drei aus. Vergleichen Sie die Antwort, die Latenz und die Anzahl der
usage.reasoning_tokensnebeneinander. - Fügen Sie eine vierte Variante hinzu, die auf die Basis-URL von OpenAI verweist, um Grok 4.3 mit GPT-5.5 bei identischer Eingabe zu vergleichen. Dasselbe SDK, anderes Modell und andere Basis-URL.
Laden Sie Apidog herunter, um den Vergleich durchzuführen. Die Sammlung lässt sich sauber portieren, wenn Sie den Anbieter wechseln, was der Sinn der Sache ist. Für eine umfassendere API-Teststrategie siehe API-Testtool für QA-Ingenieure.

Ratenbegrenzungen
Die Tier-Limits in der xAI-Konsole reichen von einem Basissatz von einigen tausend Anfragen pro Minute auf Tier 1 bis zu mehreren hunderttausend auf Enterprise-Tiers. Konkrete Zahlen ändern sich; überprüfen Sie das Konsolen-Dashboard. Der von xAI beworbene Durchsatz von 159 Tokens/Sekunde bezieht sich auf die Ausgabegeschwindigkeit pro Stream, nicht auf den Aggregat; gleichzeitige Anfragen skalieren linear innerhalb der Tier-Limits.
Wenn Sie Ratenbegrenzungen erreichen, gibt die API einen 429-Fehler mit einem retry-after-Header zurück. Ein standardmäßiger exponentieller Backoff bewältigt dies.
FAQ
Ist Grok 4.3 Ende-zu-Ende OpenAI-kompatibel?Für Chat Completions, ja. Fügen Sie das OpenAI SDK ein, ändern Sie die base_url, ändern Sie das model. Funktionsaufrufe, strukturierte Ausgabe und Streaming funktionieren alle identisch.
Unterstützt es die Responses API?Die xAI-Oberfläche ist heute Chat Completions. Die Responses API ist nur für OpenAI verfügbar.
Was ist der tatsächliche Kontextlimit in der Praxis?1.000.000 Tokens. Lange Eingaben kosten selbst bei 1,25 $ pro 1 Mio. echtes Geld; cachen Sie aggressiv, wenn Ihr Prompt stabil ist.
Wie beeinflusst durchgängiges Reasoning die Latenz?Die Latenz des ersten Tokens ist etwas höher als bei Modellen ohne Reasoning, aber Grok 4.3 streamt die Ausgabe mit ~159 Tokens/Sekunde, sodass die End-to-End-Antwortzeit wettbewerbsfähig ist. Der Kompromiss lohnt sich bei Genauigkeit-sensiblen Workloads.
Kann ich Grok 4.3 mit Grok Voice verwenden?Ja. Der Sprachagent (grok-voice-think-fast-1.0) ruft Grok 4.3 im Hintergrund auf, wenn er Reasoning durchführt. Sie können Grok 4.3 auch direkt aus einer Sprachschleife aufrufen, die Sie auf TTS- und STT-Primitiven aufbauen.
Was passiert mit meinen alten Grok 3 / Grok 4 Aufrufen nach dem 15. Mai?Sie schlagen mit einem 410-Fehler (Modell eingestellt) fehl. Migrieren Sie vor dem Stichtag.
Unterstützt Grok 4.3 Bildeingabe?Ja, zusätzlich zur neuen Videoeingabe. Übergeben Sie eine Bild-URL in einem Inhaltsblock, dieselbe Form wie bei OpenAI.
Zusammenfassung
Grok 4.3 ist der aggressivste Preis-Leistungs-Schritt, den xAI bisher unternommen hat. Die 40%ige Senkung, der 1M-Kontext, das durchgängige Reasoning und das native Video machen es zusammen zu einem ernsthaften täglichen Treiber für die meisten Agenten-Workloads. Die OpenAI-Kompatibilität bedeutet, dass die Migration eine Änderung der Basis-URL und keine Neuprogrammierung ist.
Der schnellste Validierungspfad: Skripten Sie drei Reasoning-Varianten in Apidog, fügen Sie Ihre echten Prompts ein, messen Sie Latenz und Reasoning-Tokens. Migrieren Sie vor dem 15. Mai.
