xAI a déployé Grok 4.3 par étapes : une version bêta le 17 avril 2026, l'accès à l'API le 30 avril, et une disponibilité générale complète le 6 mai. Le message est direct : une fenêtre de contexte d'un million de jetons, une entrée vidéo native pour la première fois sur la gamme Grok, un raisonnement permanent et une réduction de prix d'environ 40 % par rapport à Grok 4.20. Huit modèles Grok hérités seront retirés le 15 mai, donc toute personne utilisant les séries grok-3 ou grok-4 devrait planifier une migration cette semaine.
Ce guide explique comment appeler Grok 4.3 depuis votre code : la structure du point de terminaison, l'authentification, l'URL de base compatible OpenAI, le paramètre d'effort de raisonnement, l'entrée vidéo, l'appel de fonctions, et une configuration de test fonctionnelle dans Apidog.
Pour le volet vocal de la même version, voir Comment utiliser Grok Voice gratuitement. Pour la confrontation directe avec le modèle vocal phare d'OpenAI, voir Grok Voice vs GPT-Realtime.
En bref
- Grok 4.3 a été mis en disponibilité générale le 6 mai 2026. Huit modèles hérités seront retirés le 15 mai 2026.
- Tarification : 1,25 $ par million de jetons d'entrée, 2,50 $ par million de jetons de sortie, entrée en cache 0,20 $ par million. Environ 40 % de réduction par rapport à Grok 4.20.
- Fenêtre de contexte d'un million de jetons. Entrée vidéo native. Raisonnement permanent.
- Effort de raisonnement :
faible/moyen/élevé. La valeur par défaut estmoyen. - Point de terminaison :
https://api.x.ai/v1/chat/completions(URL de base compatible OpenAI). - Débit : environ 159 jetons/seconde sur les niveaux standard.
- Indice d'intelligence 53 (Analyse Artificielle), classé 10ème sur 146 modèles mondialement.
- Utilisez Apidog pour automatiser la requête, conserver les configurations de raisonnement comme variables et les rejouer dans les modes de compatibilité Grok et OpenAI.
Quoi de neuf dans Grok 4.3
Les principales améliorations, par ordre d'impact pour la plupart des équipes :
- Baisse de prix de 40 %. L'entrée a diminué de 37,5 % par rapport à Grok 4.20 ; la sortie a diminué de 58,3 %. Le taux d'entrée en cache est maintenant de 0,20 $/M, une réduction agressive qui rend les longues invites système stables beaucoup moins chères.
- Contexte d'un million de jetons. Passant de 256k sur Grok 4.20. Suffisant pour contenir une base de code de taille moyenne, un appel de résultats complet ou un contrat légal complet dans une seule invite.
- Entrée vidéo native. Première fois sur la gamme Grok. Passez une URL de vidéo et le modèle raisonne sur les images de manière native.
- Raisonnement permanent. Grok 4.3 inclut une étape de raisonnement de base sur chaque requête. Le paramètre `reasoning_effort` ajuste la profondeur, mais le modèle ne raisonne jamais moins que `faible`.
- Gain d'agentivité majeur. +300 points Elo sur GDPval-AA par rapport à Grok 4.20. La répartition des outils et les workflows multi-étapes se comportent nettement mieux.
L'indice d'intelligence de 53 (Analyse Artificielle) place Grok 4.3 au-dessus de la moyenne de 35 pour sa catégorie de prix, et au dixième rang sur 146 modèles suivis.
Prérequis
Avant la première requête, préparez quatre choses :
- Un compte xAI Console sur
console.x.ai. Le même processus de connexion que Grok Voice. - Un niveau de facturation avec une clé API. Les clés limitées au projet sont recommandées pour la production.
- Le SDK OpenAI (Grok 4.3 est compatible OpenAI) ou le SDK xAI. L'un ou l'autre fonctionne.
- Un client API capable de rejouer des requêtes sans saturer votre terminal.

Exportez la clé une fois :
export XAI_API_KEY="xai-..."
Point de terminaison et authentification
Grok 4.3 est disponible sur l'interface Chat Completions compatible OpenAI, avec l'URL de base de xAI.
POST https://api.x.ai/v1/chat/completions
L'authentification est un jeton Bearer. Les en-têtes sont standard :
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
La compatibilité OpenAI signifie que vous pouvez intégrer le SDK OpenAI Python ou Node et modifier la `base_url`. C'est le chemin de moindre résistance pour la plupart des équipes migrant de gpt-4 ou gpt-5.
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{"role": "user", "content": "Summarize the trade-offs of GraphQL vs REST in three bullets."}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
Si vous préférez le SDK xAI, la forme de l'appel est la même ; la seule modification est l'importation.
Paramètres de requête
La liste complète des paramètres pour Grok 4.3 :
| Paramètre | Type | Valeurs | Notes |
|---|---|---|---|
model |
string | grok-4.3 |
Obligatoire. |
messages |
array | Forme de message OpenAI | Obligatoire. Prend en charge rôle : système / utilisateur / assistant. |
reasoning_effort |
string | faible, moyen, élevé |
Facultatif. Par défaut : moyen. Des niveaux plus élevés augmentent la latence et les jetons de sortie. |
max_tokens |
int | 1–32768 | Limite la sortie. |
temperature |
float | 0.0–2.0 | Par défaut 1.0. |
top_p |
float | 0.0–1.0 | Échantillonnage par noyau. |
stream |
bool | true / false | Événements envoyés par le serveur si vrai. |
tools |
array | Forme d'outil OpenAI | Appel de fonction. |
tool_choice |
string / object | auto, none, ou outil spécifique |
Sémantique OpenAI standard. |
response_format |
object | { type: "json_object" } |
Sortie structurée. |
seed |
int | any | Pour la reproductibilité avec température : 0. |
Une requête curl fonctionnelle :
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{"role": "system", "content": "You are a senior backend engineer."},
{"role": "user", "content": "Review this query plan and flag the bottleneck."}
],
"reasoning_effort": "high"
}'
La réponse a la forme standard OpenAI : `choices[].message.content`, plus un objet `usage` avec `prompt_tokens`, `completion_tokens`, `reasoning_tokens` et `total_tokens` détaillés.
Effort de raisonnement
Trois niveaux, avec des conseils concrets :
- `faible`. À utiliser pour la classification, la résumé, l'extraction de règles, les Q&R simples. La latence est courte, la sortie est directe.
- `moyen`. Par défaut. À utiliser pour le service client, l'appel de fonctions, l'analyse de données, l'utilisation d'outils en une seule étape. La profondeur de raisonnement est suffisante pour la plupart du trafic de production.
- `élevé`. À utiliser pour les agents multi-étapes, la révision de code à longue chaîne, les mathématiques complexes et les tâches où le modèle doit planifier avant de répondre.
Le raisonnement permanent signifie que même le niveau `faible` implique une certaine réflexion ; c'est ce qui explique le gain de précision factuelle par rapport à Grok 4.20. Ne vous attendez pas à économiser de l'argent en évitant complètement le raisonnement ; il est intégré.
Appel de fonctions
La forme standard OpenAI fonctionne directement. Déclarez les outils, le modèle émet un tableau `tool_calls` sur le message de l'assistant, vous exécutez, vous répondez avec un message de rôle `tool` :
tools = [{
"type": "function",
"function": {
"name": "lookup_user",
"description": "Look up a user by ID.",
"parameters": {
"type": "object",
"properties": {"user_id": {"type": "string"}},
"required": ["user_id"],
},
},
}]
response = client.chat.completions.create(
model="grok-4.3",
messages=[{"role": "user", "content": "Find user u_42 and tell me their last login."}],
tools=tools,
reasoning_effort="medium",
)
tool_calls = response.choices[0].message.tool_calls
Le gain de 300 points Elo sur GDPval-AA se manifeste ici en pratique ; Grok 4.3 choisit de meilleurs outils, fait moins d'appels redondants et se remet d'une erreur d'outil sans boucle infinie. Si vous testez les flux d'outils, le test de serveur MCP dans Apidog couvre la configuration de relecture que nous utilisons en interne.
Entrée vidéo
Grok 4.3 est le premier modèle Grok avec entrée vidéo native. Passez une URL vidéo à l'intérieur d'un bloc de contenu :
response = client.chat.completions.create(
model="grok-4.3",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Describe what happens in this clip and flag any anomalies."},
{"type": "video_url", "video_url": {"url": "https://example.com/clip.mp4"}},
],
}],
)
Les jetons vidéo sont comptabilisés dans le compteur d'entrée. Les clips longs consomment rapidement le contexte ; sous-échantillonnez ou coupez avant d'envoyer si le coût est un facteur. Le modèle raisonne sur les images de manière native, vous n'avez donc pas besoin d'extraire manuellement les images clés.
Contexte d'un million de jetons
La fenêtre de contexte d'un million de jetons est un véritable outil de production, pas un trophée de benchmark. Modèles courants :
- Revue de code de toute la base de code. Concaténez le diff, tous les fichiers modifiés et la sortie du linter. Demandez à Grok de faire la revue.
- Q&R sur documents longs. Insérez un contrat de 200 pages et posez des questions ciblées.
- Mémoire de conversation. Conservez un mois entier de conversations d'agent en contexte pour la personnalisation.
L'entrée en cache à 0,20 $/M rend cela abordable. Une invite système de 400k jetons que vous maintenez stable coûte 0,08 $ par appel en cache au lieu de 0,50 $ pour une nouvelle.
Migration depuis les modèles Grok hérités
Huit modèles Grok hérités seront retirés le 15 mai 2026, 12h00 PT. Si vous utilisez l'un d'entre eux, remplacez la chaîne `model` par `grok-4.3` avant la date limite. La plupart des appels fonctionnent sans autre modification car la forme de la requête est inchangée.
Deux points à surveiller :
- Effort de raisonnement. Certains modèles hérités n'acceptaient pas `reasoning_effort`. Grok 4.3 raisonne toujours ; si votre code précédent reposait sur un chemin rapide sans raisonnement, acceptez l'augmentation de latence ou restez sur `faible`.
- Formatage de la sortie. Grok 4.3 est plus structuré que Grok 4.20 par défaut. Si vous utilisiez un post-traitement lourd par regex, testez à nouveau avant de changer.
Pour la comparaison complète des prix de la gamme OpenAI, voir Tarification de GPT-5.5 ; pour les modèles de raisonnement en confrontation directe, voir Comment utiliser l'API GPT-5.5.
Test dans Apidog
Le moyen le plus rapide de valider Grok 4.3 par rapport à votre cas d'utilisation :
- Créez un environnement Apidog avec `XAI_API_KEY` et `BASE_URL = https://api.x.ai/v1`.
- Enregistrez une collection de requêtes avec trois variantes : raisonnement `faible`, `moyen`, `élevé`. Même invite, effort différent.
- Exécutez les trois. Comparez la réponse, la latence et le nombre de `usage.reasoning_tokens` côte à côte.
- Ajoutez une quatrième variante pointant vers l'URL de base d'OpenAI pour comparer Grok 4.3 à GPT-5.5 sur une entrée identique. Même SDK, modèle et URL de base différents.
Téléchargez Apidog pour effectuer la comparaison. La collection se transfère proprement lorsque vous changez de fournisseur, c'est l'intérêt. Pour une stratégie de test API plus large, voir Outil de test API pour les ingénieurs QA.

Limites de débit
Les limites de niveau sur la console xAI vont d'une base de quelques milliers de requêtes par minute au niveau 1 à plusieurs centaines de milliers sur les niveaux entreprise. Les chiffres concrets varient ; consultez le tableau de bord de la console. Le débit de 159 jetons/seconde annoncé par xAI est la vitesse de sortie par flux, et non agrégée ; les requêtes concurrentes s'adaptent linéairement aux limites de niveau.
Si vous atteignez les limites de débit, l'API renvoie un 429 avec un en-tête `retry-after`. Le backoff exponentiel standard gère cela.
FAQ
Grok 4.3 est-il compatible OpenAI de bout en bout ?Pour les Chat Completions, oui. Intégrez le SDK OpenAI, changez la `base_url`, changez le `model`. L'appel de fonctions, la sortie structurée et le streaming fonctionnent tous de manière identique.
Prend-il en charge l'API Responses ?L'interface xAI est actuellement Chat Completions. L'API Responses est réservée à OpenAI.
Quelle est la limite de contexte réelle en pratique ?1 000 000 de jetons. Les entrées longues coûtent cher même à 1,25 $/M ; mettez en cache de manière agressive si votre invite est stable.
Comment le raisonnement permanent affecte-t-il la latence ?La latence du premier jeton est légèrement plus élevée que celle des modèles sans raisonnement, mais Grok 4.3 diffuse la sortie à environ 159 jetons/seconde, de sorte que le temps de réponse de bout en bout est compétitif. Le compromis en vaut la peine pour les charges de travail sensibles à la précision.
Puis-je utiliser Grok 4.3 avec Grok Voice ?Oui. L'agent vocal (`grok-voice-think-fast-1.0`) appelle Grok 4.3 en arrière-plan lorsqu'il raisonne. Vous pouvez également appeler Grok 4.3 directement à partir d'une boucle vocale que vous construisez sur des primitives TTS et STT.
Qu'advient-il de mes anciens appels Grok 3 / Grok 4 après le 15 mai ?Ils échoueront avec un 410 (modèle retiré). Migrez avant la date limite.
Grok 4.3 prend-il en charge l'entrée d'images ?Oui, en plus de la nouvelle entrée vidéo. Passez une URL d'image dans un bloc de contenu, de la même forme qu'OpenAI.
Conclusion
Grok 4.3 est la décision la plus agressive de xAI en matière de rapport prix-performance. La réduction de 40 %, le contexte d'un million de jetons, le raisonnement permanent et la vidéo native en font un outil de travail quotidien sérieux pour la plupart des charges de travail d'agents. La compatibilité OpenAI signifie que la migration est un simple changement d'URL de base, et non une réécriture.
Le chemin de validation le plus rapide : automatisez trois variantes de raisonnement dans Apidog, insérez vos vraies invites, mesurez la latence et les jetons de raisonnement. Migrez avant le 15 mai.
