xAI a lancé Grok Voice avec la version Grok 4.3, et le message principal pour les développeurs est simple : c'est gratuit sur la console xAI. Pas de frais par minute, pas de frais par jeton, accès complet au modèle d'agent vocal, à l'interface de synthèse vocale, à l'interface de reconnaissance vocale et à l'outil de clonage de voix personnalisées. La seule ressource facturable est l'utilisation des jetons Grok 4.3 sous-jacents lorsque l'agent raisonne, et cela inclut sa propre allocation gratuite sur la console pour les tests.
Ce guide explique comment faire fonctionner Grok Voice gratuitement, y compris comment cloner votre propre voix, à quoi ressemble la session WebSocket, et comment tester le flux complet avec Apidog avant de l'intégrer à un produit.
Si vous souhaitez également le guide de l'API Grok 4.3 plus détaillé, ou une comparaison directe avec la pile d'OpenAI dans Grok Voice vs GPT-Realtime, ces articles complémentaires couvrent le reste de la surface.
En bref
- Grok Voice est gratuit pour les utilisateurs sur la **console xAI** (`console.x.ai`) ; pas de frais par minute ou par jeton pour la synthèse vocale (TTS), la reconnaissance vocale (STT), l'agent vocal ou les voix personnalisées.
- Modèle phare : `grok-voice-think-fast-1.0`. Temps de première audio en moins d'**1 seconde** ; xAI affirme qu'il est environ **5 fois plus rapide** que le concurrent le plus proche.
- Plus de 80 voix prédéfinies dans **28 langues** ; 5 personnalités d'agent vocal intégrées (Eve, Ara, Rex, Sal, Leo).
- Clonage de voix personnalisées à partir d'environ **1 minute de parole** ; voix prête pour la production en **moins de 2 minutes**.
- Point d'accès WebSocket : `wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0`.
- Les points d'accès REST pour la synthèse vocale (TTS), la reconnaissance vocale (STT) et les voix personnalisées partagent une seule interface API.
- Utilisez Apidog pour scripter la session WebSocket et la rejouer sans réenregistrer l'audio.
Ce que Grok Voice vous offre gratuitement
La console xAI est la voie vers un accès gratuit. Connectez-vous sur `console.x.ai`, générez une clé API, et vous pourrez appeler quatre interfaces sans frais liés aux fonctionnalités vocales elles-mêmes :

- **Agent vocal** (discours en temps réel). Le modèle conversationnel complet, avec utilisation d'outils, détection d'activité vocale côté serveur et gestion des tours de parole intégrée.
- **Synthèse vocale** (Text-to-Speech). Plus de 80 voix prédéfinies dans 28 langues, avec une sortie au format MP3 ou μ-law pour la téléphonie.
- **Reconnaissance vocale** (Speech-to-Text). Transcription en streaming et par lots dans 25 langues d'entrée, avec horodatage au niveau du mot et diarisation du locuteur.
- **Voix personnalisées** (Custom Voices). Clonez votre voix à partir d'un court échantillon et utilisez le `voice_id` résultant dans les API de synthèse vocale et d'agent vocal.
Le seul compteur qui tourne est l'utilisation des jetons Grok 4.3 lorsque l'agent raisonne sur une requête. La console vous offre également un crédit gratuit pour tester cette interface, ce qui est suffisant pour valider les flux de bout en bout avant que la facturation ne commence.
Étape 1 : Obtenir une clé de console
Allez sur `console.x.ai` et connectez-vous avec votre compte X. Depuis la page **Clés API**, créez une nouvelle clé avec les scopes `voice` et `chat` activés. Exportez-la une fois et réutilisez-la :
export XAI_API_KEY="xai-..."
Pour les applications côté client où vous ne pouvez pas livrer la clé, créez un **jeton éphémère** à partir des paramètres de la console ou via le point d'accès `/v1/realtime/sessions`. Les jetons éphémères ont la même portée mais expirent en quelques minutes, vous pouvez donc les transmettre à un navigateur sans divulguer la clé parente.
Étape 2 : Choisir une voix
Deux chemins.
**Voix prédéfinies.** L'agent vocal est livré avec cinq personas nommés :
- **Eve** : féminine, énergique. Idéale pour les flux de support optimistes.
- **Ara** : féminine, chaleureuse. Par défaut pour l'assistance générale.
- **Rex** : masculin, confiant. Idéal pour les scripts de vente.
- **Sal** : neutre, douce. Idéale pour la narration et les lectures plus longues.
- **Leo** : masculin, autoritaire. Idéal pour la conformité et les flux formels.
Pour l'API TTS plus large, la bibliothèque de voix prédéfinies est beaucoup plus étendue ; plus de 80 voix couvrant 28 langues, toutes appelables avec un paramètre `voice` sur le point d'accès TTS.
**Clones de voix personnalisées.** Téléchargez un fichier WAV d'environ une minute de parole claire d'un seul locuteur. xAI renvoie un `voice_id` en moins de deux minutes, et le même ID fonctionne à la fois pour la synthèse vocale (TTS) et l'agent vocal.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
La durée maximale du clip de référence est de 120 secondes, mais plus n'est pas mieux ; un audio propre et cohérent compte plus que la longueur. Enregistrez dans une pièce calme, en une seule prise, sans fond musical.
Étape 3 : Faire parler Grok via WebSocket
L'agent vocal est une session WebSocket unique. Ouvrez-la une fois, diffusez l'audio entrant, diffusez l'audio sortant. Un client Node.js minimal ressemble à ceci :
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
L'audio de l'utilisateur est envoyé dans des événements `input_audio_buffer.append` sous forme de trames PCM16 en base64. Le serveur émet des événements `response.audio.delta` lorsque le modèle répond, et `response.audio.done` lorsque le tour se termine. Le PCM16 à 24 kHz est le défaut sûr pour les applications de navigateur et de bureau ; passez au μ-law lorsque vous vous connectez à des systèmes téléphoniques.
Étape 4 : Ajouter l'utilisation d'outils
L'agent vocal prend en charge l'appel de fonctions, de sorte que le modèle peut interroger vos API en pleine conversation. Déclarez un outil dans la configuration de la session :
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
Le modèle émettra `response.function_call_arguments.done` lorsqu'il voudra appeler l'outil. Exécutez la fonction de votre côté, puis renvoyez le résultat avec un `conversation.item.create` de type `function_call_output`. Le modèle reprendra là où il s'était arrêté et racontera la réponse.
Un outil `web_search` intégré est disponible dès le départ, ce qui est utile pour ancrer les réponses dans des données récentes sans avoir à écrire votre propre couche de récupération.
Étape 5 : Utiliser la synthèse vocale (TTS) sans l'agent
Si vous n'avez besoin que de synthèse vocale (messages audio, voix off d'application, introductions de podcasts), ignorez le WebSocket et accédez au point d'accès REST :
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Les options de format sont `mp3` (haute fidélité) et `mulaw` (8 kHz, téléphonie). Le point d'accès est synchrone ; vous récupérez des octets, aucune session de streaming n'est nécessaire.
Étape 6 : Tester le flux complet dans Apidog
Les API WebSocket sont difficiles à déboguer depuis le terminal car la conversation est contextuelle. Le modèle standard que nous utilisons :

- Enregistrez l'URL WebSocket avec le jeton d'authentification pré-rempli dans un environnement.
- Mettez en scène un script de messages JSON : `session.update`, `input_audio_buffer.append` (avec une trame audio de test), `response.create`.
- Rejouez le script contre une seule connexion et capturez chaque événement du serveur dans une arborescence.
- Comparez deux exécutions côte à côte lorsque vous modifiez la voix ou les instructions ; utile pour détecter les dérives dans le comportement de prise de parole.
Téléchargez Apidog, créez une nouvelle requête WebSocket et collez votre `XAI_API_KEY` dans les variables d'environnement. La même collection fonctionne pour la synthèse vocale (TTS) et la reconnaissance vocale (STT) (qui sont de simples requêtes REST), et vous pouvez conserver les deux interfaces dans un seul projet. Pour en savoir plus sur les modèles de test d'API contextuelles, consultez Outil de test d'API pour les ingénieurs QA.
Limites du niveau gratuit
La console vous donne un accès complet sans frais par minute ou par jeton pour les fonctionnalités vocales elles-mêmes. Les limites qui existent sont les suivantes :
- **Limites de débit.** La console applique des plafonds de requêtes par minute sur chaque point d'accès pour éviter les abus. Ils sont suffisamment généreux pour le développement et les démonstrations ; ils ne constituent pas une allocation de production.
- **Quota de voix personnalisées.** Un seul compte peut contenir un nombre fini de clones de voix personnalisées à la fois. Vous pouvez supprimer et recréer pour libérer un emplacement.
- **Jetons de raisonnement.** Lorsque l'agent vocal réfléchit (Grok 4.3 en arrière-plan), cela est facturé sur votre crédit console. Le crédit gratuit couvre le prototypage ; la production nécessitera un plan payant.
Si vous rencontrez des erreurs de limite de débit, regroupez vos requêtes ou passez à un niveau payant ; le comportement de l'API ne change pas, seule la limite.
Comparaison des voix
Passez la même ligne dans chaque préréglage avant de livrer. Les voix interprètent le ton différemment, et une courte liste de tests permet de repérer rapidement les mauvaises associations :
- Une salutation de deux phrases.
- Une phrase de confirmation (« Compris, tout est prêt »).
- Une longue phrase avec un chiffre, une date et une virgule.
Le test agnostique du modèle que nous effectuons en interne : prononcez la même invite à trois vitesses (calme, normale, urgente) et écoutez le changement d'inflexion. Les voix prédéfinies de Grok gèrent cela mieux que la plupart des moteurs TTS que nous avons évalués, mais vous voulez toujours effectuer l'audit avant de passer en production.
FAQ
**L'API est-elle vraiment gratuite, ou y a-t-il une limite cachée ?**Les fonctionnalités vocales (TTS, STT, agent vocal, voix personnalisées) ne comportent aucun frais par minute ou par jeton sur la console. Le modèle de raisonnement sous-jacent est facturé sur le crédit console ; l'allocation console est suffisante pour le prototypage.
**Ai-je besoin d'un compte X (Twitter) ?**Oui. La connexion à la console utilise un compte X.
**Puis-je utiliser Grok Voice depuis un navigateur ?**Oui, avec un jeton éphémère. Créez-le côté serveur via `/v1/realtime/sessions`, transmettez le jeton de courte durée au navigateur et connectez directement le WebSocket. La clé parente ne quitte jamais votre serveur.
**Quelle qualité audio puis-je attendre ?**La sortie TTS est en MP3 haute fidélité ou en μ-law 8 kHz. L'agent vocal utilise le PCM16 à 24 kHz en interne. La qualité est comparable à celle des principaux moteurs TTS commerciaux ; la latence est le facteur de différenciation.
**Fonctionne-t-il avec la téléphonie ?**Oui. La sortie μ-law est le format standard pour les passerelles SIP et RTC. Vous avez toujours besoin d'un fournisseur SIP ; xAI ne fournit pas son propre passerelle SIP aujourd'hui.
**Comment la qualité de clonage se compare-t-elle à d'autres outils ?**La qualité de clonage dépend plus de la qualité de l'audio de référence que de sa longueur. Un échantillon propre de 60 secondes dans une pièce calme est meilleur qu'un échantillon bruyant de 120 secondes dans nos tests. Le `voice_id` de sortie est portable entre le point d'accès TTS et l'agent vocal sans reclonage.
**Puis-je utiliser Grok Voice pour des personnages IA dans un jeu ?**Oui. Le point d'accès TTS est suffisamment rapide pour la génération en temps réel, et les voix personnalisées signifient que chaque personnage peut avoir son propre clone. Surveillez la latence sur les longues lignes ; le TTS fragmenté est le modèle.
Pour conclure
Grok Voice est le chemin le plus simple et gratuit vers un agent vocal en temps réel en 2026. La console n'a pas de frais par minute, la latence est réelle, et les voix personnalisées éliminent les frictions de licence qui empêchaient la plupart des équipes de lancer des fonctionnalités vocales. Le moyen le plus rapide de valider le modèle pour votre cas d'utilisation est de scripter une session dans Apidog, de l'exécuter avec trois voix prédéfinies et d'écouter.
Lorsque vous êtes prêt à l'intégrer au raisonnement de Grok 4.3, consultez le guide de l'API Grok 4.3. Pour une comparaison côte à côte avec la pile d'OpenAI, consultez Grok Voice vs GPT-Realtime.
