Comment Utiliser Grok Voice Gratuitement: Configuration Console, Clonage Vocal et Agents Vocaux en Temps Réel

Ashley Innocent

Ashley Innocent

8 May 2026

Comment Utiliser Grok Voice Gratuitement: Configuration Console, Clonage Vocal et Agents Vocaux en Temps Réel

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

xAI a lancé Grok Voice avec la version Grok 4.3, et le message principal pour les développeurs est simple : c'est gratuit sur la console xAI. Pas de frais par minute, pas de frais par jeton, accès complet au modèle d'agent vocal, à l'interface de synthèse vocale, à l'interface de reconnaissance vocale et à l'outil de clonage de voix personnalisées. La seule ressource facturable est l'utilisation des jetons Grok 4.3 sous-jacents lorsque l'agent raisonne, et cela inclut sa propre allocation gratuite sur la console pour les tests.

Ce guide explique comment faire fonctionner Grok Voice gratuitement, y compris comment cloner votre propre voix, à quoi ressemble la session WebSocket, et comment tester le flux complet avec Apidog avant de l'intégrer à un produit.

bouton

Si vous souhaitez également le guide de l'API Grok 4.3 plus détaillé, ou une comparaison directe avec la pile d'OpenAI dans Grok Voice vs GPT-Realtime, ces articles complémentaires couvrent le reste de la surface.

En bref

Ce que Grok Voice vous offre gratuitement

La console xAI est la voie vers un accès gratuit. Connectez-vous sur `console.x.ai`, générez une clé API, et vous pourrez appeler quatre interfaces sans frais liés aux fonctionnalités vocales elles-mêmes :

Le seul compteur qui tourne est l'utilisation des jetons Grok 4.3 lorsque l'agent raisonne sur une requête. La console vous offre également un crédit gratuit pour tester cette interface, ce qui est suffisant pour valider les flux de bout en bout avant que la facturation ne commence.

Étape 1 : Obtenir une clé de console

Allez sur `console.x.ai` et connectez-vous avec votre compte X. Depuis la page **Clés API**, créez une nouvelle clé avec les scopes `voice` et `chat` activés. Exportez-la une fois et réutilisez-la :

export XAI_API_KEY="xai-..."

Pour les applications côté client où vous ne pouvez pas livrer la clé, créez un **jeton éphémère** à partir des paramètres de la console ou via le point d'accès `/v1/realtime/sessions`. Les jetons éphémères ont la même portée mais expirent en quelques minutes, vous pouvez donc les transmettre à un navigateur sans divulguer la clé parente.

Étape 2 : Choisir une voix

Deux chemins.

**Voix prédéfinies.** L'agent vocal est livré avec cinq personas nommés :

Pour l'API TTS plus large, la bibliothèque de voix prédéfinies est beaucoup plus étendue ; plus de 80 voix couvrant 28 langues, toutes appelables avec un paramètre `voice` sur le point d'accès TTS.

**Clones de voix personnalisées.** Téléchargez un fichier WAV d'environ une minute de parole claire d'un seul locuteur. xAI renvoie un `voice_id` en moins de deux minutes, et le même ID fonctionne à la fois pour la synthèse vocale (TTS) et l'agent vocal.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

La durée maximale du clip de référence est de 120 secondes, mais plus n'est pas mieux ; un audio propre et cohérent compte plus que la longueur. Enregistrez dans une pièce calme, en une seule prise, sans fond musical.

Étape 3 : Faire parler Grok via WebSocket

L'agent vocal est une session WebSocket unique. Ouvrez-la une fois, diffusez l'audio entrant, diffusez l'audio sortant. Un client Node.js minimal ressemble à ceci :

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

L'audio de l'utilisateur est envoyé dans des événements `input_audio_buffer.append` sous forme de trames PCM16 en base64. Le serveur émet des événements `response.audio.delta` lorsque le modèle répond, et `response.audio.done` lorsque le tour se termine. Le PCM16 à 24 kHz est le défaut sûr pour les applications de navigateur et de bureau ; passez au μ-law lorsque vous vous connectez à des systèmes téléphoniques.

Étape 4 : Ajouter l'utilisation d'outils

L'agent vocal prend en charge l'appel de fonctions, de sorte que le modèle peut interroger vos API en pleine conversation. Déclarez un outil dans la configuration de la session :

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

Le modèle émettra `response.function_call_arguments.done` lorsqu'il voudra appeler l'outil. Exécutez la fonction de votre côté, puis renvoyez le résultat avec un `conversation.item.create` de type `function_call_output`. Le modèle reprendra là où il s'était arrêté et racontera la réponse.

Un outil `web_search` intégré est disponible dès le départ, ce qui est utile pour ancrer les réponses dans des données récentes sans avoir à écrire votre propre couche de récupération.

Étape 5 : Utiliser la synthèse vocale (TTS) sans l'agent

Si vous n'avez besoin que de synthèse vocale (messages audio, voix off d'application, introductions de podcasts), ignorez le WebSocket et accédez au point d'accès REST :

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Les options de format sont `mp3` (haute fidélité) et `mulaw` (8 kHz, téléphonie). Le point d'accès est synchrone ; vous récupérez des octets, aucune session de streaming n'est nécessaire.

Étape 6 : Tester le flux complet dans Apidog

Les API WebSocket sont difficiles à déboguer depuis le terminal car la conversation est contextuelle. Le modèle standard que nous utilisons :

  1. Enregistrez l'URL WebSocket avec le jeton d'authentification pré-rempli dans un environnement.
  2. Mettez en scène un script de messages JSON : `session.update`, `input_audio_buffer.append` (avec une trame audio de test), `response.create`.
  3. Rejouez le script contre une seule connexion et capturez chaque événement du serveur dans une arborescence.
  4. Comparez deux exécutions côte à côte lorsque vous modifiez la voix ou les instructions ; utile pour détecter les dérives dans le comportement de prise de parole.

Téléchargez Apidog, créez une nouvelle requête WebSocket et collez votre `XAI_API_KEY` dans les variables d'environnement. La même collection fonctionne pour la synthèse vocale (TTS) et la reconnaissance vocale (STT) (qui sont de simples requêtes REST), et vous pouvez conserver les deux interfaces dans un seul projet. Pour en savoir plus sur les modèles de test d'API contextuelles, consultez Outil de test d'API pour les ingénieurs QA.

Limites du niveau gratuit

La console vous donne un accès complet sans frais par minute ou par jeton pour les fonctionnalités vocales elles-mêmes. Les limites qui existent sont les suivantes :

Si vous rencontrez des erreurs de limite de débit, regroupez vos requêtes ou passez à un niveau payant ; le comportement de l'API ne change pas, seule la limite.

Comparaison des voix

Passez la même ligne dans chaque préréglage avant de livrer. Les voix interprètent le ton différemment, et une courte liste de tests permet de repérer rapidement les mauvaises associations :

Le test agnostique du modèle que nous effectuons en interne : prononcez la même invite à trois vitesses (calme, normale, urgente) et écoutez le changement d'inflexion. Les voix prédéfinies de Grok gèrent cela mieux que la plupart des moteurs TTS que nous avons évalués, mais vous voulez toujours effectuer l'audit avant de passer en production.

FAQ

**L'API est-elle vraiment gratuite, ou y a-t-il une limite cachée ?**Les fonctionnalités vocales (TTS, STT, agent vocal, voix personnalisées) ne comportent aucun frais par minute ou par jeton sur la console. Le modèle de raisonnement sous-jacent est facturé sur le crédit console ; l'allocation console est suffisante pour le prototypage.

**Ai-je besoin d'un compte X (Twitter) ?**Oui. La connexion à la console utilise un compte X.

**Puis-je utiliser Grok Voice depuis un navigateur ?**Oui, avec un jeton éphémère. Créez-le côté serveur via `/v1/realtime/sessions`, transmettez le jeton de courte durée au navigateur et connectez directement le WebSocket. La clé parente ne quitte jamais votre serveur.

**Quelle qualité audio puis-je attendre ?**La sortie TTS est en MP3 haute fidélité ou en μ-law 8 kHz. L'agent vocal utilise le PCM16 à 24 kHz en interne. La qualité est comparable à celle des principaux moteurs TTS commerciaux ; la latence est le facteur de différenciation.

**Fonctionne-t-il avec la téléphonie ?**Oui. La sortie μ-law est le format standard pour les passerelles SIP et RTC. Vous avez toujours besoin d'un fournisseur SIP ; xAI ne fournit pas son propre passerelle SIP aujourd'hui.

**Comment la qualité de clonage se compare-t-elle à d'autres outils ?**La qualité de clonage dépend plus de la qualité de l'audio de référence que de sa longueur. Un échantillon propre de 60 secondes dans une pièce calme est meilleur qu'un échantillon bruyant de 120 secondes dans nos tests. Le `voice_id` de sortie est portable entre le point d'accès TTS et l'agent vocal sans reclonage.

**Puis-je utiliser Grok Voice pour des personnages IA dans un jeu ?**Oui. Le point d'accès TTS est suffisamment rapide pour la génération en temps réel, et les voix personnalisées signifient que chaque personnage peut avoir son propre clone. Surveillez la latence sur les longues lignes ; le TTS fragmenté est le modèle.

Pour conclure

Grok Voice est le chemin le plus simple et gratuit vers un agent vocal en temps réel en 2026. La console n'a pas de frais par minute, la latence est réelle, et les voix personnalisées éliminent les frictions de licence qui empêchaient la plupart des équipes de lancer des fonctionnalités vocales. Le moyen le plus rapide de valider le modèle pour votre cas d'utilisation est de scripter une session dans Apidog, de l'exécuter avec trois voix prédéfinies et d'écouter.

Lorsque vous êtes prêt à l'intégrer au raisonnement de Grok 4.3, consultez le guide de l'API Grok 4.3. Pour une comparaison côte à côte avec la pile d'OpenAI, consultez Grok Voice vs GPT-Realtime.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API