xAI a lancé Grok Voice la même semaine qu'OpenAI a déployé GPT-Realtime-2, et les développeurs qui choisissent un modèle vocal en 2026 disposent désormais de deux options phares crédibles. Les deux sont des modèles de parole à parole avec raisonnement, les deux fonctionnent sur WebSocket, les deux prennent en charge l'utilisation d'outils, et les deux parlent avec une intonation humaine. La décision repose sur cinq compromis concrets : la latence, le prix, le catalogue de voix, la profondeur de raisonnement, et si vous avez besoin de SIP, d'entrée d'image ou de clonage vocal.
Cet article les compare côte à côte, avec les chiffres, les surfaces d'API et une recommandation en une phrase pour chaque forme courante d'agent vocal.
Pour les guides autonomes, consultez Comment utiliser GPT-Realtime-2 et Comment utiliser Grok Voice gratuitement. Pour tester l'un ou l'autre modèle sous charge, Apidog gère les sessions WebSocket nativement.
En bref
- Grok Voice (
grok-voice-think-fast-1.0) l'emporte sur la latence (temps d'attente avant le premier audio <1 seconde, ~5x plus rapide que le concurrent le plus proche), l'accès gratuit à la console, le catalogue de voix (plus de 80 préréglages, 28 langues) et le clonage vocal (échantillon d'1 minute, prêt en 2 minutes). - GPT-Realtime-2 l'emporte sur la profondeur de raisonnement (classe GPT-5, 5 niveaux de raisonnement), la fenêtre contextuelle (128k tokens), l'entrée d'image (compréhension de captures d'écran en direct) et la maturité en production (SIP natif, MCP, historique plus long).
- Tarification pour l'utilisation payante : GPT-Realtime-2 est de 32 $/64 $ par million de tokens audio ; Grok Voice n'a pas de frais audio par minute sur la console, vous ne payez que pour le raisonnement Grok 4.3 à 1,25 $/2,50 $ par million de tokens.
- Choisissez Grok Voice pour les applications grand public à fort volume et faible latence, et pour tout cas d'utilisation de clonage vocal.
- Choisissez GPT-Realtime-2 pour le raisonnement complexe, les agents vocaux multimodaux et les déploiements de centres d'appels sécurisés.
- Construisez l'intégration une fois avec Apidog, puis changez de modèle avec une simple modification d'URL.
Les deux modèles dans un tableau
| Capacité | Grok Voice (grok-voice-think-fast-1.0) |
GPT-Realtime-2 |
|---|---|---|
| Temps avant le premier audio | < 1 seconde (affirmation xAI : ~5x plus rapide que le plus proche) | sous la seconde pour le raisonnement low, plus lent pour high/xhigh |
| Niveaux de raisonnement | faible / moyen / élevé (Grok 4.3 sous-jacent) | minimal / faible / moyen / élevé / très élevé |
| Intelligence sous-jacente | Grok 4.3 (Indice d'Intelligence 53) | Classe GPT-5 |
| Fenêtre contextuelle | 1 000 000 tokens (Grok 4.3) | 128 000 tokens |
| Voix prédéfinies | Plus de 80 (5 personas d'agent vocal nommées : Eve, Ara, Rex, Sal, Leo) | 10 (2 nouvelles : Cedar, Marin ; 8 réajustées) |
| Langues (TTS) | 28 | non officiellement comptées |
| Langues (STT) | 25 | hérité de GPT-Realtime |
| Clonage vocal | Oui, voix personnalisées, échantillon d'1 min, entraînement <2 min | Non |
| Entrée d'image | Non (texte + audio uniquement) | Oui (photo, capture d'écran) |
| Serveurs MCP distants | Utilisation d'outils oui ; MCP natif non annoncé | Oui (outils MCP exécutés par l'API) |
| SIP natif / appels téléphoniques | Apportez votre propre fournisseur SIP | Oui (endpoint ?call_id={call_id}) |
| Formats audio | PCM16, MP3, μ-law | PCM16, G.711 μ-law, A-law |
| Modèle de tarification | Gratuit sur console pour la voix ; ne payez que pour le raisonnement Grok 4.3 (1,25 $/2,50 $ par million) | 32 $/M audio entrant, 64 $/M audio sortant, 4 $/24 $ par M texte |
| Conformité | SOC 2 Type II, éligible HIPAA (BAA), RGPD | SOC 2, RGPD (selon OpenAI Enterprise) |
Latence : Grok l'emporte, avec une large marge
L'affirmation de xAI selon laquelle grok-voice-think-fast-1.0 est "presque 5 fois plus rapide que le concurrent le plus proche" est basée sur leurs propres benchmarks, il faut donc traiter ce multiplicateur avec prudence. La tendance est confirmée par des tests indépendants : le temps d'attente avant le premier audio de Grok est confortablement inférieur à une seconde, tandis que GPT-Realtime-2 se situe dans la bande des 800ms–1500ms selon le niveau de raisonnement.
Pourquoi c'est important : dans un appel téléphonique, la différence entre 600ms et 1200ms est la différence entre "l'agent semble vivant" et "l'agent semble être un bot". La latence est la dimension que les utilisateurs ressentent le plus.
Recommandation : si votre application est destinée au grand public et que l'utilisateur tient un téléphone en main, l'avantage de latence de Grok Voice vaut le compromis face à un raisonnement plus profond.
Tarification : des modèles différents
C'est la seule section où la comparaison est délicate.
GPT-Realtime-2 tarifie la voix comme un compteur de tokens. L'entrée audio est de 32 $ par million de tokens, la sortie audio est de 64 $ par million de tokens. Une seconde d'audio équivaut à environ 50 tokens, donc une conversation de 5 minutes avec des échanges équilibrés consomme environ 30 000 tokens, soit environ 1,50 $ en E/S audio. L'entrée mise en cache réduit les coûts par 80 pour les invites système stables.
Grok Voice n'a pas de frais par minute ou par token sur la console xAI pour le TTS, le STT, l'agent vocal ou les Voix Personnalisées. Vous ne payez que pour le raisonnement Grok 4.3 à 1,25 $ par million de tokens d'entrée et 2,50 $ par million de tokens de sortie. Les tokens de raisonnement sont environ un ordre de grandeur inférieurs aux tokens audio pour la même conversation, donc le même appel de 5 minutes coûte moins de 0,10 $.
Recommandation : pour les applications grand public à fort volume où l'économie unitaire est importante (pensez à plus de 10 000 minutes/jour), Grok Voice est considérablement moins cher. Pour les flux à faible volume et à enjeux élevés (appels de vente, support réglementé), l'écart de prix est suffisamment faible pour que la qualité du raisonnement soit décisive.
Pour le détail complet des tarifs de Grok 4.3, consultez Comment utiliser l'API Grok 4.3. Pour la grille tarifaire d'OpenAI, consultez Tarifs de GPT-5.5.
Profondeur de raisonnement : OpenAI l'emporte
GPT-Realtime-2 est le premier modèle de parole à parole qu'OpenAI décrit comme étant de "classe GPT-5". Sur Big Bench Audio, il a obtenu un score de 96,6 % (contre 81,4 % pour le modèle précédent), et sur Audio MultiChallenge, il a obtenu 48,5 % (contre 34,7 %). Cinq niveaux de raisonnement (de minimal à xhigh) vous permettent d'ajuster la latence en fonction de la qualité par requête.
Grok Voice utilise Grok 4.3 en dessous. Grok 4.3 a atteint un Indice d'Intelligence de 53 dans Artificial Analysis, se classant 10e sur 146 modèles au niveau mondial. Il est puissant, notamment pour les tâches d'agent (300 points Elo de plus que Grok 4.20 sur GDPval-AA), mais le niveau de raisonnement de parole à parole n'est pas encore au niveau de GPT-Realtime-2 sur les benchmarks publiés.
Recommandation : si l'agent doit désambiguïser l'intention, distribuer des tâches à travers de nombreux outils, ou raisonner sur un long contexte en cours de conversation, GPT-Realtime-2 est le choix le plus sûr. Pour les scripts de support et de vente simples, l'écart est suffisamment faible pour que la latence l'emporte.
Catalogue de voix : Grok l'emporte sur le nombre, OpenAI sur la cohérence
Grok propose plus de 80 voix prédéfinies couvrant 28 langues. L'agent vocal lui-même utilise un ensemble sélectionné de cinq personas (Eve, Ara, Rex, Sal, Leo), mais la surface TTS plus large vous permet de choisir parmi une bibliothèque beaucoup plus vaste. De plus, il y a le clonage vocal, qui n'a pas d'équivalent du côté d'OpenAI.
GPT-Realtime-2 propose un total de 10 voix : deux nouvelles voix phares (Cedar, Marin) exclusives à l'API Realtime, plus huit voix héritées réajustées (alloy, ash, ballad, coral, echo, sage, shimmer, verse). La bibliothèque est plus petite, mais la cohérence entre les voix est élevée ; elles utilisent toutes la même pile audio, et le contrôle de l'intonation se comporte de la même manière pour chacune.
Recommandation : si vous avez besoin d'une voix spécifique (un timbre proche d'une célébrité, un accent régional, une voix de marque personnalisée), Grok l'emporte. Si vous avez besoin d'une voix de haute qualité et que la prévisibilité du comportement vous importe, GPT-Realtime-2 est une bonne option.
Clonage vocal : seul Grok le propose
Les Voix Personnalisées de xAI clonent une voix à partir d'environ une minute de parole claire et renvoient un voice_id en moins de deux minutes. Le même voice_id fonctionne sur l'endpoint TTS et l'agent vocal. OpenAI n'expose pas actuellement le clonage vocal sur l'API Realtime.
C'est une catégorie à sens unique. Si vous avez besoin de clonage, le choix est fait.
Entrée d'image : seul OpenAI le propose
GPT-Realtime-2 accepte le texte, l'audio et les images comme entrées. Vous pouvez joindre une capture d'écran ou une photo à une intervention d'utilisateur et demander à l'agent de la décrire à haute voix, puis continuer la conversation. Les cas d'utilisation (support sur le terrain, assurance qualité pilotée par la voix, narration d'accessibilité) sont intéressants et Grok ne peut pas les égaler aujourd'hui.
C'est aussi une catégorie à sens unique. Si votre agent a besoin de voir ce que l'utilisateur regarde, OpenAI est le choix.
Pour un examen plus approfondi de la pile de vision d'OpenAI, consultez Comment utiliser l'API GPT-Image-2.
Intégration SIP et téléphonique : OpenAI propose une solution native, Grok nécessite un pont
L'API Realtime d'OpenAI dispose d'un support SIP natif. Dirigez un trunk SIP vers la passerelle d'OpenAI et les appels entrants ouvrent une session WebSocket à wss://api.openai.com/v1/realtime?call_id={call_id}. Vous évitez entièrement la couche de pont.
Grok Voice prend en charge la sortie μ-law pour la téléphonie, mais vous devez apporter votre propre fournisseur SIP (Twilio, Telnyx, Plivo) et gérer le pont vous-même. Cela fonctionne, mais cela coûte plus d'ingénierie.
Recommandation : si vous construisez un agent de centre d'appels et que vous souhaitez le chemin le plus rapide de la saisie à l'appel, GPT-Realtime-2 est l'intégration la plus légère.
MCP et utilisation d'outils
Les deux modèles prennent en charge l'appel de fonctions. La répartition :
- GPT-Realtime-2 prend en charge les serveurs MCP distants de manière native. Configurez une URL de serveur et une liste blanche d'outils, et l'API Realtime elle-même exécute les appels. Votre code ne passe jamais par la boucle d'événements d'appel de fonction.
- Grok Voice prend en charge l'appel de fonctions et propose un outil
web_searchintégré. MCP n'est pas encore annoncé comme une primitive de première classe.
Pour les agents vocaux qui tirent parti d'un catalogue d'outils à cinquante endpoints (pensez à un agent bancaire), l'intégration MCP est importante ; vous voulez que l'API distribue les outils sans que votre serveur ne soit dans le chemin critique. Pour les agents avec cinq outils ou moins, l'appel de fonctions simple sur l'un ou l'autre modèle convient.
Si vous testez des serveurs MCP séparément, consultez Test des serveurs MCP dans Apidog.
Les choix en une phrase
- Application vocale grand public, à fort volume, critique en termes de latence : Grok Voice.
- Clonage vocal requis (voix de marque personnalisée, voix de personnages) : Grok Voice.
- TTS multilingue à grande échelle (>10 langues) : Grok Voice.
- Agent vocal qui doit voir des captures d'écran : GPT-Realtime-2.
- Déploiement de centre d'appels avec SIP : GPT-Realtime-2.
- Agent de raisonnement multi-étapes avec plus de 50 outils : GPT-Realtime-2 (MCP).
- Conversations à long contexte (plus de 50 000 tokens d'historique) : GPT-Realtime-2 (contexte de 128k, mais le contexte de 1M de Grok 4.3 est plus grand si vous pouvez supporter le coût des tokens audio).
- Agent vocal de production le moins cher : Grok Voice sur console.
- Le plus fiable pour le raisonnement intensif en benchmarks : GPT-Realtime-2 avec un raisonnement
xhigh.
Comment tester les deux avant de vous engager
La meilleure approche n'est pas d'en choisir un, puis de le porter. La meilleure approche est de développer pour les deux pendant une semaine et de mesurer.
Le modèle que nous utilisons :
- Construire une conversation d'essai. Un dialogue de 10 tours avec un appel d'outil, une désambiguïsation et une longue réponse. Enregistrez l'audio réel de l'utilisateur pour les tours.
- Scriptez-le une fois dans Apidog. Requête WebSocket, séquence de messages JSON, variables d'environnement pour
XAI_API_KEYetOPENAI_API_KEY. - Échangez l'URL entre les exécutions.
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0pour l'un,wss://api.openai.com/v1/realtime?model=gpt-realtime-2pour l'autre. - Capturez la sortie audio et l'utilisation des tokens. Comparez le temps avant le premier audio, la durée totale de la sortie et le coût total par exécution.
Téléchargez Apidog pour exécuter la comparaison côte à côte. Le format de collection est portable, de sorte que l'artefact de comparaison réside dans le contrôle de version.
FAQ
Puis-je utiliser les deux modèles dans la même application et router en temps réel ? Oui. Les deux utilisent des formes d'événements similaires. Vous pouvez router en fonction de l'intention de l'utilisateur (un classifieur d'intention bon marché choisit Grok pour les requêtes occasionnelles, GPT-Realtime pour les plus complexes) ou de la langue (Grok pour le non-anglais à grande échelle). Le coût de la couche de routage est faible.
Lequel offre une meilleure qualité vocale non-anglaise ? Grok l'emporte sur la couverture linguistique (plus de 80 voix, 28 langues en TTS). Pour les langues qu'ils couvrent tous les deux, la qualité réelle est suffisamment proche pour que vous deviez tester les langues spécifiques dont vous avez besoin.
GPT-Realtime-2 vaut-il 10 fois le prix pour des charges de travail typiques ? Cela dépend de ce que signifie "typique". Pour un agent de support client qui répond aux FAQ, non. Pour un agent de vente qui doit lire un CRM, distribuer des outils et se remettre des interruptions, l'écart de raisonnement en vaut la peine.
L'un ou l'autre modèle fait-il du véritable clonage vocal de personnalités publiques ? Non. Les deux fournisseurs filtrent le clonage aux échantillons consentis. Cloner une personnalité publique sans autorisation viole les conditions de service des deux plateformes.
Comment migrer de l'un à l'autre plus tard ? Les noms d'événements diffèrent légèrement, mais la forme de la conversation est la même. Prévoyez un portage d'une journée, principalement au niveau de la charge utile de `session.update` et des noms des gestionnaires d'événements. Si vous développez avec Apidog pour les tests, la collection de requêtes est transférable sans problème.
En résumé
Il n'y a pas de réponse universellement correcte entre Grok Voice et GPT-Realtime-2. Il existe une réponse correcte par cas d'utilisation, et les cinq compromis (latence, prix, catalogue de voix, profondeur de raisonnement et intégrations comme SIP/MCP/image) déterminent le choix.
Si vous développez une application vocale grand public rapide et que chaque milliseconde compte, optez pour Grok Voice et passez à autre chose. Si vous construisez un agent vocal multimodal qui doit regarder des écrans, distribuer cinquante outils et répondre aux appels téléphoniques sans pont SIP, optez pour GPT-Realtime-2.
Pour tout le reste, développez une fois sur Apidog, testez les deux pendant une semaine et choisissez en fonction des données.
