OpenAI a lancé une nouvelle génération de modèles vocaux le 6 novembre 2026, et la sortie phare est GPT-Realtime-2 : le premier modèle parole-à-parole doté d'un raisonnement de classe GPT-5, d'une fenêtre contextuelle de 128 000 tokens et d'un effort de raisonnement configurable qui ajuste la latence en fonction de la qualité de la réponse. Il fonctionne sur l'interface API Realtime existante, donc si vous avez déjà configuré gpt-realtime, la migration se résume à un changement de chaîne de modèle et à quelques nouveaux champs d'outil.
Ce guide couvre ce qu'est GPT-Realtime-2, ce qui a changé par rapport au modèle précédent, le tableau complet des prix, et comment l'appeler via WebSocket et SIP. Nous incluons également une configuration fonctionnelle dans Apidog afin que vous puissiez rejouer les sessions Realtime sans réenregistrer l'audio à chaque fois.
Pour le contexte sur la gamme de modèles plus large d'OpenAI pour 2026, voir Qu'est-ce que GPT-5.5. Pour son homologue multimodal, voir Comment utiliser l'API GPT-Image-2.
En bref
- GPT-Realtime-2 est le modèle parole-à-parole phare d'OpenAI avec un raisonnement de classe GPT-5, un contexte de 128k et une sortie maximale de 32k tokens.
- La tarification audio est de 32 $ par million de tokens d'entrée et de 64 $ par million de tokens de sortie, avec une entrée en cache à 0,40 $/million.
- Deux nouvelles voix, Cedar et Marin, sont exclusives à l'API Realtime ; les huit voix existantes ont bénéficié d'une amélioration de qualité.
- Cinq niveaux de raisonnement :
minimal,low,medium,high,xhigh. Le défaut estlowpour la latence. - Connectez-vous via WebSocket à
wss://api.openai.com/v1/realtime?model=gpt-realtime-2, ou recevez des appels entrants via SIP. - Versions complémentaires : GPT-Realtime-Translate (traduction en direct, 70 langues d'entrée, 0,034 $/min) et GPT-Realtime-Whisper (STT en streaming, 0,017 $/min).
- Utilisez Apidog pour scripter la session WebSocket, capturer les frames et comparer les événements audio entre les exécutions.
Qu'est-ce que GPT-Realtime-2 ?
GPT-Realtime-2 est un modèle parole-à-parole unique. Vous diffusez l'audio en entrée, il diffuse l'audio en sortie, et le modèle gère la transcription, le raisonnement, la sélection d'outils et la génération vocale en un seul passage. Il n'y a pas de pipeline STT-puis-LLM-puis-TTS ; ce modèle plus ancien est ce que gpt-realtime a remplacé l'année dernière, et la v2 affine la même interface avec un cœur de raisonnement plus puissant.

Le modèle accepte le texte, l'audio et les images en entrée, et émet du texte et de l'audio en sortie. L'entrée d'image est la nouvelle modalité ici : vous pouvez insérer une photo ou une capture d'écran dans une conversation en direct et demander à l'agent de décrire ce qui se trouve sur l'écran de l'utilisateur, puis continuer à parler. Cela permet de créer des copilotes vocaux qui voient ce que l'utilisateur voit, ce qui est une catégorie d'agents que le modèle précédent ne pouvait pas exécuter de bout en bout.
Spécifications en un coup d'œil :
| Attribut | Valeur |
|---|---|
| ID du modèle | gpt-realtime-2 |
| Fenêtre de contexte | 128,000 tokens |
| Sortie maximale | 32,000 tokens |
| Modalités (entrée) | texte, audio, image |
| Modalités (sortie) | texte, audio |
| Date limite de connaissance | 2024-09-30 |
| Niveaux de raisonnement | minimal, low, medium, high, xhigh |
| Appel de fonction | oui |
| Serveurs MCP distants | oui |
| Entrée d'image | oui |
| Appels téléphoniques SIP | oui |
Ce qui a changé par rapport à gpt-realtime
Les gains des benchmarks sont réels, pas cosmétiques. Par rapport à gpt-realtime-1.5, le modèle v2 affiche :
- Big Bench Audio (intelligence audio) : 81,4 % → 96,6 %, un saut de 15,2 points.
- Audio MultiChallenge (suivi des instructions) : 34,7 % → 48,5 %, un saut de 13,8 points.
Ces scores ont été obtenus avec un raisonnement high et xhigh. La production utilise par défaut low pour la latence, de sorte que la qualité quotidienne se situe entre les deux extrêmes. Le modèle a également acquis quatre comportements méritant d'être soulignés :
- Préambules. Le modèle peut prononcer de courtes phrases de remplissage comme « laissez-moi vérifier cela » avant de donner une vraie réponse, ce qui masque la latence du raisonnement à l'utilisateur.
- Appels d'outils parallèles avec narration audio. Le modèle peut déclencher plusieurs appels de fonction à la fois et narrer leur progression pendant qu'ils se résolvent, au lieu de rester silencieux pendant deux secondes.
- Récupération plus robuste. Les tours ambigus ou partiellement échoués sont gérés avec élégance au lieu de revenir au début.
- Contrôle du ton du domaine. La terminologie spécialisée reste cohérente tout au long d'une longue session, et le modèle adapte la livraison (formelle, décontractée, lente) lorsque vous le demandez en session.

Le contexte est passé de 32k à 128k tokens, ce qui est le changement qui permet de construire de longues sessions vocales ; les cas d'utilisation bancaires, de support et de tutorat sont les gains évidents.
Tarification
GPT-Realtime-2 est facturé par token, avec des tarifs distincts pour l'entrée de texte, d'audio et d'image.
| Type de token | Entrée | Entrée en cache | Sortie |
|---|---|---|---|
| Texte | $4.00 / 1M | $0.40 / 1M | $24.00 / 1M |
| Audio | $32.00 / 1M | $0.40 / 1M | $64.00 / 1M |
| Image | $5.00 / 1M | $0.50 / 1M | n/a |
L'entrée en cache réduit la facture par 80x pour les contextes répétés, donc tout agent avec un prompt système stable ou un document réutilisé devrait maintenir le cache actif. Pour une comparaison avec le reste de la gamme OpenAI, voir la tarification de GPT-5.5.
Les modèles complémentaires sont tarifés différemment car ils sont facturés à la minute :
- GPT-Realtime-Translate : 0,034 $ par minute. Gère 70 langues d'entrée et 13 langues de sortie, avec un taux d'erreur de mots (WER) 12,5 % inférieur à tout autre modèle testé en hindi, tamoul et télougou.
- GPT-Realtime-Whisper : 0,017 $ par minute. Conversion parole-texte en streaming conçue pour les sous-titres en direct et la transcription continue ; plus rapide que l'exécution de Whisper en lot sur un tampon glissant.
Choisissez GPT-Realtime-2 lorsque vous avez besoin de raisonnement et de génération vocale ensemble, GPT-Realtime-Translate pour l'interprétation multilingue en direct, et GPT-Realtime-Whisper lorsque vous n'avez besoin que de la transcription.
Points d'accès et authentification
GPT-Realtime-2 est exposé via plusieurs points d'accès en fonction de ce que vous faites :
POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS wss://api.openai.com/v1/realtime?call_id={call_id} # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions
Pour les agents vocaux, le point d'accès WebSocket est celui que vous voulez. L'authentification utilise le même modèle de token d'accès (bearer token) qu'OpenAI utilise partout :
Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1
Définissez OPENAI_API_KEY une fois et réutilisez-la.
export OPENAI_API_KEY="sk-proj-..."
Connexion via WebSocket
Un client Node.js minimal ressemble à ceci :
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "cedar",
instructions: "You are a friendly support agent for a fintech app.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
reasoning: { effort: "low" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
// base64 PCM16 audio chunk; pipe to your speaker or browser
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
La session est pilotée par les événements. Vous envoyez des frames input_audio_buffer.append lorsque l'utilisateur parle, et le serveur émet des événements response.audio.delta en retour. Le PCM16 à 24 kHz est le défaut sûr ; les normes G.711 mu-law et A-law sont également prises en charge, ce qui est important lors de l'interconnexion avec des systèmes téléphoniques.
Pour l'équivalent Python, le SDK openai >= 2.1.0 expose un client realtime avec les mêmes noms d'événements. Si vous souhaitez comparer l'interface Realtime à l'API Responses, voir Comment utiliser l'API GPT-5.5.
Voix
Deux nouvelles voix sont livrées avec cette version :
- Cedar : voix masculine chaude, médium. Par défaut pour les agents généraux.
- Marin : voix féminine claire et lumineuse. Bonne pour la traduction et les annonces.
Les deux sont exclusives à l'API Realtime. Les huit voix précédentes (alloy, ash, ballad, coral, echo, sage, shimmer, verse) sont toujours disponibles et ont été réajustées pour utiliser la nouvelle pile audio du modèle, de sorte qu'elles sont nettement moins robotiques que sur la v1.
Changez de voix en cours de session en envoyant un autre session.update avec le nouveau champ voice. Il n'y a pas de latence supplémentaire due à un échange de voix.
Entrée d'image
Vous pouvez joindre une image à n'importe quel tour de l'utilisateur. Le modèle la voit de la même manière que la vision de GPT-4o voit une photo, sauf que maintenant vous pouvez poser des questions de suivi à voix haute et il y répond à voix haute :
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "message",
role: "user",
content: [
{ type: "input_image", image_url: "https://example.com/screenshot.png" },
{ type: "input_text", text: "What does this error mean?" },
],
},
}));
ws.send(JSON.stringify({ type: "response.create" }));
Modèles courants que nous observons dans les premières versions de production :
- QA vocale. Le testeur pointe l'appareil photo d'un téléphone vers une interface utilisateur défectueuse ; l'agent décrit ce qu'il voit et dicte le rapport de bogue.
- Support sur le terrain. Un technicien partage une photo d'un panneau de câblage ; l'agent guide le diagnostic.
- Accessibilité. Narration en direct, de type lecteur d'écran, de l'écran actuel d'un utilisateur pendant un appel de support.
Pour un aperçu plus détaillé de la pile d'images d'OpenAI, voir Comment utiliser l'API GPT-Image-2.
Appel de fonction et MCP
GPT-Realtime-2 prend en charge à la fois les outils de fonction standard et les serveurs MCP distants dans la même session.
L'appel de fonction standard fonctionne comme les Chat Completions : déclarez les outils dans la configuration de session, le modèle émet un événement response.function_call_arguments.delta, vous exécutez, vous répondez avec un conversation.item.create de type function_call_output. Le nouveau comportement est les appels parallèles ; le modèle peut en déclencher deux ou trois à la fois et narrer « vérification de votre solde et de vos trois dernières transactions » pendant qu'ils se résolvent.
Les serveurs MCP distants représentent le changement majeur. Configurez une URL MCP et une liste blanche d'outils dans la session, et l'API Realtime elle-même exécute les appels ; votre code n'a jamais besoin de faire un aller-retour via la boucle d'événements d'appel de fonction. Cela maintient la réactivité des agents vocaux lorsqu'ils puisent dans un catalogue d'outils de cinquante points d'accès au lieu de cinq.
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "mcp",
server_url: "https://mcp.example.com/sse",
allowed_tools: ["lookup_account", "list_transactions"],
}],
},
}));
Si vous testez des serveurs MCP avant de les intégrer à un agent vocal, la procédure détaillée de test des serveurs MCP dans Apidog couvre la configuration de rejeu de requêtes que nous utilisons en interne.
Appels téléphoniques SIP
Les agents vocaux en temps réel peuvent prendre de vrais appels téléphoniques. Dirigez votre trunk SIP vers la passerelle SIP d'OpenAI, et les appels entrants ouvrent une session WebSocket à wss://api.openai.com/v1/realtime?call_id={call_id}. Le modèle accepte directement les normes G.711 mu-law et A-law, vous n'avez donc pas besoin de transcoder dans votre passerelle.
C'est ce qui fait de GPT-Realtime-2 un modèle crédible pour les centres d'appels plutôt qu'une simple démo de navigateur. Il s'associe naturellement aux appels d'outils parallèles et au MCP, car la plupart des agents téléphoniques sont principalement des répartiteurs d'outils.
Niveaux de raisonnement
Les cinq niveaux de raisonnement se comportent comme un seul accélérateur pour la latence par rapport à la qualité de la réponse :
| Niveau | Cas d'utilisation | Coût approx. de la latence |
|---|---|---|
minimal |
Réponses oui/non en un seul tour | aucun |
low |
Par défaut ; support et chat quotidiens | faible |
medium |
Désambiguïsation, répartition d'outils complexes | modéré |
high |
Raisonnement multi-étapes, révision de code par la voix | élevé |
xhigh |
Benchmarks, questions analytiques difficiles | le plus élevé |
Le niveau par défaut est low. N'augmentez le niveau que si vous constatez des régressions de qualité avec low ; le coût de latence de high et xhigh est suffisamment important pour que les utilisateurs remarquent la différence lors des appels.
Test de l'API Realtime dans Apidog
Les API WebSocket sont difficiles à déboguer depuis le terminal car la conversation a un état. Apidog offre un support WebSocket de premier ordre, vous pouvez donc :

- Enregistrer l'URL WebSocket avec l'en-tête
OpenAI-Betapré-rempli. - Mettre en scène une séquence de messages JSON (session.update, input_audio_buffer.append, response.create) comme un script.
- Rejouer le script sur une seule connexion et capturer chaque événement du serveur dans une arborescence.
- Comparer deux exécutions côte à côte ; utile lorsque vous modifiez l'effort de raisonnement et souhaitez comparer le nombre de tokens de sortie audio.
Téléchargez Apidog, créez une nouvelle requête WebSocket et collez votre token d'accès sous Auth. La structure de la collection reflète ce que vous conservez pour HTTP : des environnements pour OPENAI_API_KEY, des variables pour voice, des scripts qui s'exécutent sur chaque connexion.
Pour une comparaison avec un autre modèle multimodal rapide, voir Comment utiliser l'API Gemini 3 Flash Preview.
FAQ
Quel ID de modèle dois-je passer ?gpt-realtime-2. Le modèle précédent est toujours disponible sous le nom gpt-realtime si vous avez besoin de revenir en arrière. Pour la version allégée, gpt-realtime-2-mini est également actif.
Puis-je diffuser de l'audio en entrée pendant que l'audio en sortie est encore en cours de lecture ?Oui. L'API Realtime utilise par défaut la détection d'activité vocale (VAD) côté serveur, de sorte que le modèle cessera de parler lorsque l'utilisateur commencera. Vous pouvez désactiver la VAD et gérer les limites de tour depuis le client.
Le contexte de 128k inclut-il les tokens audio ?Oui. L'audio est tokenisé ; une seconde d'audio représente environ 50 tokens selon le format. Un long appel de support consomme le contexte plus rapidement qu'un long chat textuel, alors vérifiez l'utilisation avant de supposer que la fenêtre de 128k est généreuse.
Le fine-tuning est-il supporté ?Pas encore. Selon la fiche du modèle, GPT-Realtime-2 ne prend pas encore en charge le fine-tuning, les sorties prédites ou le streaming de texte sur les Chat Completions. Le point d'accès Realtime diffuse l'audio de manière inhérente.
Comment cela se compare-t-il à GPT-5.5 avec TTS intégré ?Vous perdez le raisonnement vocal de bout en bout. Un modèle sensible à la voix peut détecter le ton, l'hésitation et l'emphase ; un modèle textuel avec TTS ne le peut pas. Pour les agents qui doivent réagir à la manière dont l'utilisateur parle, GPT-Realtime-2 est l'outil approprié. Pour un raisonnement purement textuel, voir Comment utiliser l'API GPT-5.5.
Quelles sont les limites de débit applicables ?Le niveau 1 commence à 40 000 tokens par minute et monte à 15 millions de tokens par minute au niveau 5. Les limites de débit sont par modèle, donc le quota GPT-5 existant n'est pas reporté.
Conclusion
GPT-Realtime-2 comble le fossé entre les agents vocaux et les agents textuels. Le contexte de 128k, le raisonnement de classe GPT-5, l'entrée d'image, le MCP natif et le support SIP permettent ensemble de construire un agent vocal unique qui répond à un appel téléphonique, examine une capture d'écran, envoie un outil distant et se remet d'une défaillance en milieu de phrase, le tout sans quitter le WebSocket. La tarification est juste à 32 $/64 $ par million de tokens audio, et l'entrée en cache réduit la facture sur les prompts système stables.
Le chemin le plus rapide vers la production est de scripter la session WebSocket dans Apidog, de figer une liste d'outils et de commencer avec un raisonnement low. N'augmentez le niveau que lorsque vous pouvez mesurer un écart de qualité.
