Qu'est-ce que GPT-Realtime-2 et Comment Utiliser l'API GPT-Realtime-2

Ashley Innocent

Ashley Innocent

8 May 2026

Qu'est-ce que GPT-Realtime-2 et Comment Utiliser l'API GPT-Realtime-2

Apidog pour les entreprises

Déploiement sur site

SSO & RBAC

Conforme SOC 2

Découvrir Apidog Enterprise

OpenAI a lancé une nouvelle génération de modèles vocaux le 6 novembre 2026, et la sortie phare est GPT-Realtime-2 : le premier modèle parole-à-parole doté d'un raisonnement de classe GPT-5, d'une fenêtre contextuelle de 128 000 tokens et d'un effort de raisonnement configurable qui ajuste la latence en fonction de la qualité de la réponse. Il fonctionne sur l'interface API Realtime existante, donc si vous avez déjà configuré gpt-realtime, la migration se résume à un changement de chaîne de modèle et à quelques nouveaux champs d'outil.

Ce guide couvre ce qu'est GPT-Realtime-2, ce qui a changé par rapport au modèle précédent, le tableau complet des prix, et comment l'appeler via WebSocket et SIP. Nous incluons également une configuration fonctionnelle dans Apidog afin que vous puissiez rejouer les sessions Realtime sans réenregistrer l'audio à chaque fois.

Pour le contexte sur la gamme de modèles plus large d'OpenAI pour 2026, voir Qu'est-ce que GPT-5.5. Pour son homologue multimodal, voir Comment utiliser l'API GPT-Image-2.

En bref

Qu'est-ce que GPT-Realtime-2 ?

GPT-Realtime-2 est un modèle parole-à-parole unique. Vous diffusez l'audio en entrée, il diffuse l'audio en sortie, et le modèle gère la transcription, le raisonnement, la sélection d'outils et la génération vocale en un seul passage. Il n'y a pas de pipeline STT-puis-LLM-puis-TTS ; ce modèle plus ancien est ce que gpt-realtime a remplacé l'année dernière, et la v2 affine la même interface avec un cœur de raisonnement plus puissant.

Le modèle accepte le texte, l'audio et les images en entrée, et émet du texte et de l'audio en sortie. L'entrée d'image est la nouvelle modalité ici : vous pouvez insérer une photo ou une capture d'écran dans une conversation en direct et demander à l'agent de décrire ce qui se trouve sur l'écran de l'utilisateur, puis continuer à parler. Cela permet de créer des copilotes vocaux qui voient ce que l'utilisateur voit, ce qui est une catégorie d'agents que le modèle précédent ne pouvait pas exécuter de bout en bout.

Spécifications en un coup d'œil :

Attribut Valeur
ID du modèle gpt-realtime-2
Fenêtre de contexte 128,000 tokens
Sortie maximale 32,000 tokens
Modalités (entrée) texte, audio, image
Modalités (sortie) texte, audio
Date limite de connaissance 2024-09-30
Niveaux de raisonnement minimal, low, medium, high, xhigh
Appel de fonction oui
Serveurs MCP distants oui
Entrée d'image oui
Appels téléphoniques SIP oui

Ce qui a changé par rapport à gpt-realtime

Les gains des benchmarks sont réels, pas cosmétiques. Par rapport à gpt-realtime-1.5, le modèle v2 affiche :

Ces scores ont été obtenus avec un raisonnement high et xhigh. La production utilise par défaut low pour la latence, de sorte que la qualité quotidienne se situe entre les deux extrêmes. Le modèle a également acquis quatre comportements méritant d'être soulignés :

Le contexte est passé de 32k à 128k tokens, ce qui est le changement qui permet de construire de longues sessions vocales ; les cas d'utilisation bancaires, de support et de tutorat sont les gains évidents.

Tarification

GPT-Realtime-2 est facturé par token, avec des tarifs distincts pour l'entrée de texte, d'audio et d'image.

Type de token Entrée Entrée en cache Sortie
Texte $4.00 / 1M $0.40 / 1M $24.00 / 1M
Audio $32.00 / 1M $0.40 / 1M $64.00 / 1M
Image $5.00 / 1M $0.50 / 1M n/a

L'entrée en cache réduit la facture par 80x pour les contextes répétés, donc tout agent avec un prompt système stable ou un document réutilisé devrait maintenir le cache actif. Pour une comparaison avec le reste de la gamme OpenAI, voir la tarification de GPT-5.5.

Les modèles complémentaires sont tarifés différemment car ils sont facturés à la minute :

Choisissez GPT-Realtime-2 lorsque vous avez besoin de raisonnement et de génération vocale ensemble, GPT-Realtime-Translate pour l'interprétation multilingue en direct, et GPT-Realtime-Whisper lorsque vous n'avez besoin que de la transcription.

Points d'accès et authentification

GPT-Realtime-2 est exposé via plusieurs points d'accès en fonction de ce que vous faites :

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Pour les agents vocaux, le point d'accès WebSocket est celui que vous voulez. L'authentification utilise le même modèle de token d'accès (bearer token) qu'OpenAI utilise partout :

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Définissez OPENAI_API_KEY une fois et réutilisez-la.

export OPENAI_API_KEY="sk-proj-..."

Connexion via WebSocket

Un client Node.js minimal ressemble à ceci :

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

La session est pilotée par les événements. Vous envoyez des frames input_audio_buffer.append lorsque l'utilisateur parle, et le serveur émet des événements response.audio.delta en retour. Le PCM16 à 24 kHz est le défaut sûr ; les normes G.711 mu-law et A-law sont également prises en charge, ce qui est important lors de l'interconnexion avec des systèmes téléphoniques.

Pour l'équivalent Python, le SDK openai >= 2.1.0 expose un client realtime avec les mêmes noms d'événements. Si vous souhaitez comparer l'interface Realtime à l'API Responses, voir Comment utiliser l'API GPT-5.5.

Voix

Deux nouvelles voix sont livrées avec cette version :

Les deux sont exclusives à l'API Realtime. Les huit voix précédentes (alloy, ash, ballad, coral, echo, sage, shimmer, verse) sont toujours disponibles et ont été réajustées pour utiliser la nouvelle pile audio du modèle, de sorte qu'elles sont nettement moins robotiques que sur la v1.

Changez de voix en cours de session en envoyant un autre session.update avec le nouveau champ voice. Il n'y a pas de latence supplémentaire due à un échange de voix.

Entrée d'image

Vous pouvez joindre une image à n'importe quel tour de l'utilisateur. Le modèle la voit de la même manière que la vision de GPT-4o voit une photo, sauf que maintenant vous pouvez poser des questions de suivi à voix haute et il y répond à voix haute :

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Modèles courants que nous observons dans les premières versions de production :

Pour un aperçu plus détaillé de la pile d'images d'OpenAI, voir Comment utiliser l'API GPT-Image-2.

Appel de fonction et MCP

GPT-Realtime-2 prend en charge à la fois les outils de fonction standard et les serveurs MCP distants dans la même session.

L'appel de fonction standard fonctionne comme les Chat Completions : déclarez les outils dans la configuration de session, le modèle émet un événement response.function_call_arguments.delta, vous exécutez, vous répondez avec un conversation.item.create de type function_call_output. Le nouveau comportement est les appels parallèles ; le modèle peut en déclencher deux ou trois à la fois et narrer « vérification de votre solde et de vos trois dernières transactions » pendant qu'ils se résolvent.

Les serveurs MCP distants représentent le changement majeur. Configurez une URL MCP et une liste blanche d'outils dans la session, et l'API Realtime elle-même exécute les appels ; votre code n'a jamais besoin de faire un aller-retour via la boucle d'événements d'appel de fonction. Cela maintient la réactivité des agents vocaux lorsqu'ils puisent dans un catalogue d'outils de cinquante points d'accès au lieu de cinq.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Si vous testez des serveurs MCP avant de les intégrer à un agent vocal, la procédure détaillée de test des serveurs MCP dans Apidog couvre la configuration de rejeu de requêtes que nous utilisons en interne.

Appels téléphoniques SIP

Les agents vocaux en temps réel peuvent prendre de vrais appels téléphoniques. Dirigez votre trunk SIP vers la passerelle SIP d'OpenAI, et les appels entrants ouvrent une session WebSocket à wss://api.openai.com/v1/realtime?call_id={call_id}. Le modèle accepte directement les normes G.711 mu-law et A-law, vous n'avez donc pas besoin de transcoder dans votre passerelle.

C'est ce qui fait de GPT-Realtime-2 un modèle crédible pour les centres d'appels plutôt qu'une simple démo de navigateur. Il s'associe naturellement aux appels d'outils parallèles et au MCP, car la plupart des agents téléphoniques sont principalement des répartiteurs d'outils.

Niveaux de raisonnement

Les cinq niveaux de raisonnement se comportent comme un seul accélérateur pour la latence par rapport à la qualité de la réponse :

Niveau Cas d'utilisation Coût approx. de la latence
minimal Réponses oui/non en un seul tour aucun
low Par défaut ; support et chat quotidiens faible
medium Désambiguïsation, répartition d'outils complexes modéré
high Raisonnement multi-étapes, révision de code par la voix élevé
xhigh Benchmarks, questions analytiques difficiles le plus élevé

Le niveau par défaut est low. N'augmentez le niveau que si vous constatez des régressions de qualité avec low ; le coût de latence de high et xhigh est suffisamment important pour que les utilisateurs remarquent la différence lors des appels.

Test de l'API Realtime dans Apidog

Les API WebSocket sont difficiles à déboguer depuis le terminal car la conversation a un état. Apidog offre un support WebSocket de premier ordre, vous pouvez donc :

  1. Enregistrer l'URL WebSocket avec l'en-tête OpenAI-Beta pré-rempli.
  2. Mettre en scène une séquence de messages JSON (session.update, input_audio_buffer.append, response.create) comme un script.
  3. Rejouer le script sur une seule connexion et capturer chaque événement du serveur dans une arborescence.
  4. Comparer deux exécutions côte à côte ; utile lorsque vous modifiez l'effort de raisonnement et souhaitez comparer le nombre de tokens de sortie audio.

Téléchargez Apidog, créez une nouvelle requête WebSocket et collez votre token d'accès sous Auth. La structure de la collection reflète ce que vous conservez pour HTTP : des environnements pour OPENAI_API_KEY, des variables pour voice, des scripts qui s'exécutent sur chaque connexion.

Pour une comparaison avec un autre modèle multimodal rapide, voir Comment utiliser l'API Gemini 3 Flash Preview.

FAQ

Quel ID de modèle dois-je passer ?gpt-realtime-2. Le modèle précédent est toujours disponible sous le nom gpt-realtime si vous avez besoin de revenir en arrière. Pour la version allégée, gpt-realtime-2-mini est également actif.

Puis-je diffuser de l'audio en entrée pendant que l'audio en sortie est encore en cours de lecture ?Oui. L'API Realtime utilise par défaut la détection d'activité vocale (VAD) côté serveur, de sorte que le modèle cessera de parler lorsque l'utilisateur commencera. Vous pouvez désactiver la VAD et gérer les limites de tour depuis le client.

Le contexte de 128k inclut-il les tokens audio ?Oui. L'audio est tokenisé ; une seconde d'audio représente environ 50 tokens selon le format. Un long appel de support consomme le contexte plus rapidement qu'un long chat textuel, alors vérifiez l'utilisation avant de supposer que la fenêtre de 128k est généreuse.

Le fine-tuning est-il supporté ?Pas encore. Selon la fiche du modèle, GPT-Realtime-2 ne prend pas encore en charge le fine-tuning, les sorties prédites ou le streaming de texte sur les Chat Completions. Le point d'accès Realtime diffuse l'audio de manière inhérente.

Comment cela se compare-t-il à GPT-5.5 avec TTS intégré ?Vous perdez le raisonnement vocal de bout en bout. Un modèle sensible à la voix peut détecter le ton, l'hésitation et l'emphase ; un modèle textuel avec TTS ne le peut pas. Pour les agents qui doivent réagir à la manière dont l'utilisateur parle, GPT-Realtime-2 est l'outil approprié. Pour un raisonnement purement textuel, voir Comment utiliser l'API GPT-5.5.

Quelles sont les limites de débit applicables ?Le niveau 1 commence à 40 000 tokens par minute et monte à 15 millions de tokens par minute au niveau 5. Les limites de débit sont par modèle, donc le quota GPT-5 existant n'est pas reporté.

Conclusion

GPT-Realtime-2 comble le fossé entre les agents vocaux et les agents textuels. Le contexte de 128k, le raisonnement de classe GPT-5, l'entrée d'image, le MCP natif et le support SIP permettent ensemble de construire un agent vocal unique qui répond à un appel téléphonique, examine une capture d'écran, envoie un outil distant et se remet d'une défaillance en milieu de phrase, le tout sans quitter le WebSocket. La tarification est juste à 32 $/64 $ par million de tokens audio, et l'entrée en cache réduit la facture sur les prompts système stables.

Le chemin le plus rapide vers la production est de scripter la session WebSocket dans Apidog, de figer une liste d'outils et de commencer avec un raisonnement low. N'augmentez le niveau que lorsque vous pouvez mesurer un écart de qualité.

button

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API