Qué es GPT-Realtime-2 y Cómo Usar la API de GPT-Realtime-2

Ashley Innocent

Ashley Innocent

8 May 2026

Qué es GPT-Realtime-2 y Cómo Usar la API de GPT-Realtime-2

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

OpenAI lanzó una nueva generación de modelos de voz el 6 de noviembre de 2026, y el lanzamiento principal es GPT-Realtime-2: el primer modelo de voz a voz con razonamiento de clase GPT-5, una ventana de contexto de 128,000 tokens y un esfuerzo de razonamiento configurable que ajusta la latencia según la calidad de la respuesta. Se ejecuta en la superficie de la API de Realtime existente, por lo que si ya configuró gpt-realtime, la migración es un cambio de cadena de modelo y unos pocos campos de herramientas nuevos.

Esta guía cubre qué es GPT-Realtime-2, qué cambió con respecto al modelo anterior, la tabla de precios completa y cómo llamarlo a través de WebSocket y SIP. También incluimos una configuración de trabajo en Apidog para que pueda reproducir sesiones en tiempo real sin volver a grabar audio cada vez.

Para obtener contexto sobre la línea de modelos más amplia de OpenAI para 2026, consulte Qué es GPT-5.5. Para su hermano multimodal, consulte Cómo usar la API de GPT-Image-2.

TL;DR

¿Qué es GPT-Realtime-2?

GPT-Realtime-2 es un modelo único de voz a voz. Transmite audio de entrada, transmite audio de salida, y el modelo maneja la transcripción, el razonamiento, la selección de herramientas y la generación de voz en una sola pasada. No hay una tubería STT-luego-LLM-luego-TTS; ese patrón anterior es lo que gpt-realtime reemplazó el año pasado, y la v2 perfecciona la misma superficie con un núcleo de razonamiento más fuerte.

El modelo acepta texto, audio e imágenes como entrada, y emite texto y audio como salida. La entrada de imagen es la nueva modalidad aquí: puede insertar una foto o una captura de pantalla en una conversación en vivo y pedirle al agente que describa lo que hay en la pantalla del usuario, y luego seguir hablando. Esto hace posible construir copilotos de voz que ven lo que ve el usuario, lo cual es una clase de agente que el modelo anterior no podía ejecutar de extremo a extremo.

Especificaciones de un vistazo:

Atributo Valor
ID del modelo gpt-realtime-2
Ventana de contexto 128,000 tokens
Salida máxima 32,000 tokens
Modalidades (entrada) texto, audio, imagen
Modalidades (salida) texto, audio
Fecha límite de conocimiento 2024-09-30
Niveles de razonamiento minimal, low, medium, high, xhigh
Llamada a funciones yes
Servidores MCP remotos yes
Entrada de imagen yes
Llamadas telefónicas SIP yes

¿Qué cambió con respecto a gpt-realtime?

Las mejoras en los puntos de referencia son reales, no cosméticas. Frente a gpt-realtime-1.5, el modelo v2 presenta:

Esas puntuaciones se obtuvieron con razonamiento high y xhigh. La producción por defecto usa low para la latencia, por lo que la calidad diaria se sitúa entre ambos extremos. El modelo también incorporó cuatro comportamientos destacables:

El contexto creció de 32k a 128k tokens, lo cual es el cambio que permite construir sesiones de voz largas; los casos de uso en banca, soporte y tutorías son las ventajas obvias.

Precios

GPT-Realtime-2 se factura por token, con tarifas separadas para entrada de texto, audio e imagen.

Tipo de token Entrada Entrada en caché Salida
Texto $4.00 / 1M $0.40 / 1M $24.00 / 1M
Audio $32.00 / 1M $0.40 / 1M $64.00 / 1M
Imagen $5.00 / 1M $0.50 / 1M n/a

La entrada en caché reduce la factura en **80x** para el contexto repetido, por lo que cualquier agente con un prompt de sistema estable o un documento reutilizado debería mantener la caché activa. Para comparar con el resto de la línea de OpenAI, consulte precios de GPT-5.5.

Los modelos complementarios tienen precios diferentes porque se facturan por minuto:

Elija GPT-Realtime-2 cuando necesite razonamiento y generación de voz juntos, GPT-Realtime-Translate para interpretación multilingüe en vivo, y GPT-Realtime-Whisper cuando solo necesite la transcripción.

Puntos finales y autenticación

GPT-Realtime-2 se expone a través de varios puntos finales según lo que esté haciendo:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Para los agentes de voz, el punto final de WebSocket es el que desea. La autenticación es el mismo patrón de token de portador que OpenAI usa en todas partes:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Establezca OPENAI_API_KEY una vez y reutilícelo.

export OPENAI_API_KEY="sk-proj-..."

Conexión a través de WebSocket

Un cliente Node.js mínimo se ve así:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

La sesión está basada en eventos. Usted envía fotogramas input_audio_buffer.append mientras el usuario habla, y el servidor emite eventos response.audio.delta mientras responde. PCM16 a 24 kHz es el valor predeterminado seguro; G.711 mu-law y A-law también son compatibles, lo cual es importante al conectarse a sistemas telefónicos.

Para el equivalente en Python, el SDK openai >= 2.1.0 expone un cliente realtime con los mismos nombres de eventos. Si desea comparar la superficie de Realtime con la API de Responses, consulte Cómo usar la API de GPT-5.5.

Voces

Dos nuevas voces se incluyen con esta versión:

Ambas son exclusivas de la API de Realtime. Las ocho voces anteriores (alloy, ash, ballad, coral, echo, sage, shimmer, verse) todavía están disponibles y fueron reajustadas para usar la nueva pila de audio del modelo, por lo que suenan notablemente menos robóticas que en la v1.

Cambie la voz a mitad de sesión enviando otro session.update con el nuevo campo voice. No hay latencia adicional por un cambio de voz.

Entrada de imagen

Puede adjuntar una imagen a cualquier turno del usuario. El modelo la ve de la misma manera que la visión de GPT-4o ve una foto, excepto que ahora puede hacer preguntas de seguimiento en voz alta y el modelo responde en voz alta:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Patrones comunes que vemos en las primeras versiones de producción:

Para una mirada más profunda a la pila de imágenes de OpenAI, consulte Cómo usar la API de GPT-Image-2.

Llamada a funciones y MCP

GPT-Realtime-2 es compatible con herramientas de función estándar y servidores MCP remotos en la misma sesión.

La llamada a funciones estándar funciona como las Completions de Chat: declare herramientas en la configuración de la sesión, el modelo emite un evento response.function_call_arguments.delta, usted ejecuta, responde con conversation.item.create de tipo function_call_output. El nuevo comportamiento son las llamadas paralelas; el modelo puede disparar dos o tres a la vez y narrar “comprobando su saldo y sus últimas tres transacciones” mientras se resuelven.

Los servidores MCP remotos son el cambio más grande. Configure una URL de MCP y una lista de herramientas permitidas en la sesión, y la propia API de Realtime ejecuta las llamadas; su código nunca tiene que pasar por el bucle de eventos de llamada a funciones. Eso mantiene a los agentes de voz responsivos cuando extraen de un catálogo de herramientas de cincuenta puntos finales en lugar de cinco.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Si está probando servidores MCP antes de conectarlos a un agente de voz, el tutorial pruebas de servidor MCP en Apidog cubre la configuración de reproducción de solicitudes que usamos internamente.

Llamadas telefónicas SIP

Los agentes de voz en tiempo real pueden recibir llamadas telefónicas reales. Dirija su tronco SIP a la puerta de enlace SIP de OpenAI, y las llamadas entrantes abren una sesión de WebSocket en wss://api.openai.com/v1/realtime?call_id={call_id}. El modelo acepta G.711 mu-law y A-law directamente, por lo que no necesita transcodificar en su puente.

Esta es la parte que convierte a GPT-Realtime-2 en un modelo creíble para centros de llamadas en lugar de una demostración de navegador. Se combina naturalmente con llamadas de herramientas paralelas y MCP, porque la mayoría de los agentes telefónicos son principalmente despachadores de herramientas.

Niveles de razonamiento

Los cinco niveles de razonamiento funcionan como un único control sobre la latencia frente a la calidad de la respuesta:

Nivel Caso de uso Costo de latencia aprox.
minimal Respuestas de sí/no de un solo turno ninguno
low Predeterminado; soporte y chat diario pequeño
medium Desambiguación, despacho complejo de herramientas moderado
high Razonamiento multi-pasos, revisión de código por voz alto
xhigh Puntos de referencia, preguntas analíticas difíciles más alto

El valor predeterminado es low. Suba solo cuando mida regresiones de calidad en low; el costo de latencia en high y xhigh es lo suficientemente real como para que los usuarios noten la diferencia en las llamadas.

Prueba de la API de Realtime en Apidog

Las API de WebSocket son difíciles de depurar desde la terminal porque la conversación tiene estado. Apidog tiene soporte de primera clase para WebSocket, por lo que puede:

  1. Guardar la URL de WebSocket con el encabezado OpenAI-Beta pre-rellenado.
  2. Preparar una secuencia de mensajes JSON (session.update, input_audio_buffer.append, response.create) como un script.
  3. Reproducir el script contra una única conexión y capturar cada evento del servidor en un árbol.
  4. Comparar dos ejecuciones lado a lado; útil cuando cambia el esfuerzo de razonamiento y desea comparar el recuento de tokens de salida de audio.

Descargue Apidog, cree una nueva solicitud de WebSocket y pegue su token de portador en **Auth**. La estructura de la colección refleja lo que mantiene para HTTP: entornos para OPENAI_API_KEY, variables para voice, scripts que se ejecutan en cada conexión.

Para comparar con otro modelo multimodal rápido, consulte Cómo usar la API de Gemini 3 Flash Preview.

Preguntas Frecuentes

Resumen

GPT-Realtime-2 cierra la brecha entre los agentes de voz y los agentes de texto. El contexto de 128k, el razonamiento de clase GPT-5, la entrada de imagen, el MCP nativo y el soporte SIP, juntos, hacen posible construir un único agente de voz que responde una llamada telefónica, mira una captura de pantalla, despacha una herramienta remota y se recupera de un fallo a mitad de frase, todo sin salir del WebSocket. El precio es honesto a $32/$64 por millón de tokens de audio, y la entrada en caché reduce la factura en prompts de sistema estables.

El camino más rápido a producción es programar la sesión de WebSocket en Apidog, establecer una lista de herramientas y comenzar con razonamiento low. Suba solo cuando pueda medir una brecha de calidad.

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs