Qué es GPT-Realtime-2 y Cómo Usar la API de GPT-Realtime-2

OpenAI lanzó una nueva generación de modelos de voz el 6 de noviembre de 2026, y el lanzamiento principal es GPT-Realtime-2: el primer modelo de voz a voz con razonamiento de clase GPT-5, una ventana de contexto de 128,000 tokens y un esfuerzo de razonamiento configurable que ajusta la latencia según la calidad de la respuesta. Se ejecuta en la superficie de la API de Realtime existente, por lo que si ya configuró gpt-realtime, la migración es un cambio de cadena de modelo y unos pocos campos de herramientas nuevos.

Esta guía cubre qué es GPT-Realtime-2, qué cambió con respecto al modelo anterior, la tabla de precios completa y cómo llamarlo a través de WebSocket y SIP. También incluimos una configuración de trabajo en Apidog para que pueda reproducir sesiones en tiempo real sin volver a grabar audio cada vez.

Para obtener contexto sobre la línea de modelos más amplia de OpenAI para 2026, consulte Qué es GPT-5.5. Para su hermano multimodal, consulte Cómo usar la API de GPT-Image-2.

TL;DR

GPT-Realtime-2 es el modelo de voz a voz insignia de OpenAI con razonamiento de clase GPT-5, contexto de 128k y 32k tokens de salida máxima.
El precio del audio es de $32 por 1 millón de tokens de entrada y $64 por 1 millón de tokens de salida, con entrada en caché a $0.40/1M.
Dos nuevas voces, Cedar y Marin, son exclusivas de la API de Realtime; las ocho voces existentes recibieron una actualización de calidad.
Cinco niveles de razonamiento: minimal, low, medium, high, xhigh. El predeterminado es low para la latencia.
Conéctese a través de WebSocket en wss://api.openai.com/v1/realtime?model=gpt-realtime-2, o reciba llamadas entrantes a través de SIP.
Lanzamientos complementarios: GPT-Realtime-Translate (traducción en vivo, 70 idiomas de entrada, $0.034/min) y GPT-Realtime-Whisper (STT en streaming, $0.017/min).
Utilice Apidog para programar la sesión de WebSocket, capturar fotogramas y comparar eventos de audio entre ejecuciones.

¿Qué es GPT-Realtime-2?

GPT-Realtime-2 es un modelo único de voz a voz. Transmite audio de entrada, transmite audio de salida, y el modelo maneja la transcripción, el razonamiento, la selección de herramientas y la generación de voz en una sola pasada. No hay una tubería STT-luego-LLM-luego-TTS; ese patrón anterior es lo que gpt-realtime reemplazó el año pasado, y la v2 perfecciona la misma superficie con un núcleo de razonamiento más fuerte.

El modelo acepta texto, audio e imágenes como entrada, y emite texto y audio como salida. La entrada de imagen es la nueva modalidad aquí: puede insertar una foto o una captura de pantalla en una conversación en vivo y pedirle al agente que describa lo que hay en la pantalla del usuario, y luego seguir hablando. Esto hace posible construir copilotos de voz que ven lo que ve el usuario, lo cual es una clase de agente que el modelo anterior no podía ejecutar de extremo a extremo.

Especificaciones de un vistazo:

Atributo	Valor
ID del modelo	`gpt-realtime-2`
Ventana de contexto	128,000 tokens
Salida máxima	32,000 tokens
Modalidades (entrada)	texto, audio, imagen
Modalidades (salida)	texto, audio
Fecha límite de conocimiento	2024-09-30
Niveles de razonamiento	minimal, low, medium, high, xhigh
Llamada a funciones	yes
Servidores MCP remotos	yes
Entrada de imagen	yes
Llamadas telefónicas SIP	yes

¿Qué cambió con respecto a gpt-realtime?

Las mejoras en los puntos de referencia son reales, no cosméticas. Frente a gpt-realtime-1.5, el modelo v2 presenta:

Big Bench Audio (inteligencia de audio): 81.4% → 96.6%, un salto de 15.2 puntos.
Audio MultiChallenge (seguimiento de instrucciones): 34.7% → 48.5%, un salto de 13.8 puntos.

Esas puntuaciones se obtuvieron con razonamiento high y xhigh. La producción por defecto usa low para la latencia, por lo que la calidad diaria se sitúa entre ambos extremos. El modelo también incorporó cuatro comportamientos destacables:

Preámbulos. El modelo puede decir frases cortas de relleno como "déjame verificar eso" antes de producir una respuesta real, lo que oculta la latencia de razonamiento al usuario.
Llamadas de herramientas paralelas con narración de audio. El modelo puede ejecutar varias llamadas a funciones a la vez y narrar el progreso mientras se resuelven, en lugar de quedarse en silencio durante dos segundos.
Recuperación más fuerte. Los turnos ambiguos o parcialmente fallidos se manejan con elegancia en lugar de volver al inicio.
Control del tono del dominio. La terminología especializada se mantiene consistente a lo largo de una sesión larga, y el modelo adapta la entrega (formal, informal, lenta) cuando se le pide durante la sesión.

El contexto creció de 32k a 128k tokens, lo cual es el cambio que permite construir sesiones de voz largas; los casos de uso en banca, soporte y tutorías son las ventajas obvias.

Precios

GPT-Realtime-2 se factura por token, con tarifas separadas para entrada de texto, audio e imagen.

Tipo de token	Entrada	Entrada en caché	Salida
Texto	$4.00 / 1M	$0.40 / 1M	$24.00 / 1M
Audio	$32.00 / 1M	$0.40 / 1M	$64.00 / 1M
Imagen	$5.00 / 1M	$0.50 / 1M	n/a

La entrada en caché reduce la factura en **80x** para el contexto repetido, por lo que cualquier agente con un prompt de sistema estable o un documento reutilizado debería mantener la caché activa. Para comparar con el resto de la línea de OpenAI, consulte precios de GPT-5.5.

Los modelos complementarios tienen precios diferentes porque se facturan por minuto:

GPT-Realtime-Translate: $0.034 por minuto. Admite 70 idiomas de entrada y 13 idiomas de salida, con una tasa de error de palabras un 12.5% menor que cualquier otro modelo probado en hindi, tamil y telugu.
GPT-Realtime-Whisper: $0.017 por minuto. Voz a texto en streaming diseñado para subtítulos en vivo y transcripción continua; más rápido que ejecutar Whisper en lotes en un búfer rodante.

Elija GPT-Realtime-2 cuando necesite razonamiento y generación de voz juntos, GPT-Realtime-Translate para interpretación multilingüe en vivo, y GPT-Realtime-Whisper cuando solo necesite la transcripción.

Puntos finales y autenticación

GPT-Realtime-2 se expone a través de varios puntos finales según lo que esté haciendo:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Para los agentes de voz, el punto final de WebSocket es el que desea. La autenticación es el mismo patrón de token de portador que OpenAI usa en todas partes:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Establezca OPENAI_API_KEY una vez y reutilícelo.

export OPENAI_API_KEY="sk-proj-..."

Conexión a través de WebSocket

Un cliente Node.js mínimo se ve así:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

La sesión está basada en eventos. Usted envía fotogramas input_audio_buffer.append mientras el usuario habla, y el servidor emite eventos response.audio.delta mientras responde. PCM16 a 24 kHz es el valor predeterminado seguro; G.711 mu-law y A-law también son compatibles, lo cual es importante al conectarse a sistemas telefónicos.

Para el equivalente en Python, el SDK openai >= 2.1.0 expone un cliente realtime con los mismos nombres de eventos. Si desea comparar la superficie de Realtime con la API de Responses, consulte Cómo usar la API de GPT-5.5.

Voces

Dos nuevas voces se incluyen con esta versión:

Cedar: voz masculina cálida de rango medio. Predeterminada para agentes generales.
Marin: voz femenina brillante y clara. Buena para traducción y anuncios.

Ambas son exclusivas de la API de Realtime. Las ocho voces anteriores (alloy, ash, ballad, coral, echo, sage, shimmer, verse) todavía están disponibles y fueron reajustadas para usar la nueva pila de audio del modelo, por lo que suenan notablemente menos robóticas que en la v1.

Cambie la voz a mitad de sesión enviando otro session.update con el nuevo campo voice. No hay latencia adicional por un cambio de voz.

Entrada de imagen

Puede adjuntar una imagen a cualquier turno del usuario. El modelo la ve de la misma manera que la visión de GPT-4o ve una foto, excepto que ahora puede hacer preguntas de seguimiento en voz alta y el modelo responde en voz alta:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Patrones comunes que vemos en las primeras versiones de producción:

QA impulsado por voz. El probador apunta la cámara de un teléfono a una UI defectuosa; el agente narra lo que ve y dicta el informe de error.
Soporte en campo. El técnico comparte una foto de un panel de cableado; el agente guía el diagnóstico.
Accesibilidad. Narración en vivo, al estilo de un lector de pantalla, de la pantalla actual de un usuario durante una llamada de soporte.

Para una mirada más profunda a la pila de imágenes de OpenAI, consulte Cómo usar la API de GPT-Image-2.

Llamada a funciones y MCP

GPT-Realtime-2 es compatible con herramientas de función estándar y servidores MCP remotos en la misma sesión.

La llamada a funciones estándar funciona como las Completions de Chat: declare herramientas en la configuración de la sesión, el modelo emite un evento response.function_call_arguments.delta, usted ejecuta, responde con conversation.item.create de tipo function_call_output. El nuevo comportamiento son las llamadas paralelas; el modelo puede disparar dos o tres a la vez y narrar “comprobando su saldo y sus últimas tres transacciones” mientras se resuelven.

Los servidores MCP remotos son el cambio más grande. Configure una URL de MCP y una lista de herramientas permitidas en la sesión, y la propia API de Realtime ejecuta las llamadas; su código nunca tiene que pasar por el bucle de eventos de llamada a funciones. Eso mantiene a los agentes de voz responsivos cuando extraen de un catálogo de herramientas de cincuenta puntos finales en lugar de cinco.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Si está probando servidores MCP antes de conectarlos a un agente de voz, el tutorial pruebas de servidor MCP en Apidog cubre la configuración de reproducción de solicitudes que usamos internamente.

Llamadas telefónicas SIP

Los agentes de voz en tiempo real pueden recibir llamadas telefónicas reales. Dirija su tronco SIP a la puerta de enlace SIP de OpenAI, y las llamadas entrantes abren una sesión de WebSocket en wss://api.openai.com/v1/realtime?call_id={call_id}. El modelo acepta G.711 mu-law y A-law directamente, por lo que no necesita transcodificar en su puente.

Esta es la parte que convierte a GPT-Realtime-2 en un modelo creíble para centros de llamadas en lugar de una demostración de navegador. Se combina naturalmente con llamadas de herramientas paralelas y MCP, porque la mayoría de los agentes telefónicos son principalmente despachadores de herramientas.

Niveles de razonamiento

Los cinco niveles de razonamiento funcionan como un único control sobre la latencia frente a la calidad de la respuesta:

Nivel	Caso de uso	Costo de latencia aprox.
`minimal`	Respuestas de sí/no de un solo turno	ninguno
`low`	Predeterminado; soporte y chat diario	pequeño
`medium`	Desambiguación, despacho complejo de herramientas	moderado
`high`	Razonamiento multi-pasos, revisión de código por voz	alto
`xhigh`	Puntos de referencia, preguntas analíticas difíciles	más alto

El valor predeterminado es low. Suba solo cuando mida regresiones de calidad en low; el costo de latencia en high y xhigh es lo suficientemente real como para que los usuarios noten la diferencia en las llamadas.

Prueba de la API de Realtime en Apidog

Las API de WebSocket son difíciles de depurar desde la terminal porque la conversación tiene estado. Apidog tiene soporte de primera clase para WebSocket, por lo que puede:

Guardar la URL de WebSocket con el encabezado OpenAI-Beta pre-rellenado.
Preparar una secuencia de mensajes JSON (session.update, input_audio_buffer.append, response.create) como un script.
Reproducir el script contra una única conexión y capturar cada evento del servidor en un árbol.
Comparar dos ejecuciones lado a lado; útil cuando cambia el esfuerzo de razonamiento y desea comparar el recuento de tokens de salida de audio.

Descargue Apidog, cree una nueva solicitud de WebSocket y pegue su token de portador en **Auth**. La estructura de la colección refleja lo que mantiene para HTTP: entornos para OPENAI_API_KEY, variables para voice, scripts que se ejecutan en cada conexión.

Para comparar con otro modelo multimodal rápido, consulte Cómo usar la API de Gemini 3 Flash Preview.

Preguntas Frecuentes

¿Qué ID de modelo debo pasar?gpt-realtime-2. El modelo anterior todavía está disponible como gpt-realtime si necesita revertir. Para la versión ligera, gpt-realtime-2-mini también está disponible.
¿Puedo transmitir audio de entrada mientras el audio de salida todavía se está reproduciendo?Sí. La API de Realtime utiliza la detección de actividad de voz (VAD) del lado del servidor por defecto, por lo que el modelo dejará de hablar cuando el usuario comience. Puede deshabilitar VAD y controlar los límites de turno desde el cliente.
¿El contexto de 128k incluye tokens de audio?Sí. El audio se tokeniza; un segundo de audio son aproximadamente 50 tokens, dependiendo del formato. Una llamada de soporte larga consume contexto más rápido que un chat de texto largo, así que verifique el uso antes de asumir que la ventana de 128k es generosa.
¿Se admite el ajuste fino?Todavía no. Según la tarjeta del modelo, GPT-Realtime-2 aún no admite el ajuste fino, las salidas predichas o la transmisión de texto en Chat Completions. El punto final de Realtime transmite audio de forma inherente.
¿Cómo se compara esto con GPT-5.5 con TTS añadido?Pierde el razonamiento de voz de extremo a extremo. Un modelo consciente de la voz puede captar el tono, la vacilación y el énfasis; un modelo de texto con TTS no puede. Para agentes que necesitan reaccionar a *cómo* habla el usuario, GPT-Realtime-2 es la herramienta adecuada. Para razonamiento puramente textual, consulte Cómo usar la API de GPT-5.5.
¿Qué límites de tasa se aplican?El Nivel 1 comienza en 40,000 tokens por minuto y escala hasta 15M TPM en el Nivel 5. Los límites de tasa son por modelo, por lo que la cuota existente de GPT-5 no se transfiere.

Resumen

GPT-Realtime-2 cierra la brecha entre los agentes de voz y los agentes de texto. El contexto de 128k, el razonamiento de clase GPT-5, la entrada de imagen, el MCP nativo y el soporte SIP, juntos, hacen posible construir un único agente de voz que responde una llamada telefónica, mira una captura de pantalla, despacha una herramienta remota y se recupera de un fallo a mitad de frase, todo sin salir del WebSocket. El precio es honesto a $32/$64 por millón de tokens de audio, y la entrada en caché reduce la factura en prompts de sistema estables.

El camino más rápido a producción es programar la sesión de WebSocket en Apidog, establecer una lista de herramientas y comenzar con razonamiento low. Suba solo cuando pueda medir una brecha de calidad.

button