O que é GPT-Realtime-2 e como usar a API GPT-Realtime-2

A OpenAI lançou uma nova geração de modelos de voz em 6 de novembro de 2026, e o principal lançamento é o GPT-Realtime-2: o primeiro modelo de fala para fala com raciocínio de classe GPT-5, uma janela de contexto de 128.000 tokens e esforço de raciocínio configurável que equilibra a latência com a qualidade da resposta. Ele funciona na superfície da API Realtime existente, então se você já configurou o gpt-realtime, a migração é uma mudança na string do modelo e alguns novos campos de ferramenta.

Este guia aborda o que é o GPT-Realtime-2, o que mudou em relação ao modelo anterior, a tabela de preços completa e como chamá-lo via WebSocket e SIP. Também incluímos uma configuração funcional no Apidog para que você possa reproduzir sessões Realtime sem regravar o áudio todas as vezes.

Para contexto sobre a linha de modelos mais ampla da OpenAI para 2026, consulte O que é GPT-5.5. Para o modelo irmão multimodal, consulte Como usar a API GPT-Image-2.

TL;DR

GPT-Realtime-2 é o principal modelo de fala para fala da OpenAI com raciocínio de classe GPT-5, contexto de 128k e um máximo de 32k tokens de saída.
O preço do áudio é de $32 por 1M de tokens de entrada e $64 por 1M de tokens de saída, com entrada em cache a $0.40/1M.
Duas novas vozes, Cedar e Marin, são exclusivas da API Realtime; as oito vozes existentes receberam uma atualização de qualidade.
Cinco níveis de raciocínio: minimal, low, medium, high, xhigh. O padrão é low para latência.
Conecte-se via WebSocket em wss://api.openai.com/v1/realtime?model=gpt-realtime-2, ou receba chamadas de entrada via SIP.
Lançamentos complementares: GPT-Realtime-Translate (tradução ao vivo, 70 idiomas de entrada, $0.034/min) e GPT-Realtime-Whisper (STT em streaming, $0.017/min).
Use o Apidog para roteirizar a sessão WebSocket, capturar quadros e comparar eventos de áudio entre execuções.

O que é GPT-Realtime-2?

GPT-Realtime-2 é um único modelo de fala para fala. Você transmite áudio de entrada, transmite áudio de saída, e o modelo lida com transcrição, raciocínio, seleção de ferramentas e geração de voz em uma única passagem. Não há um pipeline STT-depois-LLM-depois-TTS; esse padrão mais antigo foi o que o gpt-realtime substituiu no ano passado, e a v2 aprimora a mesma superfície com um núcleo de raciocínio mais forte.

O modelo aceita texto, áudio e imagens como entrada, e emite texto e áudio como saída. A entrada de imagem é a nova modalidade aqui: você pode inserir uma foto ou uma captura de tela em uma conversa ao vivo e pedir ao agente para descrever o que está na tela do usuário, e então continuar conversando. Isso torna possível construir copilotos de voz que veem o que o usuário vê, o que é uma classe de agente que o modelo anterior não conseguia executar de ponta a ponta.

Especificações em resumo:

Atributo	Valor
ID do Modelo	`gpt-realtime-2`
Janela de contexto	128.000 tokens
Saída máxima	32.000 tokens
Modalidades (entrada)	texto, áudio, imagem
Modalidades (saída)	texto, áudio
Limite de conhecimento	30/09/2024
Níveis de raciocínio	minimal, low, medium, high, xhigh
Chamada de função	sim
Servidores MCP remotos	sim
Entrada de imagem	sim
Chamada telefônica SIP	sim

O que mudou em relação ao gpt-realtime

Os ganhos de benchmark são reais, não cosméticos. Em comparação com o gpt-realtime-1.5, o modelo v2 apresenta:

Big Bench Audio (inteligência de áudio): 81,4% → 96,6%, um salto de 15,2 pontos.
Audio MultiChallenge (seguimento de instruções): 34,7% → 48,5%, um salto de 13,8 pontos.

Esses resultados foram obtidos com raciocínio high e xhigh. A produção padroniza para low para latência, então a qualidade diária fica entre os dois extremos. O modelo também adquiriu quatro comportamentos que merecem destaque:

Preâmbulos. O modelo pode dizer frases curtas de preenchimento como “deixe-me verificar isso” antes de produzir uma resposta real, o que esconde a latência de raciocínio do usuário.
Chamadas de ferramentas paralelas com narração de áudio. O modelo pode disparar várias chamadas de função de uma vez e narrar o progresso enquanto elas são resolvidas, em vez de ficar em silêncio por dois segundos.
Recuperação mais forte. Interações ambíguas ou parcialmente falhas são tratadas graciosamente, em vez de retornar ao início.
Controle de tom do domínio. A terminologia especializada permanece consistente ao longo de uma sessão longa, e o modelo adapta a entrega (formal, casual, lenta) quando solicitado durante a sessão.

O contexto cresceu de 32k para 128k tokens, o que é a mudança que permite construir sessões de voz longas; casos de uso em bancos, suporte e tutoria são os ganhos óbvios.

Preços

O GPT-Realtime-2 é cobrado por token, com tarifas separadas para entrada de texto, áudio e imagem.

Tipo de token	Entrada	Entrada em cache	Saída
Texto	$4.00 / 1M	$0.40 / 1M	$24.00 / 1M
Áudio	$32.00 / 1M	$0.40 / 1M	$64.00 / 1M
Imagem	$5.00 / 1M	$0.50 / 1M	n/a

A entrada em cache reduz a conta em 80x para contextos repetidos, então qualquer agente com um prompt de sistema estável ou um documento reutilizado deve manter o cache ativo. Para comparação com o restante da linha OpenAI, consulte preços do GPT-5.5.

Os modelos complementares têm preços diferentes porque são cobrados por minuto:

GPT-Realtime-Translate: $0,034 por minuto. Suporta 70 idiomas de entrada e 13 idiomas de saída, com 12,5% menos Taxa de Erro de Palavra do que qualquer outro modelo testado em Hindi, Tamil e Telugu.
GPT-Realtime-Whisper: $0,017 por minuto. Fala-para-texto em streaming construído para legendas ao vivo e transcrição contínua; mais rápido do que executar o Whisper em lote em um buffer rotativo.

Escolha o GPT-Realtime-2 quando precisar de raciocínio e geração de fala juntos, o GPT-Realtime-Translate para interpretação multilíngue ao vivo e o GPT-Realtime-Whisper quando precisar apenas da transcrição.

Endpoints e autenticação

O GPT-Realtime-2 é exposto através de vários endpoints, dependendo do que você está fazendo:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Para agentes de voz, o endpoint WebSocket é o que você deseja. A autenticação segue o mesmo padrão de token de portador que a OpenAI usa em todos os lugares:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Defina OPENAI_API_KEY uma vez e reutilize-o.

export OPENAI_API_KEY="sk-proj-..."

Conectando via WebSocket

Um cliente Node.js mínimo se parece com isto:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

A sessão é orientada por eventos. Você envia quadros input_audio_buffer.append enquanto o usuário fala, e o servidor emite eventos response.audio.delta conforme ele responde. PCM16 a 24 kHz é o padrão seguro; G.711 mu-law e A-law também são suportados, o que é importante ao fazer a ponte para sistemas telefônicos.

Para o equivalente em Python, o SDK openai >= 2.1.0 expõe um cliente realtime com os mesmos nomes de eventos. Se você quiser comparar a superfície Realtime com a API Responses, consulte Como usar a API GPT-5.5.

Vozes

Duas novas vozes são lançadas com esta versão:

Cedar: voz masculina quente e de médio alcance. Padrão para agentes gerais.
Marin: voz feminina brilhante e clara. Boa para tradução e anúncios.

Ambas são exclusivas da API Realtime. As oito vozes anteriores (alloy, ash, ballad, coral, echo, sage, shimmer, verse) ainda estão disponíveis e foram reajustadas para usar a nova pilha de áudio do modelo, de modo que soam visivelmente menos robóticas do que na v1.

Troque a voz durante a sessão enviando outro session.update com o novo campo voice. Não há latência extra devido à troca de voz.

Entrada de imagem

Você pode anexar uma imagem a qualquer turno do usuário. O modelo a vê da mesma forma que a visão do GPT-4o vê uma foto, exceto que agora você pode fazer perguntas de acompanhamento em voz alta e ele responde em voz alta:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Padrões comuns que vemos nas primeiras compilações de produção:

QA por voz. O testador aponta a câmera do telefone para uma UI quebrada; o agente narra o que vê e dita o relatório de bug.
Suporte em campo. O técnico compartilha uma foto de um painel de fiação; o agente orienta o diagnóstico.
Acessibilidade. Narração ao vivo no estilo leitor de tela da tela atual do usuário durante uma chamada de suporte.

Para uma análise mais aprofundada da pilha de imagens da OpenAI, consulte Como usar a API GPT-Image-2.

Chamada de função e MCP

O GPT-Realtime-2 suporta tanto ferramentas de função padrão quanto servidores MCP remotos na mesma sessão.

A chamada de função padrão funciona como as Chat Completions: declare as ferramentas na configuração da sessão, o modelo emite um evento response.function_call_arguments.delta, você executa, você responde com conversation.item.create do tipo function_call_output. O novo comportamento são chamadas paralelas; o modelo pode disparar duas ou três de uma vez e narrar “verificando seu saldo e suas últimas três transações” enquanto elas são resolvidas.

Servidores MCP remotos são a maior mudança. Configure uma URL MCP e uma lista de ferramentas permitidas na sessão, e a própria API Realtime executa as chamadas; seu código nunca precisa fazer um round-trip através do loop de eventos de chamada de função. Isso mantém os agentes de voz responsivos quando eles puxam de um catálogo de ferramentas de cinquenta endpoints em vez de cinco.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Se você estiver testando servidores MCP antes de conectá-los a um agente de voz, o guia testando servidores MCP no Apidog aborda a configuração de repetição de solicitação que usamos internamente.

Chamada telefônica SIP

Agentes de voz em tempo real podem receber chamadas telefônicas reais. Aponte seu tronco SIP para o gateway SIP da OpenAI, e as chamadas de entrada abrem uma sessão WebSocket em wss://api.openai.com/v1/realtime?call_id={call_id}. O modelo aceita G.711 mu-law e A-law diretamente, então você não precisa transcodificar em sua ponte.

Esta é a parte que torna o GPT-Realtime-2 um modelo credível para call center em vez de uma demonstração de navegador. Ele se combina naturalmente com chamadas de ferramentas paralelas e MCP, porque a maioria dos agentes telefônicos são principalmente despachantes de ferramentas.

Níveis de raciocínio

Os cinco níveis de raciocínio se comportam como um único acelerador na latência versus qualidade da resposta:

Nível	Caso de uso	Custo aprox. de latência
`minimal`	Respostas de sim/não de uma única rodada	nenhum
`low`	Padrão; suporte e chat diários	pequeno
`medium`	Desambiguação, despacho de ferramenta complexo	moderado
`high`	Raciocínio multi-etapa, revisão de código por voz	alto
`xhigh`	Benchmarks, perguntas analíticas difíceis	altíssimo

O padrão é low. Avance apenas quando você medir regressões de qualidade em low; o custo de latência em high e xhigh é real o suficiente para que os usuários percebam a diferença nas chamadas.

Testando a API Realtime no Apidog

APIs WebSocket são difíceis de depurar a partir do terminal porque a conversa tem estado. O Apidog tem suporte de primeira classe para WebSocket, então você pode:

Salve a URL WebSocket com o cabeçalho OpenAI-Beta pré-preenchido.
Prepare uma sequência de mensagens JSON (session.update, input_audio_buffer.append, response.create) como um script.
Reproduza o script contra uma única conexão e capture cada evento do servidor em uma árvore.
Compare duas execuções lado a lado; útil quando você altera o esforço de raciocínio e deseja comparar as contagens de tokens de saída de áudio.

Baixe o Apidog, crie uma nova solicitação WebSocket e cole seu token de portador em Auth. O formato da coleção espelha o que você mantém para HTTP: ambientes para OPENAI_API_KEY, variáveis para voice, scripts que são executados em cada conexão.

Para comparação com outro modelo multimodal rápido, consulte Como usar a API Gemini 3 Flash Preview.

FAQ

Qual ID de modelo devo usar?gpt-realtime-2. O modelo anterior ainda está disponível como gpt-realtime se você precisar reverter. Para a versão lite, gpt-realtime-2-mini também está ativo.
Posso transmitir áudio de entrada enquanto o áudio de saída ainda está tocando?Sim. A API Realtime usa detecção de atividade de voz (VAD) do lado do servidor por padrão, então o modelo parará de falar quando o usuário começar. Você pode desabilitar o VAD e gerenciar os limites de turno a partir do cliente.
O contexto de 128k inclui tokens de áudio?Sim. O áudio é tokenizado; um segundo de áudio é aproximadamente 50 tokens, dependendo do formato. Uma chamada de suporte longa consome contexto mais rápido do que um chat de texto longo, então verifique o uso antes de assumir que a janela de 128k é generosa.
O ajuste fino (fine-tuning) é suportado?Ainda não. Conforme o cartão do modelo, o GPT-Realtime-2 ainda não suporta ajuste fino, saídas preditas ou streaming de texto em Chat Completions. O endpoint Realtime transmite áudio inerentemente.
Como isso se compara ao GPT-5.5 com TTS acoplado?Você perde o raciocínio de fala de ponta a ponta. Um modelo consciente de voz pode captar tom, hesitação e ênfase; um modelo de texto com TTS não pode. Para agentes que precisam reagir a como o usuário está falando, o GPT-Realtime-2 é a ferramenta certa. Para raciocínio de texto puro, consulte Como usar a API GPT-5.5.
Quais limites de taxa se aplicam?O Nível 1 começa em 40.000 tokens por minuto e escala para 15M TPM no Nível 5. Os limites de taxa são por modelo, então a cota existente do GPT-5 não é transferida.

Conclusão

O GPT-Realtime-2 diminui a lacuna entre agentes de voz e agentes de texto. O contexto de 128k, o raciocínio de classe GPT-5, entrada de imagem, MCP nativo e suporte SIP, juntos, tornam possível construir um único agente de voz que atende uma chamada telefônica, olha para uma captura de tela, despacha uma ferramenta remota e se recupera de uma falha no meio da frase, tudo sem sair do WebSocket. O preço é justo, a $32/$64 por milhão de tokens de áudio, e a entrada em cache reduz a conta em prompts de sistema estáveis.

O caminho mais rápido para a produção é roteirizar a sessão WebSocket no Apidog, definir uma lista de ferramentas e começar com raciocínio low. Avance apenas quando puder medir uma lacuna de qualidade.

botão