O que é GPT-Realtime-2 e como usar a API GPT-Realtime-2

Ashley Innocent

Ashley Innocent

8 maio 2026

O que é GPT-Realtime-2 e como usar a API GPT-Realtime-2

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

A OpenAI lançou uma nova geração de modelos de voz em 6 de novembro de 2026, e o principal lançamento é o GPT-Realtime-2: o primeiro modelo de fala para fala com raciocínio de classe GPT-5, uma janela de contexto de 128.000 tokens e esforço de raciocínio configurável que equilibra a latência com a qualidade da resposta. Ele funciona na superfície da API Realtime existente, então se você já configurou o gpt-realtime, a migração é uma mudança na string do modelo e alguns novos campos de ferramenta.

Este guia aborda o que é o GPT-Realtime-2, o que mudou em relação ao modelo anterior, a tabela de preços completa e como chamá-lo via WebSocket e SIP. Também incluímos uma configuração funcional no Apidog para que você possa reproduzir sessões Realtime sem regravar o áudio todas as vezes.

Para contexto sobre a linha de modelos mais ampla da OpenAI para 2026, consulte O que é GPT-5.5. Para o modelo irmão multimodal, consulte Como usar a API GPT-Image-2.

TL;DR

O que é GPT-Realtime-2?

GPT-Realtime-2 é um único modelo de fala para fala. Você transmite áudio de entrada, transmite áudio de saída, e o modelo lida com transcrição, raciocínio, seleção de ferramentas e geração de voz em uma única passagem. Não há um pipeline STT-depois-LLM-depois-TTS; esse padrão mais antigo foi o que o gpt-realtime substituiu no ano passado, e a v2 aprimora a mesma superfície com um núcleo de raciocínio mais forte.

O modelo aceita texto, áudio e imagens como entrada, e emite texto e áudio como saída. A entrada de imagem é a nova modalidade aqui: você pode inserir uma foto ou uma captura de tela em uma conversa ao vivo e pedir ao agente para descrever o que está na tela do usuário, e então continuar conversando. Isso torna possível construir copilotos de voz que veem o que o usuário vê, o que é uma classe de agente que o modelo anterior não conseguia executar de ponta a ponta.

Especificações em resumo:

Atributo Valor
ID do Modelo gpt-realtime-2
Janela de contexto 128.000 tokens
Saída máxima 32.000 tokens
Modalidades (entrada) texto, áudio, imagem
Modalidades (saída) texto, áudio
Limite de conhecimento 30/09/2024
Níveis de raciocínio minimal, low, medium, high, xhigh
Chamada de função sim
Servidores MCP remotos sim
Entrada de imagem sim
Chamada telefônica SIP sim

O que mudou em relação ao gpt-realtime

Os ganhos de benchmark são reais, não cosméticos. Em comparação com o gpt-realtime-1.5, o modelo v2 apresenta:

Esses resultados foram obtidos com raciocínio high e xhigh. A produção padroniza para low para latência, então a qualidade diária fica entre os dois extremos. O modelo também adquiriu quatro comportamentos que merecem destaque:

O contexto cresceu de 32k para 128k tokens, o que é a mudança que permite construir sessões de voz longas; casos de uso em bancos, suporte e tutoria são os ganhos óbvios.

Preços

O GPT-Realtime-2 é cobrado por token, com tarifas separadas para entrada de texto, áudio e imagem.

Tipo de token Entrada Entrada em cache Saída
Texto $4.00 / 1M $0.40 / 1M $24.00 / 1M
Áudio $32.00 / 1M $0.40 / 1M $64.00 / 1M
Imagem $5.00 / 1M $0.50 / 1M n/a

A entrada em cache reduz a conta em 80x para contextos repetidos, então qualquer agente com um prompt de sistema estável ou um documento reutilizado deve manter o cache ativo. Para comparação com o restante da linha OpenAI, consulte preços do GPT-5.5.

Os modelos complementares têm preços diferentes porque são cobrados por minuto:

Escolha o GPT-Realtime-2 quando precisar de raciocínio e geração de fala juntos, o GPT-Realtime-Translate para interpretação multilíngue ao vivo e o GPT-Realtime-Whisper quando precisar apenas da transcrição.

Endpoints e autenticação

O GPT-Realtime-2 é exposto através de vários endpoints, dependendo do que você está fazendo:

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

Para agentes de voz, o endpoint WebSocket é o que você deseja. A autenticação segue o mesmo padrão de token de portador que a OpenAI usa em todos os lugares:

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

Defina OPENAI_API_KEY uma vez e reutilize-o.

export OPENAI_API_KEY="sk-proj-..."

Conectando via WebSocket

Um cliente Node.js mínimo se parece com isto:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "You are a friendly support agent for a fintech app.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 audio chunk; pipe to your speaker or browser
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

A sessão é orientada por eventos. Você envia quadros input_audio_buffer.append enquanto o usuário fala, e o servidor emite eventos response.audio.delta conforme ele responde. PCM16 a 24 kHz é o padrão seguro; G.711 mu-law e A-law também são suportados, o que é importante ao fazer a ponte para sistemas telefônicos.

Para o equivalente em Python, o SDK openai >= 2.1.0 expõe um cliente realtime com os mesmos nomes de eventos. Se você quiser comparar a superfície Realtime com a API Responses, consulte Como usar a API GPT-5.5.

Vozes

Duas novas vozes são lançadas com esta versão:

Ambas são exclusivas da API Realtime. As oito vozes anteriores (alloy, ash, ballad, coral, echo, sage, shimmer, verse) ainda estão disponíveis e foram reajustadas para usar a nova pilha de áudio do modelo, de modo que soam visivelmente menos robóticas do que na v1.

Troque a voz durante a sessão enviando outro session.update com o novo campo voice. Não há latência extra devido à troca de voz.

Entrada de imagem

Você pode anexar uma imagem a qualquer turno do usuário. O modelo a vê da mesma forma que a visão do GPT-4o vê uma foto, exceto que agora você pode fazer perguntas de acompanhamento em voz alta e ele responde em voz alta:

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "What does this error mean?" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

Padrões comuns que vemos nas primeiras compilações de produção:

Para uma análise mais aprofundada da pilha de imagens da OpenAI, consulte Como usar a API GPT-Image-2.

Chamada de função e MCP

O GPT-Realtime-2 suporta tanto ferramentas de função padrão quanto servidores MCP remotos na mesma sessão.

A chamada de função padrão funciona como as Chat Completions: declare as ferramentas na configuração da sessão, o modelo emite um evento response.function_call_arguments.delta, você executa, você responde com conversation.item.create do tipo function_call_output. O novo comportamento são chamadas paralelas; o modelo pode disparar duas ou três de uma vez e narrar “verificando seu saldo e suas últimas três transações” enquanto elas são resolvidas.

Servidores MCP remotos são a maior mudança. Configure uma URL MCP e uma lista de ferramentas permitidas na sessão, e a própria API Realtime executa as chamadas; seu código nunca precisa fazer um round-trip através do loop de eventos de chamada de função. Isso mantém os agentes de voz responsivos quando eles puxam de um catálogo de ferramentas de cinquenta endpoints em vez de cinco.

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

Se você estiver testando servidores MCP antes de conectá-los a um agente de voz, o guia testando servidores MCP no Apidog aborda a configuração de repetição de solicitação que usamos internamente.

Chamada telefônica SIP

Agentes de voz em tempo real podem receber chamadas telefônicas reais. Aponte seu tronco SIP para o gateway SIP da OpenAI, e as chamadas de entrada abrem uma sessão WebSocket em wss://api.openai.com/v1/realtime?call_id={call_id}. O modelo aceita G.711 mu-law e A-law diretamente, então você não precisa transcodificar em sua ponte.

Esta é a parte que torna o GPT-Realtime-2 um modelo credível para call center em vez de uma demonstração de navegador. Ele se combina naturalmente com chamadas de ferramentas paralelas e MCP, porque a maioria dos agentes telefônicos são principalmente despachantes de ferramentas.

Níveis de raciocínio

Os cinco níveis de raciocínio se comportam como um único acelerador na latência versus qualidade da resposta:

Nível Caso de uso Custo aprox. de latência
minimal Respostas de sim/não de uma única rodada nenhum
low Padrão; suporte e chat diários pequeno
medium Desambiguação, despacho de ferramenta complexo moderado
high Raciocínio multi-etapa, revisão de código por voz alto
xhigh Benchmarks, perguntas analíticas difíceis altíssimo

O padrão é low. Avance apenas quando você medir regressões de qualidade em low; o custo de latência em high e xhigh é real o suficiente para que os usuários percebam a diferença nas chamadas.

Testando a API Realtime no Apidog

APIs WebSocket são difíceis de depurar a partir do terminal porque a conversa tem estado. O Apidog tem suporte de primeira classe para WebSocket, então você pode:

  1. Salve a URL WebSocket com o cabeçalho OpenAI-Beta pré-preenchido.
  2. Prepare uma sequência de mensagens JSON (session.update, input_audio_buffer.append, response.create) como um script.
  3. Reproduza o script contra uma única conexão e capture cada evento do servidor em uma árvore.
  4. Compare duas execuções lado a lado; útil quando você altera o esforço de raciocínio e deseja comparar as contagens de tokens de saída de áudio.

Baixe o Apidog, crie uma nova solicitação WebSocket e cole seu token de portador em Auth. O formato da coleção espelha o que você mantém para HTTP: ambientes para OPENAI_API_KEY, variáveis para voice, scripts que são executados em cada conexão.

Para comparação com outro modelo multimodal rápido, consulte Como usar a API Gemini 3 Flash Preview.

FAQ

Conclusão

O GPT-Realtime-2 diminui a lacuna entre agentes de voz e agentes de texto. O contexto de 128k, o raciocínio de classe GPT-5, entrada de imagem, MCP nativo e suporte SIP, juntos, tornam possível construir um único agente de voz que atende uma chamada telefônica, olha para uma captura de tela, despacha uma ferramenta remota e se recupera de uma falha no meio da frase, tudo sem sair do WebSocket. O preço é justo, a $32/$64 por milhão de tokens de áudio, e a entrada em cache reduz a conta em prompts de sistema estáveis.

O caminho mais rápido para a produção é roteirizar a sessão WebSocket no Apidog, definir uma lista de ferramentas e começar com raciocínio low. Avance apenas quando puder medir uma lacuna de qualidade.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs