OpenAI는 2026년 11월 6일에 차세대 음성 모델을 출시했으며, 핵심 발표는 GPT-Realtime-2입니다. 이 모델은 GPT-5급 추론, 128,000 토큰 컨텍스트 창, 그리고 응답 품질에 따라 지연 시간을 조정할 수 있는 구성 가능한 추론 노력을 갖춘 최초의 음성-음성 모델입니다. 기존 Realtime API 표면에서 실행되므로, gpt-realtime을 이미 연결했다면 모델 문자열 변경 및 몇 가지 새로운 도구 필드만으로 마이그레이션할 수 있습니다.
이 가이드는 GPT-Realtime-2가 무엇인지, 이전 모델과 비교하여 무엇이 변경되었는지, 전체 가격표, 그리고 WebSocket과 SIP를 통해 이 모델을 호출하는 방법을 다룹니다. 또한 Apidog에 작동하는 설정을 포함하여, 매번 오디오를 다시 녹음할 필요 없이 Realtime 세션을 재생할 수 있습니다.
OpenAI의 2026년 전체 모델 라인에 대한 컨텍스트는 GPT-5.5란 무엇인가를 참조하세요. 멀티모달 자매 모델에 대해서는 GPT-Image-2 API 사용 방법을 참조하세요.
요약
- GPT-Realtime-2는 GPT-5급 추론, 128k 컨텍스트, 32k 최대 출력 토큰을 갖춘 OpenAI의 대표적인 음성-음성 모델입니다.
- 오디오 가격은 1백만 입력 토큰당 32달러이며, **1백만 출력 토큰당 64달러**입니다. 캐시된 입력은 1백만당 0.40달러입니다.
- 두 가지 새로운 음성인 **Cedar**와 **Marin**은 Realtime API 전용입니다. 기존의 8가지 음성은 품질 업데이트를 받았습니다.
- 다섯 가지 추론 수준:
minimal,low,medium,high,xhigh. 지연 시간을 위해 기본값은low입니다. wss://api.openai.com/v1/realtime?model=gpt-realtime-2를 통해 WebSocket으로 연결하거나 SIP를 통해 수신 전화를 받을 수 있습니다.- 보조 모델 출시: **GPT-Realtime-Translate** (실시간 번역, 70개 입력 언어, 분당 0.034달러) 및 **GPT-Realtime-Whisper** (스트리밍 STT, 분당 0.017달러).
- Apidog를 사용하여 WebSocket 세션을 스크립트하고, 프레임을 캡처하고, 실행 간의 오디오 이벤트를 비교하세요.
GPT-Realtime-2란 무엇인가요?
GPT-Realtime-2는 단일 음성-음성 모델입니다. 오디오를 스트리밍하여 입력하고, 모델은 한 번에 전사, 추론, 도구 선택 및 음성 생성을 처리합니다. STT-LLM-TTS 파이프라인과 같은 구형 패턴은 없으며, 이는 작년에 gpt-realtime이 대체했던 방식입니다. v2는 더 강력한 추론 코어로 동일한 표면을 더욱 선명하게 만듭니다.

이 모델은 텍스트, 오디오 및 이미지를 입력으로 받아들이고 텍스트와 오디오를 출력합니다. 이미지 입력은 여기서 새로운 양상입니다. 실시간 대화에 사진이나 스크린샷을 넣어 에이전트에게 사용자의 화면에 무엇이 있는지 설명해달라고 요청한 다음 계속 대화할 수 있습니다. 이는 사용자가 보는 것을 볼 수 있는 음성 코파일럿을 구축할 수 있게 해주며, 이는 이전 모델이 종단 간 실행할 수 없었던 에이전트 유형입니다.
사양 요약:
| 속성 | 값 |
|---|---|
| 모델 ID | gpt-realtime-2 |
| 컨텍스트 창 | 128,000 토큰 |
| 최대 출력 | 32,000 토큰 |
| 모달리티 (입력) | 텍스트, 오디오, 이미지 |
| 모달리티 (출력) | 텍스트, 오디오 |
| 지식 차단 시점 | 2024-09-30 |
| 추론 수준 | minimal, low, medium, high, xhigh |
| 함수 호출 | 예 |
| 원격 MCP 서버 | 예 |
| 이미지 입력 | 예 |
| SIP 전화 걸기 | 예 |
gpt-realtime 대비 변경 사항
벤치마크 개선은 실제적이며 외형적인 것이 아닙니다. gpt-realtime-1.5에 비해 v2 모델은 다음을 기록합니다.
- Big Bench Audio (오디오 지능): 81.4% → 96.6%, 15.2 포인트 상승.
- Audio MultiChallenge (명령 따르기): 34.7% → 48.5%, 13.8 포인트 상승.
이 점수들은 high 및 xhigh 추론 수준에서 측정되었습니다. 프로덕션 환경에서는 지연 시간을 위해 기본적으로 low가 사용되므로, 일상적인 품질은 양 극단 사이에서 나타납니다. 이 모델은 또한 다음과 같은 네 가지 주목할 만한 동작을 추가했습니다.
- 서론. 모델은 실제 답변을 내놓기 전에 "확인해볼게요"와 같은 짧은 채움 문구를 말하여 사용자에게 추론 지연 시간을 숨길 수 있습니다.
- 오디오 내레이션과 함께하는 병렬 도구 호출. 모델은 여러 함수 호출을 한 번에 실행하고, 해결되는 동안 진행 상황을 내레이션하여 2초 동안 침묵하는 대신 사용자에게 정보를 제공할 수 있습니다.
- 강화된 복구. 모호하거나 부분적으로 실패한 턴은 시작으로 돌아가는 대신 우아하게 처리됩니다.
- 도메인 톤 제어. 전문 용어는 긴 세션 동안 일관되게 유지되며, 세션 내에서 요청하면 모델은 전달 방식(공식적, 비격식적, 느리게)을 조정합니다.

컨텍스트는 32k에서 128k 토큰으로 증가했으며, 이는 긴 음성 세션을 구축할 수 있게 하는 변화입니다. 은행 업무, 지원, 튜터링 사용 사례가 명확한 이점입니다.
가격
GPT-Realtime-2는 토큰당 요금이 부과되며, 텍스트, 오디오 및 이미지 입력에 대해 별도의 요율이 적용됩니다.
| 토큰 유형 | 입력 | 캐시된 입력 | 출력 |
|---|---|---|---|
| 텍스트 | $4.00 / 1M | $0.40 / 1M | $24.00 / 1M |
| 오디오 | $32.00 / 1M | $0.40 / 1M | $64.00 / 1M |
| 이미지 | $5.00 / 1M | $0.50 / 1M | 해당 없음 |
캐시된 입력은 반복되는 컨텍스트에 대해 비용을 **80배** 절감하므로, 안정적인 시스템 프롬프트나 재사용 문서를 가진 모든 에이전트는 캐시를 따뜻하게 유지해야 합니다. 나머지 OpenAI 라인과의 비교를 위해 GPT-5.5 가격 책정을 참조하세요.
보조 모델들은 분당 요금이 부과되므로 가격 책정이 다릅니다.
- GPT-Realtime-Translate: 분당 0.034달러. 70개 입력 언어와 13개 출력 언어를 처리하며, 힌디어, 타밀어, 텔루구어에서 테스트된 다른 어떤 모델보다 단어 오류율이 12.5% 낮습니다.
- GPT-Realtime-Whisper: 분당 0.017달러. 실시간 자막 및 연속 전사를 위해 구축된 스트리밍 음성-텍스트 변환; 롤링 버퍼에서 배치 Whisper를 실행하는 것보다 빠릅니다.
추론과 음성 생성이 함께 필요할 때는 GPT-Realtime-2를, 실시간 다국어 통역에는 GPT-Realtime-Translate를, 전사본만 필요할 때는 GPT-Realtime-Whisper를 선택하세요.
엔드포인트 및 인증
GPT-Realtime-2는 수행하는 작업에 따라 여러 엔드포인트에서 노출됩니다.
POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS wss://api.openai.com/v1/realtime?call_id={call_id} # for SIP
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions
음성 에이전트의 경우 WebSocket 엔드포인트가 적합합니다. 인증은 OpenAI가 모든 곳에서 사용하는 것과 동일한 베어러 토큰 패턴입니다.
Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1
OPENAI_API_KEY를 한 번 설정하고 재사용하십시오.
export OPENAI_API_KEY="sk-proj-..."
WebSocket을 통한 연결
최소한의 Node.js 클라이언트는 다음과 같습니다.
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
{
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"OpenAI-Beta": "realtime=v1",
},
}
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "cedar",
instructions: "You are a friendly support agent for a fintech app.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
reasoning: { effort: "low" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
// base64 PCM16 audio chunk; pipe to your speaker or browser
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
세션은 이벤트 기반입니다. 사용자가 말할 때 input_audio_buffer.append 프레임을 보내면 서버는 응답으로 response.audio.delta 이벤트를 내보냅니다. 24kHz의 PCM16이 안전한 기본값입니다. G.711 mu-law 및 A-law도 지원되며, 이는 전화 시스템에 연결할 때 중요합니다.
Python 버전의 경우, openai SDK >= 2.1.0은 동일한 이벤트 이름을 가진 realtime 클라이언트를 노출합니다. Realtime 인터페이스를 Responses API와 비교하려면 GPT-5.5 API 사용 방법을 참조하세요.
음성
이번 릴리스에는 두 가지 새로운 음성이 포함됩니다.
- Cedar: 따뜻하고 중저음의 남성 음성. 일반 에이전트의 기본값입니다.
- Marin: 밝고 명확한 여성 음성. 번역 및 공지에 적합합니다.
두 음성 모두 Realtime API 전용입니다. 이전의 8가지 음성(alloy, ash, ballad, coral, echo, sage, shimmer, verse)은 여전히 사용 가능하며, 새 모델의 오디오 스택을 사용하도록 재조정되어 v1보다 훨씬 덜 로봇처럼 들립니다.
새 voice 필드를 포함한 다른 session.update를 전송하여 세션 도중 음성을 변경할 수 있습니다. 음성 변경으로 인한 추가 지연 시간은 없습니다.
이미지 입력
사용자 턴에 이미지를 첨부할 수 있습니다. 모델은 GPT-4o 비전이 사진을 보는 방식과 동일하게 이미지를 인식하며, 이제는 후속 질문을 음성으로 물어보면 음성으로 답변합니다.
ws.send(JSON.stringify({
type: "conversation.item.create",
item: {
type: "message",
role: "user",
content: [
{ type: "input_image", image_url: "https://example.com/screenshot.png" },
{ type: "input_text", text: "What does this error mean?" },
],
},
}));
ws.send(JSON.stringify({ type: "response.create" }));
초기 프로덕션 빌드에서 흔히 볼 수 있는 패턴은 다음과 같습니다.
- 음성 기반 QA. 테스터가 고장난 UI에 휴대폰 카메라를 겨냥하면 에이전트가 보이는 것을 설명하고 버그 보고서를 받아씁니다.
- 현장 지원. 기술자가 배선 패널 사진을 공유하면 에이전트가 진단을 안내합니다.
- 접근성. 지원 통화 중 사용자 화면에 대한 실시간 화면 판독기 스타일 내레이션.
OpenAI의 이미지 스택에 대한 자세한 내용은 GPT-Image-2 API 사용 방법을 참조하세요.
함수 호출 및 MCP
GPT-Realtime-2는 동일한 세션에서 표준 함수 도구와 원격 MCP 서버를 모두 지원합니다.
표준 함수 호출은 Chat Completions와 유사하게 작동합니다. 세션 구성에서 도구를 선언하고, 모델이 response.function_call_arguments.delta 이벤트를 내보내면, 이를 실행하고, function_call_output 유형의 conversation.item.create로 응답합니다. 새로운 동작은 병렬 호출입니다. 모델은 두세 가지를 동시에 실행하고 해결되는 동안 "잔액과 최근 세 건의 거래를 확인 중입니다"라고 내레이션할 수 있습니다.
원격 MCP 서버는 더 큰 변화입니다. 세션에서 MCP URL과 도구 허용 목록을 구성하면 Realtime API 자체가 호출을 실행합니다. 코드에서 함수 호출 이벤트 루프를 통해 왕복할 필요가 없습니다. 이는 음성 에이전트가 5개가 아닌 50개의 엔드포인트 도구 카탈로그에서 가져올 때도 응답성을 유지하게 합니다.
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "mcp",
server_url: "https://mcp.example.com/sse",
allowed_tools: ["lookup_account", "list_transactions"],
}],
},
}));
음성 에이전트에 연결하기 전에 MCP 서버를 테스트하는 경우, Apidog의 MCP 서버 테스트 설명서는 우리가 내부적으로 사용하는 요청-재생 설정에 대해 다룹니다.
SIP 전화 통화
실시간 음성 에이전트는 실제 전화를 받을 수 있습니다. SIP 트렁크를 OpenAI의 SIP 게이트웨이로 지정하면, 수신 전화는 wss://api.openai.com/v1/realtime?call_id={call_id}에서 WebSocket 세션을 엽니다. 모델은 G.711 mu-law 및 A-law를 직접 수락하므로, 브리지에서 트랜스코딩할 필요가 없습니다.
이 부분이 GPT-Realtime-2를 브라우저 데모가 아닌 신뢰할 수 있는 콜센터 모델로 만듭니다. 대부분의 전화 에이전트가 주로 도구 디스패치이기 때문에 병렬 도구 호출 및 MCP와 자연스럽게 어울립니다.
추론 수준
다섯 가지 추론 수준은 지연 시간과 응답 품질 사이의 단일 스로틀처럼 작동합니다.
| 수준 | 사용 사례 | 대략적인 지연 비용 |
|---|---|---|
minimal |
단일 턴 예/아니오 답변 | 없음 |
low |
기본값; 일상적인 지원 및 채팅 | 작음 |
medium |
모호성 해소, 복잡한 도구 디스패치 | 보통 |
high |
다단계 추론, 음성으로 코드 검토 | 높음 |
xhigh |
벤치마크, 어려운 분석 질문 | 최고 |
기본값은 low입니다. low에서 품질 저하를 측정할 때만 상향 조정하십시오. high 및 xhigh의 지연 비용은 사용자가 통화 중 차이를 느낄 만큼 실제적입니다.
Apidog에서 Realtime API 테스트
WebSocket API는 대화에 상태가 있기 때문에 터미널에서 디버깅하기 어렵습니다. Apidog는 일급 WebSocket 지원을 제공하므로 다음을 수행할 수 있습니다.

OpenAI-Beta헤더가 미리 채워진 WebSocket URL을 저장합니다.- JSON 메시지 시퀀스(session.update, input_audio_buffer.append, response.create)를 스크립트로 준비합니다.
- 단일 연결에 대해 스크립트를 재생하고 모든 서버 이벤트를 트리로 캡처합니다.
- 두 실행을 나란히 비교합니다. 추론 노력을 변경하고 오디오 출력 토큰 수를 비교하고 싶을 때 유용합니다.
Apidog를 다운로드하고, 새 WebSocket 요청을 생성한 다음, **Auth** 아래에 베어러 토큰을 붙여넣으세요. 컬렉션 형태는 HTTP에 대해 유지하는 것과 동일합니다: OPENAI_API_KEY에 대한 환경, voice에 대한 변수, 각 연결에서 실행되는 스크립트.
또 다른 빠른 멀티모달 모델과의 비교를 위해 Gemini 3 Flash Preview API 사용 방법을 참조하세요.
자주 묻는 질문
어떤 모델 ID를 전달해야 하나요?gpt-realtime-2입니다. 롤백이 필요한 경우 이전 모델인 gpt-realtime도 여전히 사용 가능합니다. 라이트 버전으로는 gpt-realtime-2-mini도 출시되었습니다.
출력 오디오가 재생 중일 때 입력 오디오를 스트리밍할 수 있나요? 예. Realtime API는 기본적으로 서버 측 음성 활동 감지(VAD)를 사용하므로, 사용자가 말을 시작하면 모델은 말하기를 중지합니다. VAD를 비활성화하고 클라이언트에서 턴 경계를 제어할 수 있습니다.
128k 컨텍스트에 오디오 토큰이 포함되나요? 예. 오디오는 토큰화됩니다. 오디오 1초는 형식에 따라 대략 50토큰입니다. 긴 지원 통화는 긴 텍스트 채팅보다 컨텍스트를 더 빨리 소모하므로, 128k 창이 충분하다고 가정하기 전에 사용량을 확인하십시오.
미세 조정이 지원되나요? 아직 아닙니다. 모델 카드에 따르면 GPT-Realtime-2는 아직 미세 조정, 예측 출력, Chat Completions에서의 텍스트 스트리밍을 지원하지 않습니다. Realtime 엔드포인트는 본질적으로 오디오를 스트리밍합니다.
TTS가 부착된 GPT-5.5와 비교하면 어떤가요? 종단 간 음성 추론 기능을 잃게 됩니다. 음성 인식 모델은 어조, 망설임, 강조를 포착할 수 있지만, TTS가 있는 텍스트 모델은 할 수 없습니다. 사용자가 _어떻게_ 말하는지에 반응해야 하는 에이전트의 경우 GPT-Realtime-2가 올바른 도구입니다. 순수한 텍스트 추론의 경우 GPT-5.5 API 사용 방법을 참조하세요.
어떤 속도 제한이 적용되나요? Tier 1은 분당 40,000 토큰으로 시작하여 Tier 5에서는 분당 15M 토큰으로 확장됩니다. 속도 제한은 모델별로 적용되므로 기존 GPT-5 할당량은 이월되지 않습니다.
마무리
GPT-Realtime-2는 음성 에이전트와 텍스트 에이전트 간의 격차를 좁힙니다. 128k 컨텍스트, GPT-5급 추론, 이미지 입력, 네이티브 MCP 및 SIP 지원이 결합되어 전화 통화를 받고, 스크린샷을 보고, 원격 도구를 디스패치하고, 문장 도중의 실패로부터 복구하는 단일 음성 에이전트를 WebSocket을 벗어나지 않고 구축할 수 있게 합니다. 오디오 토큰 백만 개당 32달러/64달러라는 가격은 합리적이며, 캐시된 입력은 안정적인 시스템 프롬프트에 대한 비용을 절감합니다.
가장 빠른 프로덕션 경로(배포 방법)는 Apidog에서 WebSocket 세션을 스크립팅하고, 도구 목록을 고정하며, low 추론으로 시작하는 것입니다. 품질 격차를 측정할 수 있을 때만 상향 조정하십시오.
버튼
