GPT-Realtime-2とは？APIの使い方

OpenAIは2026年11月6日に新世代の音声モデルを発表しました。その目玉となるリリースは、GPT-5クラスの推論、128,000トークンのコンテキストウィンドウ、および回答品質とレイテンシのバランスを調整できる設定可能な推論エフォートを備えた初の音声対音声モデル「GPT-Realtime-2」です。既存のRealtime APIサーフェス上で動作するため、すでにgpt-realtimeを組み込んでいる場合は、モデル文字列の変更といくつかの新しいツールフィールドの追加で移行できます。

このガイドでは、GPT-Realtime-2とは何か、以前のモデルから何が変わったのか、完全な料金表、そしてWebSocketとSIPの両方で呼び出す方法について説明します。また、毎回音声を録音し直すことなくRealtimeセッションを再生できるよう、Apidogで動作するセットアップも含まれています。

OpenAIのより広範な2026年モデルラインのコンテキストについては、GPT-5.5とはを参照してください。マルチモーダルな兄弟モデルについては、GPT-Image-2 APIの使用方法を参照してください。

TL;DR

GPT-Realtime-2は、OpenAIの主力音声対音声モデルで、GPT-5クラスの推論、128kのコンテキスト、および最大32kの出力トークンを備えています。
音声料金は、入力トークン100万あたり$32、出力トークン100万あたり$64で、キャッシュされた入力は$0.40/100万です。
CedarとMarinという2つの新しい音声はRealtime API専用です。既存の8つの音声は品質が向上しました。
5つの推論レベル: minimal、low、medium、high、xhigh。デフォルトはレイテンシ優先のlowです。
wss://api.openai.com/v1/realtime?model=gpt-realtime-2でWebSocket経由で接続するか、SIP経由で着信通話を受け取ります。
同時リリース: GPT-Realtime-Translate (ライブ翻訳、70入力言語、$0.034/分) と GPT-Realtime-Whisper (ストリーミングSTT、$0.017/分)。
Apidogを使用してWebSocketセッションをスクリプト化し、フレームをキャプチャし、実行間の音声イベントを比較します。

GPT-Realtime-2とは？

GPT-Realtime-2は単一の音声対音声モデルです。音声をストリーミング入力し、音声をストリーミング出力すると、モデルが文字起こし、推論、ツール選択、音声生成を一度に処理します。STT→LLM→TTSというパイプラインはありません。この古いパターンはgpt-realtimeが昨年置き換えたものであり、v2はより強力な推論コアで同じサーフェスを強化します。

このモデルは、テキスト、音声、および画像をインプットとして受け入れ、テキストと音声をアウトプットとして出力します。ここでの新しいモダリティは画像の入力です。ライブ会話中に写真やスクリーンショットをドロップし、エージェントにユーザーの画面に何が表示されているかを説明するように依頼し、会話を続けることができます。これにより、ユーザーが見ているものを見ることができる音声コパイロットを構築することが可能になり、以前のモデルではエンドツーエンドで実行できなかった種類のエージェントが可能になります。

一目でわかる仕様：

属性	値
モデルID	`gpt-realtime-2`
コンテキストウィンドウ	128,000トークン
最大出力	32,000トークン
モダリティ（入力）	テキスト、音声、画像
モダリティ（出力）	テキスト、音声
知識カットオフ	2024年9月30日
推論レベル	minimal, low, medium, high, xhigh
関数呼び出し	あり
リモートMCPサーバー	あり
画像入力	あり
SIP電話発信	あり

gpt-realtimeからの変更点

ベンチマークの向上は本物であり、見せかけではありません。gpt-realtime-1.5と比較して、v2モデルは以下の結果を出しています。

Big Bench Audio (音声インテリジェンス): 81.4% → 96.6% (15.2ポイント上昇)。
Audio MultiChallenge (指示の追従性): 34.7% → 48.5% (13.8ポイント上昇)。

これらのスコアはhighおよびxhigh推論で記録されました。本番環境ではレイテンシを考慮してデフォルトはlowなので、日常的な品質はその中間になります。モデルはさらに、特筆すべき4つの動作を習得しました。

プレアンブル。 モデルは「確認させてください」のような短いフィラーフレーズを実際の回答を生成する前に発することができ、これにより推論レイテンシをユーザーから隠します。
音声ナレーション付きの並列ツール呼び出し。 モデルは複数の関数呼び出しを同時に実行し、解決中に進行状況をナレーションできるため、2秒間沈黙することはありません。
より強力な回復。 曖昧な、または部分的に失敗した会話ターンは、最初に戻ることなく優雅に処理されます。
ドメインのトーン制御。 特定の専門用語が長いセッション全体で一貫して維持され、セッション中に要求するとモデルは表現（フォーマル、カジュアル、ゆっくり）を調整します。

コンテキストは32kから128kトークンに増加し、これにより長時間の音声セッションを構築できるようになりました。銀行業務、サポート、チュータリングなどのユースケースは明らかな恩恵を受けます。

料金

GPT-Realtime-2はトークンごとに課金され、テキスト、音声、画像の入力ごとに異なる料金が設定されています。

トークンタイプ	入力	キャッシュ済み入力	出力
テキスト	$4.00 / 100万	$0.40 / 100万	$24.00 / 100万
音声	$32.00 / 100万	$0.40 / 100万	$64.00 / 100万
画像	$5.00 / 100万	$0.50 / 100万	該当なし

キャッシュされた入力は、繰り返し使用されるコンテキストに対して課金を80倍削減するため、安定したシステムプロンプトや再利用されるドキュメントを持つエージェントはキャッシュを暖かく保つべきです。OpenAIラインの他のモデルとの比較については、GPT-5.5の料金を参照してください。

コンパニオンモデルは分単位で課金されるため、料金が異なります。

GPT-Realtime-Translate: 1分あたり$0.034。70の入力言語と13の出力言語に対応し、ヒンディー語、タミル語、テルグ語でテストされた他のどのモデルよりも12.5%低い単語エラー率を誇ります。
GPT-Realtime-Whisper: 1分あたり$0.017。ライブキャプションと連続文字起こし用に構築されたストリーミング音声認識で、ローリングバッファでバッチWhisperを実行するよりも高速です。

推論と音声生成が同時に必要な場合はGPT-Realtime-2を、ライブの多言語通訳にはGPT-Realtime-Translateを、文字起こしだけが必要な場合はGPT-Realtime-Whisperを選択してください。

エンドポイントと認証

GPT-Realtime-2は、実行する内容に応じて複数のエンドポイントで公開されています。

POST https://api.openai.com/v1/chat/completions
POST https://api.openai.com/v1/responses
WSS  wss://api.openai.com/v1/realtime?model=gpt-realtime-2
WSS  wss://api.openai.com/v1/realtime?call_id={call_id}   # SIP用
POST https://api.openai.com/v1/realtime/translations
POST https://api.openai.com/v1/realtime/transcription_sessions

音声エージェントの場合、WebSocketエンドポイントが目的のものです。認証はOpenAIがどこでも使用しているベアラートークンパターンと同じです。

Authorization: Bearer $OPENAI_API_KEY
OpenAI-Beta: realtime=v1

OPENAI_API_KEYを一度設定し、再利用します。

export OPENAI_API_KEY="sk-proj-..."

WebSocket経由での接続

最小限のNode.jsクライアントは次のようになります。

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "cedar",
      instructions: "あなたはフィンテックアプリのフレンドリーなサポートエージェントです。",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
      reasoning: { effort: "low" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    // base64 PCM16 オーディオチャンク。スピーカーまたはブラウザにパイプする
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

セッションはイベント駆動型です。ユーザーが話すとinput_audio_buffer.appendフレームを送信し、サーバーは応答としてresponse.audio.deltaイベントを発行します。24 kHzのPCM16が安全なデフォルトです。G.711 mu-lawおよびA-lawもサポートされており、これは電話システムへのブリッジングの際に重要となります。

Pythonの同等機能については、openai SDK >= 2.1.0が同じイベント名を持つrealtimeクライアントを公開しています。RealtimeサーフェスをResponses APIと比較したい場合は、GPT-5.5 APIの使用方法を参照してください。

音声

このリリースには2つの新しい音声が搭載されています。

Cedar: 暖かく、中音域の男性の声。一般的なエージェントのデフォルト。
Marin: 明るく、クリアな女性の声。翻訳やアナウンスに適しています。

どちらもRealtime API専用です。以前の8つの音声（alloy、ash、ballad、coral、echo、sage、shimmer、verse）は引き続き利用可能で、新しいモデルのオーディオスタックを使用するように再調整されたため、v1よりも明らかにロボットのような音が少なくなりました。

セッション中に音声を切り替えるには、新しいvoiceフィールドを含む別のsession.updateを送信します。音声の切り替えによる追加のレイテンシはありません。

画像入力

任意のユーザーターンに画像を添付できます。モデルはGPT-4o Visionが写真を見るのと同じように画像を認識しますが、今度はユーザーが音声で追加の質問をし、モデルが音声で回答できます。

ws.send(JSON.stringify({
  type: "conversation.item.create",
  item: {
    type: "message",
    role: "user",
    content: [
      { type: "input_image", image_url: "https://example.com/screenshot.png" },
      { type: "input_text", text: "このエラーは何を意味しますか？" },
    ],
  },
}));
ws.send(JSON.stringify({ type: "response.create" }));

初期のプロダクションビルドで見られる一般的なパターン：

音声駆動型QA。 テスターが故障したUIにスマートフォンのカメラを向け、エージェントが見たものをナレーションし、バグレポートを口述します。
フィールドサポート。 技術者が配線盤の写真を共有し、エージェントが診断を案内します。
アクセシビリティ。 サポート通話中に、ユーザーの現在の画面をライブでスクリーンリーダーのようにナレーションします。

OpenAIの画像スタックの詳細については、GPT-Image-2 APIの使用方法を参照してください。

関数呼び出しとMCP

GPT-Realtime-2は、標準の関数ツールとリモートMCPサーバーの両方を同じセッションでサポートしています。

標準の関数呼び出しはチャット補完と同様に機能します。セッション設定でツールを宣言し、モデルがresponse.function_call_arguments.deltaイベントを発行し、それを実行した後、function_call_outputタイプのconversation.item.createで応答します。新しい動作は並列呼び出しであり、モデルは2つまたは3つの関数を同時に実行し、「残高と直近3つの取引を確認しています」とナレーションしながらそれらを解決できます。

リモートMCPサーバーはより大きな変更です。MCP URLとツール許可リストをセッションで設定すると、Realtime API自体が呼び出しを実行します。これにより、コードが関数呼び出しのイベントループを経由してラウンドトリップする必要がなくなります。これにより、音声エージェントは5つのエンドポイントではなく50のエンドポイントのツールカタログからデータを取得する場合でも応答性を維持できます。

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "mcp",
      server_url: "https://mcp.example.com/sse",
      allowed_tools: ["lookup_account", "list_transactions"],
    }],
  },
}));

音声エージェントに組み込む前にMCPサーバーをテストする場合、ApidogでのMCPサーバーテストのチュートリアルでは、内部で使用しているリクエスト再生セットアップについて説明しています。

SIP電話発信

リアルタイム音声エージェントは、実際の電話通話を受け付けることができます。SIPトランクをOpenAIのSIPゲートウェイに向け、着信通話はwss://api.openai.com/v1/realtime?call_id={call_id}でWebSocketセッションを開きます。モデルはG.711 mu-lawおよびA-lawを直接受け入れるため、ブリッジでトランスコードする必要はありません。

これは、GPT-Realtime-2をブラウザデモではなく、信頼できるコールセンターモデルにする部分です。並列ツール呼び出しやMCPと自然に連携し、ほとんどの電話エージェントが主にツールディスパッチであるためです。

推論レベル

5つの推論レベルは、レイテンシと回答品質のバランスを調整する単一の調整器のように機能します。

レベル	ユースケース	おおよそのレイテンシコスト
`minimal`	単一ターンのYes/No回答	なし
`low`	デフォルト; 日常的なサポートとチャット	小
`medium`	曖昧さの解消、複雑なツールディスパッチ	中
`high`	多段階推論、音声によるコードレビュー	高
`xhigh`	ベンチマーク、難しい分析質問	最高

デフォルトはlowです。lowで品質低下が見られる場合にのみレベルを上げてください。highやxhighでのレイテンシコストは、ユーザーが通話中にそのギャップに気づくほどです。

ApidogでRealtime APIをテストする

WebSocket APIは、会話に状態があるため、ターミナルからのデバッグが困難です。ApidogはファーストクラスのWebSocketサポートを備えているため、以下のことができます。

OpenAI-Betaヘッダーを事前に入力してWebSocket URLを保存します。
JSONメッセージ（session.update、input_audio_buffer.append、response.create）のシーケンスをスクリプトとしてステージングします。
スクリプトを単一の接続に対して再生し、すべてのサーバーイベントをツリーにキャプチャします。
2つの実行を並べて比較します。推論エフォートを変更し、音声出力トークン数を比較したい場合に便利です。

Apidogをダウンロードし、新しいWebSocketリクエストを作成し、「認証」の下にベアラートークンを貼り付けます。コレクションの形式はHTTPのために保持しているものと同様で、OPENAI_API_KEY用の環境、voice用の変数、各接続で実行されるスクリプトなどです。

別の高速なマルチモーダルモデルとの比較については、Gemini 3 Flash Preview APIの使用方法を参照してください。

FAQ

どのモデルIDを渡せばよいですか？gpt-realtime-2です。ロールバックする必要がある場合、以前のモデルは引き続きgpt-realtimeとして利用可能です。軽量版としては、gpt-realtime-2-miniもライブです。

出力音声が再生されている間に入力音声をストリーミングできますか？はい、可能です。Realtime APIはデフォルトでサーバーサイドの音声活動検出（VAD）を使用するため、ユーザーが話し始めるとモデルは発話を停止します。VADを無効にして、クライアント側から会話の境界を制御することもできます。

128kのコンテキストには音声トークンも含まれますか？はい、含まれます。音声はトークン化されます。フォーマットにもよりますが、1秒の音声は約50トークンです。長いサポート通話は長いテキストチャットよりもコンテキストを早く消費するため、128kのウィンドウが十分であると仮定する前に使用状況を確認してください。

ファインチューニングはサポートされていますか？まだです。モデルカードによると、GPT-Realtime-2はまだファインチューニング、予測出力、チャット補完におけるテキストストリーミングをサポートしていません。Realtimeエンドポイントは本質的に音声をストリーミングします。

これはTTSをボルトオンしたGPT-5.5と比較してどうですか？エンドツーエンドの音声推論が失われます。音声認識対応モデルは、トーン、ためらい、強調を拾うことができますが、TTS付きのテキストモデルではできません。ユーザーが「どのように」話しているかに反応する必要があるエージェントには、GPT-Realtime-2が適切なツールです。純粋なテキスト推論には、GPT-5.5 APIの使用方法を参照してください。

どのレート制限が適用されますか？ティア1は毎分40,000トークンから始まり、ティア5では15M TPMまでスケールします。レート制限はモデルごとであるため、既存のGPT-5クォータは引き継がれません。

まとめ

GPT-Realtime-2は、音声エージェントとテキストエージェントの間のギャップを埋めます。128kのコンテキスト、GPT-5クラスの推論、画像入力、ネイティブMCP、およびSIPサポートが一体となり、電話を受け、スクリーンショットを見て、リモートツールをディスパッチし、途中の失敗から回復する単一の音声エージェントを、すべてWebSocketから離れることなく構築することを可能にします。料金は音声トークン100万あたり$32/$64という正直な設定で、キャッシュされた入力は安定したシステムプロンプトの請求額を削減します。

最速で本番環境に移行するには、ApidogでWebSocketセッションをスクリプト化し、ツールリストを確定し、low推論から始めることです。品質のギャップを測定できる場合にのみレベルを上げてください。

ボタン