xAIはOpenAIがGPT-Realtime-2を展開したのと同じ週にGrok Voiceを出荷し、2026年に音声モデルを選択する開発者にとって、現在2つの信頼できる主力オプションが存在します。どちらも推論機能付きの音声対音声モデルとして提供され、WebSocket経由で動作し、ツール利用をサポートし、人間のような抑揚で話します。決定は、レイテンシ、価格、音声カタログ、推論の深さ、そしてSIP、画像入力、音声クローニングが必要かどうかという5つの具体的なトレードオフにかかっています。 この投稿では、それらを数値、APIサーフェス、および一般的な音声エージェントの形状ごとの一言推奨事項とともに比較します。 独立したガイドについては、「GPT-Realtime-2の使い方」および「Grok Voiceを無料で使う方法」をご覧ください。負荷の下でいずれかのモデルをストレステストするには、ApidogがWebSocketセッションをネイティブで処理します。
要約
- Grok Voice (
grok-voice-think-fast-1.0) は、レイテンシ(最初の音声出力までの時間が1秒未満、競合製品よりも約5倍速い)、無料コンソールアクセス、音声カタログ(80以上のプリセット、28言語)、および音声クローニング(1分のサンプルで2分以内に準備完了)で優位です。 - GPT-Realtime-2 は、推論の深さ(GPT-5クラス、5段階の推論レベル)、コンテキストウィンドウ(128kトークン)、画像入力(ライブスクリーンショット理解)、および本番環境での成熟度(ネイティブSIP、MCP、より長い実績)で優位です。
- 有料利用の価格設定: GPT-Realtime-2は100万オーディオトークンあたり$32/$64です。Grok Voiceはコンソール上では1分あたりのオーディオ課金がなく、Grok 4.3の推論に対してのみ100万トークンあたり$1.25/$2.50を支払います。
- 大量利用、低レイテンシの消費者向けアプリや、あらゆる音声クローニングのユースケースにはGrok Voiceを選択してください。
- 複雑な推論、マルチモーダル音声エージェント、厳格なコールセンター展開にはGPT-Realtime-2を選択してください。
- Apidogで一度統合を構築し、URLを1つ変更するだけでモデルを切り替えることができます。
2つのモデルを1つの表で
| 機能 | Grok Voice (grok-voice-think-fast-1.0) |
GPT-Realtime-2 |
|---|---|---|
| 最初の音声出力までの時間 | 1秒未満 (xAIの主張: 最も近い競合よりも約5倍速い) | low 推論では1秒未満、high/xhigh ではより遅い |
| 推論レベル | low / medium / high (Grok 4.3が基盤) | minimal / low / medium / high / xhigh |
| 基盤となる知能 | Grok 4.3 (知能指数 53) | GPT-5クラス |
| コンテキストウィンドウ | 1,000,000トークン (Grok 4.3) | 128,000トークン |
| プリセット音声 | 80以上 (Eve, Ara, Rex, Sal, Leoの5つの音声エージェントペルソナ) | 10 (新しく2つ: Cedar, Marin; 8つは再調整済み) |
| 言語 (TTS) | 28 | 公式には非公開 |
| 言語 (STT) | 25 | GPT-Realtimeから継承 |
| 音声クローニング | はい、カスタム音声、1分サンプル、2分未満のトレーニング | いいえ |
| 画像入力 | いいえ (テキスト+音声のみ) | はい (写真、スクリーンショット) |
| リモートMCPサーバー | ツール利用は可能; ネイティブMCPは宣伝されていない | はい (APIによってMCPツールを実行) |
| ネイティブSIP / 電話発信 | 自身のSIPプロバイダーを使用 | はい (?call_id={call_id} エンドポイント) |
| オーディオ形式 | PCM16, MP3, μ-law | PCM16, G.711 μ-law, A-law |
| 料金モデル | 音声についてはコンソールで無料; Grok 4.3の推論に対してのみ支払い ($1.25/$2.50/1M) | 入力オーディオ1Mあたり$32、出力オーディオ1Mあたり$64、テキスト1Mあたり$4/$24 |
| コンプライアンス | SOC 2 Type II, HIPAA準拠 (BAA), GDPR | SOC 2, GDPR (OpenAI Enterpriseに準拠) |
レイテンシ:Grokが大きく優位
xAIの「grok-voice-think-fast-1.0は『最も近い競合よりも約5倍速い』」という主張は、彼ら自身のベンチマークに基づいているため、その倍率については注意が必要です。しかし、独立したテストでもその方向性は裏付けられています。Grokの最初の音声出力までの時間は1秒をはるかに下回る一方、GPT-Realtime-2は推論レベルに応じて800ms~1500msの範囲に収まります。
なぜそれが重要なのか:電話での会話において、600msと1200msの違いは「エージェントが生きているように感じる」か「エージェントがボットのように感じる」かの違いです。レイテンシは、ユーザーが最も感じる唯一の側面です。
推奨事項: アプリが消費者向けで、ユーザーが電話を手にしている場合、Grok Voiceのレイテンシの利点は、より深い推論に対するトレードオフとして価値があります。
価格設定:形状が異なる
このセクションは、公平な比較には注意が必要です。
GPT-Realtime-2 は、音声をトークンメーターとして課金します。音声入力は100万トークンあたり$32、音声出力は100万トークンあたり$64です。1秒の音声は約50トークンであるため、均衡の取れたターン制の5分間の会話は約30,000トークン、つまり音声I/Oで約$1.50を消費します。キャッシュされた入力は、安定したシステムプロンプトの場合80倍に減少します。
Grok Voice は、xAIコンソールでTTS、STT、音声エージェント、またはカスタム音声に対して1分あたりまたはトークンあたりの課金がありません。Grok 4.3の推論に対してのみ、入力100万トークンあたり$1.25、出力100万トークンあたり$2.50を支払います。推論トークンは、同じ会話の音声トークンよりも約1桁少ないため、同じ5分間の通話は$0.10未満に収まります。
推奨事項: 単位経済が重要となる大量利用の消費者向けアプリ(1日あたり10,000分以上を想定)の場合、Grok Voiceは実質的に安価です。少量で高リスクのフロー(営業電話、規制対象のサポート)の場合、価格差は小さいため、推論の品質が決定要因となります。
Grok 4.3の価格の詳細については、「Grok 4.3 APIの使い方」をご覧ください。OpenAIの価格ラインについては、「GPT-5.5の価格設定」をご覧ください。
推論の深さ:OpenAIが優位
GPT-Realtime-2は、OpenAIが「GPT-5クラス」と評する初の音声対音声モデルです。Big Bench Audioでは96.6%(以前のモデルの81.4%から上昇)、Audio MultiChallengeでは48.5%(34.7%から上昇)を記録しました。5段階の推論レベル(minimalからxhighまで)により、リクエストごとに品質とレイテンシのバランスを調整できます。
Grok VoiceはGrok 4.3を基盤としています。Grok 4.3はArtificial Analysisで知能指数53を達成し、世界中の146モデル中10位にランクインしました。特にエージェントタスクにおいて強力ですが(GDPval-AAでGrok 4.20と比較して300Eloポイント上昇)、音声対音声の推論層は、公開されているベンチマークではまだGPT-Realtime-2のレベルには達していません。
推奨事項: エージェントが意図を明確にしたり、多数のツールを横断してディスパッチしたり、会話の途中で長いコンテキストにわたって推論したりする必要がある場合、GPT-Realtime-2がより安全な選択肢です。簡単なサポートや営業スクリプトの場合、そのギャップは小さいため、レイテンシが決め手となります。
音声カタログ:Grokは数で優位、OpenAIは一貫性で優位
Grokは28言語にわたる80以上のプリセット音声を搭載しています。音声エージェント自体は、5つの厳選されたペルソナ(Eve、Ara、Rex、Sal、Leo)を使用していますが、より広範なTTSサーフェスでは、はるかに大きなライブラリから選択できます。さらに、OpenAI側にはない音声クローニング機能も備えています。
GPT-Realtime-2は合計10の音声を搭載しています。Realtime API専用の新しい主力2つ(Cedar、Marin)と、再調整された従来の8つの音声(alloy、ash、ballad、coral、echo、sage、shimmer、verse)です。ライブラリは小さいですが、音声間の一貫性が高く、すべて同じオーディオスタックを使用しており、抑揚制御もそれぞれの音声で同じように動作します。
推奨事項: 特定の音声(有名人に近い音色、地域のアクセント、カスタムブランドの音声)が必要な場合は、Grokが優位です。高品質の音声が必要で、予測可能な動作を重視する場合は、GPT-Realtime-2で問題ありません。
音声クローニング:Grokのみが提供
xAIのカスタム音声は、約1分のクリアなスピーチから音声をクローンし、2分以内にvoice_idを返します。同じvoice_idはTTSエンドポイントと音声エージェントの両方で機能します。OpenAIは現在、Realtime APIで音声クローニングを公開していません。
これは一方的なカテゴリです。クローニングが必要な場合、選択はすでに決まっています。
画像入力:OpenAIのみが提供
GPT-Realtime-2は、テキスト、音声、画像をインプットとして受け入れます。ユーザーのターンにスクリーンショットや写真を添付し、エージェントにそれを声に出して説明させ、その後も会話を続けさせることができます。そのユースケース(フィールドサポート、音声駆動QA、アクセシビリティナレーション)は興味深く、Grokは現在それらに対応できません。
これも一方的です。エージェントがユーザーが見ているものを「見る」必要がある場合、OpenAIが選択肢となります。
OpenAIのビジョンスタックについてさらに詳しく知りたい場合は、「GPT-Image-2 APIの使い方」をご覧ください。
SIPおよび電話統合:OpenAIはネイティブ提供、Grokはブリッジが必要
OpenAIのRealtime APIはネイティブSIPをサポートしています。SIPトランクをOpenAIのゲートウェイに向け、インバウンドコールはwss://api.openai.com/v1/realtime?call_id={call_id}でWebSocketセッションを開きます。ブリッジ層を完全にスキップできます。
Grok Voiceは電話向けにμ-law出力をサポートしていますが、SIPプロバイダー(Twilio、Telnyx、Plivo)は自分で用意し、ブリッジも自分で実行する必要があります。これは機能しますが、より多くのエンジニアリングコストがかかります。
推奨事項: コールセンターエージェントを構築しており、キーから通話までの最短経路を望むなら、GPT-Realtime-2がより軽量な統合となります。
MCPとツール利用
どちらのモデルも関数呼び出しをサポートしています。その違いは以下の通りです。
- GPT-Realtime-2 はリモートMCPサーバーをネイティブでサポートします。サーバーURLとツール許可リストを設定すると、Realtime API自体が呼び出しを実行します。あなたのコードは関数呼び出しのイベントループを経由して往復する必要がありません。
- Grok Voice は関数呼び出しをサポートし、組み込みの
web_searchツールを搭載しています。MCPはまだ第一級のプリミティブとしては宣伝されていません。
50のエンドポイントツールカタログから情報を引き出す音声エージェント(銀行のエージェントを想像してください)の場合、MCP統合が重要になります。APIがホットパスにあなたのサーバーを介さずにツールをディスパッチすることを望むでしょう。5つ以下のツールを持つエージェントの場合、どちらのモデルでも通常の関数呼び出しで問題ありません。
MCPサーバーを個別にテストしている場合は、「ApidogでのMCPサーバーテスト」をご覧ください。
一言での選択肢
- 消費者向け音声アプリ、大量、レイテンシが重要: Grok Voice。
- 音声クローニングが必要(カスタムブランド音声、キャラクター音声): Grok Voice。
- 大規模な多言語TTS(10言語以上): Grok Voice。
- スクリーンショットを見る必要がある音声エージェント: GPT-Realtime-2。
- SIPを備えたコールセンター展開: GPT-Realtime-2。
- 50以上のツールを持つ多段階推論エージェント: GPT-Realtime-2 (MCP)。
- 長文コンテキストの会話(50k以上の履歴トークン): GPT-Realtime-2 (128kコンテキスト、ただしオーディオトークンコストを許容できるならGrok 4.3の1Mコンテキストの方が大きい)。
- 最も安価な本番環境音声エージェント: コンソール版Grok Voice。
- ベンチマーク重視の推論に最も信頼性がある:
xhigh推論を備えたGPT-Realtime-2。
導入前に両方をテストする方法
賢明な策は、まず1つを選んでから移植することではありません。賢明な策は、両方で1週間開発し、測定することです。
私たちが実行するパターンは以下の通りです。
- フィクスチャ会話を構築する。 1つのツール呼び出し、1つの曖昧さ解消、1つの長い回答を含む10ターンの対話。各ターンについて実際のユーザー音声を録音します。
- Apidogで一度スクリプト化する。 WebSocketリクエスト、JSONメッセージシーケンス、
XAI_API_KEYとOPENAI_API_KEY両方の環境変数。 - 実行ごとにURLを交換する。 一方には
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0、もう一方にはwss://api.openai.com/v1/realtime?model=gpt-realtime-2を使用します。 - 音声出力とトークン使用量をキャプチャする。 最初の音声出力までの時間、総出力時間、および実行ごとの総コストを比較します。
Apidogをダウンロードしてサイドバイサイドで実行してください。コレクション形式はポータブルなので、比較アーティファクトはバージョン管理下に置かれます。
FAQ
同じアプリで両方のモデルを使い、ランタイムでルーティングできますか?はい。どちらも同様のイベント形状で話します。ユーザーの意図に基づいてルーティングできます(安価な意図分類器がカジュアルな用途にはGrokを、複雑な用途にはGPT-Realtimeを選択するなど)または言語に基づいてルーティングできます(大規模な非英語向けにはGrok)。ルーティング層のコストはわずかです。
非英語の音声品質はどちらが良いですか?Grokは言語カバレッジで優位です(80以上の音声、TTSで28言語)。両方がカバーする言語については、実際の品質は非常に近いため、必要な特定の言語をテストする必要があります。
GPT-Realtime-2は一般的なワークロードに対して10倍の価格を出す価値がありますか?「一般的」が何を意味するかによります。FAQに答える顧客サポートエージェントの場合、いいえ。CRMを読み込み、ツールをディスパッチし、中断から回復しなければならない営業エージェントの場合、推論のギャップには価値があります。
どちらかのモデルで、有名人の実際の音声クローニングはできますか?いいえ。どちらのベンダーもクローニングを同意されたサンプルに限定しています。許可なく有名人をクローニングすることは、両プラットフォームの利用規約に違反します。
後から一方からもう一方へ移行するにはどうすればよいですか?イベント名はわずかに異なりますが、会話の形状は同じです。主にsession.updateペイロードとイベントハンドラ名の変更で、1日程度の移植作業を見込んでください。Apidogでテスト用に構築した場合、リクエストコレクションはきれいに移植されます。
まとめ
Grok VoiceとGPT-Realtime-2の間には普遍的な正解はありません。ユースケースごとに正しい答えがあり、レイテンシ、価格、音声カタログ、推論の深さ、SIP/MCP/画像などの統合といった5つのトレードオフがその判断を決定します。
高速な消費者向け音声アプリを構築しており、ミリ秒単位まで重視するなら、Grok Voiceで出荷し、次に進んでください。画面を見たり、50のツールをディスパッチしたり、SIPブリッジなしで電話に対応する必要があるマルチモーダル音声エージェントを構築するなら、GPT-Realtime-2で出荷してください。
それ以外の場合は、Apidogで一度構築し、両方を1週間テストして、データに基づいて選択してください。
