xAIはGrok 4.3リリースとともにGrok Voiceを出荷しました。開発者にとっての最大のニュースはシンプルで、xAI Consoleで無料であるということです。1分あたりの料金もトークンあたりの料金もかからず、ボイスエージェントモデル、テキスト読み上げ機能、音声認識機能、カスタムボイスクローンツールに完全にアクセスできます。唯一課金対象となるリソースは、エージェントが推論する際のGrok 4.3の基盤となるトークン使用量であり、これにはテスト用の無料コンソール利用枠があります。 このガイドでは、独自の音声をクローンする方法、WebSocketセッションの様子、そして製品に組み込む前にApidogで全体のフローをテストする方法など、Grok Voiceを無料で実行する方法について説明します。 ボタン より広範なGrok 4.3 APIガイド、またはGrok Voice対GPT-RealtimeでのOpenAIスタックとの比較も必要であれば、それらの補足記事で残りの機能について説明しています。
要約
- Grok VoiceはxAI Console(
console.x.ai)のユーザーは無料です。TTS、STT、ボイスエージェント、カスタムボイスについて、1分あたりまたはトークンあたりの料金はかかりません。 - フラッグシップモデル:
grok-voice-think-fast-1.0。最初の音声までの時間は1秒未満。xAIは、最も近い競合製品よりも約5倍高速であると主張しています。 - 28言語で80以上のプリセット音声。5つの組み込みボイスエージェントペルソナ(Eve、Ara、Rex、Sal、Leo)。
- 約1分間の音声からカスタム音声クローニング。2分未満で製品レベルの音声が利用可能。
- WebSocketエンドポイント:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0。 - TTS、STT、カスタムボイスのRESTエンドポイントは1つのAPIサーフェスを共有します。
- WebSocketセッションをスクリプト化し、音声を再録音することなく再生するにはApidogを使用します。
Grok Voiceが無料で提供するもの
xAI Consoleが無料アクセスの道を開きます。console.x.aiにサインインし、APIキーを生成すると、音声機能自体に関連する料金なしで4つの機能を利用できます。

- ボイスエージェント(リアルタイム音声間)。ツール利用、サーバーサイド音声活動検出、ターンテーキングが組み込まれた完全な会話モデル。
- テキスト読み上げ。28言語で80以上のプリセット音声。MP3またはテレフォニー用のμ-lawとして出力。
- 音声認識。25の入力言語に対応したストリーミングおよびバッチ転写。単語レベルのタイムスタンプと話者分離機能付き。
- カスタムボイス。短いサンプルから自分の声をクローンし、生成された
voice_idをTTSおよびボイスエージェントAPI全体で使用します。
唯一課金対象となるのは、エージェントがリクエストを推論する際のGrok 4.3トークン使用量です。コンソールは、その機能のテスト用にも無料クレジットを提供しており、課金が始まる前にエンドツーエンドのフローを検証するには十分です。
ステップ1:コンソールキーを取得する
console.x.aiにアクセスし、Xアカウントでサインインします。API Keysページから、voiceとchatスコープを有効にした新しいキーを作成します。一度エクスポートして再利用します。
export XAI_API_KEY="xai-..."
キーを公開できないクライアントサイドアプリの場合、コンソール設定または/v1/realtime/sessionsエンドポイントから一時トークンをミント(生成)します。一時トークンは同じスコープを持ちますが、数分で期限切れになるため、親キーを漏らすことなくブラウザに渡すことができます。
ステップ2:音声を選択する
2つのパスがあります。 プリセット音声。ボイスエージェントには、5つの名前付きペルソナが付属しています。
- Eve:女性、エネルギッシュ。明るいサポートフローに適しています。
- Ara:女性、温かい。一般的なアシスタンスのデフォルト。
- Rex:男性、自信がある。セールススクリプトに適しています。
- Sal:ニュートラル、滑らか。ナレーションや長文の読み上げに適しています。
- Leo:男性、権威的。コンプライアンスやフォーマルなフローに適しています。
より広範なTTS APIでは、プリセットライブラリははるかに大規模です。28言語にわたる80以上の音声があり、TTSエンドポイントでvoiceパラメーターを使用してすべて呼び出すことができます。 カスタムボイスクローン。単一話者による約1分間のきれいな音声のWAVファイルをアップロードします。xAIは2分未満でvoice_idを返し、同じIDがTTSとボイスエージェントの両方で機能します。
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
参照クリップの最大長は120秒ですが、長ければ良いというわけではありません。クリーンで一貫性のある音声が長さよりも重要です。静かな部屋で、ワンテイクで、BGMなしで録音してください。
ステップ3:WebSocket経由でGrokに話させる
ボイスエージェントは単一のWebSocketセッションです。一度開いて、音声を入力し、音声を出力します。最小限のNode.jsクライアントは次のようになります。
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
ユーザー音声は、base64 PCM16フレームとしてinput_audio_buffer.appendイベントで送信されます。サーバーは、モデルが応答する際にresponse.audio.deltaイベントを、ターンが終了した際にresponse.audio.doneイベントを発行します。24 kHzのPCM16はブラウザおよびデスクトップアプリの安全なデフォルトです。電話システムにブリッジする場合はμ-lawに切り替えます。
ステップ4:ツール使用を追加する
ボイスエージェントは関数呼び出しをサポートしているため、モデルは会話中にあなたのAPIを呼び出すことができます。セッション設定でツールを宣言します。
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
モデルはツールを呼び出したいときにresponse.function_call_arguments.doneを発行します。あなたの側で関数を実行し、function_call_outputタイプのconversation.item.createで結果をプッシュバックします。モデルは中断したところから再開し、回答をナレーションします。 組み込みのweb_searchツールが最初から提供されており、独自の検索レイヤーを作成することなく、新鮮なデータに基づいて回答を根拠付けるのに役立ちます。
ステップ5:エージェントなしでTTSを使用する
テキスト読み上げ(音声プロンプト、アプリの音声オーバー、ポッドキャストのイントロ)のみが必要な場合は、WebSocketをスキップしてRESTエンドポイントを叩きます。
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
フォーマットオプションはmp3(高音質)とmulaw(8 kHz、電話回線用)です。エンドポイントは同期式です。ストリーミングセッションは不要で、バイトが返されます。
ステップ6:Apidogで全フローをテストする
WebSocket APIは会話がステートフルであるため、ターミナルからデバッグするのは扱いにくいです。私たちが使用する標準的なパターンは次のとおりです。

- 環境にあらかじめベアラートークンが入力されたWebSocket URLを保存します。
- JSONメッセージのスクリプトを準備します:
session.update、input_audio_buffer.append(フィクスチャ音声フレーム付き)、response.create。 - 単一の接続に対してスクリプトを再生し、すべてのサーバーイベントをツリーにキャプチャします。
- 音声や指示を変更した場合は、2つの実行結果を並べて比較します。これは、ターンテーキング動作のずれを検出するのに役立ちます。
Apidogをダウンロードし、新しいWebSocketリクエストを作成し、環境変数にXAI_API_KEYを貼り付けます。同じコレクションがTTSとSTT(これらはプレーンなRESTです)の両方で機能し、両方のインターフェースを1つのプロジェクトで管理できます。ステートフルAPIテストパターンについて詳しくは、QAエンジニア向けのAPIテストツールをご覧ください。
無料枠の制限
コンソールは、音声機能自体に1分あたりまたはトークンあたりの料金を課すことなく、完全なアクセスを提供します。存在する制限は次のとおりです。
- レート制限。コンソールは、悪用を防ぐために各エンドポイントに1分あたりのリクエスト上限を強制します。これは、開発やデモには十分な寛容さがありますが、本番環境の許容範囲ではありません。
- カスタム音声クォータ。単一のアカウントが一度に保持できるカスタム音声クローンの数には限りがあります。スロットを解放するために削除して再作成することができます。
- 推論トークン。ボイスエージェントが推論する(Grok 4.3の基盤)際、コンソールクレジットから課金されます。無料クレジットはプロトタイピングには十分ですが、本番環境では有料プランが必要になります。
レート制限エラーが発生した場合は、リクエストをバッチ処理するか、有料ティアに移行してください。APIの動作は変更されず、上限のみが変更されます。
音声の比較
出荷する前に、すべてのプリセットで同じ行を試してください。音声はトーンの解釈が異なり、短いテストリストで悪い組み合わせをすばやく検出できます。
- 2文の挨拶。
- 確認フレーズ(「承知いたしました、すべて設定済みです」)。
- 数字、日付、コンマを含む長い文。
内部で実行しているモデルに依存しないテスト:同じプロンプトを3つの速度(落ち着いて、通常、緊急)で話し、イントネーションの変化を聞きます。Grokのプリセット音声は、ベンチマークを行ったほとんどのTTSエンジンよりもこれをうまく処理しますが、本番稼働前には監査が必要です。
FAQ
APIは本当に無料ですか、それとも隠れた上限がありますか?音声機能(TTS、STT、ボイスエージェント、カスタムボイス)には、コンソール上で1分あたりまたはトークンあたりの料金はかかりません。基盤となる推論モデルはコンソールクレジットから課金されますが、コンソールの利用枠はプロトタイピングには十分です。
X(Twitter)アカウントは必要ですか?はい。コンソールへのサインインにはXアカウントを使用します。
ブラウザからGrok Voiceを使用できますか?はい、一時トークンを使用すれば可能です。サーバーサイドで/v1/realtime/sessions経由で一時トークンをミントし、その短命なトークンをブラウザに渡し、WebSocketを直接接続します。親キーはサーバーから離れません。
どのような音質を期待できますか?TTS出力は高音質MP3または8 kHz μ-lawです。ボイスエージェントは内部で24 kHzのPCM16を実行します。音質は主要な商用TTSエンジンと同等であり、レイテンシーが差別化要因です。
電話回線で動作しますか?はい。μ-law出力はSIPおよびPSTNブリッジの標準フォーマットです。SIPプロバイダーはまだ必要です。xAIは現在、独自のSIPゲートウェイを提供していません。
他のツールと比較してクローン品質はどうですか?クローン品質は、長さよりも参照オーディオ品質に比例します。静かな部屋でのきれいな60秒のサンプルは、私たちのテストではノイズの多い120秒のサンプルよりも優れています。出力されたvoice_idは、再クローンすることなくTTSエンドポイントとボイスエージェント間で移植可能です。
Grok VoiceをゲームのAIキャラクターに使用できますか?はい。TTSエンドポイントはランタイム生成に十分高速であり、カスタムボイスにより各キャラクターが独自のクローンを持つことができます。長いセリフではレイテンシーに注意してください。チャンク化されたTTSがパターンです。
まとめ
Grok Voiceは、2026年においてリアルタイムボイスエージェントへの最もクリーンな無料パスです。コンソールは1分あたりの料金がなく、レイテンシーはリアルであり、カスタムボイスは、ほとんどのチームが音声機能をリリースするのを妨げていたライセンスの摩擦を取り除きます。あなたのユースケースに対してモデルを検証する最も速い方法は、Apidogでセッションをスクリプト化し、3つのプリセット音声で実行し、聞いてみることです。 Grok 4.3の推論に接続する準備ができたら、Grok 4.3 APIガイドをご覧ください。OpenAIのスタックとの比較については、Grok Voice vs GPT-Realtimeをご覧ください。 ボタン
