Grok Voiceを無料で使う方法: コンソール設定、声のクローン、リアルタイム音声エージェント

Ashley Innocent

Ashley Innocent

8 5月 2026

Grok Voiceを無料で使う方法: コンソール設定、声のクローン、リアルタイム音声エージェント

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

xAIはGrok 4.3リリースとともにGrok Voiceを出荷しました。開発者にとっての最大のニュースはシンプルで、xAI Consoleで無料であるということです。1分あたりの料金もトークンあたりの料金もかからず、ボイスエージェントモデル、テキスト読み上げ機能、音声認識機能、カスタムボイスクローンツールに完全にアクセスできます。唯一課金対象となるリソースは、エージェントが推論する際のGrok 4.3の基盤となるトークン使用量であり、これにはテスト用の無料コンソール利用枠があります。 このガイドでは、独自の音声をクローンする方法、WebSocketセッションの様子、そして製品に組み込む前にApidogで全体のフローをテストする方法など、Grok Voiceを無料で実行する方法について説明します。 ボタン より広範なGrok 4.3 APIガイド、またはGrok Voice対GPT-RealtimeでのOpenAIスタックとの比較も必要であれば、それらの補足記事で残りの機能について説明しています。

要約

Grok Voiceが無料で提供するもの

xAI Consoleが無料アクセスの道を開きます。console.x.aiにサインインし、APIキーを生成すると、音声機能自体に関連する料金なしで4つの機能を利用できます。

Grok Voiceの機能と無料アクセス

唯一課金対象となるのは、エージェントがリクエストを推論する際のGrok 4.3トークン使用量です。コンソールは、その機能のテスト用にも無料クレジットを提供しており、課金が始まる前にエンドツーエンドのフローを検証するには十分です。

ステップ1:コンソールキーを取得する

console.x.aiにアクセスし、Xアカウントでサインインします。API Keysページから、voicechatスコープを有効にした新しいキーを作成します。一度エクスポートして再利用します。

export XAI_API_KEY="xai-..."

キーを公開できないクライアントサイドアプリの場合、コンソール設定または/v1/realtime/sessionsエンドポイントから一時トークンをミント(生成)します。一時トークンは同じスコープを持ちますが、数分で期限切れになるため、親キーを漏らすことなくブラウザに渡すことができます。

ステップ2:音声を選択する

2つのパスがあります。 プリセット音声。ボイスエージェントには、5つの名前付きペルソナが付属しています。

より広範なTTS APIでは、プリセットライブラリははるかに大規模です。28言語にわたる80以上の音声があり、TTSエンドポイントでvoiceパラメーターを使用してすべて呼び出すことができます。 カスタムボイスクローン。単一話者による約1分間のきれいな音声のWAVファイルをアップロードします。xAIは2分未満でvoice_idを返し、同じIDがTTSとボイスエージェントの両方で機能します。

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

参照クリップの最大長は120秒ですが、長ければ良いというわけではありません。クリーンで一貫性のある音声が長さよりも重要です。静かな部屋で、ワンテイクで、BGMなしで録音してください。

ステップ3:WebSocket経由でGrokに話させる

ボイスエージェントは単一のWebSocketセッションです。一度開いて、音声を入力し、音声を出力します。最小限のNode.jsクライアントは次のようになります。

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

ユーザー音声は、base64 PCM16フレームとしてinput_audio_buffer.appendイベントで送信されます。サーバーは、モデルが応答する際にresponse.audio.deltaイベントを、ターンが終了した際にresponse.audio.doneイベントを発行します。24 kHzのPCM16はブラウザおよびデスクトップアプリの安全なデフォルトです。電話システムにブリッジする場合はμ-lawに切り替えます。

ステップ4:ツール使用を追加する

ボイスエージェントは関数呼び出しをサポートしているため、モデルは会話中にあなたのAPIを呼び出すことができます。セッション設定でツールを宣言します。

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

モデルはツールを呼び出したいときにresponse.function_call_arguments.doneを発行します。あなたの側で関数を実行し、function_call_outputタイプのconversation.item.createで結果をプッシュバックします。モデルは中断したところから再開し、回答をナレーションします。 組み込みのweb_searchツールが最初から提供されており、独自の検索レイヤーを作成することなく、新鮮なデータに基づいて回答を根拠付けるのに役立ちます。

ステップ5:エージェントなしでTTSを使用する

テキスト読み上げ(音声プロンプト、アプリの音声オーバー、ポッドキャストのイントロ)のみが必要な場合は、WebSocketをスキップしてRESTエンドポイントを叩きます。

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

フォーマットオプションはmp3(高音質)とmulaw(8 kHz、電話回線用)です。エンドポイントは同期式です。ストリーミングセッションは不要で、バイトが返されます。

ステップ6:Apidogで全フローをテストする

WebSocket APIは会話がステートフルであるため、ターミナルからデバッグするのは扱いにくいです。私たちが使用する標準的なパターンは次のとおりです。

ApidogでのWebSocketテストフローを示すスクリーンショット
  1. 環境にあらかじめベアラートークンが入力されたWebSocket URLを保存します。
  2. JSONメッセージのスクリプトを準備します:session.updateinput_audio_buffer.append(フィクスチャ音声フレーム付き)、response.create
  3. 単一の接続に対してスクリプトを再生し、すべてのサーバーイベントをツリーにキャプチャします。
  4. 音声や指示を変更した場合は、2つの実行結果を並べて比較します。これは、ターンテーキング動作のずれを検出するのに役立ちます。

Apidogをダウンロードし、新しいWebSocketリクエストを作成し、環境変数にXAI_API_KEYを貼り付けます。同じコレクションがTTSとSTT(これらはプレーンなRESTです)の両方で機能し、両方のインターフェースを1つのプロジェクトで管理できます。ステートフルAPIテストパターンについて詳しくは、QAエンジニア向けのAPIテストツールをご覧ください。

無料枠の制限

コンソールは、音声機能自体に1分あたりまたはトークンあたりの料金を課すことなく、完全なアクセスを提供します。存在する制限は次のとおりです。

レート制限エラーが発生した場合は、リクエストをバッチ処理するか、有料ティアに移行してください。APIの動作は変更されず、上限のみが変更されます。

音声の比較

出荷する前に、すべてのプリセットで同じ行を試してください。音声はトーンの解釈が異なり、短いテストリストで悪い組み合わせをすばやく検出できます。

内部で実行しているモデルに依存しないテスト:同じプロンプトを3つの速度(落ち着いて、通常、緊急)で話し、イントネーションの変化を聞きます。Grokのプリセット音声は、ベンチマークを行ったほとんどのTTSエンジンよりもこれをうまく処理しますが、本番稼働前には監査が必要です。

FAQ

APIは本当に無料ですか、それとも隠れた上限がありますか?音声機能(TTS、STT、ボイスエージェント、カスタムボイス)には、コンソール上で1分あたりまたはトークンあたりの料金はかかりません。基盤となる推論モデルはコンソールクレジットから課金されますが、コンソールの利用枠はプロトタイピングには十分です。

X(Twitter)アカウントは必要ですか?はい。コンソールへのサインインにはXアカウントを使用します。

ブラウザからGrok Voiceを使用できますか?はい、一時トークンを使用すれば可能です。サーバーサイドで/v1/realtime/sessions経由で一時トークンをミントし、その短命なトークンをブラウザに渡し、WebSocketを直接接続します。親キーはサーバーから離れません。

どのような音質を期待できますか?TTS出力は高音質MP3または8 kHz μ-lawです。ボイスエージェントは内部で24 kHzのPCM16を実行します。音質は主要な商用TTSエンジンと同等であり、レイテンシーが差別化要因です。

電話回線で動作しますか?はい。μ-law出力はSIPおよびPSTNブリッジの標準フォーマットです。SIPプロバイダーはまだ必要です。xAIは現在、独自のSIPゲートウェイを提供していません。

他のツールと比較してクローン品質はどうですか?クローン品質は、長さよりも参照オーディオ品質に比例します。静かな部屋でのきれいな60秒のサンプルは、私たちのテストではノイズの多い120秒のサンプルよりも優れています。出力されたvoice_idは、再クローンすることなくTTSエンドポイントとボイスエージェント間で移植可能です。

Grok VoiceをゲームのAIキャラクターに使用できますか?はい。TTSエンドポイントはランタイム生成に十分高速であり、カスタムボイスにより各キャラクターが独自のクローンを持つことができます。長いセリフではレイテンシーに注意してください。チャンク化されたTTSがパターンです。

まとめ

Grok Voiceは、2026年においてリアルタイムボイスエージェントへの最もクリーンな無料パスです。コンソールは1分あたりの料金がなく、レイテンシーはリアルであり、カスタムボイスは、ほとんどのチームが音声機能をリリースするのを妨げていたライセンスの摩擦を取り除きます。あなたのユースケースに対してモデルを検証する最も速い方法は、Apidogでセッションをスクリプト化し、3つのプリセット音声で実行し、聞いてみることです。 Grok 4.3の推論に接続する準備ができたら、Grok 4.3 APIガイドをご覧ください。OpenAIのスタックとの比較については、Grok Voice vs GPT-Realtimeをご覧ください。 ボタン

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる