Cara Menggunakan Grok Voice Gratis: Setup Konsol, Kloning Suara, dan Agen Suara Real-Time

Ashley Innocent

Ashley Innocent

8 May 2026

Cara Menggunakan Grok Voice Gratis: Setup Konsol, Kloning Suara, dan Agen Suara Real-Time

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

xAI meluncurkan Grok Voice bersama rilis Grok 4.3, dan berita utamanya bagi para pengembang sangatlah sederhana: ini gratis di xAI Console. Tidak ada biaya per menit, tidak ada biaya per token, akses penuh ke model agen suara, antarmuka text-to-speech, antarmuka speech-to-text, dan alat klon Suara Kustom. Satu-satunya sumber daya yang dapat ditagih adalah penggunaan token Grok 4.3 yang mendasarinya saat agen berpikir, dan itu memiliki alokasi konsol gratis sendiri untuk pengujian.

Panduan ini mencakup cara membuat Grok Voice berjalan tanpa biaya, termasuk cara mengkloning suara Anda sendiri, seperti apa sesi WebSocket itu, dan cara menguji seluruh alur dengan Apidog sebelum Anda mengintegrasikannya ke dalam produk.

button

Jika Anda juga menginginkan panduan API Grok 4.3 yang lebih luas, atau perbandingan langsung dengan tumpukan OpenAI dalam Grok Voice vs GPT-Realtime, postingan pendamping tersebut mencakup sisa permukaannya.

TL;DR

Apa yang Grok Voice Berikan secara Gratis

xAI Console adalah jalur menuju akses gratis. Masuk di console.x.ai, buat kunci API, dan Anda dapat memanggil empat antarmuka tanpa biaya yang terkait dengan fitur suara itu sendiri:

Satu-satunya meteran yang berdetak adalah penggunaan token Grok 4.3 ketika agen berpikir atas sebuah permintaan. Konsol ini juga memberi Anda kredit gratis untuk menguji antarmuka tersebut, yang cukup untuk memvalidasi alur end-to-end sebelum penagihan dimulai.

Langkah 1: Dapatkan kunci konsol

Buka console.x.ai dan masuk dengan akun X Anda. Dari halaman Kunci API, buat kunci baru dengan lingkup voice dan chat diaktifkan. Ekspor sekali dan gunakan kembali:

export XAI_API_KEY="xai-..."

Untuk aplikasi sisi klien di mana Anda tidak dapat mengirimkan kunci, buat token sementara dari pengaturan konsol atau melalui endpoint /v1/realtime/sessions. Token sementara memiliki lingkup yang sama tetapi kedaluwarsa dalam hitungan menit, sehingga Anda dapat memberikannya ke browser tanpa membocorkan kunci induk.

Langkah 2: Pilih suara

Dua jalur.

Suara prasetel. Agen suara dilengkapi dengan lima persona bernama:

Untuk API TTS yang lebih luas, pustaka prasetel jauh lebih besar; lebih dari 80 suara yang mencakup 28 bahasa, semuanya dapat dipanggil dengan parameter voice pada endpoint TTS.

Klon suara kustom. Unggah file WAV sekitar satu menit ucapan bersih dari satu pembicara. xAI mengembalikan voice_id dalam waktu kurang dari dua menit, dan ID yang sama berfungsi di seluruh TTS dan agen suara.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

Panjang klip referensi maksimum adalah 120 detik, tetapi lebih panjang tidak selalu lebih baik; audio yang bersih dan konsisten lebih penting daripada panjang. Rekam di ruangan yang tenang, sekali ambil, tanpa latar musik.

Langkah 3: Buat Grok berbicara melalui WebSocket

Agen suara adalah sesi WebSocket tunggal. Buka sekali, streaming audio masuk, streaming audio keluar. Klien Node.js minimal terlihat seperti ini:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Audio pengguna dikirim dalam event input_audio_buffer.append sebagai frame PCM16 base64. Server mengeluarkan event response.audio.delta saat model membalas, dan response.audio.done saat giliran berakhir. PCM16 pada 24 kHz adalah default aman untuk aplikasi browser dan desktop; beralih ke μ-law saat Anda menjembatani ke sistem telepon.

Langkah 4: Tambahkan penggunaan alat

Agen suara mendukung pemanggilan fungsi, sehingga model dapat memanggil API Anda di tengah percakapan. Deklarasikan alat dalam konfigurasi sesi:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

Model akan mengeluarkan response.function_call_arguments.done saat ingin memanggil alat. Jalankan fungsi di sisi Anda, lalu kirim kembali hasilnya dengan conversation.item.create bertipe function_call_output. Model akan melanjutkan dari bagian yang ditinggalkan dan menceritakan jawabannya.

Alat web_search bawaan tersedia sejak awal, yang berguna untuk mendasarkan jawaban pada data baru tanpa perlu menulis lapisan pengambilan Anda sendiri.

Langkah 5: Gunakan TTS tanpa agen

Jika Anda hanya memerlukan text-to-speech (prompt audio, sulih suara aplikasi, intro podcast), lewati WebSocket dan gunakan endpoint REST:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Opsi format adalah mp3 (fidelity tinggi) dan mulaw (8 kHz, teleponi). Endpoint ini sinkron; Anda mendapatkan byte kembali, tidak diperlukan sesi streaming.

Langkah 6: Uji seluruh alur di Apidog

API WebSocket canggung untuk di-debug dari terminal karena percakapan bersifat stateful. Pola standar yang kami gunakan:

  1. Simpan URL WebSocket dengan token bearer yang sudah terisi di lingkungan.
  2. Siapkan skrip pesan JSON: session.update, input_audio_buffer.append (dengan frame audio fixture), response.create.
  3. Putar ulang skrip terhadap satu koneksi dan tangkap setiap event server ke dalam struktur pohon.
  4. Bandingkan dua eksekusi secara berdampingan ketika Anda mengubah suara atau instruksi; berguna untuk menangkap penyimpangan dalam perilaku pengambilan giliran.

Unduh Apidog, buat permintaan WebSocket baru, dan tempelkan XAI_API_KEY Anda di bawah variabel lingkungan. Koleksi yang sama berfungsi untuk TTS dan STT (yang merupakan REST biasa), dan Anda dapat menyimpan kedua antarmuka dalam satu proyek. Untuk informasi lebih lanjut tentang pola pengujian API stateful, lihat alat pengujian API untuk insinyur QA.

Batasan tingkat gratis

Konsol ini memberi Anda akses penuh tanpa biaya per menit atau per token untuk fitur suara itu sendiri. Batasan yang ada adalah:

Jika Anda mengalami kesalahan batas tingkat, lakukan batch permintaan Anda atau beralih ke tingkat berbayar; perilaku API tidak berubah, hanya batasannya.

Membandingkan suara

Jalankan baris yang sama melalui setiap prasetel sebelum Anda meluncurkan. Suara membaca nada secara berbeda, dan daftar uji singkat dengan cepat menangkap pasangan yang buruk:

Pengujian agnostik model yang kami jalankan secara internal: ucapkan prompt yang sama dalam tiga kecepatan (tenang, normal, mendesak) dan dengarkan perubahan intonasinya. Suara prasetel Grok menangani ini lebih baik daripada kebanyakan mesin TTS yang kami benchmark, tetapi Anda tetap menginginkan audit sebelum tayang.

FAQ

Kesimpulan

Grok Voice adalah jalur gratis terbersih menuju agen suara waktu nyata pada tahun 2026. Konsol ini tidak memiliki biaya per menit, latensinya nyata, dan Suara Kustom menghilangkan gesekan lisensi yang menghalangi sebagian besar tim untuk meluncurkan fitur suara. Cara tercepat untuk memvalidasi model untuk kasus penggunaan Anda adalah dengan membuat skrip sesi di Apidog, menjalankannya terhadap tiga suara prasetel, dan mendengarkan.

Ketika Anda siap untuk mengintegrasikannya ke penalaran Grok 4.3, lihat panduan API Grok 4.3. Untuk perbandingan langsung dengan tumpukan OpenAI, lihat Grok Voice vs GPT-Realtime.

button

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.

Cara Menggunakan Grok Voice Gratis: Setup Konsol, Kloning Suara, dan Agen Suara Real-Time