xAI meluncurkan Grok Voice bersama rilis Grok 4.3, dan berita utamanya bagi para pengembang sangatlah sederhana: ini gratis di xAI Console. Tidak ada biaya per menit, tidak ada biaya per token, akses penuh ke model agen suara, antarmuka text-to-speech, antarmuka speech-to-text, dan alat klon Suara Kustom. Satu-satunya sumber daya yang dapat ditagih adalah penggunaan token Grok 4.3 yang mendasarinya saat agen berpikir, dan itu memiliki alokasi konsol gratis sendiri untuk pengujian.
Panduan ini mencakup cara membuat Grok Voice berjalan tanpa biaya, termasuk cara mengkloning suara Anda sendiri, seperti apa sesi WebSocket itu, dan cara menguji seluruh alur dengan Apidog sebelum Anda mengintegrasikannya ke dalam produk.
Jika Anda juga menginginkan panduan API Grok 4.3 yang lebih luas, atau perbandingan langsung dengan tumpukan OpenAI dalam Grok Voice vs GPT-Realtime, postingan pendamping tersebut mencakup sisa permukaannya.
TL;DR
- Grok Voice gratis untuk pengguna di xAI Console (
console.x.ai); tidak ada biaya per menit atau per token untuk TTS, STT, agen suara, atau Suara Kustom. - Model unggulan:
grok-voice-think-fast-1.0. Waktu hingga audio pertama di bawah 1 detik; xAI mengklaim ini kira-kira 5x lebih cepat dari pesaing terdekat. - 80+ suara prasetel dalam 28 bahasa; 5 persona agen suara bawaan (Eve, Ara, Rex, Sal, Leo).
- Kloning suara kustom dari sekitar 1 menit ucapan; suara siap produksi dalam kurang dari 2 menit.
- Endpoint WebSocket:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - Endpoint REST untuk TTS, STT, dan Suara Kustom berbagi satu antarmuka API.
- Gunakan Apidog untuk membuat skrip sesi WebSocket dan memutarnya ulang tanpa merekam ulang audio.
Apa yang Grok Voice Berikan secara Gratis
xAI Console adalah jalur menuju akses gratis. Masuk di console.x.ai, buat kunci API, dan Anda dapat memanggil empat antarmuka tanpa biaya yang terkait dengan fitur suara itu sendiri:

- Agen Suara (speech-to-speech waktu nyata). Model percakapan lengkap, dengan penggunaan alat, deteksi aktivitas suara sisi server, dan pengambilan giliran yang sudah terpasang.
- Text-to-Speech. 80+ suara prasetel dalam 28 bahasa, dengan output sebagai MP3 atau μ-law untuk teleponi.
- Speech-to-Text. Transkripsi streaming dan batch dalam 25 bahasa input, dengan stempel waktu tingkat kata dan diarization speaker.
- Suara Kustom. Kloning suara Anda dari sampel singkat dan gunakan
voice_idyang dihasilkan di seluruh API TTS dan agen suara.
Satu-satunya meteran yang berdetak adalah penggunaan token Grok 4.3 ketika agen berpikir atas sebuah permintaan. Konsol ini juga memberi Anda kredit gratis untuk menguji antarmuka tersebut, yang cukup untuk memvalidasi alur end-to-end sebelum penagihan dimulai.
Langkah 1: Dapatkan kunci konsol
Buka console.x.ai dan masuk dengan akun X Anda. Dari halaman Kunci API, buat kunci baru dengan lingkup voice dan chat diaktifkan. Ekspor sekali dan gunakan kembali:
export XAI_API_KEY="xai-..."
Untuk aplikasi sisi klien di mana Anda tidak dapat mengirimkan kunci, buat token sementara dari pengaturan konsol atau melalui endpoint /v1/realtime/sessions. Token sementara memiliki lingkup yang sama tetapi kedaluwarsa dalam hitungan menit, sehingga Anda dapat memberikannya ke browser tanpa membocorkan kunci induk.
Langkah 2: Pilih suara
Dua jalur.
Suara prasetel. Agen suara dilengkapi dengan lima persona bernama:
- Eve: wanita, energik. Baik untuk alur dukungan yang ceria.
- Ara: wanita, hangat. Standar untuk bantuan umum.
- Rex: pria, percaya diri. Baik untuk skrip penjualan.
- Sal: netral, halus. Baik untuk narasi dan bacaan yang lebih panjang.
- Leo: pria, otoritatif. Baik untuk kepatuhan dan alur formal.
Untuk API TTS yang lebih luas, pustaka prasetel jauh lebih besar; lebih dari 80 suara yang mencakup 28 bahasa, semuanya dapat dipanggil dengan parameter voice pada endpoint TTS.
Klon suara kustom. Unggah file WAV sekitar satu menit ucapan bersih dari satu pembicara. xAI mengembalikan voice_id dalam waktu kurang dari dua menit, dan ID yang sama berfungsi di seluruh TTS dan agen suara.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
Panjang klip referensi maksimum adalah 120 detik, tetapi lebih panjang tidak selalu lebih baik; audio yang bersih dan konsisten lebih penting daripada panjang. Rekam di ruangan yang tenang, sekali ambil, tanpa latar musik.
Langkah 3: Buat Grok berbicara melalui WebSocket
Agen suara adalah sesi WebSocket tunggal. Buka sekali, streaming audio masuk, streaming audio keluar. Klien Node.js minimal terlihat seperti ini:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Audio pengguna dikirim dalam event input_audio_buffer.append sebagai frame PCM16 base64. Server mengeluarkan event response.audio.delta saat model membalas, dan response.audio.done saat giliran berakhir. PCM16 pada 24 kHz adalah default aman untuk aplikasi browser dan desktop; beralih ke μ-law saat Anda menjembatani ke sistem telepon.
Langkah 4: Tambahkan penggunaan alat
Agen suara mendukung pemanggilan fungsi, sehingga model dapat memanggil API Anda di tengah percakapan. Deklarasikan alat dalam konfigurasi sesi:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
Model akan mengeluarkan response.function_call_arguments.done saat ingin memanggil alat. Jalankan fungsi di sisi Anda, lalu kirim kembali hasilnya dengan conversation.item.create bertipe function_call_output. Model akan melanjutkan dari bagian yang ditinggalkan dan menceritakan jawabannya.
Alat web_search bawaan tersedia sejak awal, yang berguna untuk mendasarkan jawaban pada data baru tanpa perlu menulis lapisan pengambilan Anda sendiri.
Langkah 5: Gunakan TTS tanpa agen
Jika Anda hanya memerlukan text-to-speech (prompt audio, sulih suara aplikasi, intro podcast), lewati WebSocket dan gunakan endpoint REST:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Opsi format adalah mp3 (fidelity tinggi) dan mulaw (8 kHz, teleponi). Endpoint ini sinkron; Anda mendapatkan byte kembali, tidak diperlukan sesi streaming.
Langkah 6: Uji seluruh alur di Apidog
API WebSocket canggung untuk di-debug dari terminal karena percakapan bersifat stateful. Pola standar yang kami gunakan:

- Simpan URL WebSocket dengan token bearer yang sudah terisi di lingkungan.
- Siapkan skrip pesan JSON:
session.update,input_audio_buffer.append(dengan frame audio fixture),response.create. - Putar ulang skrip terhadap satu koneksi dan tangkap setiap event server ke dalam struktur pohon.
- Bandingkan dua eksekusi secara berdampingan ketika Anda mengubah suara atau instruksi; berguna untuk menangkap penyimpangan dalam perilaku pengambilan giliran.
Unduh Apidog, buat permintaan WebSocket baru, dan tempelkan XAI_API_KEY Anda di bawah variabel lingkungan. Koleksi yang sama berfungsi untuk TTS dan STT (yang merupakan REST biasa), dan Anda dapat menyimpan kedua antarmuka dalam satu proyek. Untuk informasi lebih lanjut tentang pola pengujian API stateful, lihat alat pengujian API untuk insinyur QA.
Batasan tingkat gratis
Konsol ini memberi Anda akses penuh tanpa biaya per menit atau per token untuk fitur suara itu sendiri. Batasan yang ada adalah:
- Batas tingkat. Konsol menerapkan batasan permintaan per menit pada setiap endpoint untuk mencegah penyalahgunaan. Batasan ini cukup longgar untuk membangun dan demo; bukan merupakan alokasi produksi.
- Kuota suara kustom. Satu akun dapat menampung sejumlah terbatas klon suara kustom sekaligus. Anda dapat menghapus dan membuat ulang untuk mengosongkan slot.
- Token penalaran. Ketika agen suara berpikir (Grok 4.3 di baliknya), itu akan ditagih terhadap kredit konsol Anda. Kredit gratis mencakup prototyping; produksi akan membutuhkan paket berbayar.
Jika Anda mengalami kesalahan batas tingkat, lakukan batch permintaan Anda atau beralih ke tingkat berbayar; perilaku API tidak berubah, hanya batasannya.
Membandingkan suara
Jalankan baris yang sama melalui setiap prasetel sebelum Anda meluncurkan. Suara membaca nada secara berbeda, dan daftar uji singkat dengan cepat menangkap pasangan yang buruk:
- Sapaan dua kalimat.
- Frasa konfirmasi (“Mengerti, semuanya sudah siap”).
- Kalimat panjang dengan angka, tanggal, dan koma.
Pengujian agnostik model yang kami jalankan secara internal: ucapkan prompt yang sama dalam tiga kecepatan (tenang, normal, mendesak) dan dengarkan perubahan intonasinya. Suara prasetel Grok menangani ini lebih baik daripada kebanyakan mesin TTS yang kami benchmark, tetapi Anda tetap menginginkan audit sebelum tayang.
FAQ
- Apakah API ini benar-benar gratis, atau ada batasan tersembunyi?Fitur suara (TTS, STT, agen suara, Suara Kustom) tidak dikenakan biaya per menit atau per token di konsol. Model penalaran di baliknya ditagih terhadap kredit konsol; alokasi konsol cukup untuk prototyping.
- Apakah saya memerlukan akun X (Twitter)?Ya. Masuk konsol menggunakan akun X.
- Bisakah saya menggunakan Grok Voice dari browser?Ya, dengan token sementara. Buat di sisi server melalui
/v1/realtime/sessions, berikan token berjangka pendek ke browser, dan hubungkan WebSocket secara langsung. Kunci induk tidak pernah meninggalkan server Anda. - Kualitas audio seperti apa yang bisa saya harapkan?Output TTS adalah MP3 fidelity tinggi atau μ-law 8 kHz. Agen suara menjalankan PCM16 pada 24 kHz secara internal. Kualitas sebanding dengan mesin TTS komersial utama; latensi adalah pembeda.
- Apakah ini berfungsi dengan teleponi?Ya. Output μ-law adalah format standar untuk jembatan SIP dan PSTN. Anda masih memerlukan penyedia SIP; xAI tidak menyediakan gateway SIP-nya sendiri saat ini.
- Bagaimana kualitas kloning dibandingkan dengan alat lain?Kualitas kloning bergantung pada kualitas audio referensi lebih dari panjangnya. Sampel bersih 60 detik di ruangan yang tenang lebih baik daripada sampel berisik 120 detik dalam pengujian kami.
voice_idoutput dapat dipindahkan di seluruh endpoint TTS dan agen suara tanpa perlu mengkloning ulang. - Bisakah saya menggunakan Grok Voice untuk karakter AI dalam game?Ya. Endpoint TTS cukup cepat untuk generasi runtime, dan Suara Kustom berarti setiap karakter dapat memiliki klonnya sendiri. Perhatikan latensi pada baris panjang; TTS terpotong adalah polanya.
Kesimpulan
Grok Voice adalah jalur gratis terbersih menuju agen suara waktu nyata pada tahun 2026. Konsol ini tidak memiliki biaya per menit, latensinya nyata, dan Suara Kustom menghilangkan gesekan lisensi yang menghalangi sebagian besar tim untuk meluncurkan fitur suara. Cara tercepat untuk memvalidasi model untuk kasus penggunaan Anda adalah dengan membuat skrip sesi di Apidog, menjalankannya terhadap tiga suara prasetel, dan mendengarkan.
Ketika Anda siap untuk mengintegrasikannya ke penalaran Grok 4.3, lihat panduan API Grok 4.3. Untuk perbandingan langsung dengan tumpukan OpenAI, lihat Grok Voice vs GPT-Realtime.
