xAI, Grok 4.3 sürümüyle Grok Voice'u piyasaya sürdü ve geliştiriciler için ana haber basit: xAI Konsolu'nda ücretsizdir. Dakika başına ücret yok, jeton başına ücret yok, sesli ajan modeline, metin-konuşma yüzeyine, konuşma-metin yüzeyine ve Özel Sesler klonlama aracına tam erişim. Faturalandırılabilir tek kaynak, ajanın akıl yürütürken kullandığı temel Grok 4.3 jeton kullanımıdır ve bunun test için kendi ücretsiz konsol tahsisi bulunmaktadır.
Bu kılavuz, Grok Voice'u sıfır maliyetle nasıl çalıştıracağınızı, kendi sesinizi nasıl klonlayacağınızı, WebSocket oturumunun nasıl göründüğünü ve bir ürüne entegre etmeden önce tüm akışı Apidog ile nasıl test edeceğinizi kapsar.
Ayrıca daha geniş Grok 4.3 API kılavuzunu veya OpenAI'ın yığınına karşı Grok Voice vs GPT-Realtime karşılaştırmasını isterseniz, bu yardımcı gönderiler yüzeyin geri kalanını kapsar.
Kısaca
- Grok Voice, **xAI Konsolu** (
console.x.ai) kullanıcıları için ücretsizdir; TTS, STT, sesli ajan veya Özel Sesler için dakika veya jeton başına ücret yoktur. - Amiral gemisi model:
grok-voice-think-fast-1.0. İlk ses çıkış süresi **1 saniyenin altında**; xAI, en yakın rakibinden yaklaşık **5 kat daha hızlı** olduğunu iddia ediyor. - **28 dilde** 80'den fazla önceden ayarlanmış ses; 5 dahili sesli ajan kişiliği (Eve, Ara, Rex, Sal, Leo).
- Yaklaşık **1 dakikalık konuşmadan** özel ses klonlama; **2 dakikanın altında** üretime hazır ses.
- WebSocket uç noktası:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - TTS, STT ve Özel Sesler için REST uç noktaları tek bir API yüzeyini paylaşır.
- WebSocket oturumunu betiklemek ve sesi yeniden kaydetmeden oynatmak için Apidog'u kullanın.
Grok Voice'un size ücretsiz olarak sundukları
xAI Konsolu, ücretsiz erişimin yoludur. console.x.ai adresinden oturum açın, bir API anahtarı oluşturun ve ses özelliklerinin kendisine bağlı hiçbir ücret olmadan dört yüzeyi çağırabilirsiniz:

- **Sesli Ajan** (gerçek zamanlı konuşmadan konuşmaya). Araç kullanımı, sunucu tarafı ses aktivite tespiti ve sıra alma özelliklerinin yerleşik olduğu tam konuşma modeli.
- **Metin-Konuşma**. 28 dilde 80'den fazla önceden ayarlanmış ses, telefon için MP3 veya μ-law olarak çıktı.
- **Konuşma-Metin**. 25 giriş dilinde akış ve toplu transkripsiyon, kelime düzeyinde zaman damgaları ve konuşmacı ayrımı ile.
- **Özel Sesler**. Sesinizi kısa bir örnekten klonlayın ve ortaya çıkan
voice_id'yi TTS ve sesli ajan API'lerinde kullanın.
Tek işleyen sayaç, ajanın bir istek üzerinde akıl yürütürken Grok 4.3 jeton kullanımıdır. Konsol, uçtan uca akışları herhangi bir faturalandırma başlamadan önce doğrulamak için yeterli olan bu yüzeyi test etmek için size ücretsiz kredi de verir.
Adım 1: Bir konsol anahtarı edinin
console.x.ai adresine gidin ve X hesabınızla oturum açın. **API Anahtarları** sayfasından, voice ve chat kapsamları etkinleştirilmiş yeni bir anahtar oluşturun. Bir kez dışa aktarın ve yeniden kullanın:
export XAI_API_KEY="xai-..."
Anahtarı gönderemediğiniz istemci tarafı uygulamalar için, konsol ayarlarından veya /v1/realtime/sessions uç noktası aracılığıyla **geçici bir jeton** oluşturun. Geçici jetonlar aynı kapsamı taşır ancak dakikalar içinde sona erer, bu sayede ana anahtarı sızdırmadan bir tarayıcıya verebilirsiniz.
Adım 2: Bir ses seçin
İki yol.
**Önceden ayarlanmış sesler.** Sesli ajan beş adlandırılmış kişilikle gelir:
- **Eve**: kadın, enerjik. Neşeli destek akışları için iyidir.
- **Ara**: kadın, sıcak. Genel yardım için varsayılan.
- **Rex**: erkek, kendinden emin. Satış senaryoları için iyidir.
- **Sal**: nötr, pürüzsüz. Anlatım ve daha uzun okumalar için iyidir.
- **Leo**: erkek, otoriter. Uyumluluk ve resmi akışlar için iyidir.
Daha geniş TTS API için, ön ayarlı kütüphane çok daha büyüktür; 28 dilde 80'den fazla ses, hepsi TTS uç noktasında bir voice parametresiyle çağrılabilir.
**Özel ses klonları.** Tek bir konuşmacıdan yaklaşık bir dakikalık net konuşmanın WAV dosyasını yükleyin. xAI, iki dakikanın altında bir voice_id döndürür ve aynı ID hem TTS hem de sesli ajan genelinde çalışır.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
Maksimum referans klibi uzunluğu 120 saniyedir, ancak daha fazla olması daha iyi değildir; temiz, tutarlı ses, uzunluktan daha önemlidir. Sessiz bir odada, tek çekimde, müzik olmadan kaydedin.
Adım 3: Grok'u WebSocket Üzerinden Konuşturun
Sesli ajan tek bir WebSocket oturumudur. Bir kez açın, ses akışını içeri alın, ses akışını dışarı verin. Minimal bir Node.js istemcisi şöyle görünür:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Kullanıcı sesi, base64 PCM16 çerçeveleri olarak input_audio_buffer.append olaylarında gönderilir. Sunucu, model yanıt verdikçe response.audio.delta olayları ve sıra kapandığında response.audio.done olayları yayar. 24 kHz'de PCM16, tarayıcı ve masaüstü uygulamaları için güvenli varsayılandır; telefon sistemlerine köprü kurarken μ-law'a geçin.
Adım 4: Araç Kullanımı Ekleyin
Sesli ajan, fonksiyon çağırmayı destekler, böylece model konuşma ortasında API'lerinize erişebilir. Oturum yapılandırmasında bir araç tanımlayın:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
Model, aracı çağırmak istediğinde response.function_call_arguments.done olayını yayacaktır. Fonksiyonu kendi tarafınızda çalıştırın, ardından sonucu function_call_output türünde bir conversation.item.create ile geri itin. Model kaldığı yerden devam eder ve cevabı anlatır.
Dahili bir web_search aracı varsayılan olarak gelir ve kendi alma katmanınızı yazmadan cevapları yeni verilere dayandırmak için kullanışlıdır.
Adım 5: Aracıyı Kullanmadan TTS'i Kullanın
Yalnızca metin-konuşmaya (sesli komutlar, uygulama seslendirmesi, podcast girişleri) ihtiyacınız varsa, WebSocket'i atlayın ve REST uç noktasını kullanın:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Biçim seçenekleri mp3 (yüksek kaliteli) ve mulaw (8 kHz, telefon) şeklindedir. Uç nokta senkronizedir; baytları geri alırsınız, akış oturumuna gerek yoktur.
Adım 6: Tüm Akışı Apidog'da Test Edin
WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşma durum tabanlıdır. Kullandığımız standart desen:

- WebSocket URL'sini, bir ortamda önceden doldurulmuş taşıyıcı jeton ile kaydedin.
- JSON mesajlarından oluşan bir betik hazırlayın:
session.update,input_audio_buffer.append(bir donanım ses çerçevesiyle),response.create. - Betiği tek bir bağlantıya karşı oynatın ve her sunucu olayını bir ağaca yakalayın.
- Sesi veya talimatları değiştirdiğinizde iki çalışmayı yan yana karşılaştırın; sıra alma davranışındaki sapmaları yakalamak için kullanışlıdır.
Apidog'u indirin, yeni bir WebSocket isteği oluşturun ve XAI_API_KEY'inizi ortam değişkenlerine yapıştırın. Aynı koleksiyon TTS ve STT (ki bunlar düz REST'tir) için çalışır ve her iki yüzeyi de tek bir proje altında tutabilirsiniz. Durum tabanlı API test desenleri hakkında daha fazla bilgi için QA mühendisleri için API test aracı bölümüne bakın.
Ücretsiz katman limitleri
Konsol, ses özelliklerinin kendisi için dakika veya jeton başına ücret olmaksızın tam erişim sağlar. Mevcut sınırlar şunlardır:
- **Hız limitleri.** Konsol, kötüye kullanımı önlemek için her uç noktada dakika başına istek sınırları uygular. Bunlar, geliştirme ve demolar için yeterince cömerttir; ancak üretim izni değildir.
- **Özel ses kotası.** Tek bir hesap aynı anda belirli sayıda özel ses klonu tutabilir. Bir yeri boşaltmak için silebilir ve yeniden oluşturabilirsiniz.
- **Akıl yürütme jetonları.** Sesli ajan düşündüğünde (arka planda Grok 4.3), konsol kredinizden faturalandırılır. Ücretsiz kredi prototiplemeyi karşılar; üretim için ücretli bir plana ihtiyaç duyulacaktır.
Hız limiti hatalarıyla karşılaşırsanız, isteklerinizi toplu hale getirin veya ücretli bir katmana geçin; API davranışı değişmez, sadece sınır değişir.
Sesleri Karşılaştırma
Yayınlamadan önce aynı satırı her ön ayar sesinden geçirin. Sesler tonu farklı okur ve kısa bir test listesi kötü eşleşmeleri hızla yakalar:
- İki cümlelik bir selamlama.
- Bir onay cümlesi ("Anlaşıldı, hepsi hazır").
- Bir sayı, bir tarih ve bir virgül içeren uzun bir cümle.
Dahili olarak yürüttüğümüz model agnostik test: aynı komutu üç hızda (sakin, normal, acil) söyleyin ve tonlama değişikliğini dinleyin. Grok'un önceden ayarlanmış sesleri, kıyasladığımız çoğu TTS motorundan daha iyi idare eder, ancak yine de yayına geçmeden önce denetim yapmak istersiniz.
Sıkça Sorulan Sorular
**API gerçekten ücretsiz mi, yoksa gizli bir sınırlama var mı?** Ses özellikleri (TTS, STT, sesli ajan, Özel Sesler) konsolda dakika veya jeton başına ücret taşımaz. Arka plandaki akıl yürütme modeli konsol kredinizden faturalandırılır; konsol tahsisi prototipleme için yeterlidir.
**Bir X (Twitter) hesabına ihtiyacım var mı?** Evet. Konsol oturum açma, bir X hesabı kullanır.
**Grok Voice'u bir tarayıcıdan kullanabilir miyim?** Evet, geçici bir jetonla. Sunucu tarafında /v1/realtime/sessions aracılığıyla oluşturun, kısa ömürlü jetonu tarayıcıya verin ve WebSocket'i doğrudan bağlayın. Ana anahtar sunucunuzdan asla ayrılmaz.
**Ne tür bir ses kalitesi bekleyebilirim?** TTS çıktısı yüksek kaliteli MP3 veya 8 kHz μ-law'dur. Sesli ajan dahili olarak 24 kHz'de PCM16 çalıştırır. Kalite, büyük ticari TTS motorlarıyla eşdeğerdir; farklılaştırıcı gecikmedir.
**Telefonla çalışır mı?** Evet. μ-law çıktısı, SIP ve PSTN köprüleri için standart formattır. Hala bir SIP sağlayıcısına ihtiyacınız var; xAI bugün kendi SIP ağ geçidini sunmuyor.
**Klonlama kalitesi diğer araçlarla nasıl karşılaştırılır?** Klonlama kalitesi, uzunluktan ziyade referans ses kalitesiyle ölçeklenir. Sessiz bir odadaki temiz 60 saniyelik bir örnek, testlerimizde gürültülü 120 saniyelik bir örneği yener. Çıktı voice_id, yeniden klonlamaya gerek kalmadan TTS uç noktası ve sesli ajan arasında taşınabilirdir.
**Grok Voice'u bir oyundaki yapay zeka karakterleri için kullanabilir miyim?** Evet. TTS uç noktası çalışma zamanı üretimi için yeterince hızlıdır ve Özel Sesler, her karakterin kendi klonuna sahip olabileceği anlamına gelir. Uzun satırlarda gecikmeyi izleyin; öbeklenmiş TTS deseni kullanılır.
Özetle
Grok Voice, 2026'da gerçek zamanlı bir sesli ajana giden en temiz ücretsiz yoldur. Konsolda dakika başına ücret yoktur, gecikme gerçektir ve Özel Sesler, çoğu ekibin ses özelliklerini yayınlamasını engelleyen lisanslama sürtünmesini ortadan kaldırır. Kullanım durumunuz için modeli doğrulamak için en hızlı yol, Apidog'da bir oturum betiklemek, üç ön ayarlı ses üzerinde çalıştırmak ve dinlemektir.
Grok 4.3 akıl yürütmesine entegre etmeye hazır olduğunuzda, Grok 4.3 API kılavuzuna bakın. OpenAI'ın yığınına karşı yan yana bir karşılaştırma için Grok Voice vs GPT-Realtime'a bakın.
