Grok Seslendirme Ücretsiz Kullanımı: Konsol Kurulumu, Ses Klonlama ve Gerçek Zamanlı Ses Ajanları

Ashley Innocent

Ashley Innocent

8 May 2026

Grok Seslendirme Ücretsiz Kullanımı: Konsol Kurulumu, Ses Klonlama ve Gerçek Zamanlı Ses Ajanları

Kurumsal Apidog

Şirket İçi Dağıtım

SSO & RBAC

SOC 2 Uyumlu

Apidog Enterprise'ı Keşfet

xAI, Grok 4.3 sürümüyle Grok Voice'u piyasaya sürdü ve geliştiriciler için ana haber basit: xAI Konsolu'nda ücretsizdir. Dakika başına ücret yok, jeton başına ücret yok, sesli ajan modeline, metin-konuşma yüzeyine, konuşma-metin yüzeyine ve Özel Sesler klonlama aracına tam erişim. Faturalandırılabilir tek kaynak, ajanın akıl yürütürken kullandığı temel Grok 4.3 jeton kullanımıdır ve bunun test için kendi ücretsiz konsol tahsisi bulunmaktadır.

Bu kılavuz, Grok Voice'u sıfır maliyetle nasıl çalıştıracağınızı, kendi sesinizi nasıl klonlayacağınızı, WebSocket oturumunun nasıl göründüğünü ve bir ürüne entegre etmeden önce tüm akışı Apidog ile nasıl test edeceğinizi kapsar.

düğme

Ayrıca daha geniş Grok 4.3 API kılavuzunu veya OpenAI'ın yığınına karşı Grok Voice vs GPT-Realtime karşılaştırmasını isterseniz, bu yardımcı gönderiler yüzeyin geri kalanını kapsar.

Kısaca

Grok Voice'un size ücretsiz olarak sundukları

xAI Konsolu, ücretsiz erişimin yoludur. console.x.ai adresinden oturum açın, bir API anahtarı oluşturun ve ses özelliklerinin kendisine bağlı hiçbir ücret olmadan dört yüzeyi çağırabilirsiniz:

Tek işleyen sayaç, ajanın bir istek üzerinde akıl yürütürken Grok 4.3 jeton kullanımıdır. Konsol, uçtan uca akışları herhangi bir faturalandırma başlamadan önce doğrulamak için yeterli olan bu yüzeyi test etmek için size ücretsiz kredi de verir.

Adım 1: Bir konsol anahtarı edinin

console.x.ai adresine gidin ve X hesabınızla oturum açın. **API Anahtarları** sayfasından, voice ve chat kapsamları etkinleştirilmiş yeni bir anahtar oluşturun. Bir kez dışa aktarın ve yeniden kullanın:

export XAI_API_KEY="xai-..."

Anahtarı gönderemediğiniz istemci tarafı uygulamalar için, konsol ayarlarından veya /v1/realtime/sessions uç noktası aracılığıyla **geçici bir jeton** oluşturun. Geçici jetonlar aynı kapsamı taşır ancak dakikalar içinde sona erer, bu sayede ana anahtarı sızdırmadan bir tarayıcıya verebilirsiniz.

Adım 2: Bir ses seçin

İki yol.

**Önceden ayarlanmış sesler.** Sesli ajan beş adlandırılmış kişilikle gelir:

Daha geniş TTS API için, ön ayarlı kütüphane çok daha büyüktür; 28 dilde 80'den fazla ses, hepsi TTS uç noktasında bir voice parametresiyle çağrılabilir.

**Özel ses klonları.** Tek bir konuşmacıdan yaklaşık bir dakikalık net konuşmanın WAV dosyasını yükleyin. xAI, iki dakikanın altında bir voice_id döndürür ve aynı ID hem TTS hem de sesli ajan genelinde çalışır.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

Maksimum referans klibi uzunluğu 120 saniyedir, ancak daha fazla olması daha iyi değildir; temiz, tutarlı ses, uzunluktan daha önemlidir. Sessiz bir odada, tek çekimde, müzik olmadan kaydedin.

Adım 3: Grok'u WebSocket Üzerinden Konuşturun

Sesli ajan tek bir WebSocket oturumudur. Bir kez açın, ses akışını içeri alın, ses akışını dışarı verin. Minimal bir Node.js istemcisi şöyle görünür:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Kullanıcı sesi, base64 PCM16 çerçeveleri olarak input_audio_buffer.append olaylarında gönderilir. Sunucu, model yanıt verdikçe response.audio.delta olayları ve sıra kapandığında response.audio.done olayları yayar. 24 kHz'de PCM16, tarayıcı ve masaüstü uygulamaları için güvenli varsayılandır; telefon sistemlerine köprü kurarken μ-law'a geçin.

Adım 4: Araç Kullanımı Ekleyin

Sesli ajan, fonksiyon çağırmayı destekler, böylece model konuşma ortasında API'lerinize erişebilir. Oturum yapılandırmasında bir araç tanımlayın:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

Model, aracı çağırmak istediğinde response.function_call_arguments.done olayını yayacaktır. Fonksiyonu kendi tarafınızda çalıştırın, ardından sonucu function_call_output türünde bir conversation.item.create ile geri itin. Model kaldığı yerden devam eder ve cevabı anlatır.

Dahili bir web_search aracı varsayılan olarak gelir ve kendi alma katmanınızı yazmadan cevapları yeni verilere dayandırmak için kullanışlıdır.

Adım 5: Aracıyı Kullanmadan TTS'i Kullanın

Yalnızca metin-konuşmaya (sesli komutlar, uygulama seslendirmesi, podcast girişleri) ihtiyacınız varsa, WebSocket'i atlayın ve REST uç noktasını kullanın:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Biçim seçenekleri mp3 (yüksek kaliteli) ve mulaw (8 kHz, telefon) şeklindedir. Uç nokta senkronizedir; baytları geri alırsınız, akış oturumuna gerek yoktur.

Adım 6: Tüm Akışı Apidog'da Test Edin

WebSocket API'lerini terminalden hata ayıklamak zordur çünkü konuşma durum tabanlıdır. Kullandığımız standart desen:

  1. WebSocket URL'sini, bir ortamda önceden doldurulmuş taşıyıcı jeton ile kaydedin.
  2. JSON mesajlarından oluşan bir betik hazırlayın: session.update, input_audio_buffer.append (bir donanım ses çerçevesiyle), response.create.
  3. Betiği tek bir bağlantıya karşı oynatın ve her sunucu olayını bir ağaca yakalayın.
  4. Sesi veya talimatları değiştirdiğinizde iki çalışmayı yan yana karşılaştırın; sıra alma davranışındaki sapmaları yakalamak için kullanışlıdır.

Apidog'u indirin, yeni bir WebSocket isteği oluşturun ve XAI_API_KEY'inizi ortam değişkenlerine yapıştırın. Aynı koleksiyon TTS ve STT (ki bunlar düz REST'tir) için çalışır ve her iki yüzeyi de tek bir proje altında tutabilirsiniz. Durum tabanlı API test desenleri hakkında daha fazla bilgi için QA mühendisleri için API test aracı bölümüne bakın.

Ücretsiz katman limitleri

Konsol, ses özelliklerinin kendisi için dakika veya jeton başına ücret olmaksızın tam erişim sağlar. Mevcut sınırlar şunlardır:

Hız limiti hatalarıyla karşılaşırsanız, isteklerinizi toplu hale getirin veya ücretli bir katmana geçin; API davranışı değişmez, sadece sınır değişir.

Sesleri Karşılaştırma

Yayınlamadan önce aynı satırı her ön ayar sesinden geçirin. Sesler tonu farklı okur ve kısa bir test listesi kötü eşleşmeleri hızla yakalar:

Dahili olarak yürüttüğümüz model agnostik test: aynı komutu üç hızda (sakin, normal, acil) söyleyin ve tonlama değişikliğini dinleyin. Grok'un önceden ayarlanmış sesleri, kıyasladığımız çoğu TTS motorundan daha iyi idare eder, ancak yine de yayına geçmeden önce denetim yapmak istersiniz.

Sıkça Sorulan Sorular

**API gerçekten ücretsiz mi, yoksa gizli bir sınırlama var mı?** Ses özellikleri (TTS, STT, sesli ajan, Özel Sesler) konsolda dakika veya jeton başına ücret taşımaz. Arka plandaki akıl yürütme modeli konsol kredinizden faturalandırılır; konsol tahsisi prototipleme için yeterlidir.

**Bir X (Twitter) hesabına ihtiyacım var mı?** Evet. Konsol oturum açma, bir X hesabı kullanır.

**Grok Voice'u bir tarayıcıdan kullanabilir miyim?** Evet, geçici bir jetonla. Sunucu tarafında /v1/realtime/sessions aracılığıyla oluşturun, kısa ömürlü jetonu tarayıcıya verin ve WebSocket'i doğrudan bağlayın. Ana anahtar sunucunuzdan asla ayrılmaz.

**Ne tür bir ses kalitesi bekleyebilirim?** TTS çıktısı yüksek kaliteli MP3 veya 8 kHz μ-law'dur. Sesli ajan dahili olarak 24 kHz'de PCM16 çalıştırır. Kalite, büyük ticari TTS motorlarıyla eşdeğerdir; farklılaştırıcı gecikmedir.

**Telefonla çalışır mı?** Evet. μ-law çıktısı, SIP ve PSTN köprüleri için standart formattır. Hala bir SIP sağlayıcısına ihtiyacınız var; xAI bugün kendi SIP ağ geçidini sunmuyor.

**Klonlama kalitesi diğer araçlarla nasıl karşılaştırılır?** Klonlama kalitesi, uzunluktan ziyade referans ses kalitesiyle ölçeklenir. Sessiz bir odadaki temiz 60 saniyelik bir örnek, testlerimizde gürültülü 120 saniyelik bir örneği yener. Çıktı voice_id, yeniden klonlamaya gerek kalmadan TTS uç noktası ve sesli ajan arasında taşınabilirdir.

**Grok Voice'u bir oyundaki yapay zeka karakterleri için kullanabilir miyim?** Evet. TTS uç noktası çalışma zamanı üretimi için yeterince hızlıdır ve Özel Sesler, her karakterin kendi klonuna sahip olabileceği anlamına gelir. Uzun satırlarda gecikmeyi izleyin; öbeklenmiş TTS deseni kullanılır.

Özetle

Grok Voice, 2026'da gerçek zamanlı bir sesli ajana giden en temiz ücretsiz yoldur. Konsolda dakika başına ücret yoktur, gecikme gerçektir ve Özel Sesler, çoğu ekibin ses özelliklerini yayınlamasını engelleyen lisanslama sürtünmesini ortadan kaldırır. Kullanım durumunuz için modeli doğrulamak için en hızlı yol, Apidog'da bir oturum betiklemek, üç ön ayarlı ses üzerinde çalıştırmak ve dinlemektir.

Grok 4.3 akıl yürütmesine entegre etmeye hazır olduğunuzda, Grok 4.3 API kılavuzuna bakın. OpenAI'ın yığınına karşı yan yana bir karşılaştırma için Grok Voice vs GPT-Realtime'a bakın.

düğme

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin