لقد أطلقت xAI ميزة Grok Voice مع إصدار Grok 4.3، والعنوان الرئيسي للمطورين بسيط: إنها مجانية على xAI Console. لا توجد رسوم لكل دقيقة، ولا رسوم لكل توكن، وصول كامل إلى نموذج وكيل الصوت، وواجهة تحويل النص إلى كلام، وواجهة تحويل الكلام إلى نص، وأداة استنساخ الأصوات المخصصة. المورد الوحيد الذي يتم محاسبته هو استخدام توكنات Grok 4.3 الأساسية عندما يقوم الوكيل بعمليات الاستدلال، وهذا له بدل مجاني خاص به في الكونسول للاختبار.
يغطي هذا الدليل كيفية تشغيل Grok Voice بتكلفة صفرية، بما في ذلك كيفية استنساخ صوتك الخاص، وكيف تبدو جلسة WebSocket، وكيفية اختبار التدفق بأكمله باستخدام Apidog قبل توصيله بمنتج.
إذا كنت ترغب أيضًا في الحصول على دليل Grok 4.3 API الأوسع، أو مقارنة مباشرة مع حزمة OpenAI في Grok Voice مقابل GPT-Realtime، فإن تلك المنشورات المرافقة تغطي بقية الميزات.
ملخص
- Grok Voice مجاني للمستخدمين على xAI Console (
console.x.ai)؛ لا توجد رسوم لكل دقيقة أو لكل توكن لـ TTS، STT، وكيل الصوت، أو الأصوات المخصصة. - النموذج الرائد:
grok-voice-think-fast-1.0. وقت الحصول على أول صوت أقل من ثانية واحدة؛ تدعي xAI أنه أسرع بـ 5 مرات تقريبًا من أقرب منافس. - أكثر من 80 صوتًا معدًا مسبقًا عبر 28 لغة؛ 5 شخصيات وكلاء صوتية مدمجة (Eve, Ara, Rex, Sal, Leo).
- استنساخ الصوت المخصص من حوالي دقيقة واحدة من الكلام؛ صوت جاهز للإنتاج في أقل من دقيقتين.
- نقطة نهاية WebSocket:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - نقاط نهاية REST لـ TTS، STT، والأصوات المخصصة تشترك في واجهة API واحدة.
- استخدم Apidog لإنشاء نص لجلسة WebSocket وإعادة تشغيلها دون إعادة تسجيل الصوت.
ما يوفره Grok Voice لك مجانًا
xAI Console هو المسار للوصول المجاني. سجل الدخول على console.x.ai، أنشئ مفتاح API، ويمكنك استدعاء أربع واجهات بدون أي رسوم مرتبطة بميزات الصوت نفسها:

- وكيل الصوت (Voice Agent) (كلام-إلى-كلام في الوقت الفعلي). نموذج المحادثة الكامل، مع استخدام الأدوات، واكتشاف نشاط الصوت من جانب الخادم، وتناوب الأدوار المدمج.
- تحويل النص إلى كلام (Text-to-Speech). أكثر من 80 صوتًا معدًا مسبقًا عبر 28 لغة، مع إخراج بصيغة MP3 أو μ-law للهاتف.
- تحويل الكلام إلى نص (Speech-to-Text). نسخ صوتي متدفق ومجمع عبر 25 لغة إدخال، مع طوابع زمنية على مستوى الكلمة وتحديد المتحدث.
- الأصوات المخصصة (Custom Voices). استنسخ صوتك من عينة قصيرة واستخدم
voice_idالناتج عبر واجهات برمجة تطبيقات TTS ووكيل الصوت.
المؤشر الوحيد الذي يعمل هو استخدام توكنات Grok 4.3 عندما يقوم الوكيل بمعالجة الطلب. يمنحك الكونسول رصيدًا مجانيًا لاختبار تلك الواجهة أيضًا، وهو ما يكفي للتحقق من التدفقات الشاملة قبل بدء أي فواتير.
الخطوة 1: الحصول على مفتاح الكونسول
انتقل إلى console.x.ai وسجل الدخول باستخدام حساب X الخاص بك. من صفحة API Keys، أنشئ مفتاحًا جديدًا مع تمكين نطاقي voice وchat. قم بتصديره مرة واحدة وأعد استخدامه:
export XAI_API_KEY="xai-..."
بالنسبة لتطبيقات جانب العميل حيث لا يمكنك شحن المفتاح، قم بإنشاء رمز مؤقت من إعدادات الكونسول أو عبر نقطة النهاية /v1/realtime/sessions. تحمل الرموز المؤقتة نفس النطاق ولكنها تنتهي صلاحيتها في غضون دقائق، لذلك يمكنك تسليمها للمتصفح دون تسريب المفتاح الأصلي.
الخطوة 2: اختيار صوت
مساران.
الأصوات المعدة مسبقًا. يأتي وكيل الصوت بخمس شخصيات مسمّاة:
- Eve: أنثى، حيوية. جيدة لتدفقات الدعم المبهجة.
- Ara: أنثى، دافئة. افتراضي للمساعدة العامة.
- Rex: ذكر، واثق. جيد لسيناريوهات المبيعات.
- Sal: محايد، سلس. جيد للسرد والقراءات الأطول.
- Leo: ذكر، موثوق. جيد للامتثال والتدفقات الرسمية.
بالنسبة لواجهة برمجة تطبيقات TTS الأوسع، فإن مكتبة الأصوات المعدة مسبقًا أكبر بكثير؛ أكثر من 80 صوتًا تمتد على 28 لغة، وكلها قابلة للاستدعاء باستخدام معلمة voice في نقطة نهاية TTS.
استنساخ الأصوات المخصصة. قم بتحميل ملف WAV لمدة دقيقة تقريبًا من الكلام النظيف من متحدث واحد. تعيد xAI voice_id في أقل من دقيقتين، ونفس المعرف يعمل عبر TTS ووكيل الصوت.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
الحد الأقصى لطول المقطع المرجعي هو 120 ثانية، لكن الزيادة ليست أفضل؛ الصوت النظيف والمتناسق أكثر أهمية من الطول. سجل في غرفة هادئة، لقطة واحدة، بدون موسيقى خلفية.
الخطوة 3: جعل Grok يتحدث عبر WebSocket
وكيل الصوت هو جلسة WebSocket واحدة. افتحها مرة واحدة، قم ببث الصوت للداخل، وقم ببث الصوت للخارج. عميل Node.js بسيط يبدو كالتالي:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
يتم إرسال صوت المستخدم في أحداث input_audio_buffer.append كإطارات PCM16 مشفرة بـ base64. يصدر الخادم أحداث response.audio.delta أثناء رد النموذج، و response.audio.done عند انتهاء الدور. PCM16 بمعدل 24 كيلوهرتز هو الافتراضي الآمن لتطبيقات المتصفح وسطح المكتب؛ قم بالتبديل إلى μ-law عند الربط بأنظمة الهاتف.
الخطوة 4: إضافة استخدام الأدوات
يدعم وكيل الصوت استدعاء الدوال، بحيث يمكن للنموذج استدعاء واجهات برمجة التطبيقات الخاصة بك في منتصف المحادثة. قم بتعريف أداة في تكوين الجلسة:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
سيصدر النموذج response.function_call_arguments.done عندما يريد استدعاء الأداة. قم بتشغيل الدالة من جانبك، ثم أعد النتيجة باستخدام conversation.item.create من نوع function_call_output. يكمل النموذج من حيث توقف ويقوم بسرد الإجابة.
تتوفر أداة web_search مدمجة، وهي مفيدة لترسيخ الإجابات في بيانات جديدة دون الحاجة إلى كتابة طبقة استرجاع خاصة بك.
الخطوة 5: استخدام TTS بدون الوكيل
إذا كنت تحتاج فقط إلى تحويل النص إلى كلام (توجيهات صوتية، تعليق صوتي للتطبيق، مقدمات بودكاست)، فتجاوز WebSocket واستخدم نقطة نهاية REST:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
خيارات التنسيق هي mp3 (عالية الدقة) و mulaw (8 كيلوهرتز، للهاتف). نقطة النهاية متزامنة؛ تحصل على بايتات عائدة، لا حاجة لجلسة بث.
الخطوة 6: اختبار التدفق بأكمله في Apidog
واجهات برمجة تطبيقات WebSocket تكون محرجة لتصحيح الأخطاء من الطرفية لأن المحادثة تعتمد على الحالة. النمط القياسي الذي نستخدمه:

- احفظ عنوان URL الخاص بـ WebSocket مع الرمز المميز (bearer token) الذي تم ملؤه مسبقًا في البيئة.
- جهز نصًا من رسائل JSON:
session.update،input_audio_buffer.append(مع إطار صوت ثابت)،response.create. - أعد تشغيل النص مقابل اتصال واحد والتقط كل حدث من الخادم في شجرة.
- قارن بين تشغيلين جنبًا إلى جنب عندما تقوم بتغيير الصوت أو التعليمات؛ مفيد لاكتشاف الانحراف في سلوك تناوب الأدوار.
قم بتنزيل Apidog، أنشئ طلب WebSocket جديدًا، والصق مفتاح XAI_API_KEY الخاص بك ضمن متغيرات البيئة. تعمل نفس المجموعة لـ TTS و STT (وهي REST عادية)، ويمكنك الاحتفاظ بالواجهتين ضمن مشروع واحد. لمزيد من المعلومات حول أنماط اختبار API القائمة على الحالة، راجع أداة اختبار API لمهندسي ضمان الجودة.
حدود الفئة المجانية
يمنحك الكونسول وصولاً كاملاً دون رسوم لكل دقيقة أو لكل توكن لميزات الصوت نفسها. الحدود الموجودة هي:
- حدود المعدل. يفرض الكونسول قيودًا على عدد الطلبات في الدقيقة على كل نقطة نهاية لمنع إساءة الاستخدام. وهي سخية بما يكفي للبناء والعروض التوضيحية؛ لكنها ليست بدلاً للإنتاج.
- حصة الأصوات المخصصة. يمكن لحساب واحد الاحتفاظ بعدد محدود من استنساخ الأصوات المخصصة في وقت واحد. يمكنك حذف وإعادة إنشاء لتحرير فتحة.
- توكنات الاستدلال. عندما يقوم وكيل الصوت بالتفكير (Grok 4.3 هو الأساس)، فإنه يخصم من رصيد الكونسول الخاص بك. الرصيد المجاني يغطي النماذج الأولية؛ سيتطلب الإنتاج خطة مدفوعة.
إذا واجهت أخطاء في حد المعدل، قم بتجميع طلباتك أو انتقل إلى مستوى مدفوع؛ سلوك API لا يتغير، فقط الحد الأقصى.
مقارنة الأصوات
قم بتشغيل نفس السطر عبر كل صوت معد مسبقًا قبل النشر. تقرأ الأصوات النغمة بشكل مختلف، وتلتقط قائمة اختبار قصيرة الاقترانات السيئة بسرعة:
- تحية من جملتين.
- عبارة تأكيد ("فهمت، كل شيء جاهز").
- جملة طويلة تحتوي على رقم وتاريخ وفاصلة.
الاختبار المستقل عن النموذج الذي نجريه داخليًا: انطق نفس المطالبة بثلاث سرعات (هادئ، عادي، عاجل) واستمع لتغير النبرة. تتعامل أصوات Grok المعدة مسبقًا مع هذا بشكل أفضل من معظم محركات TTS التي قمنا بتقييمها، ولكنك لا تزال ترغب في التدقيق قبل البدء الفعلي.
الأسئلة الشائعة
هل واجهة برمجة التطبيقات مجانية بالفعل، أم أن هناك حدًا مخفيًا؟ميزات الصوت (TTS، STT، وكيل الصوت، الأصوات المخصصة) لا تحمل رسومًا لكل دقيقة أو لكل توكن على الكونسول. يقوم نموذج الاستدلال الأساسي بخصم من رصيد الكونسول؛ بدل الكونسول كافٍ للنماذج الأولية.
هل أحتاج إلى حساب X (تويتر)؟نعم. يتطلب تسجيل الدخول إلى الكونسول استخدام حساب X.
هل يمكنني استخدام Grok Voice من المتصفح؟نعم، باستخدام رمز مؤقت. قم بإنشائه من جانب الخادم عبر /v1/realtime/sessions، وسلم الرمز قصير الأجل إلى المتصفح، وقم بتوصيل WebSocket مباشرة. لا يغادر المفتاح الأصلي خادمك أبدًا.
ما هي جودة الصوت التي يمكنني توقعها؟إخراج TTS هو MP3 عالي الدقة أو μ-law بمعدل 8 كيلوهرتز. يقوم وكيل الصوت بتشغيل PCM16 بمعدل 24 كيلوهرتز داخليًا. الجودة مكافئة لمحركات TTS التجارية الرئيسية؛ الكمون هو العامل المميز.
هل يعمل مع الاتصالات الهاتفية؟نعم. إخراج μ-law هو التنسيق القياسي لجسور SIP و PSTN. ما زلت بحاجة إلى مزود SIP؛ xAI لا توفر بوابة SIP خاصة بها اليوم.
كيف تقارن جودة الاستنساخ بالأدوات الأخرى؟تتغير جودة الاستنساخ مع جودة الصوت المرجعي أكثر من الطول. عينة نظيفة مدتها 60 ثانية في غرفة هادئة تتفوق على عينة صاخبة مدتها 120 ثانية في اختباراتنا. معرف الصوت voice_id الناتج قابل للنقل عبر نقطة نهاية TTS ووكيل الصوت دون إعادة الاستنساخ.
هل يمكنني استخدام Grok Voice لشخصيات الذكاء الاصطناعي في لعبة؟نعم. نقطة نهاية TTS سريعة بما يكفي للتوليد في وقت التشغيل، وتعني الأصوات المخصصة أن كل شخصية يمكن أن يكون لها استنساخ خاص بها. راقب الكمون في الأسطر الطويلة؛ TTS المقطّع هو النمط المتبع.
خاتمة
Grok Voice هو أنظف مسار مجاني لوكيل صوت في الوقت الفعلي في عام 2026. الكونسول لا يفرض رسومًا لكل دقيقة، والكمون حقيقي، وتزيل الأصوات المخصصة احتكاك الترخيص الذي منع معظم الفرق من شحن ميزات الصوت. أسرع طريقة للتحقق من صحة النموذج لحالة الاستخدام الخاصة بك هي كتابة نص لجلسة في Apidog، وتشغيلها مقابل ثلاثة أصوات معدة مسبقًا، والاستماع.
عندما تكون مستعدًا لدمجها في استدلال Grok 4.3، راجع دليل Grok 4.3 API. لمقارنة جنبًا إلى جنب مع حزمة OpenAI، راجع Grok Voice مقابل GPT-Realtime.
