xAI đã ra mắt Grok Voice cùng với bản phát hành Grok 4.3, và điểm nổi bật dành cho các nhà phát triển rất đơn giản: nó miễn phí trên Bảng điều khiển xAI. Không tính phí mỗi phút, không tính phí mỗi token, quyền truy cập đầy đủ vào mô hình tác nhân giọng nói, giao diện chuyển văn bản thành giọng nói (text-to-speech), giao diện chuyển giọng nói thành văn bản (speech-to-text) và công cụ nhân bản Giọng nói Tùy chỉnh (Custom Voices). Tài nguyên duy nhất được tính phí là việc sử dụng token Grok 4.3 cơ bản khi tác nhân đưa ra lý do, và điều đó cũng có hạn mức miễn phí riêng trên bảng điều khiển để thử nghiệm.
Hướng dẫn này bao gồm cách để Grok Voice hoạt động mà không mất phí, bao gồm cách nhân bản giọng nói của bạn, cấu trúc phiên WebSocket trông như thế nào và cách kiểm tra toàn bộ quy trình bằng Apidog trước khi bạn tích hợp nó vào một sản phẩm.
nút
Nếu bạn cũng muốn hướng dẫn API Grok 4.3 rộng hơn tại Grok 4.3 API guide, hoặc so sánh trực tiếp với bộ sản phẩm của OpenAI trong bài viết Grok Voice vs GPT-Realtime, những bài viết kèm theo đó sẽ bao gồm các khía cạnh còn lại.
Tóm tắt
- Grok Voice miễn phí cho người dùng trên Bảng điều khiển xAI (
console.x.ai); không tính phí mỗi phút hoặc mỗi token cho TTS, STT, tác nhân giọng nói hoặc Giọng nói Tùy chỉnh. - Mô hình hàng đầu:
grok-voice-think-fast-1.0. Thời gian nhận âm thanh đầu tiên dưới 1 giây; xAI tuyên bố nó nhanh hơn khoảng 5 lần so với đối thủ cạnh tranh gần nhất. - Hơn 80 giọng nói cài đặt sẵn trên 28 ngôn ngữ; 5 nhân cách tác nhân giọng nói tích hợp (Eve, Ara, Rex, Sal, Leo).
- Nhân bản giọng nói tùy chỉnh từ khoảng 1 phút nói; giọng nói sẵn sàng cho sản xuất trong dưới 2 phút.
- Điểm cuối WebSocket:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - Các điểm cuối REST cho TTS, STT và Giọng nói Tùy chỉnh chia sẻ một giao diện API.
- Sử dụng Apidog để viết script cho phiên WebSocket và phát lại mà không cần ghi âm lại.
Những gì Grok Voice cung cấp miễn phí cho bạn
Bảng điều khiển xAI là con đường để truy cập miễn phí. Đăng nhập tại console.x.ai, tạo một khóa API, và bạn có thể gọi bốn giao diện mà không tính phí liên quan đến các tính năng giọng nói:

- Tác nhân giọng nói (chuyển đổi giọng nói thời gian thực). Mô hình hội thoại đầy đủ, với việc sử dụng công cụ, phát hiện hoạt động giọng nói phía máy chủ và tích hợp khả năng thay phiên nói.
- Chuyển văn bản thành giọng nói (Text-to-Speech). Hơn 80 giọng nói cài đặt sẵn trên 28 ngôn ngữ, với đầu ra dưới dạng MP3 hoặc μ-law cho điện thoại.
- Chuyển giọng nói thành văn bản (Speech-to-Text). Chuyển ngữ dạng luồng và hàng loạt trên 25 ngôn ngữ đầu vào, với dấu thời gian cấp độ từ và nhận dạng người nói.
- Giọng nói Tùy chỉnh. Nhân bản giọng nói của bạn từ một mẫu ngắn và sử dụng
voice_idkết quả trên các API TTS và tác nhân giọng nói.
Thứ duy nhất được tính phí là việc sử dụng token Grok 4.3 khi tác nhân đưa ra lý do cho một yêu cầu. Bảng điều khiển cũng cung cấp cho bạn tín dụng miễn phí để kiểm tra giao diện đó, đủ để xác thực các luồng end-to-end trước khi bất kỳ khoản thanh toán nào được áp dụng.
Bước 1: Lấy khóa bảng điều khiển
Truy cập console.x.ai và đăng nhập bằng tài khoản X của bạn. Từ trang API Keys, tạo một khóa mới với phạm vi voice và chat được bật. Xuất nó một lần và sử dụng lại:
export XAI_API_KEY="xai-..."
Đối với các ứng dụng phía máy khách mà bạn không thể gửi khóa, hãy tạo một mã thông báo tạm thời từ cài đặt bảng điều khiển hoặc thông qua điểm cuối /v1/realtime/sessions. Các mã thông báo tạm thời có cùng phạm vi nhưng hết hạn trong vài phút, vì vậy bạn có thể gửi chúng cho trình duyệt mà không làm rò rỉ khóa gốc.
Bước 2: Chọn một giọng nói
Hai lựa chọn.
Giọng nói cài đặt sẵn. Tác nhân giọng nói đi kèm với năm nhân cách được đặt tên:
- Eve: nữ, năng động. Tốt cho các luồng hỗ trợ lạc quan.
- Ara: nữ, ấm áp. Mặc định cho hỗ trợ chung.
- Rex: nam, tự tin. Tốt cho các kịch bản bán hàng.
- Sal: trung tính, mượt mà. Tốt cho lời kể và các bài đọc dài hơn.
- Leo: nam, uy quyền. Tốt cho việc tuân thủ và các quy trình trang trọng.
Đối với API TTS rộng hơn, thư viện cài đặt sẵn lớn hơn nhiều; hơn 80 giọng nói trải rộng trên 28 ngôn ngữ, tất cả đều có thể gọi bằng tham số voice trên điểm cuối TTS.
Nhân bản giọng nói tùy chỉnh. Tải lên tệp WAV khoảng một phút lời nói rõ ràng từ một người nói. xAI trả về voice_id trong vòng chưa đầy hai phút, và cùng một ID hoạt động trên cả TTS và tác nhân giọng nói.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
Độ dài clip tham chiếu tối đa là 120 giây, nhưng dài hơn không phải là tốt hơn; âm thanh sạch, nhất quán quan trọng hơn độ dài. Ghi âm trong phòng yên tĩnh, một lần ghi, không có nhạc nền.
Bước 3: Cho Grok nói chuyện qua WebSocket
Tác nhân giọng nói là một phiên WebSocket duy nhất. Mở nó một lần, truyền âm thanh vào, truyền âm thanh ra. Một máy khách Node.js tối thiểu trông như thế này:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Âm thanh người dùng được gửi trong các sự kiện input_audio_buffer.append dưới dạng các khung PCM16 base64. Máy chủ phát ra các sự kiện response.audio.delta khi mô hình trả lời, và response.audio.done khi lượt nói kết thúc. PCM16 ở 24 kHz là mặc định an toàn cho các ứng dụng trình duyệt và máy tính để bàn; chuyển sang μ-law khi bạn kết nối với hệ thống điện thoại.
Bước 4: Thêm việc sử dụng công cụ
Tác nhân giọng nói hỗ trợ gọi hàm, vì vậy mô hình có thể truy cập API của bạn giữa cuộc trò chuyện. Khai báo một công cụ trong cấu hình phiên:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
Mô hình sẽ phát ra response.function_call_arguments.done khi nó muốn gọi công cụ. Chạy hàm ở phía bạn, sau đó đẩy kết quả trở lại với một conversation.item.create thuộc loại function_call_output. Mô hình tiếp tục từ chỗ nó dừng lại và kể câu trả lời.
Một công cụ web_search tích hợp sẵn được phát hành ngay từ đầu, rất hữu ích để đưa ra các câu trả lời dựa trên dữ liệu mới mà không cần viết lớp truy xuất của riêng bạn.
Bước 5: Sử dụng TTS mà không cần tác nhân
Nếu bạn chỉ cần chuyển văn bản thành giọng nói (lời nhắc âm thanh, lồng tiếng ứng dụng, giới thiệu podcast), hãy bỏ qua WebSocket và truy cập điểm cuối REST:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Các tùy chọn định dạng là mp3 (chất lượng cao) và mulaw (8 kHz, điện thoại). Điểm cuối là đồng bộ; bạn nhận được byte trở lại, không cần phiên truyền trực tuyến.
Bước 6: Kiểm tra toàn bộ luồng trong Apidog
Các API WebSocket khó gỡ lỗi từ terminal vì cuộc hội thoại có trạng thái. Mẫu tiêu chuẩn chúng tôi sử dụng:

- Lưu URL WebSocket với mã thông báo bearer đã được điền sẵn trong một môi trường.
- Xây dựng một script gồm các tin nhắn JSON:
session.update,input_audio_buffer.append(với một khung âm thanh mẫu),response.create. - Phát lại script trên một kết nối duy nhất và ghi lại mọi sự kiện máy chủ vào một cây.
- So sánh hai lần chạy song song khi bạn thay đổi giọng nói hoặc hướng dẫn; hữu ích để phát hiện sự sai lệch trong hành vi thay phiên nói.
Tải Apidog, tạo một yêu cầu WebSocket mới và dán XAI_API_KEY của bạn vào biến môi trường. Bộ sưu tập tương tự hoạt động cho TTS và STT (là REST thuần túy), và bạn có thể giữ cả hai giao diện trong một dự án. Để biết thêm về các mẫu kiểm thử API có trạng thái, xem công cụ kiểm thử API cho kỹ sư QA.
Giới hạn tầng miễn phí
Bảng điều khiển cung cấp cho bạn quyền truy cập đầy đủ mà không tính phí mỗi phút hoặc mỗi token cho các tính năng giọng nói. Các giới hạn hiện có:
- Giới hạn tốc độ. Bảng điều khiển áp dụng giới hạn yêu cầu mỗi phút trên mỗi điểm cuối để ngăn chặn lạm dụng. Chúng đủ rộng rãi để xây dựng và demo; chúng không phải là hạn mức cho sản xuất.
- Hạn ngạch giọng nói tùy chỉnh. Một tài khoản có thể giữ một số lượng hữu hạn các bản sao giọng nói tùy chỉnh cùng một lúc. Bạn có thể xóa và tạo lại để giải phóng một vị trí.
- Token suy luận. Khi tác nhân giọng nói suy luận (Grok 4.3 bên trong), nó sẽ tính phí vào tín dụng bảng điều khiển của bạn. Tín dụng miễn phí đủ cho việc tạo mẫu; sản xuất sẽ cần một gói trả phí.
Nếu bạn gặp lỗi giới hạn tốc độ, hãy gửi yêu cầu theo lô hoặc chuyển sang tầng trả phí; hành vi API không thay đổi, chỉ có giới hạn thay đổi.
So sánh giọng nói
Chạy cùng một dòng qua mọi cài đặt sẵn trước khi bạn phát hành. Giọng nói đọc tông điệu khác nhau, và một danh sách kiểm tra ngắn sẽ nhanh chóng phát hiện các cặp không phù hợp:
- Một lời chào hai câu.
- Một cụm từ xác nhận (“Đã hiểu, mọi thứ đã xong”).
- Một câu dài có số, ngày và dấu phẩy.
Bài kiểm tra độc lập với mô hình mà chúng tôi thực hiện nội bộ: nói cùng một lời nhắc ở ba tốc độ (bình tĩnh, bình thường, khẩn cấp) và lắng nghe sự thay đổi về ngữ điệu. Các giọng nói cài đặt sẵn của Grok xử lý điều này tốt hơn hầu hết các công cụ TTS mà chúng tôi đã đánh giá, nhưng bạn vẫn nên kiểm tra trước khi phát trực tiếp.
Câu hỏi thường gặp
API có thực sự miễn phí, hay có giới hạn ẩn nào không? Các tính năng giọng nói (TTS, STT, tác nhân giọng nói, Giọng nói Tùy chỉnh) không tính phí mỗi phút hoặc mỗi token trên bảng điều khiển. Mô hình suy luận bên trong sẽ tính phí vào tín dụng bảng điều khiển; hạn mức bảng điều khiển đủ cho việc tạo mẫu.
Tôi có cần tài khoản X (Twitter) không? Có. Đăng nhập bảng điều khiển sử dụng tài khoản X.
Tôi có thể sử dụng Grok Voice từ trình duyệt không? Có, với mã thông báo tạm thời. Tạo nó ở phía máy chủ qua /v1/realtime/sessions, chuyển mã thông báo có thời hạn ngắn cho trình duyệt và kết nối WebSocket trực tiếp. Khóa gốc không bao giờ rời khỏi máy chủ của bạn.
Tôi có thể mong đợi chất lượng âm thanh như thế nào? Đầu ra TTS là MP3 chất lượng cao hoặc μ-law 8 kHz. Tác nhân giọng nói chạy PCM16 ở 24 kHz nội bộ. Chất lượng ngang bằng với các công cụ TTS thương mại lớn; độ trễ là điểm khác biệt.
Nó có hoạt động với điện thoại không? Có. Đầu ra μ-law là định dạng tiêu chuẩn cho các cầu nối SIP và PSTN. Bạn vẫn cần một nhà cung cấp SIP; xAI chưa cung cấp cổng SIP riêng của mình.
Chất lượng nhân bản so với các công cụ khác như thế nào? Chất lượng nhân bản phụ thuộc vào chất lượng âm thanh tham chiếu nhiều hơn độ dài. Một mẫu 60 giây sạch sẽ trong phòng yên tĩnh tốt hơn một mẫu ồn ào 120 giây trong các thử nghiệm của chúng tôi. voice_id đầu ra có thể di chuyển giữa điểm cuối TTS và tác nhân giọng nói mà không cần nhân bản lại.
Tôi có thể sử dụng Grok Voice cho các nhân vật AI trong trò chơi không? Có. Điểm cuối TTS đủ nhanh để tạo ra trong thời gian chạy, và Giọng nói Tùy chỉnh có nghĩa là mỗi nhân vật có thể có bản sao riêng của mình. Hãy chú ý đến độ trễ trên các dòng dài; TTS chia nhỏ là mẫu phổ biến.
Tóm lại
Grok Voice là con đường miễn phí rõ ràng nhất để có được một tác nhân giọng nói thời gian thực vào năm 2026. Bảng điều khiển không tính phí mỗi phút, độ trễ là có thật, và Giọng nói Tùy chỉnh loại bỏ rào cản cấp phép đã cản trở hầu hết các nhóm phát hành tính năng giọng nói. Cách nhanh nhất để xác thực mô hình cho trường hợp sử dụng của bạn là viết script một phiên trong Apidog, chạy nó với ba giọng nói cài đặt sẵn và lắng nghe.
Khi bạn sẵn sàng tích hợp nó vào suy luận Grok 4.3, hãy xem hướng dẫn API Grok 4.3. Để so sánh song song với bộ sản phẩm của OpenAI, hãy xem Grok Voice vs GPT-Realtime.
nút
