Cách Sử Dụng Grok Voice Miễn Phí: Thiết Lập, Tạo Giọng Nói, và Ứng Dụng Giọng Nói AI

Ashley Innocent

Ashley Innocent

8 tháng 5 2026

Cách Sử Dụng Grok Voice Miễn Phí: Thiết Lập, Tạo Giọng Nói, và Ứng Dụng Giọng Nói AI

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

xAI đã ra mắt Grok Voice cùng với bản phát hành Grok 4.3, và điểm nổi bật dành cho các nhà phát triển rất đơn giản: nó miễn phí trên Bảng điều khiển xAI. Không tính phí mỗi phút, không tính phí mỗi token, quyền truy cập đầy đủ vào mô hình tác nhân giọng nói, giao diện chuyển văn bản thành giọng nói (text-to-speech), giao diện chuyển giọng nói thành văn bản (speech-to-text) và công cụ nhân bản Giọng nói Tùy chỉnh (Custom Voices). Tài nguyên duy nhất được tính phí là việc sử dụng token Grok 4.3 cơ bản khi tác nhân đưa ra lý do, và điều đó cũng có hạn mức miễn phí riêng trên bảng điều khiển để thử nghiệm.

Hướng dẫn này bao gồm cách để Grok Voice hoạt động mà không mất phí, bao gồm cách nhân bản giọng nói của bạn, cấu trúc phiên WebSocket trông như thế nào và cách kiểm tra toàn bộ quy trình bằng Apidog trước khi bạn tích hợp nó vào một sản phẩm.

nút

Nếu bạn cũng muốn hướng dẫn API Grok 4.3 rộng hơn tại Grok 4.3 API guide, hoặc so sánh trực tiếp với bộ sản phẩm của OpenAI trong bài viết Grok Voice vs GPT-Realtime, những bài viết kèm theo đó sẽ bao gồm các khía cạnh còn lại.

Tóm tắt

Những gì Grok Voice cung cấp miễn phí cho bạn

Bảng điều khiển xAI là con đường để truy cập miễn phí. Đăng nhập tại console.x.ai, tạo một khóa API, và bạn có thể gọi bốn giao diện mà không tính phí liên quan đến các tính năng giọng nói:

Thứ duy nhất được tính phí là việc sử dụng token Grok 4.3 khi tác nhân đưa ra lý do cho một yêu cầu. Bảng điều khiển cũng cung cấp cho bạn tín dụng miễn phí để kiểm tra giao diện đó, đủ để xác thực các luồng end-to-end trước khi bất kỳ khoản thanh toán nào được áp dụng.

Bước 1: Lấy khóa bảng điều khiển

Truy cập console.x.ai và đăng nhập bằng tài khoản X của bạn. Từ trang API Keys, tạo một khóa mới với phạm vi voicechat được bật. Xuất nó một lần và sử dụng lại:

export XAI_API_KEY="xai-..."

Đối với các ứng dụng phía máy khách mà bạn không thể gửi khóa, hãy tạo một mã thông báo tạm thời từ cài đặt bảng điều khiển hoặc thông qua điểm cuối /v1/realtime/sessions. Các mã thông báo tạm thời có cùng phạm vi nhưng hết hạn trong vài phút, vì vậy bạn có thể gửi chúng cho trình duyệt mà không làm rò rỉ khóa gốc.

Bước 2: Chọn một giọng nói

Hai lựa chọn.

Giọng nói cài đặt sẵn. Tác nhân giọng nói đi kèm với năm nhân cách được đặt tên:

Đối với API TTS rộng hơn, thư viện cài đặt sẵn lớn hơn nhiều; hơn 80 giọng nói trải rộng trên 28 ngôn ngữ, tất cả đều có thể gọi bằng tham số voice trên điểm cuối TTS.

Nhân bản giọng nói tùy chỉnh. Tải lên tệp WAV khoảng một phút lời nói rõ ràng từ một người nói. xAI trả về voice_id trong vòng chưa đầy hai phút, và cùng một ID hoạt động trên cả TTS và tác nhân giọng nói.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

Độ dài clip tham chiếu tối đa là 120 giây, nhưng dài hơn không phải là tốt hơn; âm thanh sạch, nhất quán quan trọng hơn độ dài. Ghi âm trong phòng yên tĩnh, một lần ghi, không có nhạc nền.

Bước 3: Cho Grok nói chuyện qua WebSocket

Tác nhân giọng nói là một phiên WebSocket duy nhất. Mở nó một lần, truyền âm thanh vào, truyền âm thanh ra. Một máy khách Node.js tối thiểu trông như thế này:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

Âm thanh người dùng được gửi trong các sự kiện input_audio_buffer.append dưới dạng các khung PCM16 base64. Máy chủ phát ra các sự kiện response.audio.delta khi mô hình trả lời, và response.audio.done khi lượt nói kết thúc. PCM16 ở 24 kHz là mặc định an toàn cho các ứng dụng trình duyệt và máy tính để bàn; chuyển sang μ-law khi bạn kết nối với hệ thống điện thoại.

Bước 4: Thêm việc sử dụng công cụ

Tác nhân giọng nói hỗ trợ gọi hàm, vì vậy mô hình có thể truy cập API của bạn giữa cuộc trò chuyện. Khai báo một công cụ trong cấu hình phiên:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

Mô hình sẽ phát ra response.function_call_arguments.done khi nó muốn gọi công cụ. Chạy hàm ở phía bạn, sau đó đẩy kết quả trở lại với một conversation.item.create thuộc loại function_call_output. Mô hình tiếp tục từ chỗ nó dừng lại và kể câu trả lời.

Một công cụ web_search tích hợp sẵn được phát hành ngay từ đầu, rất hữu ích để đưa ra các câu trả lời dựa trên dữ liệu mới mà không cần viết lớp truy xuất của riêng bạn.

Bước 5: Sử dụng TTS mà không cần tác nhân

Nếu bạn chỉ cần chuyển văn bản thành giọng nói (lời nhắc âm thanh, lồng tiếng ứng dụng, giới thiệu podcast), hãy bỏ qua WebSocket và truy cập điểm cuối REST:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Các tùy chọn định dạng là mp3 (chất lượng cao) và mulaw (8 kHz, điện thoại). Điểm cuối là đồng bộ; bạn nhận được byte trở lại, không cần phiên truyền trực tuyến.

Bước 6: Kiểm tra toàn bộ luồng trong Apidog

Các API WebSocket khó gỡ lỗi từ terminal vì cuộc hội thoại có trạng thái. Mẫu tiêu chuẩn chúng tôi sử dụng:

  1. Lưu URL WebSocket với mã thông báo bearer đã được điền sẵn trong một môi trường.
  2. Xây dựng một script gồm các tin nhắn JSON: session.update, input_audio_buffer.append (với một khung âm thanh mẫu), response.create.
  3. Phát lại script trên một kết nối duy nhất và ghi lại mọi sự kiện máy chủ vào một cây.
  4. So sánh hai lần chạy song song khi bạn thay đổi giọng nói hoặc hướng dẫn; hữu ích để phát hiện sự sai lệch trong hành vi thay phiên nói.

Tải Apidog, tạo một yêu cầu WebSocket mới và dán XAI_API_KEY của bạn vào biến môi trường. Bộ sưu tập tương tự hoạt động cho TTS và STT (là REST thuần túy), và bạn có thể giữ cả hai giao diện trong một dự án. Để biết thêm về các mẫu kiểm thử API có trạng thái, xem công cụ kiểm thử API cho kỹ sư QA.

Giới hạn tầng miễn phí

Bảng điều khiển cung cấp cho bạn quyền truy cập đầy đủ mà không tính phí mỗi phút hoặc mỗi token cho các tính năng giọng nói. Các giới hạn hiện có:

Nếu bạn gặp lỗi giới hạn tốc độ, hãy gửi yêu cầu theo lô hoặc chuyển sang tầng trả phí; hành vi API không thay đổi, chỉ có giới hạn thay đổi.

So sánh giọng nói

Chạy cùng một dòng qua mọi cài đặt sẵn trước khi bạn phát hành. Giọng nói đọc tông điệu khác nhau, và một danh sách kiểm tra ngắn sẽ nhanh chóng phát hiện các cặp không phù hợp:

Bài kiểm tra độc lập với mô hình mà chúng tôi thực hiện nội bộ: nói cùng một lời nhắc ở ba tốc độ (bình tĩnh, bình thường, khẩn cấp) và lắng nghe sự thay đổi về ngữ điệu. Các giọng nói cài đặt sẵn của Grok xử lý điều này tốt hơn hầu hết các công cụ TTS mà chúng tôi đã đánh giá, nhưng bạn vẫn nên kiểm tra trước khi phát trực tiếp.

Câu hỏi thường gặp

API có thực sự miễn phí, hay có giới hạn ẩn nào không? Các tính năng giọng nói (TTS, STT, tác nhân giọng nói, Giọng nói Tùy chỉnh) không tính phí mỗi phút hoặc mỗi token trên bảng điều khiển. Mô hình suy luận bên trong sẽ tính phí vào tín dụng bảng điều khiển; hạn mức bảng điều khiển đủ cho việc tạo mẫu.

Tôi có cần tài khoản X (Twitter) không? Có. Đăng nhập bảng điều khiển sử dụng tài khoản X.

Tôi có thể sử dụng Grok Voice từ trình duyệt không? Có, với mã thông báo tạm thời. Tạo nó ở phía máy chủ qua /v1/realtime/sessions, chuyển mã thông báo có thời hạn ngắn cho trình duyệt và kết nối WebSocket trực tiếp. Khóa gốc không bao giờ rời khỏi máy chủ của bạn.

Tôi có thể mong đợi chất lượng âm thanh như thế nào? Đầu ra TTS là MP3 chất lượng cao hoặc μ-law 8 kHz. Tác nhân giọng nói chạy PCM16 ở 24 kHz nội bộ. Chất lượng ngang bằng với các công cụ TTS thương mại lớn; độ trễ là điểm khác biệt.

Nó có hoạt động với điện thoại không? Có. Đầu ra μ-law là định dạng tiêu chuẩn cho các cầu nối SIP và PSTN. Bạn vẫn cần một nhà cung cấp SIP; xAI chưa cung cấp cổng SIP riêng của mình.

Chất lượng nhân bản so với các công cụ khác như thế nào? Chất lượng nhân bản phụ thuộc vào chất lượng âm thanh tham chiếu nhiều hơn độ dài. Một mẫu 60 giây sạch sẽ trong phòng yên tĩnh tốt hơn một mẫu ồn ào 120 giây trong các thử nghiệm của chúng tôi. voice_id đầu ra có thể di chuyển giữa điểm cuối TTS và tác nhân giọng nói mà không cần nhân bản lại.

Tôi có thể sử dụng Grok Voice cho các nhân vật AI trong trò chơi không? Có. Điểm cuối TTS đủ nhanh để tạo ra trong thời gian chạy, và Giọng nói Tùy chỉnh có nghĩa là mỗi nhân vật có thể có bản sao riêng của mình. Hãy chú ý đến độ trễ trên các dòng dài; TTS chia nhỏ là mẫu phổ biến.

Tóm lại

Grok Voice là con đường miễn phí rõ ràng nhất để có được một tác nhân giọng nói thời gian thực vào năm 2026. Bảng điều khiển không tính phí mỗi phút, độ trễ là có thật, và Giọng nói Tùy chỉnh loại bỏ rào cản cấp phép đã cản trở hầu hết các nhóm phát hành tính năng giọng nói. Cách nhanh nhất để xác thực mô hình cho trường hợp sử dụng của bạn là viết script một phiên trong Apidog, chạy nó với ba giọng nói cài đặt sẵn và lắng nghe.

Khi bạn sẵn sàng tích hợp nó vào suy luận Grok 4.3, hãy xem hướng dẫn API Grok 4.3. Để so sánh song song với bộ sản phẩm của OpenAI, hãy xem Grok Voice vs GPT-Realtime.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API