xAI는 Grok 4.3 릴리스와 함께 Grok Voice를 출시했으며, 개발자를 위한 핵심 내용은 간단합니다: xAI Console에서 무료입니다. 분당 요금도, 토큰당 요금도 없으며, 음성 에이전트 모델, 텍스트-음성 변환(TTS) 인터페이스, 음성-텍스트 변환(STT) 인터페이스, 그리고 맞춤형 음성 클론 도구에 대한 모든 액세스를 제공합니다. 유일하게 청구 가능한 리소스는 에이전트가 추론할 때 발생하는 기본 Grok 4.3 토큰 사용량이며, 이는 테스트를 위한 자체 무료 콘솔 할당량을 가지고 있습니다.
이 가이드는 Grok Voice를 비용 없이 실행하는 방법, 즉 나만의 음성을 복제하는 방법, 웹소켓(WebSocket) 세션이 어떻게 구성되는지, 그리고 제품에 연결하기 전에 Apidog로 전체 흐름을 테스트하는 방법을 다룹니다.
더 광범위한 Grok 4.3 API 가이드나 Grok Voice 대 GPT-Realtime에서 OpenAI 스택과의 직접 비교를 원하시면, 해당 관련 게시물들이 나머지 표면을 다룹니다.
요약
- Grok Voice는 xAI Console(
console.x.ai) 사용자에게 무료입니다. TTS, STT, 음성 에이전트 또는 맞춤형 음성에 대한 분당 또는 토큰당 요금이 없습니다. - 주력 모델:
grok-voice-think-fast-1.0. 첫 오디오까지 1초 미만; xAI는 가장 가까운 경쟁사보다 약 5배 빠르다고 주장합니다. - 28개 언어에 걸쳐 80개 이상의 사전 설정 음성; 5가지 내장 음성 에이전트 페르소나 (Eve, Ara, Rex, Sal, Leo).
- 약 1분 분량의 음성으로 맞춤형 음성 복제; 2분 이내에 프로덕션 준비 완료 음성.
- 웹소켓 엔드포인트:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - TTS, STT, 맞춤형 음성을 위한 REST 엔드포인트는 하나의 API 인터페이스를 공유합니다.
- Apidog를 사용하여 웹소켓 세션을 스크립팅하고 오디오를 다시 녹음할 필요 없이 재생합니다.
Grok Voice가 무료로 제공하는 것
xAI Console은 무료 액세스로 가는 길입니다. console.x.ai에서 로그인하고 API 키를 생성하면, 음성 기능 자체와 관련된 비용 없이 네 가지 인터페이스를 호출할 수 있습니다:

- 음성 에이전트 (실시간 음성-음성 변환). 도구 사용, 서버 측 음성 활동 감지 및 교대 발화가 내장된 완전한 대화 모델입니다.
- 텍스트-음성 변환(TTS). 28개 언어에 걸쳐 80개 이상의 사전 설정 음성을 MP3 또는 전화 통신용 μ-law 형식으로 출력합니다.
- 음성-텍스트 변환(STT). 25개 입력 언어에 걸쳐 스트리밍 및 배치 스크립트 작성, 단어 수준 타임스탬프 및 화자 분리 기능을 제공합니다.
- 맞춤형 음성. 짧은 샘플에서 음성을 복제하고 결과로 생성된
voice_id를 TTS 및 음성 에이전트 API 전체에서 사용합니다.
유일하게 측정되는 것은 에이전트가 요청을 추론할 때 발생하는 Grok 4.3 토큰 사용량입니다. 콘솔은 해당 인터페이스를 테스트할 수 있는 무료 크레딧도 제공하며, 이는 청구가 시작되기 전에 엔드투엔드 흐름을 검증하기에 충분합니다.
1단계: 콘솔 키 얻기
console.x.ai로 이동하여 X 계정으로 로그인하세요. API 키 페이지에서 `voice` 및 `chat` 범위가 활성화된 새 키를 만듭니다. 한 번 내보내고 재사용하세요:
export XAI_API_KEY="xai-..."
키를 배포할 수 없는 클라이언트 측 앱의 경우, 콘솔 설정 또는 /v1/realtime/sessions 엔드포인트를 통해 임시 토큰을 발행하세요. 임시 토큰은 동일한 범위를 가지지만 몇 분 내에 만료되므로 상위 키를 노출하지 않고 브라우저에 전달할 수 있습니다.
2단계: 음성 선택하기
두 가지 방법이 있습니다.
사전 설정 음성. 음성 에이전트는 다섯 가지 명명된 페르소나를 제공합니다:
- Eve: 여성, 활기찬 목소리. 활기찬 지원 흐름에 적합합니다.
- Ara: 여성, 따뜻한 목소리. 일반적인 지원을 위한 기본값입니다.
- Rex: 남성, 자신감 있는 목소리. 판매 스크립트에 적합합니다.
- Sal: 중성적, 부드러운 목소리. 내레이션 및 긴 글 읽기에 적합합니다.
- Leo: 남성, 권위 있는 목소리. 규정 준수 및 공식적인 흐름에 적합합니다.
더 광범위한 TTS API의 경우 사전 설정 라이브러리는 훨씬 더 큽니다. 28개 언어에 걸쳐 80개 이상의 음성이 있으며, 모두 TTS 엔드포인트에서 voice 매개변수로 호출할 수 있습니다.
맞춤형 음성 클론. 단일 화자의 깨끗한 음성 약 1분 분량의 WAV 파일을 업로드하세요. xAI는 2분 이내에 voice_id를 반환하며, 동일한 ID는 TTS와 음성 에이전트 모두에서 작동합니다.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
최대 참조 클립 길이는 120초이지만, 길다고 더 좋은 것은 아닙니다. 깨끗하고 일관된 오디오가 길이보다 더 중요합니다. 조용한 방에서 한 번에 녹음하고, 배경 음악은 넣지 마세요.
3단계: 웹소켓을 통해 Grok이 말하게 하기
음성 에이전트는 단일 웹소켓 세션입니다. 한 번 열고, 오디오를 스트리밍하고, 오디오를 스트리밍하여 내보냅니다. 최소한의 Node.js 클라이언트는 다음과 같습니다:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
사용자 오디오는 `base64 PCM16` 프레임으로 `input_audio_buffer.append` 이벤트에 전송됩니다. 서버는 모델이 응답할 때 `response.audio.delta` 이벤트를 내보내고, 차례가 끝날 때 `response.audio.done`을 내보냅니다. 24kHz의 PCM16은 브라우저 및 데스크톱 앱의 안전한 기본값입니다. 전화 시스템에 연결할 때는 μ-law로 전환하세요.
4단계: 도구 사용 추가
음성 에이전트는 함수 호출을 지원하므로 모델이 대화 중에 사용자 API를 호출할 수 있습니다. 세션 구성에 도구를 선언합니다:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
모델은 도구를 호출하려 할 때 `response.function_call_arguments.done`을 내보냅니다. 사용자 측에서 함수를 실행한 다음, `function_call_output` 유형의 `conversation.item.create`로 결과를 다시 푸시합니다. 모델은 중단했던 지점에서 다시 시작하여 답변을 서술합니다.
내장된 `web_search` 도구가 기본 제공되며, 자체 검색 계층을 작성하지 않고도 최신 데이터에 기반한 답변을 제공하는 데 유용합니다.
5단계: 에이전트 없이 TTS 사용
텍스트-음성 변환(오디오 프롬프트, 앱 보이스오버, 팟캐스트 인트로)만 필요한 경우 웹소켓을 건너뛰고 REST 엔드포인트를 호출하세요:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
형식 옵션은 `mp3`(고음질)와 `mulaw`(8kHz, 전화 통신)입니다. 엔드포인트는 동기식입니다. 바이트를 즉시 반환하며 스트리밍 세션이 필요하지 않습니다.
6단계: Apidog에서 전체 흐름 테스트하기
대화가 상태를 유지하기 때문에 웹소켓 API는 터미널에서 디버그하기 어렵습니다. 우리가 사용하는 표준 패턴:

- 베어러 토큰이 환경에 미리 채워진 웹소켓 URL을 저장합니다.
- JSON 메시지 스크립트를 준비합니다: `session.update`, `input_audio_buffer.append`(고정 오디오 프레임 포함), `response.create`.
- 단일 연결에 대해 스크립트를 재생하고 모든 서버 이벤트를 트리로 캡처합니다.
- 음성 또는 지침을 변경할 때 두 실행을 나란히 비교합니다. 교대 발화 동작의 편차를 파악하는 데 유용합니다.
Apidog를 다운로드하고 새 웹소켓 요청을 생성한 다음 환경 변수 아래에 XAI_API_KEY를 붙여넣으세요. 동일한 컬렉션이 TTS 및 STT(일반 REST)에서도 작동하며, 두 인터페이스를 하나의 프로젝트 아래에 유지할 수 있습니다. 상태를 유지하는 API 테스트 패턴에 대한 자세한 내용은 QA 엔지니어를 위한 API 테스트 도구를 참조하세요.
무료 티어 제한
콘솔은 음성 기능 자체에 대한 분당 또는 토큰당 요금 없이 모든 액세스를 제공합니다. 존재하는 제한 사항은 다음과 같습니다:
- 속도 제한. 콘솔은 남용을 방지하기 위해 각 엔드포인트에 대해 분당 요청 제한을 적용합니다. 개발 및 시연에는 충분히 관대하지만, 프로덕션 허용량은 아닙니다.
- 맞춤형 음성 할당량. 단일 계정은 한 번에 제한된 수의 맞춤형 음성 클론을 보유할 수 있습니다. 슬롯을 비우려면 삭제하고 다시 만들 수 있습니다.
- 추론 토큰. 음성 에이전트가 추론할 때(내부적으로 Grok 4.3 사용), 콘솔 크레딧에서 청구됩니다. 무료 크레딧은 프로토타이핑을 지원하며, 프로덕션에는 유료 플랜이 필요합니다.
속도 제한 오류가 발생하면 요청을 배치 처리하거나 유료 요금제로 전환하세요. API 동작은 변경되지 않으며, 제한만 변경됩니다.
음성 비교
배포하기 전에 모든 사전 설정에서 동일한 문장을 실행하세요. 음성은 톤을 다르게 읽으므로 짧은 테스트 목록으로 잘못된 조합을 빠르게 파악할 수 있습니다:
- 두 문장으로 된 인사말.
- 확인 문구 (“알겠습니다, 모두 준비되었습니다”).
- 숫자, 날짜, 쉼표가 포함된 긴 문장.
내부적으로 실행하는 모델 비종속 테스트: 동일한 프롬프트를 세 가지 속도(차분하게, 보통으로, 긴급하게)로 말하고 억양 변화를 듣습니다. Grok의 사전 설정 음성은 우리가 벤치마킹한 대부분의 TTS 엔진보다 이를 더 잘 처리하지만, 서비스 출시 전에 여전히 감사가 필요합니다.
자주 묻는 질문
API가 정말 무료인가요, 아니면 숨겨진 제한이 있나요?
음성 기능(TTS, STT, 음성 에이전트, 맞춤형 음성)에는 콘솔에서 분당 또는 토큰당 요금이 부과되지 않습니다. 내부 추론 모델은 콘솔 크레딧에서 청구됩니다. 콘솔 할당량은 프로토타이핑에 충분합니다.
X(이전 트위터) 계정이 필요한가요?
예. 콘솔 로그인은 X 계정을 사용합니다.
브라우저에서 Grok Voice를 사용할 수 있나요?
예, 임시 토큰으로 가능합니다. /v1/realtime/sessions를 통해 서버 측에서 발행하고, 단기 토큰을 브라우저에 전달한 다음 웹소켓을 직접 연결합니다. 상위 키는 서버를 떠나지 않습니다.
어떤 오디오 품질을 기대할 수 있나요?
TTS 출력은 고음질 MP3 또는 8kHz μ-law입니다. 음성 에이전트는 내부적으로 24kHz에서 PCM16을 실행합니다. 품질은 주요 상업용 TTS 엔진과 동등하며, 지연 시간이 차별점입니다.
전화 통신과도 작동하나요?
예. μ-law 출력은 SIP 및 PSTN 브리지의 표준 형식입니다. 여전히 SIP 제공업체가 필요합니다. xAI는 현재 자체 SIP 게이트웨이를 제공하지 않습니다.
다른 도구와 비교하여 클로닝 품질은 어떤가요?
클로닝 품질은 길이보다는 참조 오디오 품질에 따라 달라집니다. 조용한 방에서 얻은 깨끗한 60초 샘플이 시끄러운 120초 샘플보다 테스트에서 더 좋았습니다. 출력 voice_id는 다시 클로닝할 필요 없이 TTS 엔드포인트와 음성 에이전트 모두에서 사용할 수 있습니다.
게임에서 AI 캐릭터에 Grok Voice를 사용할 수 있나요?
예. TTS 엔드포인트는 런타임 생성에 충분히 빠르며, 맞춤형 음성은 각 캐릭터가 자체 클론을 가질 수 있음을 의미합니다. 긴 줄에서는 지연 시간을 주의하세요. 청크형 TTS가 패턴입니다.
마무리
Grok Voice는 2026년에 실시간 음성 에이전트로 가는 가장 깔끔한 무료 경로입니다. 콘솔은 분당 요금이 없으며, 지연 시간은 실제적이고, 맞춤형 음성은 대부분의 팀이 음성 기능을 출시하는 것을 막았던 라이선스 마찰을 제거합니다. 사용 사례에 대해 모델을 검증하는 가장 빠른 방법은 Apidog에서 세션을 스크립팅하고, 세 가지 사전 설정 음성으로 실행한 다음 들어보는 것입니다.
Grok 4.3 추론에 연결할 준비가 되면 Grok 4.3 API 가이드를 참조하세요. OpenAI 스택과의 직접 비교는 Grok Voice 대 GPT-Realtime을 참조하세요.
