Como Usar Grok Voice Grátis: Configuração no Console, Clonagem de Voz e Agentes de Voz em Tempo Real

Ashley Innocent

Ashley Innocent

8 maio 2026

Como Usar Grok Voice Grátis: Configuração no Console, Clonagem de Voz e Agentes de Voz em Tempo Real

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

A xAI lançou o Grok Voice com a versão 4.3 do Grok, e a notícia para desenvolvedores é simples: é gratuito no Console xAI. Sem cobrança por minuto, sem cobrança por token, acesso total ao modelo de agente de voz, à superfície de texto-para-voz, à superfície de voz-para-texto e à ferramenta de clonagem de Vozes Personalizadas. O único recurso cobrável é o uso subjacente de tokens do Grok 4.3 quando o agente raciocina, e isso tem sua própria franquia gratuita no console para testes.

Este guia aborda como fazer o Grok Voice funcionar sem custo, incluindo como clonar sua própria voz, como é a sessão WebSocket e como testar todo o fluxo com o Apidog antes de integrá-lo a um produto.

button

Se você também quiser o guia mais amplo da API do Grok 4.3, ou um comparativo direto com a pilha da OpenAI em Grok Voice vs GPT-Realtime, esses posts complementares cobrem o restante da superfície.

TL;DR

O que o Grok Voice oferece gratuitamente

O xAI Console é o caminho para o acesso gratuito. Faça login em console.x.ai, gere uma chave de API e você poderá chamar quatro superfícies sem custo relacionado aos recursos de voz em si:

O único medidor que registra é o uso de tokens do Grok 4.3 quando o agente raciocina sobre uma solicitação. O console oferece crédito gratuito para testar essa superfície também, o que é suficiente para validar fluxos de ponta a ponta antes que qualquer cobrança seja iniciada.

Passo 1: Obtenha uma chave do console

Vá para console.x.ai e faça login com sua conta X. Na página API Keys, crie uma nova chave com os escopos voice e chat ativados. Exporte-a uma vez e reutilize:

export XAI_API_KEY="xai-..."

Para aplicativos cliente onde você não pode enviar a chave, crie um token efêmero nas configurações do console ou através do endpoint /v1/realtime/sessions. Tokens efêmeros têm o mesmo escopo, mas expiram em minutos, então você pode entregá-los a um navegador sem vazar a chave principal.

Passo 2: Escolha uma voz

Dois caminhos.

Vozes predefinidas. O agente de voz vem com cinco personas nomeadas:

Para a API TTS mais ampla, a biblioteca de predefinições é muito maior; mais de 80 vozes abrangendo 28 idiomas, todas chamáveis com um parâmetro voice no endpoint TTS.

Clones de voz personalizados. Carregue um arquivo WAV de cerca de um minuto de fala limpa de um único locutor. A xAI retorna um voice_id em menos de dois minutos, e o mesmo ID funciona tanto para TTS quanto para o agente de voz.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

O comprimento máximo do clipe de referência é de 120 segundos, mas mais não é melhor; áudio limpo e consistente importa mais do que o comprimento. Grave em uma sala silenciosa, em uma única tomada, sem música de fundo.

Passo 3: Faça o Grok falar via WebSocket

O agente de voz é uma única sessão WebSocket. Abra-o uma vez, transmita áudio de entrada, transmita áudio de saída. Um cliente Node.js mínimo se parece com isto:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

O áudio do usuário é enviado em eventos input_audio_buffer.append como frames PCM16 base64. O servidor emite eventos response.audio.delta conforme o modelo responde, e response.audio.done quando o turno termina. PCM16 a 24 kHz é o padrão seguro para aplicativos de navegador e desktop; mude para μ-law quando você fizer a ponte para sistemas telefônicos.

Passo 4: Adicione o uso de ferramentas

O agente de voz suporta chamadas de função, para que o modelo possa acessar suas APIs no meio da conversa. Declare uma ferramenta na configuração da sessão:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

O modelo emitirá response.function_call_arguments.done quando quiser chamar a ferramenta. Execute a função do seu lado, depois envie o resultado de volta com um conversation.item.create do tipo function_call_output. O modelo retoma de onde parou e narra a resposta.

Uma ferramenta web_search integrada é fornecida de imediato, o que é útil para fundamentar as respostas em dados novos sem escrever sua própria camada de recuperação.

Passo 5: Use TTS sem o agente

Se você precisar apenas de texto-para-voz (prompts de áudio, narração de aplicativo, introduções de podcast), ignore o WebSocket e acesse o endpoint REST:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

As opções de formato são mp3 (alta fidelidade) e mulaw (8 kHz, telefonia). O endpoint é síncrono; você recebe bytes de volta, nenhuma sessão de streaming é necessária.

Passo 6: Teste todo o fluxo no Apidog

APIs WebSocket são complicadas de depurar a partir do terminal porque a conversa é com estado. O padrão que usamos:

  1. Salve o URL do WebSocket com o token de portador pré-preenchido em um ambiente.
  2. Prepare um script de mensagens JSON: session.update, input_audio_buffer.append (com um frame de áudio de teste), response.create.
  3. Reproduza o script contra uma única conexão e capture cada evento do servidor em uma árvore.
  4. Compare duas execuções lado a lado quando você altera a voz ou as instruções; útil para detectar desvios no comportamento de alternância de turnos.

Baixe o Apidog, crie uma nova solicitação WebSocket e cole sua XAI_API_KEY nas variáveis de ambiente. A mesma coleção funciona para TTS e STT (que são REST simples), e você pode manter ambas as superfícies em um único projeto. Para mais informações sobre padrões de teste de API com estado, consulte ferramenta de teste de API para engenheiros de QA.

Limites da camada gratuita

O console oferece acesso total sem cobrança por minuto ou por token para os próprios recursos de voz. Os limites que existem:

Se você encontrar erros de limite de taxa, lote suas solicitações ou mude para um plano pago; o comportamento da API não muda, apenas o limite.

Comparando vozes

Execute a mesma linha em cada predefinição antes de lançar. As vozes interpretam o tom de forma diferente, e uma lista curta de testes identifica rapidamente as combinações ruins:

O teste agnóstico de modelo que realizamos internamente: fale o mesmo prompt em três velocidades (calma, normal, urgente) e ouça a mudança na inflexão. As vozes predefinidas do Grok lidam com isso melhor do que a maioria dos motores TTS que testamos, mas você ainda deseja a auditoria antes de entrar no ar.

FAQ

A API é realmente gratuita ou há um limite oculto?Os recursos de voz (TTS, STT, agente de voz, Vozes Personalizadas) não têm cobrança por minuto ou por token no console. O modelo de raciocínio subjacente é cobrado contra o crédito do console; a franquia do console é suficiente para prototipagem.

Preciso de uma conta X (Twitter)?Sim. O login do console usa uma conta X.

Posso usar o Grok Voice em um navegador?Sim, com um token efêmero. Crie-o no lado do servidor via /v1/realtime/sessions, entregue o token de curta duração ao navegador e conecte o WebSocket diretamente. A chave principal nunca sai do seu servidor.

Qual qualidade de áudio posso esperar?A saída TTS é MP3 de alta fidelidade ou μ-law de 8 kHz. O agente de voz executa PCM16 a 24 kHz internamente. A qualidade é comparável aos principais motores TTS comerciais; a latência é o diferencial.

Funciona com telefonia?Sim. A saída μ-law é o formato padrão para pontes SIP e PSTN. Você ainda precisa de um provedor SIP; a xAI não oferece seu próprio gateway SIP hoje.

Como a qualidade da clonagem se compara a outras ferramentas?A qualidade da clonagem depende mais da qualidade do áudio de referência do que do comprimento. Uma amostra limpa de 60 segundos em uma sala silenciosa supera uma amostra ruidosa de 120 segundos em nossos testes. O voice_id de saída é portátil entre o endpoint TTS e o agente de voz sem reclonagem.

Posso usar o Grok Voice para personagens de IA em um jogo?Sim. O endpoint TTS é rápido o suficiente para geração em tempo de execução, e as Vozes Personalizadas significam que cada personagem pode ter seu próprio clone. Atente-se à latência em linhas longas; TTS em blocos é o padrão.

Conclusão

O Grok Voice é o caminho gratuito mais limpo para um agente de voz em tempo real em 2026. O console não tem cobrança por minuto, a latência é real, e as Vozes Personalizadas removem o atrito de licenciamento que impedia a maioria das equipes de lançar recursos de voz. A maneira mais rápida de validar o modelo para seu caso de uso é scriptar uma sessão no Apidog, executá-la com três vozes predefinidas e ouvir.

Quando estiver pronto para conectá-lo ao raciocínio do Grok 4.3, consulte o guia da API do Grok 4.3. Para um comparativo lado a lado com a pilha da OpenAI, consulte Grok Voice vs GPT-Realtime.

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs