Cómo Usar Grok Voice Gratis: Configuración, Clonación de Voz y Agentes de Voz en Tiempo Real

Ashley Innocent

Ashley Innocent

8 May 2026

Cómo Usar Grok Voice Gratis: Configuración, Clonación de Voz y Agentes de Voz en Tiempo Real

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

xAI lanzó Grok Voice con la versión Grok 4.3, y la noticia principal para los desarrolladores es sencilla: es gratis en la Consola xAI. Sin cargo por minuto, sin cargo por token, acceso completo al modelo de agente de voz, la superficie de texto a voz, la superficie de voz a texto y la herramienta de clonación de Voces Personalizadas. El único recurso facturable es el uso subyacente de tokens de Grok 4.3 cuando el agente razona, y eso tiene su propia asignación gratuita en la consola para pruebas.

Esta guía cubre cómo poner en marcha Grok Voice sin costo, incluyendo cómo clonar tu propia voz, cómo se ve la sesión de WebSocket y cómo probar todo el flujo con Apidog antes de integrarlo en un producto.

botón

Si también quieres la guía de la API de Grok 4.3 más amplia, o una comparación directa contra la pila de OpenAI en Grok Voice vs GPT-Realtime, esas publicaciones complementarias cubren el resto de la superficie.

En resumen

Lo que Grok Voice te ofrece gratis

La Consola xAI es el camino hacia el acceso gratuito. Inicia sesión en console.x.ai, genera una clave de API y podrás llamar a cuatro superficies sin cargos asociados a las propias funciones de voz:

Interfaz de la consola xAI

El único medidor que se activa es el uso de tokens de Grok 4.3 cuando el agente razona sobre una solicitud. La consola te otorga crédito gratuito para probar esa superficie también, lo cual es suficiente para validar flujos de extremo a extremo antes de que se inicie cualquier facturación.

Paso 1: Obtén una clave de consola

Ve a console.x.ai e inicia sesión con tu cuenta de X. Desde la página API Keys (Claves de API), crea una nueva clave con los alcances voice y chat habilitados. Exórtala una vez y reutilízala:

export XAI_API_KEY="xai-..."

Para aplicaciones del lado del cliente donde no puedes enviar la clave, genera un token efímero desde la configuración de la consola o a través del endpoint /v1/realtime/sessions. Los tokens efímeros tienen el mismo alcance pero expiran en minutos, por lo que puedes entregarlos a un navegador sin filtrar la clave principal.

Paso 2: Elige una voz

Dos caminos.

Voces preestablecidas. El agente de voz viene con cinco personajes nombrados:

Para la API de TTS más amplia, la biblioteca preestablecida es mucho mayor; más de 80 voces que abarcan 28 idiomas, todas invocables con un parámetro voice en el endpoint de TTS.

Clonación de voces personalizadas. Sube un archivo WAV de aproximadamente un minuto de habla limpia de un solo hablante. xAI devuelve un voice_id en menos de dos minutos, y el mismo ID funciona tanto para TTS como para el agente de voz.

curl https://api.x.ai/v1/custom-voices \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -F "name=narrator-jane" \
  -F "language=en" \
  -F "audio=@sample.wav"

La duración máxima del clip de referencia es de 120 segundos, pero más no es mejor; el audio limpio y consistente importa más que la duración. Graba en una habitación tranquila, en una sola toma, sin fondo musical.

Paso 3: Haz que Grok hable a través de WebSocket

El agente de voz es una única sesión de WebSocket. Ábrela una vez, transmite audio de entrada, transmite audio de salida. Un cliente Node.js mínimo se ve así:

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
  { headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);

ws.on("open", () => {
  ws.send(JSON.stringify({
    type: "session.update",
    session: {
      voice: "ara",
      instructions: "You are a friendly support agent. Keep replies under two sentences.",
      input_audio_format: "pcm16",
      output_audio_format: "pcm16",
      turn_detection: { type: "server_vad" },
    },
  }));
});

ws.on("message", (raw) => {
  const event = JSON.parse(raw.toString());
  if (event.type === "response.audio.delta") {
    process.stdout.write(Buffer.from(event.delta, "base64"));
  }
});

El audio del usuario se envía en eventos input_audio_buffer.append como tramas PCM16 en base64. El servidor emite eventos response.audio.delta a medida que el modelo responde, y response.audio.done cuando el turno se cierra. PCM16 a 24 kHz es el valor predeterminado seguro para aplicaciones de navegador y escritorio; cambia a μ-law cuando conectes a sistemas telefónicos.

Paso 4: Añadir uso de herramientas

El agente de voz soporta la invocación de funciones, por lo que el modelo puede acceder a tus APIs en medio de una conversación. Declara una herramienta en la configuración de la sesión:

ws.send(JSON.stringify({
  type: "session.update",
  session: {
    tools: [{
      type: "function",
      name: "lookup_order",
      description: "Look up the status of a customer order by order number.",
      parameters: {
        type: "object",
        properties: { order_id: { type: "string" } },
        required: ["order_id"],
      },
    }],
  },
}));

El modelo emitirá response.function_call_arguments.done cuando quiera invocar la herramienta. Ejecuta la función de tu lado, luego envía el resultado de vuelta con un conversation.item.create de tipo function_call_output. El modelo retoma donde lo dejó y narra la respuesta.

Una herramienta web_search incorporada viene de serie, lo cual es útil para basar las respuestas en datos frescos sin necesidad de escribir tu propia capa de recuperación.

Paso 5: Usa TTS sin el agente

Si solo necesitas texto a voz (indicaciones de audio, voz en off de aplicaciones, introducciones de podcast), omite el WebSocket y usa el endpoint REST:

curl https://api.x.ai/v1/tts \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-tts-1",
    "voice": "ara",
    "input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
    "format": "mp3"
  }' \
  --output greeting.mp3

Las opciones de formato son mp3 (alta fidelidad) y mulaw (8 kHz, telefonía). El endpoint es síncrono; recibes bytes de vuelta, no se necesita una sesión de streaming.

Paso 6: Prueba todo el flujo en Apidog

Las APIs de WebSocket son incómodas de depurar desde la terminal porque la conversación tiene estado. El patrón estándar que usamos:

Prueba de WebSocket en Apidog
  1. Guarda la URL de WebSocket con el token de portador precargado en un entorno.
  2. Prepara un script de mensajes JSON: session.update, input_audio_buffer.append (con un marco de audio de prueba), response.create.
  3. Reproduce el script contra una única conexión y captura cada evento del servidor en un árbol.
  4. Compara dos ejecuciones lado a lado cuando cambies la voz o las instrucciones; útil para detectar desviaciones en el comportamiento de toma de turnos.

Descarga Apidog, crea una nueva solicitud de WebSocket y pega tu XAI_API_KEY en las variables de entorno. La misma colección funciona para TTS y STT (que son REST simple), y puedes mantener ambas superficies bajo un mismo proyecto. Para más información sobre patrones de prueba de API con estado, consulta Herramienta de pruebas de API para ingenieros de QA.

Límites de la capa gratuita

La consola te da acceso completo sin cargo por minuto o por token para las propias funciones de voz. Los límites que sí existen son:

Si encuentras errores de límite de tasa, agrupa tus solicitudes o cambia a un nivel de pago; el comportamiento de la API no cambia, solo el límite.

Comparando voces

Ejecuta la misma línea a través de cada ajuste preestablecido antes de la implementación. Las voces interpretan el tono de manera diferente, y una lista de prueba corta detecta rápidamente las malas combinaciones:

La prueba agnóstica del modelo que ejecutamos internamente: pronuncia el mismo mensaje a tres velocidades (calma, normal, urgente) y escucha el cambio de inflexión. Las voces preestablecidas de Grok manejan esto mejor que la mayoría de los motores TTS que hemos probado, pero aún así querrás la auditoría antes de salir en vivo.

Preguntas Frecuentes

Conclusión

Grok Voice es la ruta gratuita más clara para un agente de voz en tiempo real en 2026. La consola no tiene cargo por minuto, la latencia es real y las Voces Personalizadas eliminan la fricción de licencias que impedía a la mayoría de los equipos lanzar funciones de voz. La forma más rápida de validar el modelo para tu caso de uso es programar una sesión en Apidog, ejecutarla con tres voces preestablecidas y escuchar.

Cuando estés listo para conectarlo al razonamiento de Grok 4.3, consulta la guía de la API de Grok 4.3. Para una comparación lado a lado con la pila de OpenAI, consulta Grok Voice vs GPT-Realtime.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs