xAI lanzó Grok Voice con la versión Grok 4.3, y la noticia principal para los desarrolladores es sencilla: es gratis en la Consola xAI. Sin cargo por minuto, sin cargo por token, acceso completo al modelo de agente de voz, la superficie de texto a voz, la superficie de voz a texto y la herramienta de clonación de Voces Personalizadas. El único recurso facturable es el uso subyacente de tokens de Grok 4.3 cuando el agente razona, y eso tiene su propia asignación gratuita en la consola para pruebas.
Esta guía cubre cómo poner en marcha Grok Voice sin costo, incluyendo cómo clonar tu propia voz, cómo se ve la sesión de WebSocket y cómo probar todo el flujo con Apidog antes de integrarlo en un producto.
Si también quieres la guía de la API de Grok 4.3 más amplia, o una comparación directa contra la pila de OpenAI en Grok Voice vs GPT-Realtime, esas publicaciones complementarias cubren el resto de la superficie.
En resumen
- Grok Voice es gratis para los usuarios en la Consola xAI (
console.x.ai); no hay cargo por minuto ni por token para TTS, STT, agente de voz o Voces Personalizadas. - Modelo insignia:
grok-voice-think-fast-1.0. Tiempo hasta el primer audio en menos de 1 segundo; xAI afirma que es aproximadamente 5 veces más rápido que el competidor más cercano. - Más de 80 voces preestablecidas en 28 idiomas; 5 personas de agente de voz incorporadas (Eve, Ara, Rex, Sal, Leo).
- Clonación de voz personalizada a partir de aproximadamente 1 minuto de habla; voz lista para producción en menos de 2 minutos.
- Endpoint de WebSocket:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - Los endpoints REST para TTS, STT y Voces Personalizadas comparten una única superficie de API.
- Usa Apidog para programar la sesión de WebSocket y reproducirla sin volver a grabar audio.
Lo que Grok Voice te ofrece gratis
La Consola xAI es el camino hacia el acceso gratuito. Inicia sesión en console.x.ai, genera una clave de API y podrás llamar a cuatro superficies sin cargos asociados a las propias funciones de voz:

- Agente de Voz (habla a habla en tiempo real). El modelo conversacional completo, con uso de herramientas, detección de actividad de voz del lado del servidor y gestión de turnos incorporados.
- Texto a Voz. Más de 80 voces preestablecidas en 28 idiomas, con salida en MP3 o μ-law para telefonía.
- Voz a Texto. Transcripción en streaming y por lotes en 25 idiomas de entrada, con marcas de tiempo a nivel de palabra y diarización de hablantes.
- Voces Personalizadas. Clona tu voz a partir de una muestra corta y usa el
voice_idresultante en las APIs de TTS y agente de voz.
El único medidor que se activa es el uso de tokens de Grok 4.3 cuando el agente razona sobre una solicitud. La consola te otorga crédito gratuito para probar esa superficie también, lo cual es suficiente para validar flujos de extremo a extremo antes de que se inicie cualquier facturación.
Paso 1: Obtén una clave de consola
Ve a console.x.ai e inicia sesión con tu cuenta de X. Desde la página API Keys (Claves de API), crea una nueva clave con los alcances voice y chat habilitados. Exórtala una vez y reutilízala:
export XAI_API_KEY="xai-..."
Para aplicaciones del lado del cliente donde no puedes enviar la clave, genera un token efímero desde la configuración de la consola o a través del endpoint /v1/realtime/sessions. Los tokens efímeros tienen el mismo alcance pero expiran en minutos, por lo que puedes entregarlos a un navegador sin filtrar la clave principal.
Paso 2: Elige una voz
Dos caminos.
Voces preestablecidas. El agente de voz viene con cinco personajes nombrados:
- Eve: femenina, enérgica. Buena para flujos de soporte optimistas.
- Ara: femenina, cálida. Predeterminada para asistencia general.
- Rex: masculino, seguro. Bueno para guiones de ventas.
- Sal: neutral, suave. Bueno para narración y lecturas largas.
- Leo: masculino, autoritario. Bueno para cumplimiento y flujos formales.
Para la API de TTS más amplia, la biblioteca preestablecida es mucho mayor; más de 80 voces que abarcan 28 idiomas, todas invocables con un parámetro voice en el endpoint de TTS.
Clonación de voces personalizadas. Sube un archivo WAV de aproximadamente un minuto de habla limpia de un solo hablante. xAI devuelve un voice_id en menos de dos minutos, y el mismo ID funciona tanto para TTS como para el agente de voz.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
La duración máxima del clip de referencia es de 120 segundos, pero más no es mejor; el audio limpio y consistente importa más que la duración. Graba en una habitación tranquila, en una sola toma, sin fondo musical.
Paso 3: Haz que Grok hable a través de WebSocket
El agente de voz es una única sesión de WebSocket. Ábrela una vez, transmite audio de entrada, transmite audio de salida. Un cliente Node.js mínimo se ve así:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
El audio del usuario se envía en eventos input_audio_buffer.append como tramas PCM16 en base64. El servidor emite eventos response.audio.delta a medida que el modelo responde, y response.audio.done cuando el turno se cierra. PCM16 a 24 kHz es el valor predeterminado seguro para aplicaciones de navegador y escritorio; cambia a μ-law cuando conectes a sistemas telefónicos.
Paso 4: Añadir uso de herramientas
El agente de voz soporta la invocación de funciones, por lo que el modelo puede acceder a tus APIs en medio de una conversación. Declara una herramienta en la configuración de la sesión:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
El modelo emitirá response.function_call_arguments.done cuando quiera invocar la herramienta. Ejecuta la función de tu lado, luego envía el resultado de vuelta con un conversation.item.create de tipo function_call_output. El modelo retoma donde lo dejó y narra la respuesta.
Una herramienta web_search incorporada viene de serie, lo cual es útil para basar las respuestas en datos frescos sin necesidad de escribir tu propia capa de recuperación.
Paso 5: Usa TTS sin el agente
Si solo necesitas texto a voz (indicaciones de audio, voz en off de aplicaciones, introducciones de podcast), omite el WebSocket y usa el endpoint REST:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Las opciones de formato son mp3 (alta fidelidad) y mulaw (8 kHz, telefonía). El endpoint es síncrono; recibes bytes de vuelta, no se necesita una sesión de streaming.
Paso 6: Prueba todo el flujo en Apidog
Las APIs de WebSocket son incómodas de depurar desde la terminal porque la conversación tiene estado. El patrón estándar que usamos:

- Guarda la URL de WebSocket con el token de portador precargado en un entorno.
- Prepara un script de mensajes JSON:
session.update,input_audio_buffer.append(con un marco de audio de prueba),response.create. - Reproduce el script contra una única conexión y captura cada evento del servidor en un árbol.
- Compara dos ejecuciones lado a lado cuando cambies la voz o las instrucciones; útil para detectar desviaciones en el comportamiento de toma de turnos.
Descarga Apidog, crea una nueva solicitud de WebSocket y pega tu XAI_API_KEY en las variables de entorno. La misma colección funciona para TTS y STT (que son REST simple), y puedes mantener ambas superficies bajo un mismo proyecto. Para más información sobre patrones de prueba de API con estado, consulta Herramienta de pruebas de API para ingenieros de QA.
Límites de la capa gratuita
La consola te da acceso completo sin cargo por minuto o por token para las propias funciones de voz. Los límites que sí existen son:
- Límites de tasa. La consola impone límites de solicitudes por minuto en cada endpoint para prevenir abusos. Son lo suficientemente generosos para construir y hacer demostraciones; no son una asignación para producción.
- Cuota de voces personalizadas. Una sola cuenta puede contener un número finito de clones de voz personalizados a la vez. Puedes eliminar y recrear para liberar un espacio.
- Tokens de razonamiento. Cuando el agente de voz piensa (Grok 4.3 subyacente), se factura contra tu crédito de consola. El crédito gratuito cubre la creación de prototipos; la producción requerirá un plan de pago.
Si encuentras errores de límite de tasa, agrupa tus solicitudes o cambia a un nivel de pago; el comportamiento de la API no cambia, solo el límite.
Comparando voces
Ejecuta la misma línea a través de cada ajuste preestablecido antes de la implementación. Las voces interpretan el tono de manera diferente, y una lista de prueba corta detecta rápidamente las malas combinaciones:
- Un saludo de dos frases.
- Una frase de confirmación (“Entendido, todo listo”).
- Una frase larga con un número, una fecha y una coma.
La prueba agnóstica del modelo que ejecutamos internamente: pronuncia el mismo mensaje a tres velocidades (calma, normal, urgente) y escucha el cambio de inflexión. Las voces preestablecidas de Grok manejan esto mejor que la mayoría de los motores TTS que hemos probado, pero aún así querrás la auditoría antes de salir en vivo.
Preguntas Frecuentes
- ¿Es la API realmente gratuita, o hay un límite oculto?Las funciones de voz (TTS, STT, agente de voz, Voces Personalizadas) no conllevan ningún cargo por minuto o por token en la consola. El modelo de razonamiento subyacente se factura contra el crédito de la consola; la asignación de la consola es suficiente para la creación de prototipos.
- ¿Necesito una cuenta de X (Twitter)?Sí. El inicio de sesión en la consola utiliza una cuenta de X.
- ¿Puedo usar Grok Voice desde un navegador?Sí, con un token efímero. Genera uno en el lado del servidor a través de
/v1/realtime/sessions, entrega el token de corta duración al navegador y conecta el WebSocket directamente. La clave principal nunca sale de tu servidor. - ¿Qué calidad de audio puedo esperar?La salida de TTS es MP3 de alta fidelidad o μ-law de 8 kHz. El agente de voz ejecuta PCM16 a 24 kHz internamente. La calidad está a la par con los principales motores comerciales de TTS; la latencia es el diferenciador.
- ¿Funciona con telefonía?Sí. La salida μ-law es el formato estándar para puentes SIP y PSTN. Aún necesitas un proveedor SIP; xAI no ofrece su propia pasarela SIP hoy en día.
- ¿Cómo se compara la calidad de clonación con otras herramientas?La calidad de clonación se escala más con la calidad del audio de referencia que con la duración. Una muestra limpia de 60 segundos en una habitación tranquila supera a una muestra ruidosa de 120 segundos en nuestras pruebas. El
voice_idresultante es portátil a través del endpoint TTS y el agente de voz sin necesidad de volver a clonar. - ¿Puedo usar Grok Voice para personajes de IA en un juego?Sí. El endpoint TTS es lo suficientemente rápido para la generación en tiempo de ejecución, y las Voces Personalizadas significan que cada personaje puede tener su propio clon. Ten en cuenta la latencia en líneas largas; el TTS por fragmentos es el patrón.
Conclusión
Grok Voice es la ruta gratuita más clara para un agente de voz en tiempo real en 2026. La consola no tiene cargo por minuto, la latencia es real y las Voces Personalizadas eliminan la fricción de licencias que impedía a la mayoría de los equipos lanzar funciones de voz. La forma más rápida de validar el modelo para tu caso de uso es programar una sesión en Apidog, ejecutarla con tres voces preestablecidas y escuchar.
Cuando estés listo para conectarlo al razonamiento de Grok 4.3, consulta la guía de la API de Grok 4.3. Para una comparación lado a lado con la pila de OpenAI, consulta Grok Voice vs GPT-Realtime.
