xAI hat Grok Voice mit der Grok 4.3-Version ausgeliefert, und die Schlagzeile für Entwickler ist einfach: Es ist kostenlos in der xAI Console verfügbar. Keine Kosten pro Minute, keine Kosten pro Token, voller Zugriff auf das Sprachagentenmodell, die Text-to-Speech-Oberfläche, die Speech-to-Text-Oberfläche und das Custom Voices Klon-Tool. Die einzige abrechenbare Ressource ist die zugrunde liegende Grok 4.3 Token-Nutzung, wenn der Agent Überlegungen anstellt, und dafür gibt es eine eigene kostenlose Konsolen-Freigrenze zum Testen.
Dieser Leitfaden behandelt, wie Sie Grok Voice kostenlos zum Laufen bringen, einschließlich des Klonens Ihrer eigenen Stimme, wie die WebSocket-Sitzung aussieht und wie Sie den gesamten Ablauf mit Apidog testen, bevor Sie ihn in ein Produkt integrieren.
Wenn Sie auch den umfassenderen Grok 4.3 API-Leitfaden wünschen oder einen direkten Vergleich mit OpenAIs Stack in Grok Voice vs. GPT-Realtime, decken diese begleitenden Beiträge den Rest der Oberfläche ab.
Kurz gesagt
- Grok Voice ist für Benutzer auf der xAI Console (
console.x.ai) kostenlos; keine Gebühr pro Minute oder pro Token für TTS, STT, Sprachagenten oder benutzerdefinierte Stimmen. - Flaggschiff-Modell:
grok-voice-think-fast-1.0. Zeit bis zum ersten Audio unter 1 Sekunde; xAI behauptet, es sei ungefähr 5x schneller als der nächste Wettbewerber. - Über 80 voreingestellte Stimmen in 28 Sprachen; 5 integrierte Sprachagenten-Personas (Eve, Ara, Rex, Sal, Leo).
- Benutzerdefiniertes Stimmenklonen aus etwa 1 Minute Sprache; produktionsreife Stimme in unter 2 Minuten.
- WebSocket-Endpunkt:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0. - REST-Endpunkte für TTS, STT und Custom Voices teilen sich eine API-Oberfläche.
- Verwenden Sie Apidog, um die WebSocket-Sitzung zu skripten und ohne erneute Audioaufnahme wiederzugeben.
Was Grok Voice Ihnen kostenlos bietet
Die xAI Console ist der Weg zum kostenlosen Zugang. Melden Sie sich unter console.x.ai an, generieren Sie einen API-Schlüssel, und Sie können vier Oberflächen nutzen, ohne dass Kosten für die Sprachfunktionen selbst anfallen:

- Sprachagent (Echtzeit-Sprache-zu-Sprache). Das vollständige Konversationsmodell, mit Tool-Nutzung, serverseitiger Spracherkennungsaktivität und integrierter Turn-Taking-Funktion.
- Text-to-Speech. Über 80 voreingestellte Stimmen in 28 Sprachen, mit Ausgabe als MP3 oder μ-law für die Telefonie.
- Speech-to-Text. Streaming- und Batch-Transkription in 25 Eingabesprachen, mit Wortzeitstempeln und Sprechererkennung.
- Benutzerdefinierte Stimmen. Klonen Sie Ihre Stimme aus einer kurzen Stichprobe und verwenden Sie die resultierende
voice_idüber die TTS- und Sprachagenten-APIs hinweg.
Der einzige Zähler, der tickt, ist die Grok 4.3 Token-Nutzung, wenn der Agent eine Anfrage bearbeitet. Die Konsole gewährt Ihnen auch kostenlose Credits, um diese Oberfläche zu testen, was ausreicht, um End-to-End-Abläufe zu validieren, bevor eine Abrechnung beginnt.
Schritt 1: Konsolenschlüssel besorgen
Gehen Sie zu console.x.ai und melden Sie sich mit Ihrem X-Konto an. Erstellen Sie auf der Seite API-Schlüssel einen neuen Schlüssel mit aktivierten voice- und chat-Bereichen. Exportieren Sie ihn einmal und verwenden Sie ihn wieder:
export XAI_API_KEY="xai-..."
Für clientseitige Anwendungen, bei denen Sie den Schlüssel nicht versenden können, erstellen Sie ein ephemeres Token aus den Konsoleneinstellungen oder über den Endpunkt /v1/realtime/sessions. Ephemere Token haben den gleichen Umfang, laufen aber in Minuten ab, sodass Sie sie an einen Browser übergeben können, ohne den übergeordneten Schlüssel preiszugeben.
Schritt 2: Eine Stimme auswählen
Zwei Wege.
Voreingestellte Stimmen. Der Sprachagent wird mit fünf benannten Personas ausgeliefert:
- Eve: weiblich, energisch. Gut für positive Support-Abläufe.
- Ara: weiblich, warm. Standard für allgemeine Unterstützung.
- Rex: männlich, selbstbewusst. Gut für Verkaufsgespräche.
- Sal: neutral, sanft. Gut für Erzählungen und längere Lesungen.
- Leo: männlich, autoritär. Gut für Compliance und formale Abläufe.
Für die breitere TTS-API ist die voreingestellte Bibliothek viel größer; über 80 Stimmen in 28 Sprachen, alle mit einem voice-Parameter am TTS-Endpunkt aufrufbar.
Benutzerdefinierte Stimmklone. Laden Sie eine WAV-Datei mit etwa einer Minute sauberer Sprache von einem einzelnen Sprecher hoch. xAI gibt eine voice_id in unter zwei Minuten zurück, und dieselbe ID funktioniert sowohl für TTS als auch für den Sprachagenten.
curl https://api.x.ai/v1/custom-voices \
-H "Authorization: Bearer $XAI_API_KEY" \
-F "name=narrator-jane" \
-F "language=en" \
-F "audio=@sample.wav"
Die maximale Länge des Referenzclips beträgt 120 Sekunden, aber mehr ist nicht besser; sauberes, konsistentes Audio ist wichtiger als die Länge. Nehmen Sie in einem ruhigen Raum auf, in einem einzigen Durchgang, ohne Hintergrundmusik.
Schritt 3: Grok über WebSocket sprechen lassen
Der Sprachagent ist eine einzige WebSocket-Sitzung. Einmal öffnen, Audio hinein streamen, Audio heraus streamen. Ein minimaler Node.js-Client sieht so aus:
import WebSocket from "ws";
const ws = new WebSocket(
"wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0",
{ headers: { Authorization: `Bearer ${process.env.XAI_API_KEY}` } }
);
ws.on("open", () => {
ws.send(JSON.stringify({
type: "session.update",
session: {
voice: "ara",
instructions: "You are a friendly support agent. Keep replies under two sentences.",
input_audio_format: "pcm16",
output_audio_format: "pcm16",
turn_detection: { type: "server_vad" },
},
}));
});
ws.on("message", (raw) => {
const event = JSON.parse(raw.toString());
if (event.type === "response.audio.delta") {
process.stdout.write(Buffer.from(event.delta, "base64"));
}
});
Benutzeraudio wird in input_audio_buffer.append-Ereignissen als Base64 PCM16-Frames gesendet. Der Server sendet response.audio.delta-Ereignisse, während das Modell antwortet, und response.audio.done, wenn die Runde beendet ist. PCM16 bei 24 kHz ist der sichere Standard für Browser- und Desktop-Anwendungen; wechseln Sie zu μ-law, wenn Sie eine Verbindung zu Telefonsystemen herstellen.
Schritt 4: Werkzeugnutzung hinzufügen
Der Sprachagent unterstützt Funktionsaufrufe, sodass das Modell Ihre APIs mitten im Gespräch nutzen kann. Deklarieren Sie ein Werkzeug in der Sitzungskonfiguration:
ws.send(JSON.stringify({
type: "session.update",
session: {
tools: [{
type: "function",
name: "lookup_order",
description: "Look up the status of a customer order by order number.",
parameters: {
type: "object",
properties: { order_id: { type: "string" } },
required: ["order_id"],
},
}],
},
}));
Das Modell wird response.function_call_arguments.done ausgeben, wenn es das Tool aufrufen möchte. Führen Sie die Funktion auf Ihrer Seite aus und übermitteln Sie das Ergebnis dann mit einem conversation.item.create vom Typ function_call_output zurück. Das Modell setzt dort an, wo es aufgehört hat, und erzählt die Antwort.
Ein integriertes web_search-Tool ist von Anfang an verfügbar, was nützlich ist, um Antworten mit frischen Daten zu untermauern, ohne eine eigene Retrieval-Schicht schreiben zu müssen.
Schritt 5: TTS ohne Agenten verwenden
Wenn Sie nur Text-to-Speech benötigen (Audio-Prompts, App-Voiceover, Podcast-Intros), überspringen Sie den WebSocket und nutzen Sie den REST-Endpunkt:
curl https://api.x.ai/v1/tts \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-tts-1",
"voice": "ara",
"input": "Welcome back to your account. Your last login was Tuesday at 3pm.",
"format": "mp3"
}' \
--output greeting.mp3
Formatoptionen sind mp3 (High-Fidelity) und mulaw (8 kHz, Telefonie). Der Endpunkt ist synchron; Sie erhalten Bytes zurück, eine Streaming-Sitzung ist nicht erforderlich.
Schritt 6: Den gesamten Ablauf in Apidog testen
WebSocket-APIs sind vom Terminal aus schwierig zu debuggen, da die Konversation zustandsbehaftet ist. Das von uns verwendete Standardmuster:

- Speichern Sie die WebSocket-URL mit dem bereits ausgefüllten Bearer-Token in einer Umgebung.
- Stellen Sie ein Skript mit JSON-Nachrichten bereit:
session.update,input_audio_buffer.append(mit einem Fixture-Audioframe),response.create. - Spielen Sie das Skript gegen eine einzelne Verbindung ab und erfassen Sie jedes Serverereignis in einem Baum.
- Vergleichen Sie zwei Durchläufe nebeneinander, wenn Sie die Stimme oder die Anweisungen ändern; nützlich, um Abweichungen im Turn-Taking-Verhalten zu erkennen.
Laden Sie Apidog herunter, erstellen Sie eine neue WebSocket-Anfrage und fügen Sie Ihren XAI_API_KEY unter Umgebungsvariablen ein. Dieselbe Sammlung funktioniert für TTS und STT (die reine REST sind), und Sie können beide Oberflächen unter einem Projekt behalten. Weitere Informationen zu Mustern für zustandsbehaftete API-Tests finden Sie unter API-Test-Tool für QA-Ingenieure.
Limits des kostenlosen Tarifs
Die Konsole bietet Ihnen vollen Zugriff ohne Gebühren pro Minute oder pro Token für die Sprachfunktionen selbst. Die bestehenden Grenzen sind:
- Ratenbegrenzungen. Die Konsole erzwingt Anfragen-pro-Minute-Obergrenzen für jeden Endpunkt, um Missbrauch zu verhindern. Diese sind großzügig genug, um darauf aufzubauen und Demos zu erstellen; sie stellen jedoch keine Produktionsfreigabe dar.
- Kontingent für benutzerdefinierte Stimmen. Ein einzelnes Konto kann eine begrenzte Anzahl benutzerdefinierter Stimmklone gleichzeitig speichern. Sie können einen Slot freigeben, indem Sie einen löschen und neu erstellen.
- Reasoning-Tokens. Wenn der Sprachagent „nachdenkt“ (Grok 4.3 im Hintergrund), wird dies Ihrem Konsolen-Guthaben angerechnet. Das kostenlose Guthaben deckt das Prototyping ab; für die Produktion ist ein kostenpflichtiger Plan erforderlich.
Wenn Sie Ratenbegrenzungsfehler erhalten, fassen Sie Ihre Anfragen zusammen oder wechseln Sie zu einem kostenpflichtigen Tarif; das API-Verhalten ändert sich nicht, nur die Obergrenze.
Stimmen vergleichen
Führen Sie die gleiche Zeile durch jede Voreinstellung, bevor Sie live gehen. Stimmen interpretieren den Ton unterschiedlich, und eine kurze Testliste erkennt schlechte Kombinationen schnell:
- Eine zweiseitige Begrüßung.
- Eine Bestätigungsphrase („Verstanden, das ist alles erledigt“).
- Ein langer Satz mit einer Zahl, einem Datum und einem Komma.
Der modellunabhängige Test, den wir intern durchführen: Sprechen Sie denselben Prompt in drei Geschwindigkeiten (ruhig, normal, dringend) und achten Sie auf die Veränderung der Intonation. Groks voreingestellte Stimmen bewältigen dies besser als die meisten TTS-Engines, die wir getestet haben, aber Sie sollten die Überprüfung vor dem Live-Gang trotzdem durchführen.
FAQ
Ist die API tatsächlich kostenlos, oder gibt es eine versteckte Obergrenze?Die Sprachfunktionen (TTS, STT, Sprachagent, Custom Voices) sind in der Konsole ohne Gebühren pro Minute oder pro Token nutzbar. Das zugrunde liegende Reasoning-Modell wird über das Konsolenguthaben abgerechnet; die Konsolenfreigrenze reicht für das Prototyping aus.
Benötige ich ein X (Twitter) Konto?Ja. Für die Anmeldung an der Konsole wird ein X-Konto verwendet.
Kann ich Grok Voice über einen Browser verwenden?Ja, mit einem ephemeren Token. Prägen Sie es serverseitig über /v1/realtime/sessions, übergeben Sie das kurzlebige Token an den Browser und verbinden Sie den WebSocket direkt. Der übergeordnete Schlüssel verlässt niemals Ihren Server.
Welche Audioqualität kann ich erwarten?Die TTS-Ausgabe ist hochauflösendes MP3 oder 8 kHz μ-Law. Der Sprachagent verwendet intern PCM16 bei 24 kHz. Die Qualität ist vergleichbar mit den großen kommerziellen TTS-Engines; die Latenz ist das Unterscheidungsmerkmal.
Funktioniert es mit Telefonie?Ja. Die μ-law-Ausgabe ist das Standardformat für SIP- und PSTN-Brücken. Sie benötigen immer noch einen SIP-Anbieter; xAI bietet heute kein eigenes SIP-Gateway an.
Wie ist die Klonqualität im Vergleich zu anderen Tools?Die Klonqualität hängt mehr von der Referenz-Audioqualität als von der Länge ab. Eine saubere 60-Sekunden-Aufnahme in einem ruhigen Raum ist in unseren Tests besser als eine verrauschte 120-Sekunden-Aufnahme. Die resultierende voice_id ist sowohl über den TTS-Endpunkt als auch über den Sprachagenten ohne erneutes Klonen portierbar.
Kann ich Grok Voice für KI-Charaktere in einem Spiel verwenden?Ja. Der TTS-Endpunkt ist schnell genug für die Laufzeitgenerierung, und Custom Voices bedeutet, dass jeder Charakter seinen eigenen Klon haben kann. Achten Sie auf die Latenz bei langen Zeilen; chunked TTS ist das Muster.
Zusammenfassung
Grok Voice ist 2026 der sauberste kostenlose Weg zu einem Echtzeit-Sprachagenten. Die Konsole hat keine Gebühr pro Minute, die Latenz ist real, und Custom Voices beseitigt die Lizenzierungsprobleme, die die meisten Teams daran gehindert haben, Sprachfunktionen einzuführen. Der schnellste Weg, das Modell für Ihren Anwendungsfall zu validieren, besteht darin, eine Sitzung in Apidog zu skripten, sie mit drei voreingestellten Stimmen auszuführen und zuzuhören.
Wenn Sie bereit sind, es in die Grok 4.3 Reasoning-Engine zu integrieren, sehen Sie sich den Grok 4.3 API-Leitfaden an. Für einen Side-by-Side-Vergleich mit OpenAIs Stack siehe Grok Voice vs. GPT-Realtime.
