Grok Text zu Video API nutzen: Vollständige Anleitung

Ashley Innocent

Ashley Innocent

3 April 2026

Grok Text zu Video API nutzen: Vollständige Anleitung

Apidog für Unternehmen

On-Premises-Bereitstellung

SSO & RBAC

SOC 2 konform

Apidog Enterprise entdecken

Kurz gesagt

Die Grok Text-zu-Video API generiert Videos aus einer Textaufforderung. Sie rufen POST /v1/videos/generations auf, erhalten sofort eine request_id zurück und fragen dann GET /v1/videos/{request_id} ab, bis der Status "done" ist. Das Modell ist grok-imagine-video, die Preise beginnen bei 0,05 $ pro Sekunde bei 480p. Das xAI Python SDK übernimmt das Polling automatisch.

Einleitung

xAI generierte allein im Januar 2026 1,2 Milliarden Videos. Dies war der erste Monat nach der Einführung der Grok Text-zu-Video API am 28. Januar 2026. Das Modell belegte im selben Monat auch den ersten Platz in der Text-zu-Video-Bestenliste von Artificial Analysis. Diese Zahlen sind wichtig, da sie zeigen, dass die Infrastruktur in großem Maßstab bewährt ist.

Dieser Leitfaden führt Sie durch jeden Schritt: Ihre erste Anfrage stellen, das Ergebnis abfragen, Parameter optimieren und bessere Prompts schreiben. Sie erfahren auch, wie Sie Referenzbilder verwenden, bestehende Videos erweitern oder bearbeiten und verstehen, wann Text-zu-Video die richtige Wahl ist.

💡
Die API ist asynchron. Das bedeutet, Ihr Frontend kann nicht warten, bis das Video fertig ist, bevor es etwas rendert. Wenn Sie eine Benutzeroberfläche zur Videoerstellung entwickeln, benötigen Sie eine Möglichkeit, den Polling-Workflow zu entwickeln, ohne bei jedem Testlauf Credits auszugeben. Apidogs Smart Mock ermöglicht es Ihnen, sowohl den Generierungs-Endpunkt als auch den Abfrage-Endpunkt zu simulieren. Ihr Team kann die Video-Player-Benutzeroberfläche entwickeln, während das Backend noch in Arbeit ist. Laden Sie Apidog kostenlos herunter, um dem Testabschnitt später in diesem Leitfaden zu folgen.

button

Was ist die Grok Text-zu-Video API?

Die Grok Text-zu-Video API ist Teil der Mediengenerierungs-Suite von xAI unter https://api.x.ai. Sie senden eine Textaufforderung und das Modell grok-imagine-video generiert einen kurzen Videoclip von Grund auf neu. Es ist kein Quellbild erforderlich.

Die API befindet sich neben einem synchronen Bildgenerierungs-Endpunkt (POST /v1/images/generations, Modell grok-imagine-image, 0,02 $ pro Bild). Sie enthält auch Endpunkte zum Erweitern oder Bearbeiten von Videos.

Der Text-zu-Video-Endpunkt unterscheidet sich grundlegend vom Bild-zu-Video-Endpunkt: Sie liefern nur Worte. Das Modell erstellt die Szene, Bewegung und den visuellen Stil vollständig aus Ihrer Beschreibung. Im Grok Bild-zu-Video API Leitfaden erfahren Sie, wie Sie ein Quellbild verwenden, wenn das Modell dieses stattdessen animieren soll.

Wie die Text-zu-Video-Generierung funktioniert (das asynchrone Muster einfach erklärt)

Die meisten API-Aufrufe sind synchron. Sie senden eine Anfrage, warten einen Moment und erhalten Ihre Antwort. Die Videogenerierung dauert Sekunden bis Minuten, daher verwendet die API stattdessen ein asynchrones Muster.

So funktioniert der Ablauf:

  1. Sie senden eine POST-Anfrage mit Ihrem Prompt.
  2. Die API gibt sofort (in weniger als einer Sekunde) eine request_id zurück.
  3. Das Video wird auf den Servern von xAI generiert.
  4. Sie fragen einen GET-Endpunkt mit dieser request_id wiederholt ab.
  5. Wenn sich der Status von "processing" zu "done" ändert, enthält die Antwort eine Video-URL.

Dieses Muster ist in AI-Medien-APIs üblich. Es hält Ihre HTTP-Verbindungen kurz und ermöglicht Ihnen, den Fortschritt in Ihrem eigenen Tempo zu überprüfen. Der knifflige Teil ist, dass Ihr Frontend den Zwischenzustand verarbeiten muss, indem es eine Ladeanzeige anzeigt, bis die Video-URL eintrifft.

Voraussetzungen

Bevor Sie Code schreiben, benötigen Sie zwei Dinge:

Ein xAI-Konto. Erstellen Sie eines unter console.x.ai. Dort müssen Sie auch die Abrechnung einrichten, bevor Ihr API-Schlüssel Generierungszugriff hat.

Ein API-Schlüssel. Navigieren Sie in der xAI-Konsole zu API Keys und erstellen Sie einen neuen Schlüssel. Kopieren Sie ihn an einen sicheren Ort. Sie übergeben ihn als Bearer-Token in jedem Anfrage-Header.

Legen Sie ihn als Umgebungsvariable fest, damit Sie ihn nicht festkodieren:

export XAI_API_KEY="your_api_key_here"

Installieren Sie optional das xAI Python SDK für die einfachste Integration:

pip install xai-sdk

Ihre erste Text-zu-Video-Anfrage

Der Endpunkt ist POST https://api.x.ai/v1/videos/generations. Die einzigen erforderlichen Felder sind model und prompt.

Verwendung von curl

curl -X POST https://api.x.ai/v1/videos/generations \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-video",
    "prompt": "A golden retriever running through autumn leaves in slow motion, cinematic lighting"
  }'

Die Antwort kommt sofort zurück:

{
  "request_id": "d97415a1-5796-b7ec-379f-4e6819e08fdf"
}

Diese UUID ist Ihr "Ticket", um das Video abzurufen, sobald es fertig ist.

Verwendung von Python mit der requests-Bibliothek

import requests
import os

API_KEY = os.environ["XAI_API_KEY"]
BASE_URL = "https://api.x.ai"

headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

payload = {
    "model": "grok-imagine-video",
    "prompt": "A golden retriever running through autumn leaves in slow motion, cinematic lighting"
}

response = requests.post(
    f"{BASE_URL}/v1/videos/generations",
    headers=headers,
    json=payload
)

data = response.json()
request_id = data["request_id"]
print(f"Generation started. Request ID: {request_id}")

Abfragen des Videoergebnisses

Sobald Sie eine request_id haben, fragen Sie GET /v1/videos/{request_id} ab, bis das Statusfeld "done" ist.

Das Statusfeld hat drei mögliche Werte: - "processing": wird noch generiert - "done": abgeschlossen, Video-URL ist verfügbar - "failed": etwas ist schiefgelaufen

Hier ist eine vollständige Python-Abfrageschleife:

import requests
import time
import os

API_KEY = os.environ["XAI_API_KEY"]
BASE_URL = "https://api.x.ai"

headers = {
    "Authorization": f"Bearer {API_KEY}"
}

def poll_video(request_id: str, interval: int = 5, max_attempts: int = 60) -> dict:
    """Poll until video generation is complete."""
    url = f"{BASE_URL}/v1/videos/{request_id}"

    for attempt in range(max_attempts):
        response = requests.get(url, headers=headers)
        data = response.json()

        status = data.get("status")
        progress = data.get("progress", 0)
        print(f"Attempt {attempt + 1}: status={status}, progress={progress}%")

        if status == "done":
            return data
        elif status == "failed":
            raise RuntimeError(f"Video generation failed: {data}")

        time.sleep(interval)

    raise TimeoutError(f"Video not ready after {max_attempts} attempts")


# Full workflow: generate then poll
def generate_video(prompt: str) -> str:
    """Generate a video and return its URL."""
    response = requests.post(
        f"{BASE_URL}/v1/videos/generations",
        headers={**headers, "Content-Type": "application/json"},
        json={"model": "grok-imagine-video", "prompt": prompt}
    )
    request_id = response.json()["request_id"]
    print(f"Request ID: {request_id}")

    result = poll_video(request_id)
    video_url = result["video"]["url"]
    print(f"Video ready: {video_url}")
    return video_url


video_url = generate_video(
    "A timelapse of a city skyline at sunset transitioning to night, aerial view"
)

Nach Abschluss sieht die vollständige Abfrageantwort so aus:

{
  "status": "done",
  "video": {
    "url": "https://vidgen.x.ai/....mp4",
    "duration": 8,
    "respect_moderation": true
  },
  "progress": 100,
  "usage": {
    "cost_in_usd_ticks": 500000000
  }
}

Verwendung des xAI Python SDK

Wenn Sie das manuelle Polling lieber überspringen möchten, übernimmt das xAI SDK dies für Sie. Die Methode client.video.generate() blockiert, bis das Video fertig ist.

from xai_sdk import Client
import os

client = Client(api_key=os.environ["XAI_API_KEY"])

result = client.video.generate(
    model="grok-imagine-video",
    prompt="A golden retriever running through autumn leaves in slow motion",
    duration=8,
    resolution="720p",
    aspect_ratio="16:9"
)

print(f"Video URL: {result.video.url}")
print(f"Duration: {result.video.duration}s")

Das SDK ist der schnellste Weg zu funktionierendem Code. Verwenden Sie den Ansatz mit rohen Anfragen, wenn Sie mehr Kontrolle über die Wiederholungslogik, Fortschrittsaktualisierungen oder benutzerdefinierte Abfrageintervalle benötigen.

Effektive Prompts für die Videogenerierung schreiben

Ihr Prompt ist die wichtigste Eingabe. Ein detaillierter, strukturierter Prompt liefert weitaus bessere Ergebnisse als ein vager.

Szenenbeschreibung

Beschreiben Sie das Motiv und die Umgebung zusammen. Seien Sie spezifisch, was sichtbar ist. "Eine weiße Keramik-Kaffeetasse auf einem Holztisch neben einem regennassen Fenster" erzeugt eine realistischere Szene als "eine Kaffeetasse".

Bewegung

Sagen Sie dem Modell, was sich wie bewegt. "Die Kamera umkreist langsam die Tasse, während Dampf nach oben steigt" fügt Bewegung mit klarer Richtung hinzu. Ohne explizite Bewegungshinweise kann das Modell minimale oder ruckartige Bewegungen erzeugen.

Kamerastil

Verwenden Sie Kameraterminologie, die Sie einem Kameramann geben würden: "Nahaufnahme", "Verfolgungsfahrt", "Drohnenaufnahme von oben", "Handkamera", "Dolly-Zoom". Diese Hinweise werden zuverlässig in das generierte Filmmaterial übersetzt.

Beleuchtung und Stimmung

"Goldene Stunde", "bewölkt", "Neonbeleuchtung" und "Studio-Dreipunktbeleuchtung" erzeugen alle unterschiedliche Looks. Kombinieren Sie Beleuchtung mit Stimmung: "nebliger Morgen, melancholische Atmosphäre" gibt dem Modell tonale Führung jenseits der Farbtemperatur.

Stilreferenzen

Nennen Sie einen visuellen Stil, wenn Sie einen im Sinn haben: "kinematisch", "dokumentarisch", "Anime", "Stop-Motion", "Hyperlapse". Die Kombination von zwei Stilen führt oft zu interessanten Ergebnissen.

Funktionierende Prompt-Struktur

Beginnen Sie mit dem Motiv, fügen Sie Bewegung hinzu, beschreiben Sie die Kamera, schließen Sie mit Stil und Stimmung ab. So zum Beispiel:

A lone astronaut floats past the International Space Station,
tether drifting behind them. The camera tracks slowly
alongside, showing Earth below. Cinematic, IMAX quality,
warm sunrise light reflecting off the visor.

Auflösung, Dauer und Seitenverhältnis steuern

Der Generierungs-Endpunkt akzeptiert mehrere optionale Parameter, mit denen Sie die Ausgabedimensionen, Länge und Qualität steuern können.

Dauer

"duration": 10

Bereich: 1 bis 15 Sekunden. Standard ist 6 Sekunden. Längere Videos kosten mehr. Ein 10-sekündiger Clip bei 480p kostet 0,50 $.

Auflösung

"resolution": "720p"

Zwei Optionen: "480p" (Standard) und "720p". Verwenden Sie 480p für Prototypen und Tests. Verwenden Sie 720p für die Produktionsausgabe, wo Qualität wichtig ist.

Seitenverhältnis

"aspect_ratio": "9:16"

Verfügbare Seitenverhältnisse:

Verhältnis Am besten für
16:9 Desktop, YouTube, Präsentationen (Standard)
9:16 TikTok, Instagram Reels, Mobil
1:1 Instagram Feed, Social Cards
4:3 Klassisches Video, Präsentationen
3:4 Porträt-Mobilinhalte
3:2 Standard-Fotoformat
2:3 Porträtfotografie

Vollständiges Beispiel mit allen Parametern

curl -X POST https://api.x.ai/v1/videos/generations \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-video",
    "prompt": "A coastal town at dawn, waves breaking gently on a rocky shore",
    "duration": 10,
    "resolution": "720p",
    "aspect_ratio": "16:9"
  }'

Referenzbilder zur Steuerung des Videostils verwenden

Der Parameter reference_images akzeptiert ein Array von bis zu 7 Bild-URLs. Diese Bilder leiten den visuellen Stil und Inhalt des generierten Videos, ohne selbst zum Motiv zu werden.

{
  "model": "grok-imagine-video",
  "prompt": "A coastal town at dawn, waves breaking gently on a rocky shore",
  "reference_images": [
    {"url": "https://example.com/my-style-reference.jpg"},
    {"url": "https://example.com/color-palette-reference.jpg"}
  ]
}

Referenzbilder funktionieren am besten, wenn sie eine konsistente Ästhetik aufweisen. Wenn Sie drei Bilder mit unterschiedlichen visuellen Stilen bereitstellen, versucht das Modell, diese zu vereinbaren, und die Ausgabe kann inkonsistent aussehen. Verwenden Sie eine eng abgestimmte Auswahl von Bildern mit einem einheitlichen Look für die stärkste Führung.

Referenzbilder unterscheiden sich vom Bild-zu-Video-Endpunkt. Bei Referenzbildern steuert Ihr Prompt immer noch die Szene. Die Bilder beeinflussen die Farbkorrektur, den Kompositionsstil und die visuelle Textur. Bei Bild-zu-Video wird das Quellbild zum ersten Frame.

Generierte Videos erweitern und bearbeiten

xAI bietet zwei zusätzliche Endpunkte für die Arbeit mit bereits generierten Videos.

Ein Video erweitern

POST /v1/videos/extensions fügt einem bestehenden generierten Video weiteres Material hinzu. Sie übergeben die request_id des Originalvideos und einen neuen Prompt für die Erweiterung. Dies ist nützlich, um längere Sequenzen zu erstellen, ohne die 15-Sekunden-Grenze in einem einzigen Aufruf zu überschreiten.

Ein Video bearbeiten

POST /v1/videos/edits modifiziert ein bestehendes Video basierend auf einer Textanweisung. Sie können den Stil ändern, die Szene anpassen oder Effekte auf einen bereits generierten Clip anwenden.

Beide Endpunkte folgen dem gleichen asynchronen Muster wie der Hauptgenerierungs-Endpunkt. Sie geben eine request_id zurück und Sie fragen GET /v1/videos/{request_id} nach dem Ergebnis ab.

Kosten aus der API-Antwort lesen

Die vollständige Abfrageantwort enthält ein usage-Objekt:

"usage": {
  "cost_in_usd_ticks": 500000000
}

Die Einheit sind USD-Ticks. Teilen Sie durch 10.000.000, um in Dollar umzurechnen.

cost_in_usd = result["usage"]["cost_in_usd_ticks"] / 10_000_000
print(f"Cost: ${cost_in_usd:.4f}")
# Output: Cost: $0.0500

Preisreferenz

Auflösung Preis pro Sekunde 10-Sekunden-Clip
480p 0,05 $ 0,50 $
720p 0,07 $ 0,70 $

Ein Wert von 500000000 Ticks entspricht 0,50 $. Das ist ein 10-sekündiger Clip bei 480p.

Verfolgen Sie Ihre Kosten, indem Sie cost_in_usd_ticks aus jeder vollständigen Antwort protokollieren. Dies ermöglicht Ihnen, Nutzungs-Dashboards zu erstellen, ohne die xAI-Abrechnungs-API separat aufrufen zu müssen.

So testen Sie Ihre Grok Video-API mit Apidog

Das asynchrone Abfragemuster stellt eine besondere Testherausforderung dar. Ihr Frontend-Code muss drei Zustände verarbeiten: Laden (während des Abfragens), Erfolg (Video-URL erhalten) und Fehler. Sie können nicht alle drei Zustände testen, indem Sie echte API-Aufrufe tätigen, da jeder Aufruf Zeit und Geld kostet. Hier löst Apidogs Smart Mock-Funktion das Problem direkt.

Anwendungsfall 1: Smart Mock für die Frontend-Entwicklung

Mit Apidogs Smart Mock definieren Sie das Schema für beide Endpunkte, und Apidog liefert sofort realistische gefälschte Antworten.

Den Generierungs-Endpunkt simulieren:

Erstellen Sie in Apidog den Endpunkt POST /v1/videos/generations in Ihrem Projekt. Definieren Sie das Antwortschema mit einem einzelnen String-Feld request_id. Smart Mock gibt automatisch eine gefälschte UUID basierend auf dem Feldnamenmuster zurück.

Ihre simulierte Antwort:

{
  "request_id": "d97415a1-5796-b7ec-379f-4e6819e08fdf"
}

Den Abfrage-Endpunkt simulieren:

Erstellen Sie GET /v1/videos/{request_id} in Apidog. Definieren Sie das vollständige Antwortschema einschließlich status, video.url, video.duration, progress und usage.cost_in_usd_ticks. Legen Sie eine benutzerdefinierte Mock-Antwort fest, die "status": "done" mit einer Platzhalter-MP4-URL zurückgibt.

Ihre simulierte Abfrageantwort:

{
  "status": "done",
  "video": {
    "url": "https://vidgen.x.ai/mock-video-12345.mp4",
    "duration": 8,
    "respect_moderation": true
  },
  "progress": 100,
  "usage": {
    "cost_in_usd_ticks": 400000000
  }
}

Frontend-Entwickler können nun die gesamte Video-Player-Benutzeroberfläche gegen diesen Mock-Server erstellen und testen. Sie sehen den Ladezustand, den Fertig-Zustand und können den Fehlerzustand auslösen, indem sie den Mock so ändern, dass er "status": "failed" zurückgibt. Während der Entwicklung werden keine echten API-Credits ausgegeben.

Anwendungsfall 2: Testszenarien für die Abfrageschleife

Sobald Ihre Integration erstellt ist, verwenden Sie Apidogs Testszenarien, um den vollständigen Generierungs- und Abfragefluss automatisch zu validieren.

Schritt 1: Generierungsanfrage hinzufügen. Fügen Sie POST /v1/videos/generations als ersten Schritt in Ihrem Testszenario hinzu. Fügen Sie im Post-Prozessor eine Extract Variable hinzu, um die request_id aus dem Antwortkörper mit dem JSONPath-Ausdruck $.request_id zu erfassen. Speichern Sie sie in einer Variablen namens videoRequestId.

Schritt 2: Eine Abfrageschleife hinzufügen. Fügen Sie GET /v1/videos/{{videoRequestId}} als zweiten Schritt hinzu. Umschließen Sie es mit einer For-Schleife mit einer Abbruchbedingung: response.body.status == "done". Fügen Sie einen Warte-Prozessor von 5 Sekunden zwischen den Iterationen hinzu, um eine Überlastung des Ratenlimits zu vermeiden.

Schritt 3: Das Ergebnis bestätigen. Nachdem die Schleife beendet ist, fügen Sie dem letzten GET-Request einen Assertions-Prozessor hinzu. Bestätigen Sie, dass $.video.url nicht leer ist. Dies bestätigt, dass der vollständige Zyklus erfolgreich abgeschlossen wurde.

Dieses Testszenario bietet Ihnen eine wiederholbare, automatisierte Abdeckung des asynchronen Ablaufs. Führen Sie es in CI aus, um Regressionen abzufangen, wenn sich Ihre Abfragelogik ändert.

Text-zu-Video vs. Bild-zu-Video: Wann man was verwenden sollte

Beide Modi verwenden dasselbe Modell grok-imagine-video, dienen aber unterschiedlichen Zwecken.

Wählen Sie Text-zu-Video, wenn:- Sie originelle Inhalte aus einem Konzept oder Skript generieren - Sie möchten, dass das Modell die volle kreative Kontrolle über die Komposition hat - Sie ein Tool zur Inhaltserstellung entwickeln, bei dem Benutzer Prompts eingeben - Sie kein Quellbild zum Starten haben

Wählen Sie Bild-zu-Video, wenn:- Sie ein Produktfoto, eine Illustration oder ein Markenasset animieren möchten - Sie spezifische visuelle Details eines bestehenden Bildes beibehalten müssen - Sie konsistente Animationen aus einer Reihe verwandter Bilder erstellen - Sie Ihre eigenen Kunstwerke oder Fotos animieren möchten

Der Hauptunterschied: Text-zu-Video erstellt eine Szene von Grund auf neu. Bild-zu-Video bringt ein bestehendes Bild in Bewegung. Eine vollständige Anleitung zum Bild-zu-Video-Ansatz finden Sie im Grok Bild-zu-Video API Leitfaden.

Für Teams, die Produkte entwickeln, die beide Modi anbieten, können Sie den Eingabetyp zur Laufzeit erkennen. Wenn der Benutzer ein Bild hochlädt, leiten Sie zu POST /v1/images/generations (Bild-zu-Video) weiter. Wenn er nur einen Prompt eingibt, leiten Sie zu POST /v1/videos/generations weiter.

Häufige Fehler und wie man sie behebt

401 Nicht autorisiertIhr API-Schlüssel fehlt, ist abgelaufen oder falsch formatiert. Überprüfen Sie, ob der Authorization-Header exakt Bearer YOUR_XAI_API_KEY ist, ohne zusätzliche Leerzeichen. Bestätigen Sie, dass der Schlüssel in der xAI-Konsole aktiv ist.

429 Zu viele AnfragenSie haben ein Ratenlimit erreicht. Die API erlaubt 60 Anfragen pro Minute und 1 Anfrage pro Sekunde. Fügen Sie eine Verzögerung zwischen den Anfragen ein. Wenn Sie abfragen, lassen Sie zwischen Ihren Aufrufen mindestens 5 Sekunden Abstand.

status: "failed" in AbfrageantwortDie Generierung ist fehlgeschlagen. Dies bedeutet in der Regel, dass der Prompt von der Inhaltsmoderation abgelehnt wurde. Das Feld respect_moderation in der Abfrageantwort zeigt an, dass Moderation angewendet wurde. Überarbeiten Sie Ihren Prompt, um ihn weniger mehrdeutig zu gestalten oder potenziell sensible Sprache zu entfernen.

Video-URL gibt 404 zurückGenerierte Video-URLs verfallen nach einer bestimmten Zeit. Laden Sie das Video sofort nach dem Abrufen der URL in Ihren eigenen Speicher herunter. Speichern Sie die URL nicht und verlassen Sie sich nicht darauf, dass sie Tage später noch verfügbar ist.

Leeres oder eingefrorenes VideoVage Prompts oder Prompts ohne Bewegungshinweise erzeugen manchmal Videos mit minimaler Bewegung. Fügen Sie Ihrem Prompt explizite Bewegungssprache hinzu: beschreiben Sie, was sich bewegt, in welche Richtung und mit welcher Geschwindigkeit.

Lange Abfragezeiten720p-Videos brauchen länger zur Generierung als 480p. Längere Dauern benötigen ebenfalls mehr Zeit. Für Entwicklung und Prototyping verwenden Sie "resolution": "480p" und kurze Dauern, um den Iterationszyklus zu beschleunigen.

Fazit

Die Grok Text-zu-Video API bietet Ihnen einen unkomplizierten Weg von Text zu Video. Sie senden einen Prompt, erhalten eine request_id, fragen ab, bis es fertig ist, und rufen Ihr MP4 ab. Das asynchrone Muster ist das Schlüsselkonzept, das es zu verstehen gilt. Sobald die Abfrageschleife funktioniert, sind die restlichen Parameter (Dauer, Auflösung, Seitenverhältnis, Referenzbilder) einfach zu optimieren.

Für Produktions-Builds fügen Sie eine Kostenverfolgung hinzu, indem Sie cost_in_usd_ticks aus jeder vollständigen Antwort lesen. Simulieren Sie beide Endpunkte in Apidog während der Entwicklung, damit Ihr Frontend-Team nicht durch das Warten auf echte Generierungen blockiert wird. Verwenden Sie Testszenarien, um Ihre Abfragelogik zuverlässig zu halten, während sich Ihre Integration weiterentwickelt.

Laden Sie Apidog kostenlos herunter, um Ihren Mock-Server und Testszenarien für die Grok Video-API einzurichten.

button

FAQ

Welchen Modellnamen verwende ich für die Text-zu-Video-Generierung?Verwenden Sie grok-imagine-video. Dies ist das erforderliche model-Feld in Ihrer POST-Anfrage an /v1/videos/generations.

Wie lange dauert die Videogenerierung?Dies variiert je nach Dauer und Auflösung. Kurze 480p-Clips können in weniger als 30 Sekunden fertig sein. Längere 720p-Clips können einige Minuten dauern. Fragen Sie alle 5-10 Sekunden ab, anstatt den Endpunkt kontinuierlich zu überlasten.

Kann ich ein Video länger als 15 Sekunden generieren?Nicht in einer einzigen Anfrage. Die maximale duration beträgt 15 Sekunden. Um längere Videos zu erstellen, generieren Sie einen Clip und verwenden Sie dann POST /v1/videos/extensions, um weiteres Material anzuhängen.

Wie lade ich das generierte Video herunter?Verwenden Sie die URL aus result.video.url in der vollständigen Abfrageantwort. Laden Sie das MP4 sofort in Ihren Speicher herunter. Die URL ist temporär und wird verfallen.

Was passiert, wenn mein Prompt gegen die Inhaltsmoderation verstößt?Der Auftrag wird abgeschlossen, aber der status wird "failed" sein. Das Feld respect_moderation in der Abfrageantwort zeigt an, dass Moderation angewendet wurde. Überarbeiten Sie Ihren Prompt und versuchen Sie es erneut.

Gibt es eine kostenlose Stufe für die Video-API?xAI berechnet pro Sekunde der generierten Ausgabe. Es gibt keine kostenlose Stufe speziell für die Videogenerierung. Überprüfen Sie console.x.ai auf aktuelle Credit-Angebote für neue Konten.

Wie unterscheiden sich reference_images von der Verwendung eines Quellbilds?Referenzbilder leiten den visuellen Stil einer Text-zu-Video-Generierung. Sie beeinflussen das Aussehen, ohne selbst zum Motiv zu werden. Ein Quellbild für Bild-zu-Video wird zum tatsächlichen ersten Frame des Videos.

Wie testet man die Abfrageschleife am besten, ohne Credits auszugeben?Verwenden Sie Apidogs Smart Mock, um sowohl die Generierungs- als auch die Abfrage-Endpunkte zu simulieren. Definieren Sie die Schemata, legen Sie Mock-Antworten für die Zustände "processing" und "done" fest, und Ihr Polling-Code funktioniert, ohne die echte API zu berühren.

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen

Grok Text zu Video API nutzen: Vollständige Anleitung