Hướng dẫn đầy đủ cách sử dụng Grok Text to Video API

TÓM TẮT

API chuyển văn bản thành video của Grok tạo video từ một lời nhắc văn bản. Bạn gọi POST /v1/videos/generations, nhận ngay request_id, sau đó truy vấn GET /v1/videos/{request_id} cho đến khi trạng thái là "done". Mô hình là grok-imagine-video, giá khởi điểm là $0.05 mỗi giây ở độ phân giải 480p. SDK Python của xAI tự động xử lý việc truy vấn trạng thái.

Giới thiệu

xAI đã tạo ra 1.2 tỷ video chỉ riêng trong tháng 1 năm 2026. Đó là tháng đầu tiên sau khi ra mắt API chuyển văn bản thành video của Grok vào ngày 28 tháng 1 năm 2026. Mô hình này cũng xếp hạng số một trên bảng xếp hạng chuyển văn bản thành video của Artificial Analysis cùng tháng đó. Những con số này quan trọng vì chúng cho bạn biết cơ sở hạ tầng đã được chứng minh về khả năng mở rộng.

Hướng dẫn này sẽ đưa bạn qua mọi bước: thực hiện yêu cầu đầu tiên, truy vấn kết quả, điều chỉnh các thông số và viết lời nhắc hiệu quả hơn. Bạn cũng sẽ học cách sử dụng hình ảnh tham chiếu, mở rộng hoặc chỉnh sửa video hiện có, và hiểu khi nào chuyển văn bản thành video là lựa chọn phù hợp.

💡

API này là bất đồng bộ. Điều đó có nghĩa là giao diện người dùng của bạn không thể đợi video sẵn sàng trước khi hiển thị bất cứ điều gì. Nếu bạn đang xây dựng một giao diện tạo video, bạn cần một cách để phát triển dựa trên luồng truy vấn mà không tốn chi phí cho mỗi lần chạy thử. Smart Mock của Apidog cho phép bạn mô phỏng cả điểm cuối tạo video lẫn điểm cuối truy vấn trạng thái. Nhóm của bạn có thể xây dựng giao diện trình phát video trong khi phần backend vẫn đang được phát triển. Tải Apidog miễn phí để thực hiện theo phần kiểm thử sau này trong hướng dẫn.

Tải ứng dụng

API chuyển văn bản thành video của Grok là gì?

API chuyển văn bản thành video của Grok là một phần của bộ công cụ tạo phương tiện của xAI tại https://api.x.ai. Bạn gửi một lời nhắc văn bản và mô hình grok-imagine-video sẽ tạo một đoạn video ngắn từ đầu. Không yêu cầu hình ảnh nguồn.

API này hoạt động song song với một điểm cuối tạo hình ảnh đồng bộ (POST /v1/images/generations, mô hình grok-imagine-image, $0.02 mỗi hình ảnh). Nó cũng bao gồm các điểm cuối để mở rộng hoặc chỉnh sửa video.

Điểm cuối chuyển văn bản thành video khác với điểm cuối chuyển hình ảnh thành video ở một điểm cơ bản: bạn chỉ cung cấp từ ngữ. Mô hình sẽ tạo ra cảnh, chuyển động và phong cách hình ảnh hoàn toàn từ mô tả của bạn. Xem hướng dẫn API chuyển hình ảnh thành video của Grok nếu bạn có một hình ảnh nguồn và muốn mô hình tạo hoạt ảnh cho nó.

Cách hoạt động của tính năng tạo video từ văn bản (giải thích đơn giản về mô hình bất đồng bộ)

Hầu hết các cuộc gọi API đều đồng bộ. Bạn gửi yêu cầu, đợi một lát, nhận phản hồi. Việc tạo video mất từ vài giây đến vài phút, vì vậy API sử dụng mô hình bất đồng bộ.

Đây là luồng hoạt động:

Bạn gửi yêu cầu POST với lời nhắc của mình.
API trả về request_id ngay lập tức (dưới một giây).
Video đang được tạo trên máy chủ của xAI.
Bạn liên tục truy vấn điểm cuối GET với request_id đó.
Khi trạng thái thay đổi từ "processing" sang "done", phản hồi sẽ bao gồm URL của video.

Mô hình này phổ biến trong các API phương tiện AI. Nó giữ các kết nối HTTP của bạn ngắn và cho phép bạn kiểm tra tiến độ theo tốc độ của riêng mình. Phần khó khăn là giao diện người dùng của bạn cần xử lý trạng thái trung gian, hiển thị chỉ báo đang tải cho đến khi URL video xuất hiện.

Điều kiện tiên quyết

Trước khi viết bất kỳ mã nào, bạn cần hai thứ:

Một tài khoản xAI. Tạo một tài khoản tại console.x.ai. Bạn cũng sẽ thêm thông tin thanh toán ở đó trước khi khóa API của bạn có quyền truy cập để tạo video.

Một khóa API. Trong bảng điều khiển xAI, điều hướng đến API Keys và tạo một khóa mới. Sao chép nó vào một nơi an toàn. Bạn sẽ truyền nó dưới dạng Bearer token trong mỗi tiêu đề yêu cầu.

Đặt nó làm biến môi trường để bạn không mã hóa cứng nó:

export XAI_API_KEY="your_api_key_here"

Tùy chọn, cài đặt SDK Python của xAI để tích hợp đơn giản nhất:

pip install xai-sdk

Yêu cầu tạo video từ văn bản đầu tiên của bạn

Điểm cuối là POST https://api.x.ai/v1/videos/generations. Các trường bắt buộc duy nhất là model và prompt.

Sử dụng curl

curl -X POST https://api.x.ai/v1/videos/generations \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-video",
    "prompt": "Một chú chó Golden Retriever chạy qua những chiếc lá mùa thu trong chuyển động chậm, ánh sáng điện ảnh"
  }'

Phản hồi trả về ngay lập tức:

{
  "request_id": "d97415a1-5796-b7ec-379f-4e6819e08fdf"
}

UUID đó là "vé" của bạn để truy xuất video khi nó sẵn sàng.

Sử dụng Python với thư viện requests

import requests
import os

API_KEY = os.environ["XAI_API_KEY"]
BASE_URL = "https://api.x.ai"

headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

payload = {
    "model": "grok-imagine-video",
    "prompt": "Một chú chó Golden Retriever chạy qua những chiếc lá mùa thu trong chuyển động chậm, ánh sáng điện ảnh"
}

response = requests.post(
    f"{BASE_URL}/v1/videos/generations",
    headers=headers,
    json=payload
)

data = response.json()
request_id = data["request_id"]
print(f"Bắt đầu tạo. Request ID: {request_id}")

Truy vấn kết quả video

Khi bạn có request_id, hãy truy vấn GET /v1/videos/{request_id} cho đến khi trường trạng thái bằng "done".

Trường trạng thái có ba giá trị có thể: - "processing": vẫn đang tạo - "done": hoàn thành, URL video có sẵn - "failed": có gì đó không ổn

Đây là một vòng lặp truy vấn trạng thái Python hoàn chỉnh:

import requests
import time
import os

API_KEY = os.environ["XAI_API_KEY"]
BASE_URL = "https://api.x.ai"

headers = {
    "Authorization": f"Bearer {API_KEY}"
}

def poll_video(request_id: str, interval: int = 5, max_attempts: int = 60) -> dict:
    """Truy vấn cho đến khi việc tạo video hoàn tất."""
    url = f"{BASE_URL}/v1/videos/{request_id}"

    for attempt in range(max_attempts):
        response = requests.get(url, headers=headers)
        data = response.json()

        status = data.get("status")
        progress = data.get("progress", 0)
        print(f"Thử lần {attempt + 1}: status={status}, progress={progress}%")

        if status == "done":
            return data
        elif status == "failed":
            raise RuntimeError(f"Tạo video thất bại: {data}")

        time.sleep(interval)

    raise TimeoutError(f"Video chưa sẵn sàng sau {max_attempts} lần thử")


# Luồng công việc đầy đủ: tạo sau đó truy vấn
def generate_video(prompt: str) -> str:
    """Tạo video và trả về URL của nó."""
    response = requests.post(
        f"{BASE_URL}/v1/videos/generations",
        headers={**headers, "Content-Type": "application/json"},
        json={"model": "grok-imagine-video", "prompt": prompt}
    )
    request_id = response.json()["request_id"]
    print(f"Request ID: {request_id}")

    result = poll_video(request_id)
    video_url = result["video"]["url"]
    print(f"Video đã sẵn sàng: {video_url}")
    return video_url


video_url = generate_video(
    "Một đoạn thời gian trôi của đường chân trời thành phố lúc hoàng hôn chuyển sang ban đêm, góc nhìn từ trên không"
)

Khi hoàn tất, phản hồi truy vấn đầy đủ trông như thế này:

{
  "status": "done",
  "video": {
    "url": "https://vidgen.x.ai/....mp4",
    "duration": 8,
    "respect_moderation": true
  },
  "progress": 100,
  "usage": {
    "cost_in_usd_ticks": 500000000
  }
}

Sử dụng SDK Python của xAI

Nếu bạn muốn bỏ qua việc truy vấn thủ công, SDK của xAI sẽ xử lý nó cho bạn. Phương thức client.video.generate() sẽ chặn cho đến khi video sẵn sàng.

from xai_sdk import Client
import os

client = Client(api_key=os.environ["XAI_API_KEY"])

result = client.video.generate(
    model="grok-imagine-video",
    prompt="Một chú chó Golden Retriever chạy qua những chiếc lá mùa thu trong chuyển động chậm",
    duration=8,
    resolution="720p",
    aspect_ratio="16:9"
)

print(f"URL video: {result.video.url}")
print(f"Thời lượng: {result.video.duration}s")

SDK là con đường nhanh nhất để có được mã hoạt động. Sử dụng cách tiếp cận yêu cầu thô khi bạn cần kiểm soát nhiều hơn về logic thử lại, cập nhật tiến độ hoặc khoảng thời gian truy vấn tùy chỉnh.

Viết lời nhắc (prompt) hiệu quả để tạo video

Lời nhắc của bạn là yếu tố đầu vào quan trọng nhất. Một lời nhắc chi tiết, có cấu trúc sẽ tạo ra kết quả tốt hơn nhiều so với một lời nhắc mơ hồ.

Mô tả cảnh

Mô tả chủ thể và bối cảnh cùng nhau. Cụ thể về những gì có thể nhìn thấy. "Một cốc cà phê sứ trắng trên bàn gỗ bên cửa sổ bị mưa làm ướt" tạo ra một cảnh thực tế hơn là "một cốc cà phê."

Chuyển động

Nói với mô hình cái gì di chuyển và di chuyển như thế nào. "Máy quay từ từ xoay quanh cốc khi hơi nước bốc lên" thêm chuyển động với hướng rõ ràng. Nếu không có các tín hiệu chuyển động rõ ràng, mô hình có thể tạo ra chuyển động tối thiểu hoặc giật cục.

Phong cách máy quay

Sử dụng thuật ngữ máy quay mà bạn sẽ nói với một nhà quay phim: "cận cảnh," "theo dõi," "góc nhìn drone từ trên cao," "cầm tay," "dolly zoom." Những tín hiệu này đáng tin cậy dịch sang cảnh quay được tạo ra.

Ánh sáng và tâm trạng

"Giờ vàng," "u ám," "ánh đèn neon," và "ánh sáng ba điểm trong studio" đều tạo ra các vẻ ngoài khác nhau. Kết hợp ánh sáng với tâm trạng: "buổi sáng sương mù, không khí u sầu" mang lại cho mô hình hướng dẫn về tông màu ngoài nhiệt độ màu.

Tham chiếu phong cách

Đặt tên một phong cách hình ảnh nếu bạn có trong đầu: "điện ảnh," "tài liệu," "anime," "stop-motion," "hyperlapse." Kết hợp hai phong cách thường tạo ra kết quả thú vị.

Cấu trúc lời nhắc hiệu quả

Bắt đầu với chủ thể, thêm chuyển động, mô tả máy quay, kết thúc bằng phong cách và tâm trạng. Giống như thế này:

Một phi hành gia đơn độc trôi qua Trạm Vũ trụ Quốc tế,
dây buộc trôi phía sau họ. Máy quay theo dõi chậm rãi
bên cạnh, hiển thị Trái đất bên dưới. Điện ảnh, chất lượng IMAX,
ánh sáng mặt trời mọc ấm áp phản chiếu trên tấm che mặt.

Kiểm soát độ phân giải, thời lượng và tỷ lệ khung hình

Điểm cuối tạo video chấp nhận một số tham số tùy chọn cho phép bạn kiểm soát kích thước đầu ra, độ dài và chất lượng.

Thời lượng

"duration": 10

Phạm vi: 1 đến 15 giây. Mặc định là 6 giây. Video dài hơn sẽ tốn kém hơn. Một clip 10 giây ở độ phân giải 480p có giá $0.50.

Độ phân giải

"resolution": "720p"

Hai tùy chọn: "480p" (mặc định) và "720p". Sử dụng 480p để tạo mẫu và kiểm thử. Sử dụng 720p cho sản phẩm cuối cùng nơi chất lượng quan trọng.

Tỷ lệ khung hình

"aspect_ratio": "9:16"

Các tỷ lệ có sẵn:

Tỷ lệ	Tốt nhất cho
`16:9`	Máy tính để bàn, YouTube, thuyết trình (mặc định)
`9:16`	TikTok, Instagram Reels, di động
`1:1`	Instagram feed, thẻ xã hội
`4:3`	Video cổ điển, thuyết trình
`3:4`	Nội dung di động dạng dọc
`3:2`	Tỷ lệ ảnh tiêu chuẩn
`2:3`	Nhiếp ảnh chân dung

Ví dụ đầy đủ với tất cả các tham số

curl -X POST https://api.x.ai/v1/videos/generations \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-imagine-video",
    "prompt": "Một thị trấn ven biển lúc bình minh, sóng vỗ nhẹ nhàng vào bờ đá",
    "duration": 10,
    "resolution": "720p",
    "aspect_ratio": "16:9"
  }'

Sử dụng hình ảnh tham chiếu để định hướng phong cách video

Tham số reference_images chấp nhận một mảng lên đến 7 URL hình ảnh. Những hình ảnh này hướng dẫn phong cách hình ảnh và nội dung của video được tạo mà không trở thành chủ thể của nó.

{
  "model": "grok-imagine-video",
  "prompt": "Một thị trấn ven biển lúc bình minh, sóng vỗ nhẹ nhàng vào bờ đá",
  "reference_images": [
    {"url": "https://example.com/my-style-reference.jpg"},
    {"url": "https://example.com/color-palette-reference.jpg"}
  ]
}

Hình ảnh tham chiếu hoạt động tốt nhất khi chúng chia sẻ một thẩm mỹ nhất quán. Nếu bạn cung cấp ba hình ảnh từ các phong cách hình ảnh khác nhau, mô hình sẽ cố gắng hòa giải chúng và đầu ra có thể trông không nhất quán. Sử dụng một bộ hình ảnh chặt chẽ với một vẻ ngoài thống nhất để có hướng dẫn mạnh mẽ nhất.

Hình ảnh tham chiếu khác với điểm cuối chuyển hình ảnh thành video. Với hình ảnh tham chiếu, lời nhắc của bạn vẫn định hình cảnh. Hình ảnh ảnh hưởng đến việc chỉnh màu, phong cách bố cục và kết cấu hình ảnh. Với chuyển hình ảnh thành video, hình ảnh nguồn trở thành khung hình đầu tiên.

Mở rộng và chỉnh sửa video đã tạo

xAI cung cấp hai điểm cuối bổ sung để làm việc với các video bạn đã tạo.

Mở rộng video

POST /v1/videos/extensions thêm cảnh quay vào một video đã tạo hiện có. Bạn truyền request_id của video gốc và một lời nhắc mới cho phần mở rộng. Điều này hữu ích để tạo các chuỗi dài hơn mà không chạm giới hạn 15 giây trong một cuộc gọi.

Chỉnh sửa video

POST /v1/videos/edits sửa đổi một video hiện có dựa trên hướng dẫn văn bản. Bạn có thể thay đổi phong cách, thay đổi cảnh hoặc áp dụng hiệu ứng cho một clip bạn đã tạo.

Cả hai điểm cuối đều tuân theo cùng một mô hình bất đồng bộ như điểm cuối tạo video chính. Chúng trả về request_id và bạn truy vấn GET /v1/videos/{request_id} để lấy kết quả.

Đọc chi phí từ phản hồi API

Phản hồi truy vấn hoàn tất bao gồm một đối tượng usage:

"usage": {
  "cost_in_usd_ticks": 500000000
}

Đơn vị là USD ticks. Chia cho 10,000,000 để chuyển đổi sang đô la.

cost_in_usd = result["usage"]["cost_in_usd_ticks"] / 10_000_000
print(f"Chi phí: ${cost_in_usd:.4f}")
# Đầu ra: Chi phí: $0.0500

Tham chiếu giá

Độ phân giải	Giá mỗi giây	Clip 10 giây
480p	$0.05	$0.50
720p	$0.07	$0.70

Giá trị 500000000 ticks tương đương $0.50. Đó là một clip 10 giây ở độ phân giải 480p.

Theo dõi chi phí của bạn bằng cách ghi lại cost_in_usd_ticks từ mỗi phản hồi hoàn tất. Điều này cho phép bạn xây dựng các bảng điều khiển sử dụng mà không cần gọi API thanh toán của xAI riêng biệt.

Cách kiểm tra API video Grok của bạn với Apidog

Mô hình truy vấn bất đồng bộ tạo ra một thách thức kiểm thử cụ thể. Mã giao diện người dùng của bạn cần xử lý ba trạng thái: đang tải (trong khi truy vấn), thành công (nhận được URL video) và lỗi. Bạn không thể kiểm tra cả ba trạng thái bằng cách thực hiện các cuộc gọi API thực, vì mỗi cuộc gọi tốn thời gian và chi phí. Đây là lúc tính năng Smart Mock của Apidog giải quyết vấn đề trực tiếp.

Trường hợp sử dụng 1: Smart Mock cho phát triển giao diện người dùng

Với Smart Mock của Apidog, bạn định nghĩa lược đồ cho cả hai điểm cuối và Apidog trả về các phản hồi giả lập thực tế ngay lập tức.

Mô phỏng điểm cuối tạo video:

Trong Apidog, tạo điểm cuối POST /v1/videos/generations trong dự án của bạn. Định nghĩa lược đồ phản hồi với một trường chuỗi request_id duy nhất. Smart Mock sẽ tự động trả về một UUID giả lập dựa trên mẫu tên trường.

Phản hồi giả lập của bạn:

{
  "request_id": "d97415a1-5796-b7ec-379f-4e6819e08fdf"
}

Mô phỏng điểm cuối truy vấn trạng thái:

Tạo GET /v1/videos/{request_id} trong Apidog. Định nghĩa lược đồ phản hồi đầy đủ bao gồm status, video.url, video.duration, progress và usage.cost_in_usd_ticks. Đặt một phản hồi Custom Mock trả về "status": "done" với URL MP4 giữ chỗ.

Phản hồi truy vấn giả lập của bạn:

{
  "status": "done",
  "video": {
    "url": "https://vidgen.x.ai/mock-video-12345.mp4",
    "duration": 8,
    "respect_moderation": true
  },
  "progress": 100,
  "usage": {
    "cost_in_usd_ticks": 400000000
  }
}

Các nhà phát triển giao diện người dùng giờ đây có thể xây dựng và kiểm tra toàn bộ giao diện trình phát video dựa trên máy chủ mô phỏng này. Họ thấy trạng thái tải, trạng thái hoàn tất và có thể kích hoạt trạng thái lỗi bằng cách sửa đổi mô phỏng để trả về "status": "failed". Không có chi phí API thực nào được sử dụng trong quá trình phát triển.

Trường hợp sử dụng 2: Kịch bản kiểm thử cho vòng lặp truy vấn trạng thái

Khi tích hợp của bạn được xây dựng, hãy sử dụng Test Scenarios của Apidog để tự động xác thực luồng tạo-sau-đó-truy-vấn hoàn chỉnh.

Bước 1: Thêm yêu cầu tạo video. Thêm POST /v1/videos/generations làm bước đầu tiên trong kịch bản kiểm thử của bạn. Trong bộ xử lý sau (post-processor), thêm một Extract Variable để thu thập request_id từ phần thân phản hồi bằng cách sử dụng biểu thức JSONPath $.request_id. Lưu nó vào một biến có tên videoRequestId.

Bước 2: Thêm vòng lặp truy vấn trạng thái. Thêm GET /v1/videos/{{videoRequestId}} làm bước thứ hai. Đặt nó trong một vòng lặp For với điều kiện dừng: response.body.status == "done". Thêm một bộ xử lý Wait 5 giây giữa các lần lặp để tránh quá tải giới hạn tốc độ.

Bước 3: Xác nhận kết quả. Sau khi vòng lặp thoát, thêm một bộ xử lý Assertion vào yêu cầu GET cuối cùng. Xác nhận rằng $.video.url không trống. Điều này xác nhận chu trình đầy đủ đã hoàn tất thành công.

Kịch bản kiểm thử này cung cấp cho bạn phạm vi bao phủ lặp lại, tự động của luồng bất đồng bộ. Chạy nó trong CI để phát hiện bất kỳ lỗi hồi quy nào khi logic truy vấn của bạn thay đổi.

Chuyển văn bản thành video so với chuyển hình ảnh thành video: nên dùng loại nào khi nào

Cả hai chế độ đều sử dụng cùng một mô hình grok-imagine-video, nhưng chúng phục vụ các mục đích khác nhau.

Chọn chuyển văn bản thành video khi:- Bạn đang tạo nội dung gốc từ một khái niệm hoặc kịch bản - Bạn muốn mô hình có toàn quyền kiểm soát sáng tạo đối với bố cục - Bạn đang xây dựng một công cụ tạo nội dung nơi người dùng nhập lời nhắc - Bạn không có hình ảnh nguồn để bắt đầu

Chọn chuyển hình ảnh thành video khi:- Bạn có một bức ảnh sản phẩm, minh họa hoặc tài sản thương hiệu để tạo hoạt ảnh - Bạn cần duy trì các chi tiết hình ảnh cụ thể từ một hình ảnh hiện có - Bạn đang tạo hoạt ảnh nhất quán từ một loạt các hình ảnh liên quan - Bạn muốn tạo hoạt ảnh cho tác phẩm nghệ thuật hoặc nhiếp ảnh của riêng mình

Sự khác biệt chính: chuyển văn bản thành video tạo ra một cảnh từ đầu. Chuyển hình ảnh thành video làm cho một hình ảnh hiện có chuyển động. Để có hướng dẫn đầy đủ về cách tiếp cận chuyển hình ảnh thành video, xem hướng dẫn API chuyển hình ảnh thành video của Grok.

Đối với các nhóm xây dựng sản phẩm cung cấp cả hai chế độ, bạn có thể phát hiện loại đầu vào trong thời gian chạy. Nếu người dùng tải lên một hình ảnh, định tuyến đến POST /v1/images/generations (chuyển hình ảnh thành video). Nếu họ chỉ nhập một lời nhắc, định tuyến đến POST /v1/videos/generations.

Các lỗi thường gặp và cách khắc phục

401 UnauthorizedKhóa API của bạn bị thiếu, hết hạn hoặc định dạng không đúng. Kiểm tra xem tiêu đề Authorization có chính xác là Bearer YOUR_XAI_API_KEY không có khoảng trắng thừa. Xác nhận khóa đang hoạt động trong bảng điều khiển xAI.

429 Too Many RequestsBạn đã đạt giới hạn tốc độ. API cho phép 60 yêu cầu mỗi phút và 1 yêu cầu mỗi giây. Thêm độ trễ giữa các yêu cầu. Nếu bạn đang truy vấn trạng thái, hãy cách các cuộc gọi của bạn ít nhất 5 giây.

status: "failed" trong phản hồi truy vấnViệc tạo video thất bại. Điều này thường có nghĩa là lời nhắc đã bị từ chối bởi kiểm duyệt nội dung. Trường respect_moderation trong phản hồi sẽ là true nếu kiểm duyệt được áp dụng. Sửa lại lời nhắc của bạn để ít mơ hồ hơn hoặc loại bỏ ngôn ngữ có thể nhạy cảm.

URL video trả về 404URL video được tạo sẽ hết hạn sau một khoảng thời gian. Tải video về bộ nhớ của riêng bạn ngay sau khi truy xuất URL. Đừng lưu trữ URL và tin tưởng nó sẽ có sẵn vài ngày sau đó.

Video trống hoặc bị đóng băngLời nhắc mơ hồ hoặc lời nhắc không có tín hiệu chuyển động đôi khi tạo ra video với chuyển động tối thiểu. Thêm ngôn ngữ chuyển động rõ ràng vào lời nhắc của bạn: mô tả cái gì di chuyển, theo hướng nào và với tốc độ bao nhiêu.

Thời gian truy vấn chậmVideo 720p mất nhiều thời gian hơn để tạo so với 480p. Thời lượng dài hơn cũng tốn nhiều thời gian hơn. Đối với phát triển và tạo mẫu, sử dụng "resolution": "480p" và thời lượng ngắn để tăng tốc chu kỳ lặp lại.

Kết luận

API chuyển văn bản thành video của Grok mang đến cho bạn một con đường thẳng từ văn bản đến video. Bạn gửi một lời nhắc, nhận request_id, truy vấn cho đến khi hoàn tất và truy xuất tệp MP4 của mình. Mô hình bất đồng bộ là khái niệm cốt lõi cần hiểu. Khi bạn đã có vòng lặp truy vấn hoạt động, các tham số còn lại (thời lượng, độ phân giải, tỷ lệ khung hình, hình ảnh tham chiếu) rất dễ điều chỉnh.

Đối với các bản dựng sản xuất, hãy thêm tính năng theo dõi chi phí bằng cách đọc cost_in_usd_ticks từ mỗi phản hồi hoàn tất. Mô phỏng cả hai điểm cuối trong Apidog trong quá trình phát triển để nhóm giao diện người dùng của bạn không bị chặn chờ đợi các thế hệ thực. Sử dụng Test Scenarios để giữ cho logic truy vấn của bạn đáng tin cậy khi tích hợp của bạn phát triển.

Tải Apidog miễn phí để thiết lập máy chủ mô phỏng và kịch bản kiểm thử cho API video Grok.

Tải ứng dụng

Câu hỏi thường gặp

Tôi sử dụng tên mô hình nào để tạo video từ văn bản?Sử dụng grok-imagine-video. Đây là trường model bắt buộc trong yêu cầu POST của bạn tới /v1/videos/generations.

Việc tạo video mất bao lâu?Thời gian thay đổi tùy theo thời lượng và độ phân giải. Các clip 480p ngắn có thể hoàn thành trong vòng chưa đầy 30 giây. Các clip 720p dài hơn có thể mất vài phút. Hãy truy vấn mỗi 5-10 giây thay vì liên tục gửi yêu cầu đến điểm cuối.

Tôi có thể tạo video dài hơn 15 giây không?Không thể trong một yêu cầu duy nhất. duration tối đa là 15 giây. Để tạo video dài hơn, hãy tạo một clip và sau đó sử dụng POST /v1/videos/extensions để nối thêm cảnh quay.

Làm cách nào để tải video đã tạo?Sử dụng URL từ result.video.url trong phản hồi truy vấn hoàn tất. Tải tệp MP4 về bộ nhớ của bạn ngay lập tức. URL này là tạm thời và sẽ hết hạn.

Điều gì xảy ra nếu lời nhắc của tôi vi phạm kiểm duyệt nội dung?Công việc sẽ hoàn thành nhưng status sẽ là "failed". Trường respect_moderation trong phản hồi truy vấn cho biết kiểm duyệt đã được áp dụng. Sửa lại lời nhắc của bạn và thử lại.

Có tầng miễn phí nào cho API video không?xAI tính phí theo giây video đầu ra được tạo. Không có tầng miễn phí riêng cho việc tạo video. Kiểm tra console.x.ai để biết các ưu đãi tín dụng hiện tại cho tài khoản mới.

reference_images khác với việc bắt đầu bằng hình ảnh nguồn như thế nào?Hình ảnh tham chiếu hướng dẫn phong cách hình ảnh của việc tạo video từ văn bản. Chúng ảnh hưởng đến vẻ ngoài mà không trở thành chủ thể. Một hình ảnh nguồn cho chuyển hình ảnh thành video sẽ trở thành khung hình đầu tiên thực tế của video.

Cách tốt nhất để kiểm tra vòng lặp truy vấn mà không tốn chi phí là gì?Sử dụng Smart Mock của Apidog để mô phỏng cả điểm cuối tạo video và điểm cuối truy vấn. Định nghĩa các lược đồ, đặt các phản hồi giả lập cho các trạng thái "processing" và "done", và mã truy vấn của bạn sẽ hoạt động mà không cần chạm vào API thực.