Cách Sử Dụng Google Gemini Pro 3 API trên Vertex AI

Trong nhiều năm, việc tạo nội dung video chất lượng cao là một nỗ lực phức tạp, tốn thời gian và thường tốn kém, đòi hỏi các kỹ năng chuyên biệt về quay phim, biên tập, thiết kế âm thanh và hoạt hình. AI tạo sinh, đặc biệt trong lĩnh vực video, được kỳ vọng sẽ giảm đáng kể những rào cản này. Hãy tưởng tượng việc tạo ra các cảnh quay phụ (b-roll) hấp dẫn, tạo ra các hoạt hình động cho mạng xã hội, hoặc thậm chí sản xuất các phân đoạn điện ảnh ngắn, tất cả chỉ từ mô tả bằng văn bản hoặc hình ảnh tĩnh. Đây chính là lời hứa của các mô hình như Veo 3.

Google đã đóng góp đáng kể vào nghiên cứu và phát triển AI, và cam kết của họ đối với truyền thông tạo sinh thể hiện rõ qua sự phát triển không ngừng của các mô hình có sẵn thông qua Vertex AI. Vertex AI đóng vai trò là một nền tảng học máy hợp nhất, cung cấp quyền truy cập vào các mô hình AI tiên tiến nhất của Google, bao gồm cả những mô hình từ DeepMind, và cho phép người dùng xây dựng, triển khai và mở rộng quy mô các ứng dụng học máy một cách dễ dàng. Việc giới thiệu Veo 3, Imagen 4 và Lyria 2 càng củng cố vị thế của Vertex AI như một trung tâm mạnh mẽ cho AI sáng tạo.

💡

Bạn muốn một công cụ kiểm thử API tuyệt vời có thể tạo Tài liệu API đẹp mắt?

Bạn muốn một nền tảng tích hợp, Tất cả trong một để nhóm phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng mọi yêu cầu của bạn và thay thế Postman với mức giá phải chăng hơn nhiều!

button

Giới thiệu Veo 3: Bước nhảy vọt tiếp theo trong tạo video bằng AI

Lời nhắc (Prompt): Cảnh trung, bối cảnh phiêu lưu lịch sử: Ánh đèn dầu ấm áp chiếu sáng một người vẽ bản đồ trong phòng làm việc lộn xộn, đang cúi mình trên tấm bản đồ cổ xưa, rộng lớn trải trên chiếc bàn lớn. Người vẽ bản đồ: "Theo hải đồ cũ này, hòn đảo thất lạc không phải là huyền thoại! Chúng ta phải chuẩn bị một chuyến thám hiểm ngay lập tức!"

Veo 3, được phát triển bởi Google DeepMind, đại diện cho tiến bộ mới nhất trong công nghệ tạo video của Google. Nó nhằm mục đích cung cấp cho người dùng khả năng tạo ra các video chất lượng cao không chỉ ấn tượng về mặt hình ảnh mà còn phong phú về chi tiết âm thanh. Các cải tiến và tính năng chính được công bố cho Veo 3 bao gồm:

Cải thiện chất lượng video: Veo 3 được thiết kế để tạo ra các video có chất lượng vượt trội khi được tạo từ cả lời nhắc bằng văn bản và hình ảnh. Điều này có nghĩa là kết cấu thực tế hơn, chuyển động liền mạch hơn và tuân thủ chi tiết phức tạp trong lời nhắc tốt hơn. Mô hình có khả năng xử lý các chi tiết lời nhắc phức tạp, dịch các mô tả văn bản tinh tế thành các câu chuyện hình ảnh hấp dẫn.
Tích hợp tạo lời nói: Một bước tiến đáng kể là khả năng của Veo 3 trong việc kết hợp lời nói, chẳng hạn như hội thoại và giọng thuyết minh, trực tiếp vào video được tạo. Tính năng này mở ra vô số khả năng cho việc kể chuyện, nội dung tiếp thị và tài liệu giáo dục, cho phép người sáng tạo thêm một lớp chiều sâu tường thuật mà không cần quy trình sản xuất âm thanh riêng cho lời nói cơ bản.
Tích hợp âm thanh toàn diện: Ngoài lời nói, Veo 3 có thể tạo ra các yếu tố âm thanh khác, bao gồm nhạc và hiệu ứng âm thanh. Điều này có nghĩa là mô hình không chỉ tạo ra các bộ phim câm; nó có thể tạo ra các video với không gian âm thanh hoàn chỉnh hơn, nâng cao trải nghiệm xem và điều chỉnh âm thanh phù hợp với tâm trạng và sự kiện hình ảnh được mô tả.

Tác động tiềm năng của các tính năng này đã được những người dùng sớm nhận ra. Klarna, một công ty hàng đầu trong lĩnh vực thanh toán kỹ thuật số, đã tận dụng Veo (và Imagen) trên Vertex AI để tăng hiệu quả tạo nội dung. Họ đã ghi nhận sự giảm đáng kể về thời gian sản xuất cho các tài sản từ cảnh quay phụ (b-roll) đến video giới thiệu/kết thúc YouTube (bumper). Justin Thomas, Trưởng bộ phận Trải nghiệm kỹ thuật số & Tăng trưởng tại Klarna, nhận xét về sự chuyển đổi: "Với Veo và Imagen, chúng tôi đã biến các quy trình sản xuất từng tốn nhiều thời gian thành các tác vụ nhanh chóng, hiệu quả, cho phép chúng tôi mở rộng quy mô tạo nội dung nhanh chóng... Những gì trước đây mất tám tuần giờ chỉ mất tám giờ, giúp tiết kiệm chi phí đáng kể."

Cách sử dụng API Google Veo với Vertex AI

Các mô hình Veo của Google có thể truy cập trên Vertex AI, cho phép bạn tạo video từ lời nhắc bằng văn bản hoặc hình ảnh. Bạn có thể tương tác với Veo thông qua bảng điều khiển Google Cloud hoặc bằng cách gửi yêu cầu đến API Vertex AI. Hướng dẫn này tập trung vào việc sử dụng API, với các ví dụ chủ yếu sử dụng Gen AI SDK cho Python và các lệnh gọi REST.

Điều kiện tiên quyết để sử dụng Veo trên Vertex AI

Trước khi bắt đầu tạo video với Veo, hãy đảm bảo bạn đã thiết lập các mục sau:

Tài khoản và Dự án Google Cloud:
Bạn sẽ cần một tài khoản Google Cloud. Các tài khoản mới thường đi kèm với tín dụng miễn phí.
Trong bảng điều khiển Google Cloud, chọn một dự án Google Cloud hiện có hoặc tạo một dự án mới. Nếu bạn đang thử nghiệm, việc tạo một dự án mới có thể giúp việc dọn dẹp dễ dàng hơn bằng cách cho phép bạn xóa dự án và tất cả các tài nguyên liên quan sau đó.
Bật API Vertex AI:
Điều hướng đến trang chọn dự án trong bảng điều khiển Google Cloud.
Đảm bảo API Vertex AI đã được bật cho dự án của bạn.
Xác thực:
Bạn cần thiết lập xác thực cho môi trường của mình.
Đối với REST API (phát triển cục bộ): Nếu bạn định sử dụng các mẫu REST API cục bộ, thông tin xác thực bạn cung cấp cho Google Cloud CLI (gcloud CLI) sẽ được sử dụng. Cài đặt gcloud CLI và khởi tạo nó bằng cách chạy:

gcloud init

Nếu bạn đang sử dụng nhà cung cấp danh tính (IdP) bên ngoài, trước tiên hãy đăng nhập vào gcloud CLI bằng danh tính liên kết của bạn.

Đối với Python SDK: Gen AI SDK thường sử dụng Thông tin xác thực mặc định của ứng dụng (ADC). Đặt biến môi trường GOOGLE_CLOUD_PROJECT và đảm bảo GOOGLE_GENAI_USE_VERTEXAI=True (như hiển thị trong các ví dụ sau) giúp cấu hình SDK hoạt động với Vertex AI, tận dụng môi trường gcloud đã xác thực của bạn hoặc thông tin xác thực tài khoản dịch vụ nếu đã cấu hình.

Truy cập các mô hình và vị trí của Veo

Phiên bản mô hình: Veo cung cấp nhiều mô hình tạo video. Tài liệu cung cấp các ví dụ sử dụng veo-2.0-generate-001 và đề cập đến veo-3.0-generate-preview (hiện đang ở chế độ Xem trước). Luôn tham khảo tài liệu chính thức về "Các mô hình Veo" để có danh sách cập nhật nhất và khả năng của chúng.
Vị trí: Khi gửi yêu cầu, bạn có thể chỉ định một khu vực (vị trí) để kiểm soát nơi dữ liệu của bạn được lưu trữ khi không hoạt động. Để có danh sách các khu vực có sẵn, hãy tham khảo tài liệu "Các vị trí AI tạo sinh trên Vertex AI". Các ví dụ về Python SDK thường sử dụng các biến môi trường để đặt vị trí.

Sử dụng API Veo với Python SDK (Gen AI SDK)

Gen AI SDK cho Python cung cấp một cách thuận tiện để tương tác với các mô hình Veo trên Vertex AI.

Cài đặt

Cài đặt hoặc nâng cấp thư viện google-genai:

pip install --upgrade google-genai

Thiết lập biến môi trường

Đặt các biến môi trường sau. Thay thế GOOGLE_CLOUD_PROJECT và GOOGLE_CLOUD_LOCATION bằng ID dự án của bạn và vị trí Google Cloud mong muốn (ví dụ: global hoặc một khu vực cụ thể như us-central1).

export GOOGLE_CLOUD_PROJECT=YOUR_PROJECT_ID
export GOOGLE_CLOUD_LOCATION=YOUR_LOCATION
export GOOGLE_GENAI_USE_VERTEXAI=True

Khởi tạo client

from google import genai

client = genai.Client()

Tạo video từ văn bản

Bạn có thể tạo video bằng cách sử dụng lời nhắc văn bản mô tả. Đầu ra là một thao tác chạy dài và video được tạo thường được lưu vào một URI Google Cloud Storage (GCS) mà bạn chỉ định.

import time
from google import genai
from google.genai.types import GenerateVideosConfig

client = genai.Client()

# !!! QUAN TRỌNG: Cập nhật và bỏ chú thích URI GCS cho đầu ra !!!
# output_gcs_uri = "gs://your-bucket-name/your-output-prefix/"
# Đảm bảo bucket này tồn tại và dự án/tài khoản dịch vụ của bạn có quyền ghi.

try:
    operation = client.models.generate_videos(
        model="veo-2.0-generate-001",  # Hoặc mô hình Veo khác có sẵn
        prompt="a cat reading a book",
        config=GenerateVideosConfig(
            aspect_ratio="16:9",
            output_gcs_uri=output_gcs_uri, # Chỉ định đường dẫn GCS của bạn
        ),
    )

    print("Thao tác tạo video đã bắt đầu. Đang thăm dò trạng thái hoàn thành...")
    while not operation.done:
        time.sleep(15) # Chờ 15 giây trước khi kiểm tra trạng thái
        operation = client.operations.get(operation) # Làm mới trạng thái thao tác
        print(f"Trạng thái thao tác: {operation.metadata.state if operation.metadata else 'Đang xử lý...'}")

    if operation.response and operation.result.generated_videos:
        print(f"Video đã tạo thành công: {operation.result.generated_videos[0].video.uri}")
    elif operation.error:
        print(f"Lỗi trong quá trình tạo video: {operation.error.message}")
    else:
        print("Thao tác đã hoàn thành nhưng không tìm thấy URI video hoặc xảy ra lỗi không xác định.")

except AttributeError:
    print("Lỗi: 'output_gcs_uri' chưa được định nghĩa. Vui lòng đặt biến 'output_gcs_uri'.")
except Exception as e:
    print(f"Đã xảy ra lỗi không mong muốn: {e}")

Hãy nhớ thay thế "gs://your-bucket-name/your-output-prefix/" bằng bucket GCS thực tế của bạn và đường dẫn đầu ra mong muốn.

Tạo video từ hình ảnh (và văn bản tùy chọn)

Bạn cũng có thể tạo video bắt đầu từ một hình ảnh đầu vào, tùy chọn được hướng dẫn bởi một lời nhắc văn bản.

import time
from google import genai
from google.genai.types import GenerateVideosConfig, Image

client = genai.Client()

# !!! QUAN TRỌNG: Cập nhật và bỏ chú thích URI GCS cho đầu ra !!!
# output_gcs_uri = "gs://your-bucket-name/your-output-prefix-image/"
# Đảm bảo bucket này tồn tại và dự án/tài khoản dịch vụ của bạn có quyền ghi.

# Ví dụ sử dụng hình ảnh GCS công khai. Thay thế bằng URI hình ảnh của bạn.
input_image_gcs_uri = "gs://cloud-samples-data/generative-ai/image/flowers.png"

try:
    operation = client.models.generate_videos(
        model="veo-2.0-generate-001",  # Hoặc mô hình Veo khác có sẵn
        image=Image(
            gcs_uri=input_image_gcs_uri,
            mime_type="image/png", # Điều chỉnh mime_type dựa trên hình ảnh của bạn
        ),
        prompt="the flowers sway gently in the breeze", # Lời nhắc văn bản tùy chọn
        config=GenerateVideosConfig(
            aspect_ratio="16:9", # Hoặc khớp với hình ảnh/đầu ra mong muốn của bạn
            output_gcs_uri=output_gcs_uri,
        ),
    )

    print("Thao tác tạo video từ hình ảnh đã bắt đầu. Đang thăm dò trạng thái hoàn thành...")
    while not operation.done:
        time.sleep(15)
        operation = client.operations.get(operation)
        print(f"Trạng thái thao tác: {operation.metadata.state if operation.metadata else 'Đang xử lý...'}")

    if operation.response and operation.result.generated_videos:
        print(f"Video đã tạo thành công: {operation.result.generated_videos[0].video.uri}")
    elif operation.error:
        print(f"Lỗi trong quá trình tạo video: {operation.error.message}")
    else:
        print("Thao tác đã hoàn thành nhưng không tìm thấy URI video hoặc xảy ra lỗi không xác định.")

except AttributeError:
    print("Lỗi: 'output_gcs_uri' chưa được định nghĩa. Vui lòng đặt biến 'output_gcs_uri'.")
except Exception as e:
    print(f"Đã xảy ra lỗi không mong muốn: {e}")

Sử dụng API Veo với REST

Bạn có thể trực tiếp gọi API Veo bằng các yêu cầu HTTP. Điều này bao gồm việc gửi yêu cầu POST đến một điểm cuối cụ thể.

Điểm cuối và phương thức HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/MODEL_ID:predictLongRunning

Thay thế PROJECT_ID và MODEL_ID (ví dụ: veo-2.0-generate-001 hoặc veo-3.0-generate-preview).

Phần thân yêu cầu JSON

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
      // Đối với đầu vào hình ảnh, cấu trúc trong "instances" sẽ khác. Tham khảo tài liệu API.
    }
  ],
  "parameters": {
    "storageUri": "OUTPUT_STORAGE_URI", // Tùy chọn: URI GCS cho đầu ra. ví dụ: "gs://video-bucket/output/"
                                        // Nếu không cung cấp, các byte video có thể được trả về trong phản hồi thao tác cho một số cấu hình (kiểm tra tài liệu).
    "sampleCount": "RESPONSE_COUNT",    // Số lượng video cần tạo (ví dụ: 1-4).
    "durationSeconds": "DURATION",      // Độ dài video mong muốn tính bằng giây (ví dụ: 5-8).
    "enhancePrompt": "ENHANCED_PROMPT"  // Boolean: True (mặc định) hoặc False.
    // Thêm các tham số khác như "aspectRatio", "fps" theo tài liệu tham khảo API.
  }
}

Đảm bảo thay thế các chỗ giữ chỗ như TEXT_PROMPT, OUTPUT_STORAGE_URI, v.v., bằng các giá trị thực tế.

Xác thực và gửi yêu cầu (Ví dụ với `curl`)

Lưu phần thân yêu cầu của bạn vào một tệp (ví dụ: request.json).

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/YOUR_PROJECT_ID/locations/us-central1/publishers/google/models/YOUR_MODEL_ID:predictLongRunning"

Lệnh này trả về tên của một thao tác (ví dụ: projects/PROJECT_ID/locations/us-central1/publishers/google/models/MODEL_ID/operations/OPERATION_ID).

Xử lý các thao tác chạy dài

Điểm cuối predictLongRunning khởi tạo một thao tác không đồng bộ. Bạn sẽ cần sử dụng tên thao tác được trả về để thăm dò trạng thái của nó cho đến khi hoàn thành, tương tự như cách Python SDK xử lý.

Lời nhắc Veo 3 là gì & Cách viết lời nhắc tốt hơn cho Veo 3

Các mô hình Veo của Google tạo video dựa trên mô tả bằng văn bản của bạn. Các lời nhắc càng chi tiết thường cho kết quả video chất lượng cao hơn và phù hợp hơn. Hãy cân nhắc mô tả:

Chủ thể và hành động.
Bối cảnh và môi trường.
Phong cách điện ảnh, chuyển động máy quay.
Tâm trạng và tông màu.

Đối với các mô hình hỗ trợ âm thanh (như veo-3.0-generate-preview), bạn có thể bao gồm mô tả cho bản chép lời (hội thoại) và hiệu ứng âm thanh.

Công cụ viết lại lời nhắc (Cải thiện lời nhắc):
Veo bao gồm một công cụ cải thiện lời nhắc dựa trên LLM. Tính năng này có thể viết lại lời nhắc của bạn để thêm các chi tiết mô tả, chuyển động máy quay, bản chép lời và hiệu ứng âm thanh chi tiết hơn, nhằm mục đích tạo ra video đầu ra chất lượng cao hơn.
Bật theo mặc định: Tính năng này được bật theo mặc định cho các mô hình như veo-2.0-generate-001 và veo-3.0-generate-preview.
Tắt: Bạn có thể tắt tính năng cải thiện lời nhắc bằng cách đặt tham số enhancePrompt thành False trong lệnh gọi REST API của bạn (hoặc một tham số tương tự trong SDK nếu có).
Quan trọng đối với veo-3.0-generate-preview: Bạn không thể tắt công cụ viết lại lời nhắc khi sử dụng mô hình veo-3.0-generate-preview.
Lời nhắc đã viết lại trong phản hồi: Nếu lời nhắc gốc dưới 30 từ, lời nhắc đã viết lại được mô hình sử dụng sẽ được cung cấp trong phản hồi API.

Được rồi, đây là phần bổ sung về việc sử dụng một công cụ như APIDog để kiểm thử Veo REST API, tiếp theo là phần kết luận cho bài viết.

Kiểm thử Veo REST API với một công cụ như APIDog

Trong khi curl rất tốt cho việc kiểm thử dòng lệnh, các công cụ kiểm thử API dựa trên giao diện người dùng đồ họa (GUI) như APIDog, Postman hoặc Insomnia có thể cung cấp một cách trực quan và có tổ chức hơn để xây dựng và quản lý các yêu cầu API của bạn, đặc biệt khi xử lý các phần thân JSON phức tạp hoặc quản lý nhiều điểm cuối API.

💡