Trong nhiều năm, việc tạo nội dung video chất lượng cao là một nỗ lực phức tạp, tốn thời gian và thường tốn kém, đòi hỏi các kỹ năng chuyên biệt về quay phim, chỉnh sửa, thiết kế âm thanh và hoạt hình. AI tạo sinh, đặc biệt là trong lĩnh vực video, được kỳ vọng sẽ giảm đáng kể những rào cản này. Hãy tưởng tượng việc tạo ra các cảnh quay b-roll hấp dẫn, tạo hoạt ảnh động cho mạng xã hội, hoặc thậm chí sản xuất các đoạn phim ngắn mang tính điện ảnh, tất cả chỉ từ mô tả văn bản hoặc hình ảnh tĩnh. Đây chính là lời hứa hẹn của các mô hình như Veo 3.
Google đã đóng góp đáng kể vào nghiên cứu và phát triển AI, và cam kết của họ đối với truyền thông tạo sinh thể hiện rõ qua sự phát triển liên tục của các mô hình có sẵn thông qua Vertex AI. Vertex AI đóng vai trò là một nền tảng học máy hợp nhất, cung cấp quyền truy cập vào các mô hình AI tiên tiến nhất của Google, bao gồm cả những mô hình từ DeepMind, và cho phép người dùng xây dựng, triển khai và mở rộng các ứng dụng ML một cách dễ dàng. Việc giới thiệu Veo 3, Imagen 4 và Lyria 2 càng củng cố Vertex AI trở thành một trung tâm mạnh mẽ cho AI sáng tạo.
Muốn một nền tảng tích hợp, Tất cả trong Một cho Đội ngũ Phát triển của bạn để làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi nhu cầu của bạn, và thay thế Postman với mức giá hợp lý hơn nhiều!
Giới thiệu Veo 3: Bước nhảy vọt tiếp theo trong tạo video bằng AI
Veo 3, được phát triển bởi Google DeepMind, đại diện cho bước tiến mới nhất trong công nghệ tạo video của Google. Nó nhằm mục đích cung cấp cho người dùng khả năng tạo ra các video chất lượng cao không chỉ ấn tượng về mặt hình ảnh mà còn phong phú về chi tiết âm thanh. Các cải tiến và tính năng chính được công bố cho Veo 3 bao gồm:
- Cải thiện chất lượng video: Veo 3 được thiết kế để tạo ra các video có chất lượng vượt trội khi được tạo từ cả lời nhắc văn bản và hình ảnh. Điều này có nghĩa là các kết cấu chân thực hơn, chuyển động liền mạch hơn và tuân thủ chi tiết lời nhắc phức tạp tốt hơn. Mô hình có khả năng xử lý các chi tiết lời nhắc phức tạp, dịch các mô tả văn bản tinh tế thành các câu chuyện hình ảnh hấp dẫn.
- Tích hợp tạo lời nói: Một bước tiến đáng kể là khả năng của Veo 3 trong việc tích hợp lời nói, chẳng hạn như đối thoại và lồng tiếng, trực tiếp vào các video được tạo ra. Tính năng này mở ra nhiều khả năng rộng lớn cho việc kể chuyện, nội dung tiếp thị và tài liệu giáo dục, cho phép người sáng tạo thêm một lớp chiều sâu tường thuật mà không cần quy trình sản xuất âm thanh riêng biệt cho lời nói cơ bản.
Google Veo 3 realism just broke the Internet yesterday.
— Min Choi (@minchoi) May 22, 2025
This is 100% AI
10 wild examples:
1. Street interview that never happened pic.twitter.com/qdxZVhOO3G
Tác động tiềm năng của các tính năng này đã được những người dùng đầu tiên công nhận. Klarna, một công ty hàng đầu trong lĩnh vực thanh toán kỹ thuật số, đã tận dụng Veo (và Imagen) trên Vertex AI để tăng hiệu quả tạo nội dung. Họ ghi nhận sự giảm đáng kể về thời gian sản xuất cho các tài sản từ b-roll đến YouTube bumpers. Justin Thomas, Trưởng bộ phận Trải nghiệm Kỹ thuật số & Tăng trưởng tại Klarna, nhận xét về sự chuyển đổi: "Với Veo và Imagen, chúng tôi đã biến các quy trình sản xuất từng tốn nhiều thời gian thành các tác vụ nhanh chóng, hiệu quả, cho phép chúng tôi mở rộng quy mô tạo nội dung một cách nhanh chóng... Những gì từng mất tám tuần giờ chỉ mất tám giờ, mang lại khoản tiết kiệm chi phí đáng kể."
Cách sử dụng API Google Veo với Vertex AI
Các mô hình Veo của Google có thể truy cập trên Vertex AI, cho phép bạn tạo video từ lời nhắc văn bản hoặc hình ảnh. Bạn có thể tương tác với Veo thông qua bảng điều khiển Google Cloud hoặc bằng cách gửi yêu cầu đến API Vertex AI. Hướng dẫn này tập trung vào việc sử dụng API, với các ví dụ chủ yếu sử dụng Gen AI SDK cho Python và các lệnh gọi REST.
Phương pháp 1: Sử dụng Google Veo 3 với Google Flow

Google đã giới thiệu Flow, một công cụ làm phim AI mang tính cách mạng được thiết kế riêng cho các mô hình tiên tiến nhất của Google—Veo, Imagen và Gemini. Flow đại diện cho sự phát triển của VideoFX và được xây dựng đặc biệt bởi và dành cho những người sáng tạo.

Những gì Flow cung cấp:
- Giao diện trực quan: Mô tả tầm nhìn của bạn bằng ngôn ngữ thông thường với lời nhắc được hỗ trợ bởi Gemini
- Điều khiển máy quay: Kiểm soát trực tiếp chuyển động, góc quay và phối cảnh của máy quay
- Trình xây dựng cảnh: Chỉnh sửa và mở rộng các cảnh quay hiện có một cách liền mạch với chuyển động liên tục và các nhân vật nhất quán
- Quản lý tài sản: Tổ chức các thành phần và lời nhắc một cách hiệu quả
- Flow TV: Duyệt qua một bộ sưu tập các clip ngày càng tăng với các lời nhắc và kỹ thuật hiển thị

Giá cả và quyền truy cập:
- Gói Google AI Pro: Cung cấp các tính năng chính của Flow và 100 lần tạo mỗi tháng
- Gói Google AI Ultra: Cung cấp giới hạn sử dụng cao nhất và quyền truy cập sớm vào Veo 3 với tính năng tạo âm thanh gốc, bao gồm âm thanh môi trường và đối thoại nhân vật

Flow hiện có sẵn cho người đăng ký ở Hoa Kỳ và sẽ sớm ra mắt ở nhiều quốc gia khác. Phương pháp này lý tưởng cho những người sáng tạo muốn có giao diện thân thiện với người dùng mà không cần xử lý các lệnh gọi API phức tạp hoặc thiết lập kỹ thuật.
Phương pháp 2: Sử dụng 300 USD tín dụng miễn phí của Google Cloud khi đăng ký


Ví dụ, như được nhấn mạnh trên trang web Google Cloud, người dùng mới có thể nhận được 300 USD tín dụng miễn phí và sử dụng miễn phí hơn 20 sản phẩm. Các tín dụng này có thể được áp dụng cho các dịch vụ trên Vertex AI, bao gồm thử nghiệm với các mô hình Google Veo 3.

Bạn cần thực hiện quy trình đăng ký, yêu cầu xác minh:

Điều này cho phép bạn dùng thử Veo 3 miễn phí, trong giới hạn tín dụng của bạn hoặc các quyền lợi của gói miễn phí của nền tảng. Để bắt đầu, bạn cần tạo tài khoản Google Cloud, thiết lập một dự án và đảm bảo API Vertex AI được bật.

Truy cập Veo 3 qua API
Hiện tại, Veo 3 (veo-3.0-generate-preview) có sẵn thông qua API Vertex AI nhưng yêu cầu quyền truy cập theo danh sách cho phép (allowlist). Theo tài liệu chính thức, mô hình này đang ở trạng thái Xem trước (Preview) với quyền truy cập được kiểm soát.
Đọc thêm về Tài liệu chính thức từ Google tại đây:

Yêu cầu truy cập API:
- Tham gia danh sách chờ để truy cập veo-3.0-generate-preview
- Mô hình hỗ trợ tạo video từ văn bản và từ hình ảnh
- Hạn chế hiện tại: Tỷ lệ khung hình 16:9, độ phân giải 720p, 24 FPS, độ dài tối đa 8 giây
- Tối đa 10 yêu cầu API mỗi phút cho mỗi dự án.
Phương pháp 3: Giảm giá cho sinh viên khi dùng Google AI Pro
Google cung cấp các chương trình và giảm giá giáo dục có thể giúp sinh viên và nhà giáo dục tiếp cận Veo 3 với chi phí hợp lý hơn. Cách thức hoạt động:
- Sinh viên có thể đủ điều kiện được giảm giá hoặc truy cập miễn phí Google AI Pro
- Các tổ chức giáo dục thường có các thỏa thuận giá đặc biệt
- Một số khu vực cung cấp các chương trình dành riêng cho sinh viên với tín dụng nâng cao
Phương pháp 3: Giảm giá cho sinh viên khi dùng Google AI Pro
Google cung cấp các chương trình và giảm giá giáo dục có thể giúp sinh viên và nhà giáo dục tiếp cận Veo 3 với chi phí hợp lý hơn.

Cách thức hoạt động:
- Sinh viên có thể đủ điều kiện được giảm giá hoặc truy cập miễn phí Google AI Pro
- Các tổ chức giáo dục thường có các thỏa thuận giá đặc biệt
- Một số khu vực cung cấp các chương trình dành riêng cho sinh viên với tín dụng nâng cao
Để có quyền truy cập dành cho sinh viên, bạn cần:
Bước 1. Đăng ký gói tại Google One

Lưu ý rằng một số người dùng có thể gặp phải lỗi này:

Bước 2. Cuộn xuống và chọn tùy chọn miễn phí 15 tháng dành cho Sinh viên Đại học

Bước 3. Xác minh trạng thái sinh viên
- Sử dụng địa chỉ email giáo dục của bạn (tên miền .edu)
- Cung cấp thẻ sinh viên hoặc giấy xác nhận nhập học
- Kiểm tra xem tổ chức của bạn có quan hệ đối tác Google for Education hiện có hay không
Lưu ý quan trọng:
- Điều kiện đủ điều kiện khác nhau tùy theo khu vực và tổ chức
- Một số tài khoản có thể hiển thị "Tài khoản này không đủ điều kiện cho gói Google AI Pro" nếu họ không đáp ứng các tiêu chí hiện tại
- Giá cả và tính khả dụng của giáo dục thay đổi thường xuyên, vì vậy hãy kiểm tra các trang giáo dục chính thức của Google để biết các ưu đãi hiện tại
Bước 4. Sau khi yêu cầu của bạn được phê duyệt, hãy truy cập Google Gemini và chọn Tùy chọn Video, nơi bạn có thể dùng thử Veo 3 ngay! (tất nhiên là có một số hạn chế)

Cách viết lời nhắc tốt hơn cho Veo 3

Các mô hình Google Veo tạo video dựa trên mô tả văn bản của bạn. Các lời nhắc chi tiết hơn thường mang lại video chất lượng cao hơn và phù hợp hơn. Hãy cân nhắc mô tả:
- Chủ thể và hành động.
- Bối cảnh và môi trường.
- Phong cách điện ảnh, chuyển động máy quay.
- Tâm trạng và tông màu.
Đối với các mô hình hỗ trợ âm thanh (như veo-3.0-generate-preview
), bạn có thể bao gồm mô tả cho phần chuyển lời (đối thoại) và hiệu ứng âm thanh.
- Trình viết lại lời nhắc (Nâng cao lời nhắc):
Veo bao gồm một công cụ nâng cao lời nhắc dựa trên LLM. Tính năng này có thể viết lại lời nhắc của bạn để thêm chi tiết mô tả, chuyển động máy quay, chuyển lời và hiệu ứng âm thanh, nhằm mục đích tạo ra video chất lượng cao hơn. - Bật theo mặc định: Tính năng này được bật theo mặc định cho các mô hình như
veo-2.0-generate-001
vàveo-3.0-generate-preview
. - Tắt: Bạn có thể tắt tính năng nâng cao lời nhắc bằng cách đặt tham số
enhancePrompt
thànhFalse
trong lệnh gọi REST API của bạn (hoặc một tham số tương tự trong SDK nếu có). - Quan trọng đối với
veo-3.0-generate-preview
: Bạn không thể tắt trình viết lại lời nhắc khi sử dụng mô hìnhveo-3.0-generate-preview
. - Lời nhắc được viết lại trong phản hồi: Nếu lời nhắc gốc dài dưới 30 từ, lời nhắc được viết lại mà mô hình sử dụng sẽ được gửi trong phản hồi API.
Muốn một nền tảng tích hợp, Tất cả trong Một cho Đội ngũ Phát triển của bạn để làm việc cùng nhau với năng suất tối đa?
Apidog đáp ứng mọi nhu cầu của bạn, và thay thế Postman với mức giá hợp lý hơn nhiều!
Kết luận
Các mô hình Veo của Google trên Vertex AI đại diện cho một bước tiến đáng kể trong AI tạo sinh, đặc biệt là trong việc tạo video. Bằng cách cung cấp quyền truy cập API trực quan thông qua cả Gen AI SDK cho Python và các điểm cuối REST trực tiếp, Google trao quyền cho các nhà phát triển và người sáng tạo tích hợp các khả năng chuyển văn bản thành video và chuyển hình ảnh thành video mạnh mẽ vào quy trình làm việc và ứng dụng của họ.