Gemini Omni là gì? Mô hình video lý luận ưu tiên hàng đầu của Google

Ashley Innocent

Ashley Innocent

20 tháng 5 2026

Gemini Omni là gì? Mô hình video lý luận ưu tiên hàng đầu của Google

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Blog của Google vừa ra mắt Gemini Omni, một mô hình mới tích hợp khả năng suy luận của công ty vào đầu ra tạo sinh. Biến thể đầu tiên, Gemini Omni Flash, nhận đầu vào là văn bản, hình ảnh, âm thanh hoặc video và trả về video. Nó đã có mặt trong ứng dụng Gemini, Google Flow, YouTube Shorts và ứng dụng YouTube Create, với quyền truy cập API dành cho nhà phát triển sẽ ra mắt trong những tuần tới.

Nếu bạn xây dựng bằng Apidog, bạn đã kết nối các mô hình văn bản, trình tạo hình ảnh như Nano Banana 2 và các mô hình video như Veo 3.1. Gemini Omni là điểm cuối tiếp theo cần lên kế hoạch, và thiết kế của nó khác biệt đáng kể so với bất kỳ sản phẩm nào Google từng phát hành trước đây. Bài đăng này sẽ phân tích Omni làm gì, nó đang ở đâu hiện nay, khi nào API ra mắt, nó liên quan đến Gemini 3 Pro như thế nào và cách thiết lập không gian làm việc Apidog của bạn để bạn có thể kết nối nó ngay khi các khóa được cung cấp.

Tóm tắt

Gemini Omni là dòng mô hình mới của Google kết hợp khả năng suy luận của Gemini với khả năng tạo sinh đa phương thức bản địa. Phiên bản đầu tiên, Gemini Omni Flash, chấp nhận đầu vào văn bản, hình ảnh, âm thanh và video, đồng thời tạo ra đầu ra video, với đầu ra hình ảnh và âm thanh được lên kế hoạch sau. Nó hiện có sẵn trong ứng dụng Gemini và Google Flow cho người đăng ký AI Plus, Pro và Ultra, miễn phí trong YouTube Shorts và YouTube Create, với API dành cho nhà phát triển và doanh nghiệp sẽ được triển khai trong những tuần tới.

Gemini Omni là gì

Gemini Omni là một loại mô hình tạo sinh khác biệt. Hầu hết các trình tạo video đều nhận một lời nhắc và tạo ra các khung hình. Omni suy luận về lời nhắc theo cách một mô hình ngôn ngữ sẽ làm, sau đó tạo ra đầu ra. Nhóm Google DeepMind do Koray Kavukcuoglu dẫn đầu mô tả Omni là một mô hình suy nghĩ về những gì sẽ xảy ra tiếp theo bằng cách sử dụng kiến thức thế giới của Gemini cùng với sự nắm bắt trực quan về vật lý như trọng lực, động năng và động lực học chất lỏng.

Hãy nghĩ theo cách này. Veo 3 xuất sắc trong việc tạo ra chuyển động trông giống thật. Omni được xây dựng để chuyển động cũng hoạt động giống như thế giới thực. Nếu bạn yêu cầu Omni hiển thị một quả bóng nảy ra khỏi cầu thang, nó không hoạt hình các khung hình một cách mù quáng. Nó đang suy luận về sự mất động lượng ở mỗi bước, sau đó vẽ ra hình ảnh đó sẽ trông như thế nào. Đó là khoảng cách mà Google đang bán: tạo sinh dựa trên suy luận, không phải nội suy khung hình.

Cách đặt tên tuân theo mô hình của Google. Gemini 3 Pro dành cho các tác vụ nặng, Gemini 3 Flash dành cho tốc độ và chi phí. Gemini Omni Flash nằm trong cùng cấp Flash, có nghĩa là độ trễ thấp, khả dụng rộng rãi và mức giá có thể sẽ tương tự với dòng Gemini 3 Flash khi API ra mắt. Các biến thể Omni lớn hơn có thể nằm trong lộ trình. Google chưa công bố chúng.

Một vài đặc điểm nổi bật phân biệt Omni với các công trình video trước đây của Google:

Nó khác với Veo 3 và Gemini 3 Pro như thế nào

Nếu bạn đã sử dụng các phiên bản mô hình gần đây của Google, thì dòng sản phẩm này hiện có ba nhánh:

Mô hình Mục đích Đầu vào Đầu ra Suy luận
Gemini 3 Pro Suy luận văn bản + đa phương thức nặng Văn bản, hình ảnh, âm thanh, video, mã Văn bản, mã Mạnh (Deep Think khả dụng)
Veo 3.1 Tạo video thuần túy Văn bản, hình ảnh Video Hạn chế; dựa trên lời nhắc
Gemini Omni Flash Suy luận + tạo sinh sáng tạo Văn bản, hình ảnh, âm thanh, video Video (hình ảnh/âm thanh sắp ra mắt) Bản địa, áp dụng cho tạo sinh

Veo 3 vẫn vượt trội về chất lượng video đơn cảnh có độ chân thực cao nhất. Chúng tôi đã trình bày chi tiết về điều đó trong hướng dẫn API Veo 3thông tin về bản phát hành Veo 3.1. Điều mà Omni bổ sung là vòng lặp suy luận. Mô hình có thể được yêu cầu "xây dựng một video giới thiệu sản phẩm dài 30 giây trong đó camera theo dõi việc mở hộp điện thoại và phản ứng với lời bình của người dùng," và nó sẽ lập kế hoạch các cảnh quay trước khi tạo ra chúng.

Bạn cũng có thể cung cấp cho Omni các chỉnh sửa trung gian bằng ngôn ngữ tự nhiên. Với Veo, bạn phải nhắc lại và tạo lại. Với Omni, bạn tiếp tục cuộc trò chuyện. Đó là lý do tại sao Google định vị nó là "người cộng tác sáng tạo" thay vì một trình tạo.

Đối với các tác vụ văn bản thuần túy, Gemini 3 Pro vẫn là lựa chọn đúng đắn. Đối với video thuần túy mà bạn biết chính xác mình muốn gì, Veo 3.1 vẫn rẻ hơn và nhanh hơn. Omni dành cho trường hợp lời nhắc cần được diễn giải và đầu ra cần phản ứng với ngữ cảnh.

Những gì bạn có thể xây dựng với nó hôm nay

Omni Flash hiện đang hoạt động ở bốn nơi:

  1. Ứng dụng Gemini. Tạo các đoạn video trong cuộc trò chuyện, tinh chỉnh bằng các lượt theo dõi.
  2. Google Flow. Giao diện làm phim của Google để ghép nhiều cảnh quay thành một chuỗi.
  3. YouTube Shorts. Miễn phí cho bất kỳ nhà sáng tạo nào trên nền tảng.
  4. Ứng dụng YouTube Create. Tạo sinh miễn phí, ưu tiên thiết bị di động.

Đối với các gói trả phí, quyền truy cập Omni được bao gồm trong các gói đăng ký Google AI Plus, Pro và Ultra. Các nhà sáng tạo miễn phí nhận được nó trực tiếp qua YouTube. Đó là một động thái phân phối đáng chú ý. Google đang đưa mô hình này đến hàng triệu nhà sáng tạo video ngắn trước khi API dành cho nhà phát triển được phát hành.

Mọi video mà Omni tạo ra đều mang dấu thủy ấn SynthID. Bạn có thể xác minh nguồn gốc thông qua ứng dụng Gemini, Gemini trong Chrome hoặc Google Search. Nếu bạn đang xây dựng bất cứ thứ gì mà nguồn gốc nội dung quan trọng (xem xét tuân thủ, an toàn thương hiệu, xác minh tin tức), thì đó là một tính năng cơ bản hữu ích. SynthID vô hình đối với người xem nhưng có thể đọc được bởi các công cụ phát hiện của Google.

Ngoài ra còn có một tính năng gọi là Avatars. Bạn có thể xây dựng một phiên bản kỹ thuật số của chính mình với giọng nói của riêng bạn, sau đó tạo video trong đó avatar đó nói những câu mới. Hệ thống tương tự cũng hoạt động cho các nhân vật thương hiệu. Google không tiết lộ quy trình đồng ý và xác minh sẽ như thế nào đối với cấp API, nhưng phiên bản tiêu dùng yêu cầu thiết lập giọng nói rõ ràng trước khi bất kỳ avatar nào có thể sử dụng hình ảnh của bạn.

Ý tưởng suy luận kết hợp tạo sinh, giải thích một cách đơn giản

Tại sao "suy luận + tạo sinh" lại quan trọng? Lấy một ví dụ cụ thể.

Lời nhắc: "Cho tôi xem một ly nước bị đổ khỏi mép bàn và rơi xuống sàn gỗ."

Một mô hình tạo sinh thuần túy sẽ nội suy các khung hình trông giống như một ly nước bị đổ. Một mô hình suy luận trước tiên sẽ trả lời một chuỗi câu hỏi nội bộ. Một ly nước vơi một nửa đổ nhanh như thế nào khi trọng tâm của nó vượt qua mép? Nước có rời khỏi ly trước hay sau khi vành ly chạm sàn? Ly có vỡ hay nảy lên? Âm thanh đó sẽ như thế nào? Sau đó, nó tạo ra các khung hình phù hợp với những câu trả lời đó.

Đó là điều Google muốn nói khi đề cập đến "hiểu biết trực quan về vật lý." Omni không chạy mô phỏng vật lý bên dưới. Nó đã được huấn luyện để dự đoán kết quả theo cách mà một người có trực giác vật lý sẽ làm, và dự đoán đó hướng dẫn quá trình tạo sinh.

Bạn sẽ nhận thấy điều này rõ nhất ở ba nơi:

Tuy nhiên, Omni không phải là một công cụ vật lý. Nó vẫn gây nhầm lẫn chuyển động trong các cảnh quay dài, đôi khi vi phạm tính vĩnh cửu của vật thể trong các lần chuyển giao, và sẽ không thay thế một quy trình VFX phù hợp. Mức độ nó đạt được là "trông có vẻ hợp lý mà không cần bạn phải thiết kế lời nhắc cho từng chi tiết."

Gemini Omni Flash hiện đang chạy ở đâu

Tổng quan nhanh về các cấp độ truy cập tại thời điểm ra mắt:

Giao diện Chi phí Truy cập
YouTube Shorts Miễn phí Bất kỳ nhà sáng tạo nào
Ứng dụng YouTube Create Miễn phí Nhà sáng tạo trên di động
Ứng dụng Gemini Trả phí AI Plus / Pro / Ultra
Google Flow Trả phí AI Plus / Pro / Ultra
API dành cho nhà phát triển Chưa xác định Trong vài tuần tới
API doanh nghiệp Chưa xác định Trong vài tuần tới

API dành cho nhà phát triển là điều mà hầu hết độc giả của blog này quan tâm. Google chưa cam kết một ngày cụ thể nào ngoài "trong vài tuần tới". Hãy mong đợi các điểm cuối trong Google AI Studio và Vertex AI trước tiên, theo mô hình triển khai của Gemini 3.

Trong khi chờ đợi, hãy thiết lập không gian làm việc API của bạn. Tải xuống Apidog, nhập sơ đồ API Gemini hiện có mà bạn đang sử dụng cho Gemini 3 Pro hoặc Veo 3, và bạn sẽ sẵn sàng thêm điểm cuối Omni ngay khi thông số kỹ thuật OpenAPI được phát hành. Chức năng nhập của Apidog xử lý xác thực, biến môi trường và phản hồi giả lập, vì vậy bạn có thể tạo phản hồi tạo video giả trước khi điểm cuối thực sự tồn tại.

API và quyền truy cập dành cho nhà phát triển: những gì chúng ta biết

Dưới đây là mọi thứ Google đã xác nhận về quyền truy cập dành cho nhà phát triển cho đến nay:

Nếu quy trình làm việc hiện tại của bạn dựa vào Veo 3.1 hoặc một mô hình video của bên thứ ba, con đường di chuyển về cơ bản là đơn giản. Cấu trúc lời nhắc tương tự, đầu vào phong phú hơn, đầu ra phong phú hơn. Chi phí và độ trễ là những yếu tố chưa xác định.

Lựa chọn an toàn hơn hiện tại là thiết kế ứng dụng của bạn để hoán đổi các mô hình đằng sau một giao diện nội bộ duy nhất. Đóng gói Veo, Omni và bất kỳ lựa chọn thay thế nào trong tương lai đằng sau một dịch vụ. Kiểm tra việc hoán đổi bằng Apidog bằng cách tạo giả lập hình dạng điểm cuối mới, xác thực mã máy khách của bạn và chỉ hoán đổi URL trực tiếp sau khi Omni được phát hành rộng rãi. Chúng tôi đã trình bày chính xác mô hình đó trong hướng dẫn API văn bản thành video của chúng tôi.

Đẩy điểm cuối Omni vào Apidog

Khi API Omni được phát hành, không gian làm việc Apidog của bạn sẽ cần ba điều:

  1. Thiết lập xác thực. Dù Google định tuyến qua AI Studio (x-goog-api-key) hay Vertex (OAuth + tài khoản dịch vụ), hãy thiết lập cả hai trong môi trường Apidog. Chuyển đổi chỉ với một cú nhấp chuột thay vì chỉnh sửa tiêu đề cho mỗi yêu cầu.
  2. Định nghĩa sơ đồ. Nhập thông số kỹ thuật OpenAPI ngay khi Google xuất bản. Nếu họ không làm vậy, hãy phác thảo sơ đồ trong trình thiết kế trực quan của Apidog bằng cách sử dụng thông số kỹ thuật Gemini 3 làm cơ sở. Cách tiếp cận tương tự đã hoạt động khi Gemini 3 ra mắt trước khi OpenAPI chính thức được phát hành.
  3. Phản hồi giả lập. Tạo video chậm và tốn kém. Chức năng giả lập thông minh của Apidog trả về các phản hồi base64 hoặc URL đã ký được đóng gói sẵn để ứng dụng khách frontend của bạn có thể được xây dựng và kiểm tra mà không tốn hạn mức API thực tế.

Một yêu cầu Omni điển hình có lẽ sẽ trông như thế này ở dạng thô:

curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
        { "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
      ]
    }],
    "generationConfig": {
      "responseMimeType": "video/mp4",
      "durationSeconds": 6
    }
  }'

(Hình dạng đó là một sự chiếu từ API đa phương thức Gemini 3 hiện có. Google có thể thay đổi tên trường.)

Chèn lệnh đó vào Apidog dưới dạng một yêu cầu, lưu nó vào bộ sưu tập Gemini của bạn, và bạn sẽ có một thử nghiệm có thể chạy lại và chia sẻ với nhóm. Thêm các xác nhận trực quan về mã phản hồi, kích thước tải trọng và sự hiện diện của dấu thủy ấn SynthID. Khi điểm cuối thực sự hoạt động, chỉ cần cập nhật URL.

Omni so với Sora 2, Veo 3.1 và Nano Banana 2 như thế nào

Dòng sản phẩm mô hình video năm 2026 rất cạnh tranh, vì vậy việc so sánh công bằng là quan trọng trước khi bạn cam kết:

Mô hình Nhà cung cấp Suy luận Đầu vào đa phương thức Có thể chỉnh sửa Dấu thủy ấn
Gemini Omni Flash Google Bản địa Văn bản, hình ảnh, âm thanh, video Nhiều lượt SynthID
Veo 3.1 Google Hạn chế Văn bản, hình ảnh Chỉ nhắc lại SynthID
Sora 2 OpenAI Một phần Văn bản, hình ảnh Chỉ nhắc lại C2PA
Nano Banana 2 Google Một phần Văn bản, hình ảnh Hạn chế SynthID

Veo 3.1 có lợi thế về chất lượng cảnh quay đơn điện ảnh chân thực nhất. Sora 2 có khả năng mô phỏng thế giới mạnh nhất theo định vị của OpenAI. Chúng tôi đã phân tích chi tiết trong bài viết chuyên sâu về Sora 2. Các ưu điểm nổi bật của Omni là suy luận, chỉnh sửa nhiều lượt và đầu vào âm thanh-ra video mà không cần giai đoạn riêng biệt.

Nếu bạn đang chọn một cái cho quy trình làm việc sản xuất hôm nay, Veo 3.1 cộng với lớp giả lập của Apidog là lựa chọn ổn định nhất. Nếu bạn đang thử nghiệm một thứ mà người dùng mô tả các chỉnh sửa bằng ngôn ngữ tự nhiên và mong đợi mô hình theo kịp, Omni là nơi để đầu tư thời gian thử nghiệm khi API ra mắt. So sánh đầy đủ có trong bảng so sánh mô hình video của chúng tôi.

Các trường hợp sử dụng trong thế giới thực

Một vài mô hình có thể được mong đợi sớm:

Các phương pháp hay nhất và những điều cần lưu ý

Nếu bạn đang chuẩn bị cho việc phát hành API của Omni, một số lựa chọn sẽ giúp bạn tiết kiệm thời gian đáng kể:

Một sai lầm phổ biến cần tránh: đừng mong đợi Omni thay thế quy trình chỉnh sửa của bạn. Đó là một mô hình tạo sinh, không phải trình chỉnh sửa phi tuyến tính. Bạn vẫn cần một lần kiểm tra cuối cùng trong DaVinci, Premiere hoặc Google Flow để cắt, chỉnh màu và trộn âm thanh.

Các câu hỏi thường gặp

Gemini Omni là gì?

Gemini Omni là dòng mô hình mới của Google kết hợp khả năng suy luận của Gemini với khả năng tạo sinh đa phương thức bản địa. Biến thể đầu tiên, Gemini Omni Flash, chấp nhận đầu vào là văn bản, hình ảnh, âm thanh và video, đồng thời tạo ra đầu ra là video.

Gemini Omni có giống Veo 3 không?

Không. Veo là một mô hình tạo video chuyên dụng với khả năng suy luận hạn chế. Omni là một mô hình suy luận có khả năng tạo video; nó có thể diễn giải các lời nhắc phức tạp, chỉnh sửa qua nhiều lượt và chấp nhận các loại đầu vào phong phú hơn. Xem hướng dẫn API Veo 3 của chúng tôi để biết sự khác biệt trong thực tế.

Khi nào API Gemini Omni ra mắt?

Google cho biết "trong vài tuần tới" kể từ thông báo tháng 5 năm 2026. API dành cho nhà phát triển và doanh nghiệp sẽ được triển khai cùng nhau. Không có ngày cụ thể.

Gemini Omni có giá bao nhiêu?

Đối với người tiêu dùng, nó miễn phí trong YouTube Shorts và YouTube Create, và được bao gồm trong các gói đăng ký Google AI Plus, Pro và Ultra. Giá API chưa được công bố. Cấp Flash thường có mức giá mỗi lần gọi thấp nhất của Google.

Gemini Omni có thể tạo âm thanh không?

Chưa. Đầu ra chỉ là video tại thời điểm ra mắt. Đầu ra âm thanh và hình ảnh đang nằm trong lộ trình mà không có ngày cụ thể.

Gemini Omni có dấu thủy ấn không?

Có. Tất cả các video do Omni tạo ra đều mang dấu thủy ấn SynthID, có thể xác minh thông qua ứng dụng Gemini, Gemini trong Chrome và Google Search. Dấu thủy ấn vô hình đối với người xem nhưng có thể đọc được bởi các công cụ phát hiện của Google.

Apidog có hỗ trợ API Gemini Omni không?

Có, giống như cách Apidog hiện đang hỗ trợ các điểm cuối Gemini 3, Veo 3 và Nano Banana. Ngay khi Google xuất bản thông số kỹ thuật OpenAPI cho Omni, bạn có thể nhập trực tiếp. Trong thời gian chờ đợi, hãy phác thảo sơ đồ, giả lập các phản hồi và chuẩn bị mã máy khách của bạn.

Gemini Omni xử lý vật lý như thế nào?

Mô hình đã được huấn luyện để dự đoán kết quả theo cách mà một người có trực giác vật lý sẽ làm, sau đó tạo ra các khung hình phù hợp với dự đoán đó. Nó không chạy mô phỏng vật lý, nhưng nó xử lý đúng trọng lực, động lực học chất lỏng và hành vi va chạm thường xuyên hơn các mô hình tạo sinh thuần túy.

Tổng kết

Gemini Omni là mô hình thú vị nhất mà Google đã phát hành trong quý này. Nó không chỉ là một Veo nhanh hơn. Đó là một kiến trúc khác biệt, suy luận trước khi tạo sinh, nhận bất kỳ đầu vào nào bạn có, và chỉnh sửa qua các cuộc trò chuyện nhiều lượt. Các hạn chế hiện tại (chỉ đầu ra video, chưa có API công khai) sẽ được loại bỏ trong vài tuần tới.

Năm điều cần làm trong tuần này nếu bạn đang xây dựng với các mô hình video:

  1. Theo dõi bảng điều khiển Google AI Studio để tìm điểm cuối Omni Flash.
  2. Thiết lập xác thực và biến môi trường của bạn trong Apidog ngay bây giờ để bạn có thể hoán đổi các mô hình mà không cần thay đổi mã sau này.
  3. Giả lập hình dạng yêu cầu Omni dự kiến và xác thực tích hợp máy khách của bạn.
  4. Quyết định xem việc tạo sinh dựa trên suy luận có mang lại lợi ích gì cho bạn so với Veo 3.1.
  5. Lên kế hoạch xác minh SynthID trong quy trình tin cậy và an toàn của bạn.

Khi API ra mắt, các nhóm đã thực hiện công việc chuẩn bị sẽ đi vào sản xuất trong vòng vài giờ. Phần còn lại sẽ phải đọc tài liệu.

nút

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API