Blog của Google vừa ra mắt Gemini Omni, một mô hình mới tích hợp khả năng suy luận của công ty vào đầu ra tạo sinh. Biến thể đầu tiên, Gemini Omni Flash, nhận đầu vào là văn bản, hình ảnh, âm thanh hoặc video và trả về video. Nó đã có mặt trong ứng dụng Gemini, Google Flow, YouTube Shorts và ứng dụng YouTube Create, với quyền truy cập API dành cho nhà phát triển sẽ ra mắt trong những tuần tới.
Nếu bạn xây dựng bằng Apidog, bạn đã kết nối các mô hình văn bản, trình tạo hình ảnh như Nano Banana 2 và các mô hình video như Veo 3.1. Gemini Omni là điểm cuối tiếp theo cần lên kế hoạch, và thiết kế của nó khác biệt đáng kể so với bất kỳ sản phẩm nào Google từng phát hành trước đây. Bài đăng này sẽ phân tích Omni làm gì, nó đang ở đâu hiện nay, khi nào API ra mắt, nó liên quan đến Gemini 3 Pro như thế nào và cách thiết lập không gian làm việc Apidog của bạn để bạn có thể kết nối nó ngay khi các khóa được cung cấp.
Tóm tắt
Gemini Omni là dòng mô hình mới của Google kết hợp khả năng suy luận của Gemini với khả năng tạo sinh đa phương thức bản địa. Phiên bản đầu tiên, Gemini Omni Flash, chấp nhận đầu vào văn bản, hình ảnh, âm thanh và video, đồng thời tạo ra đầu ra video, với đầu ra hình ảnh và âm thanh được lên kế hoạch sau. Nó hiện có sẵn trong ứng dụng Gemini và Google Flow cho người đăng ký AI Plus, Pro và Ultra, miễn phí trong YouTube Shorts và YouTube Create, với API dành cho nhà phát triển và doanh nghiệp sẽ được triển khai trong những tuần tới.
Gemini Omni là gì
Gemini Omni là một loại mô hình tạo sinh khác biệt. Hầu hết các trình tạo video đều nhận một lời nhắc và tạo ra các khung hình. Omni suy luận về lời nhắc theo cách một mô hình ngôn ngữ sẽ làm, sau đó tạo ra đầu ra. Nhóm Google DeepMind do Koray Kavukcuoglu dẫn đầu mô tả Omni là một mô hình suy nghĩ về những gì sẽ xảy ra tiếp theo bằng cách sử dụng kiến thức thế giới của Gemini cùng với sự nắm bắt trực quan về vật lý như trọng lực, động năng và động lực học chất lỏng.
Hãy nghĩ theo cách này. Veo 3 xuất sắc trong việc tạo ra chuyển động trông giống thật. Omni được xây dựng để chuyển động cũng hoạt động giống như thế giới thực. Nếu bạn yêu cầu Omni hiển thị một quả bóng nảy ra khỏi cầu thang, nó không hoạt hình các khung hình một cách mù quáng. Nó đang suy luận về sự mất động lượng ở mỗi bước, sau đó vẽ ra hình ảnh đó sẽ trông như thế nào. Đó là khoảng cách mà Google đang bán: tạo sinh dựa trên suy luận, không phải nội suy khung hình.
Cách đặt tên tuân theo mô hình của Google. Gemini 3 Pro dành cho các tác vụ nặng, Gemini 3 Flash dành cho tốc độ và chi phí. Gemini Omni Flash nằm trong cùng cấp Flash, có nghĩa là độ trễ thấp, khả dụng rộng rãi và mức giá có thể sẽ tương tự với dòng Gemini 3 Flash khi API ra mắt. Các biến thể Omni lớn hơn có thể nằm trong lộ trình. Google chưa công bố chúng.
Một vài đặc điểm nổi bật phân biệt Omni với các công trình video trước đây của Google:
- Đầu vào đa phương thức là bản địa. Bạn có thể đưa cho Omni một hình ảnh tĩnh và một đoạn âm thanh, sau đó yêu cầu một video dài 6 giây trong đó chủ thể trong hình ảnh nói những lời của đoạn âm thanh đó. Không cần giai đoạn đồng bộ môi bên ngoài.
- Kết hợp tham chiếu. Thêm vào hai cảnh tham chiếu, thông số màu sắc thương hiệu và một kịch bản. Omni giữ tất cả nhất quán trên clip được tạo và trên các chỉnh sửa tiếp theo.
- Chỉnh sửa nhiều lượt. Yêu cầu Omni tạo một clip, sau đó nói "làm cho nền có nhiều tuyết hơn" hoặc "đổi mèo thành cáo." Nó giữ nguyên các phần bạn không đề cập. Điều đó khó hơn nghe có vẻ. Hầu hết các mô hình video hiện tại đều loại bỏ tính nhất quán trước đó trong mỗi lần tạo lại.
Nó khác với Veo 3 và Gemini 3 Pro như thế nào
Nếu bạn đã sử dụng các phiên bản mô hình gần đây của Google, thì dòng sản phẩm này hiện có ba nhánh:
| Mô hình | Mục đích | Đầu vào | Đầu ra | Suy luận |
|---|---|---|---|---|
| Gemini 3 Pro | Suy luận văn bản + đa phương thức nặng | Văn bản, hình ảnh, âm thanh, video, mã | Văn bản, mã | Mạnh (Deep Think khả dụng) |
| Veo 3.1 | Tạo video thuần túy | Văn bản, hình ảnh | Video | Hạn chế; dựa trên lời nhắc |
| Gemini Omni Flash | Suy luận + tạo sinh sáng tạo | Văn bản, hình ảnh, âm thanh, video | Video (hình ảnh/âm thanh sắp ra mắt) | Bản địa, áp dụng cho tạo sinh |
Veo 3 vẫn vượt trội về chất lượng video đơn cảnh có độ chân thực cao nhất. Chúng tôi đã trình bày chi tiết về điều đó trong hướng dẫn API Veo 3 và thông tin về bản phát hành Veo 3.1. Điều mà Omni bổ sung là vòng lặp suy luận. Mô hình có thể được yêu cầu "xây dựng một video giới thiệu sản phẩm dài 30 giây trong đó camera theo dõi việc mở hộp điện thoại và phản ứng với lời bình của người dùng," và nó sẽ lập kế hoạch các cảnh quay trước khi tạo ra chúng.
Bạn cũng có thể cung cấp cho Omni các chỉnh sửa trung gian bằng ngôn ngữ tự nhiên. Với Veo, bạn phải nhắc lại và tạo lại. Với Omni, bạn tiếp tục cuộc trò chuyện. Đó là lý do tại sao Google định vị nó là "người cộng tác sáng tạo" thay vì một trình tạo.
Đối với các tác vụ văn bản thuần túy, Gemini 3 Pro vẫn là lựa chọn đúng đắn. Đối với video thuần túy mà bạn biết chính xác mình muốn gì, Veo 3.1 vẫn rẻ hơn và nhanh hơn. Omni dành cho trường hợp lời nhắc cần được diễn giải và đầu ra cần phản ứng với ngữ cảnh.
Những gì bạn có thể xây dựng với nó hôm nay
Omni Flash hiện đang hoạt động ở bốn nơi:
- Ứng dụng Gemini. Tạo các đoạn video trong cuộc trò chuyện, tinh chỉnh bằng các lượt theo dõi.
- Google Flow. Giao diện làm phim của Google để ghép nhiều cảnh quay thành một chuỗi.
- YouTube Shorts. Miễn phí cho bất kỳ nhà sáng tạo nào trên nền tảng.
- Ứng dụng YouTube Create. Tạo sinh miễn phí, ưu tiên thiết bị di động.
Đối với các gói trả phí, quyền truy cập Omni được bao gồm trong các gói đăng ký Google AI Plus, Pro và Ultra. Các nhà sáng tạo miễn phí nhận được nó trực tiếp qua YouTube. Đó là một động thái phân phối đáng chú ý. Google đang đưa mô hình này đến hàng triệu nhà sáng tạo video ngắn trước khi API dành cho nhà phát triển được phát hành.
Mọi video mà Omni tạo ra đều mang dấu thủy ấn SynthID. Bạn có thể xác minh nguồn gốc thông qua ứng dụng Gemini, Gemini trong Chrome hoặc Google Search. Nếu bạn đang xây dựng bất cứ thứ gì mà nguồn gốc nội dung quan trọng (xem xét tuân thủ, an toàn thương hiệu, xác minh tin tức), thì đó là một tính năng cơ bản hữu ích. SynthID vô hình đối với người xem nhưng có thể đọc được bởi các công cụ phát hiện của Google.
Ngoài ra còn có một tính năng gọi là Avatars. Bạn có thể xây dựng một phiên bản kỹ thuật số của chính mình với giọng nói của riêng bạn, sau đó tạo video trong đó avatar đó nói những câu mới. Hệ thống tương tự cũng hoạt động cho các nhân vật thương hiệu. Google không tiết lộ quy trình đồng ý và xác minh sẽ như thế nào đối với cấp API, nhưng phiên bản tiêu dùng yêu cầu thiết lập giọng nói rõ ràng trước khi bất kỳ avatar nào có thể sử dụng hình ảnh của bạn.
Ý tưởng suy luận kết hợp tạo sinh, giải thích một cách đơn giản
Tại sao "suy luận + tạo sinh" lại quan trọng? Lấy một ví dụ cụ thể.
Lời nhắc: "Cho tôi xem một ly nước bị đổ khỏi mép bàn và rơi xuống sàn gỗ."
Một mô hình tạo sinh thuần túy sẽ nội suy các khung hình trông giống như một ly nước bị đổ. Một mô hình suy luận trước tiên sẽ trả lời một chuỗi câu hỏi nội bộ. Một ly nước vơi một nửa đổ nhanh như thế nào khi trọng tâm của nó vượt qua mép? Nước có rời khỏi ly trước hay sau khi vành ly chạm sàn? Ly có vỡ hay nảy lên? Âm thanh đó sẽ như thế nào? Sau đó, nó tạo ra các khung hình phù hợp với những câu trả lời đó.
Đó là điều Google muốn nói khi đề cập đến "hiểu biết trực quan về vật lý." Omni không chạy mô phỏng vật lý bên dưới. Nó đã được huấn luyện để dự đoán kết quả theo cách mà một người có trực giác vật lý sẽ làm, và dự đoán đó hướng dẫn quá trình tạo sinh.
Bạn sẽ nhận thấy điều này rõ nhất ở ba nơi:
- Quỹ đạo. Các vật rơi tuân theo trọng lực thay vì lơ lửng.
- Hành vi vật liệu. Vải gập lại, nước văng, khói bốc lên theo những cách cảm thấy đúng.
- Tiếp xúc. Khi hai vật thể va chạm, phản ứng (nảy, dính, biến dạng) phù hợp với mong đợi.
Tuy nhiên, Omni không phải là một công cụ vật lý. Nó vẫn gây nhầm lẫn chuyển động trong các cảnh quay dài, đôi khi vi phạm tính vĩnh cửu của vật thể trong các lần chuyển giao, và sẽ không thay thế một quy trình VFX phù hợp. Mức độ nó đạt được là "trông có vẻ hợp lý mà không cần bạn phải thiết kế lời nhắc cho từng chi tiết."
Gemini Omni Flash hiện đang chạy ở đâu
Tổng quan nhanh về các cấp độ truy cập tại thời điểm ra mắt:
| Giao diện | Chi phí | Truy cập |
|---|---|---|
| YouTube Shorts | Miễn phí | Bất kỳ nhà sáng tạo nào |
| Ứng dụng YouTube Create | Miễn phí | Nhà sáng tạo trên di động |
| Ứng dụng Gemini | Trả phí | AI Plus / Pro / Ultra |
| Google Flow | Trả phí | AI Plus / Pro / Ultra |
| API dành cho nhà phát triển | Chưa xác định | Trong vài tuần tới |
| API doanh nghiệp | Chưa xác định | Trong vài tuần tới |
API dành cho nhà phát triển là điều mà hầu hết độc giả của blog này quan tâm. Google chưa cam kết một ngày cụ thể nào ngoài "trong vài tuần tới". Hãy mong đợi các điểm cuối trong Google AI Studio và Vertex AI trước tiên, theo mô hình triển khai của Gemini 3.
Trong khi chờ đợi, hãy thiết lập không gian làm việc API của bạn. Tải xuống Apidog, nhập sơ đồ API Gemini hiện có mà bạn đang sử dụng cho Gemini 3 Pro hoặc Veo 3, và bạn sẽ sẵn sàng thêm điểm cuối Omni ngay khi thông số kỹ thuật OpenAPI được phát hành. Chức năng nhập của Apidog xử lý xác thực, biến môi trường và phản hồi giả lập, vì vậy bạn có thể tạo phản hồi tạo video giả trước khi điểm cuối thực sự tồn tại.
API và quyền truy cập dành cho nhà phát triển: những gì chúng ta biết
Dưới đây là mọi thứ Google đã xác nhận về quyền truy cập dành cho nhà phát triển cho đến nay:
- Cấp độ API. Gemini Omni Flash sẽ ra mắt trước. Các biến thể Omni lớn hơn chưa được công bố.
- Điểm cuối. Có thể là Google AI Studio (để tạo mẫu) và Vertex AI (để sản xuất). Dòng Gemini 3 đã đi theo con đường đó.
- Các phương thức nhập tại thời điểm ra mắt. Văn bản, hình ảnh, âm thanh, video.
- Các phương thức xuất tại thời điểm ra mắt. Chỉ video. Đầu ra hình ảnh và âm thanh sẽ ra mắt "đúng lúc," theo cách diễn đạt của Google.
- Giá cả. Chưa xác nhận. Cấp Flash thường có giá thấp; dự kiến tính phí theo giây đầu ra tương tự như Veo.
- Giới hạn tốc độ. Chưa xác nhận.
- Khả dụng theo khu vực. Chưa xác nhận.
Nếu quy trình làm việc hiện tại của bạn dựa vào Veo 3.1 hoặc một mô hình video của bên thứ ba, con đường di chuyển về cơ bản là đơn giản. Cấu trúc lời nhắc tương tự, đầu vào phong phú hơn, đầu ra phong phú hơn. Chi phí và độ trễ là những yếu tố chưa xác định.
Lựa chọn an toàn hơn hiện tại là thiết kế ứng dụng của bạn để hoán đổi các mô hình đằng sau một giao diện nội bộ duy nhất. Đóng gói Veo, Omni và bất kỳ lựa chọn thay thế nào trong tương lai đằng sau một dịch vụ. Kiểm tra việc hoán đổi bằng Apidog bằng cách tạo giả lập hình dạng điểm cuối mới, xác thực mã máy khách của bạn và chỉ hoán đổi URL trực tiếp sau khi Omni được phát hành rộng rãi. Chúng tôi đã trình bày chính xác mô hình đó trong hướng dẫn API văn bản thành video của chúng tôi.
Đẩy điểm cuối Omni vào Apidog
Khi API Omni được phát hành, không gian làm việc Apidog của bạn sẽ cần ba điều:
- Thiết lập xác thực. Dù Google định tuyến qua AI Studio (
x-goog-api-key) hay Vertex (OAuth + tài khoản dịch vụ), hãy thiết lập cả hai trong môi trường Apidog. Chuyển đổi chỉ với một cú nhấp chuột thay vì chỉnh sửa tiêu đề cho mỗi yêu cầu. - Định nghĩa sơ đồ. Nhập thông số kỹ thuật OpenAPI ngay khi Google xuất bản. Nếu họ không làm vậy, hãy phác thảo sơ đồ trong trình thiết kế trực quan của Apidog bằng cách sử dụng thông số kỹ thuật Gemini 3 làm cơ sở. Cách tiếp cận tương tự đã hoạt động khi Gemini 3 ra mắt trước khi OpenAPI chính thức được phát hành.
- Phản hồi giả lập. Tạo video chậm và tốn kém. Chức năng giả lập thông minh của Apidog trả về các phản hồi base64 hoặc URL đã ký được đóng gói sẵn để ứng dụng khách frontend của bạn có thể được xây dựng và kiểm tra mà không tốn hạn mức API thực tế.
Một yêu cầu Omni điển hình có lẽ sẽ trông như thế này ở dạng thô:
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(Hình dạng đó là một sự chiếu từ API đa phương thức Gemini 3 hiện có. Google có thể thay đổi tên trường.)
Chèn lệnh đó vào Apidog dưới dạng một yêu cầu, lưu nó vào bộ sưu tập Gemini của bạn, và bạn sẽ có một thử nghiệm có thể chạy lại và chia sẻ với nhóm. Thêm các xác nhận trực quan về mã phản hồi, kích thước tải trọng và sự hiện diện của dấu thủy ấn SynthID. Khi điểm cuối thực sự hoạt động, chỉ cần cập nhật URL.
Omni so với Sora 2, Veo 3.1 và Nano Banana 2 như thế nào
Dòng sản phẩm mô hình video năm 2026 rất cạnh tranh, vì vậy việc so sánh công bằng là quan trọng trước khi bạn cam kết:
| Mô hình | Nhà cung cấp | Suy luận | Đầu vào đa phương thức | Có thể chỉnh sửa | Dấu thủy ấn |
|---|---|---|---|---|---|
| Gemini Omni Flash | Bản địa | Văn bản, hình ảnh, âm thanh, video | Nhiều lượt | SynthID | |
| Veo 3.1 | Hạn chế | Văn bản, hình ảnh | Chỉ nhắc lại | SynthID | |
| Sora 2 | OpenAI | Một phần | Văn bản, hình ảnh | Chỉ nhắc lại | C2PA |
| Nano Banana 2 | Một phần | Văn bản, hình ảnh | Hạn chế | SynthID |
Veo 3.1 có lợi thế về chất lượng cảnh quay đơn điện ảnh chân thực nhất. Sora 2 có khả năng mô phỏng thế giới mạnh nhất theo định vị của OpenAI. Chúng tôi đã phân tích chi tiết trong bài viết chuyên sâu về Sora 2. Các ưu điểm nổi bật của Omni là suy luận, chỉnh sửa nhiều lượt và đầu vào âm thanh-ra video mà không cần giai đoạn riêng biệt.
Nếu bạn đang chọn một cái cho quy trình làm việc sản xuất hôm nay, Veo 3.1 cộng với lớp giả lập của Apidog là lựa chọn ổn định nhất. Nếu bạn đang thử nghiệm một thứ mà người dùng mô tả các chỉnh sửa bằng ngôn ngữ tự nhiên và mong đợi mô hình theo kịp, Omni là nơi để đầu tư thời gian thử nghiệm khi API ra mắt. So sánh đầy đủ có trong bảng so sánh mô hình video của chúng tôi.
Các trường hợp sử dụng trong thế giới thực
Một vài mô hình có thể được mong đợi sớm:
- Nhóm tiếp thị sản phẩm. Tạo video giới thiệu sản phẩm được bản địa hóa từ một kịch bản tiếng Anh duy nhất cộng với một hình ảnh tham chiếu. Lặp lại với người đứng đầu tiếp thị bằng cách trò chuyện với mô hình.
- Giáo dục. Giải thích một khái niệm vật lý bằng cách yêu cầu Omni minh họa. Bước suy luận rất quan trọng ở đây. Bạn muốn bản minh họa phải đúng về mặt vật lý, không chỉ đẹp mắt mà sai về vật lý.
- Chăm sóc khách hàng. Tạo video giới thiệu ngắn do avatar hướng dẫn, được cá nhân hóa cho từng khách hàng. Tính năng Avatars là yếu tố then chốt.
- Xác minh tin tức và nội dung. Nhúng tính năng phát hiện SynthID vào quy trình kiểm duyệt của bạn để gắn cờ các tài liệu do Omni tạo ra. Đặc biệt liên quan đến các nhóm tin cậy và an toàn.
- Tạo mẫu trò chơi và ứng dụng. Xây dựng các chuỗi điện ảnh trước khi có bất kỳ họa sĩ 3D nào tham gia.
Các phương pháp hay nhất và những điều cần lưu ý
Nếu bạn đang chuẩn bị cho việc phát hành API của Omni, một số lựa chọn sẽ giúp bạn tiết kiệm thời gian đáng kể:
- Không mã hóa cứng tên mô hình. Hãy bọc nó trong một biến môi trường. Tên mô hình Gemini thay đổi giữa các bản xem trước và phiên bản chính thức.
- Giả lập trước. Tạo video là lệnh gọi tốn kém nhất trong ngăn xếp của bạn. Sử dụng giả lập Apidog để xây dựng giao diện người dùng và kiểm tra các đường dẫn lỗi của máy khách trước khi kết nối điểm cuối trực tiếp.
- Lưu vào bộ nhớ cache đầu ra một cách triệt để. Cùng một lời nhắc + cùng một đầu vào tham chiếu sẽ được truy xuất từ bộ nhớ cache. Bước suy luận của Omni tốn kém hơn của Veo; bạn không muốn phải trả tiền lại cho nó.
- Cẩn thận với lỗi chính sách nội dung. Bộ lọc an toàn của Google chặn việc tạo ra các nội dung liên quan đến người thật, nhân vật có bản quyền và một danh sách dài các danh mục nhạy cảm. Xây dựng logic thử lại với dự phòng, không phải các trang lỗi.
- Lập kế hoạch xác minh SynthID. Nếu bạn tái xuất bản đầu ra của Omni, hãy quyết định xem bạn có hiển thị nguồn gốc dấu thủy ấn cho người dùng cuối hay không. Các nhóm tuân thủ đang bắt đầu hỏi về điều này.
- Dự trù độ trễ. Tạo video không tức thì. Các clip sáu giây có thể mất hơn 30 giây từ đầu đến cuối. Xử lý lệnh gọi là không đồng bộ; không chặn luồng chính của bạn.
Một sai lầm phổ biến cần tránh: đừng mong đợi Omni thay thế quy trình chỉnh sửa của bạn. Đó là một mô hình tạo sinh, không phải trình chỉnh sửa phi tuyến tính. Bạn vẫn cần một lần kiểm tra cuối cùng trong DaVinci, Premiere hoặc Google Flow để cắt, chỉnh màu và trộn âm thanh.
Các câu hỏi thường gặp
Gemini Omni là gì?
Gemini Omni là dòng mô hình mới của Google kết hợp khả năng suy luận của Gemini với khả năng tạo sinh đa phương thức bản địa. Biến thể đầu tiên, Gemini Omni Flash, chấp nhận đầu vào là văn bản, hình ảnh, âm thanh và video, đồng thời tạo ra đầu ra là video.
Gemini Omni có giống Veo 3 không?
Không. Veo là một mô hình tạo video chuyên dụng với khả năng suy luận hạn chế. Omni là một mô hình suy luận có khả năng tạo video; nó có thể diễn giải các lời nhắc phức tạp, chỉnh sửa qua nhiều lượt và chấp nhận các loại đầu vào phong phú hơn. Xem hướng dẫn API Veo 3 của chúng tôi để biết sự khác biệt trong thực tế.
Khi nào API Gemini Omni ra mắt?
Google cho biết "trong vài tuần tới" kể từ thông báo tháng 5 năm 2026. API dành cho nhà phát triển và doanh nghiệp sẽ được triển khai cùng nhau. Không có ngày cụ thể.
Gemini Omni có giá bao nhiêu?
Đối với người tiêu dùng, nó miễn phí trong YouTube Shorts và YouTube Create, và được bao gồm trong các gói đăng ký Google AI Plus, Pro và Ultra. Giá API chưa được công bố. Cấp Flash thường có mức giá mỗi lần gọi thấp nhất của Google.
Gemini Omni có thể tạo âm thanh không?
Chưa. Đầu ra chỉ là video tại thời điểm ra mắt. Đầu ra âm thanh và hình ảnh đang nằm trong lộ trình mà không có ngày cụ thể.
Gemini Omni có dấu thủy ấn không?
Có. Tất cả các video do Omni tạo ra đều mang dấu thủy ấn SynthID, có thể xác minh thông qua ứng dụng Gemini, Gemini trong Chrome và Google Search. Dấu thủy ấn vô hình đối với người xem nhưng có thể đọc được bởi các công cụ phát hiện của Google.
Apidog có hỗ trợ API Gemini Omni không?
Có, giống như cách Apidog hiện đang hỗ trợ các điểm cuối Gemini 3, Veo 3 và Nano Banana. Ngay khi Google xuất bản thông số kỹ thuật OpenAPI cho Omni, bạn có thể nhập trực tiếp. Trong thời gian chờ đợi, hãy phác thảo sơ đồ, giả lập các phản hồi và chuẩn bị mã máy khách của bạn.
Gemini Omni xử lý vật lý như thế nào?
Mô hình đã được huấn luyện để dự đoán kết quả theo cách mà một người có trực giác vật lý sẽ làm, sau đó tạo ra các khung hình phù hợp với dự đoán đó. Nó không chạy mô phỏng vật lý, nhưng nó xử lý đúng trọng lực, động lực học chất lỏng và hành vi va chạm thường xuyên hơn các mô hình tạo sinh thuần túy.
Tổng kết
Gemini Omni là mô hình thú vị nhất mà Google đã phát hành trong quý này. Nó không chỉ là một Veo nhanh hơn. Đó là một kiến trúc khác biệt, suy luận trước khi tạo sinh, nhận bất kỳ đầu vào nào bạn có, và chỉnh sửa qua các cuộc trò chuyện nhiều lượt. Các hạn chế hiện tại (chỉ đầu ra video, chưa có API công khai) sẽ được loại bỏ trong vài tuần tới.
Năm điều cần làm trong tuần này nếu bạn đang xây dựng với các mô hình video:
- Theo dõi bảng điều khiển Google AI Studio để tìm điểm cuối Omni Flash.
- Thiết lập xác thực và biến môi trường của bạn trong Apidog ngay bây giờ để bạn có thể hoán đổi các mô hình mà không cần thay đổi mã sau này.
- Giả lập hình dạng yêu cầu Omni dự kiến và xác thực tích hợp máy khách của bạn.
- Quyết định xem việc tạo sinh dựa trên suy luận có mang lại lợi ích gì cho bạn so với Veo 3.1.
- Lên kế hoạch xác minh SynthID trong quy trình tin cậy và an toàn của bạn.
Khi API ra mắt, các nhóm đã thực hiện công việc chuẩn bị sẽ đi vào sản xuất trong vòng vài giờ. Phần còn lại sẽ phải đọc tài liệu.
