Le blog de Google vient de lancer Gemini Omni, un nouveau modèle qui intègre la pile de raisonnement de l'entreprise à la sortie générative. La première variante, Gemini Omni Flash, prend du texte, des images, de l'audio ou de la vidéo en entrée et vous renvoie de la vidéo. Il est déjà disponible dans l'application Gemini, Google Flow, YouTube Shorts et l'application YouTube Create, l'accès à l'API pour les développeurs arrivant dans les prochaines semaines.
Si vous développez avec Apidog, vous avez déjà connecté des modèles de texte, des générateurs d'images comme Nano Banana 2, et des modèles vidéo comme Veo 3.1. Gemini Omni est le prochain point de terminaison à prévoir, et sa conception est significativement différente de tout ce que Google a livré auparavant. Cet article explique ce que fait Omni, où il se trouve aujourd'hui, quand l'API arrivera, comment il se rapporte à Gemini 3 Pro, et comment configurer votre espace de travail Apidog afin que vous puissiez le brancher dès que les clés seront disponibles.
TL;DR
Gemini Omni est la nouvelle famille de modèles de Google qui combine la capacité de raisonnement de Gemini avec une génération multimodale native. La première version, Gemini Omni Flash, accepte des entrées texte, image, audio et vidéo et produit une sortie vidéo, avec des sorties image et audio prévues. Il est disponible dès maintenant dans l'application Gemini et Google Flow pour les abonnés AI Plus, Pro et Ultra, gratuit dans YouTube Shorts et YouTube Create, avec le déploiement des API pour développeurs et entreprises dans les prochaines semaines.
Qu'est-ce que Gemini Omni
Gemini Omni est un type différent de modèle génératif. La plupart des générateurs vidéo prennent une invite et produisent des images. Omni raisonne sur l'invite comme le ferait un modèle linguistique, puis génère la sortie. L'équipe Google DeepMind dirigée par Koray Kavukcuoglu décrit Omni comme un modèle qui réfléchit à ce qui devrait se passer ensuite en utilisant les connaissances mondiales de Gemini ainsi qu'une compréhension intuitive de la physique comme la gravité, l'énergie cinétique et la dynamique des fluides.
Voyez les choses ainsi. Veo 3 excelle à produire des mouvements qui semblent réels. Omni est conçu pour que le mouvement se comporte également comme le monde se comporte. Si vous demandez à Omni de montrer une balle rebondissant sur un escalier, il n'anime pas les images aveuglément. Il raisonne sur la perte de momentum à chaque marche, puis dessine ce à quoi cela devrait ressembler. C'est le fossé que Google commercialise : la génération basée sur le raisonnement, et non l'interpolation d'images.
La dénomination suit le modèle de Google. Gemini 3 Pro pour les tâches lourdes, Gemini 3 Flash pour la vitesse et le coût. Gemini Omni Flash s'inscrit dans la même catégorie Flash, ce qui signifie une faible latence, une large disponibilité et un prix qui reflétera probablement la famille Gemini 3 Flash une fois l'API lancée. Des variantes Omni plus grandes sont probablement sur la feuille de route. Google ne les a pas annoncées.
Quelques caractéristiques définissantes séparent Omni des précédents travaux vidéo de Google :
- L'entrée multimodale est native. Vous pouvez donner à Omni une image fixe et un extrait vocal et demander une vidéo de 6 secondes où le sujet de l'image prononce les mots de l'extrait. Aucune étape externe de synchronisation labiale n'est requise.
- Fusion de références. Ajoutez deux plans de référence, une spécification de couleur de marque et un script. Omni maintient la cohérence de tout cela dans le clip généré et dans les modifications ultérieures.
- Édition multi-tours. Demandez à Omni un clip, puis dites « rendez l'arrière-plan plus enneigé » ou « remplacez le chat par un renard ». Il conserve intactes les parties que vous n'avez pas mentionnées. C'est plus difficile qu'il n'y paraît. La plupart des modèles vidéo actuels jettent la cohérence antérieure à chaque régénération.
En quoi il diffère de Veo 3 et Gemini 3 Pro
Si vous avez développé en utilisant les récentes versions de modèles de Google, la famille est maintenant à trois têtes :
| Modèle | Usage | Entrée | Sortie | Raisonnement |
|---|---|---|---|---|
| Gemini 3 Pro | Texte lourd + raisonnement multimodal | Texte, image, audio, vidéo, code | Texte, code | Fort (Deep Think disponible) |
| Veo 3.1 | Génération vidéo pure | Texte, image | Vidéo | Limité ; basé sur l'invite |
| Gemini Omni Flash | Raisonnement + génération créative | Texte, image, audio, vidéo | Vidéo (image/audio à venir) | Natif, appliqué à la génération |
Veo 3 l'emporte toujours pour la vidéo en un seul plan la plus haute fidélité. Nous avons couvert cela en détail dans notre guide de l'API Veo 3 et la couverture de la version Veo 3.1. Ce qu'Omni ajoute, c'est la boucle de raisonnement. On peut dire au modèle « construis-moi une démonstration de produit de 30 secondes où la caméra suit le déballage d'un téléphone et réagit à la voix off de l'utilisateur », et il planifiera les prises de vue avant de les générer.
Vous pouvez également fournir à Omni des modifications intermédiaires en langage clair. Avec Veo, vous relancez et régénérez. Avec Omni, vous poursuivez la conversation. C'est pourquoi Google le positionne comme un « collaborateur créatif » plutôt qu'un générateur.
Pour le travail de texte pur, Gemini 3 Pro reste le bon choix. Pour la vidéo pure où vous savez exactement ce que vous voulez, Veo 3.1 est toujours moins cher et plus rapide. Omni est destiné aux cas où l'invite nécessite une interprétation et où la sortie doit réagir au contexte.
Ce que vous pouvez construire avec aujourd'hui
Omni Flash est disponible à quatre endroits actuellement :
- L'application Gemini. Générez des clips vidéo de manière conversationnelle, affinez-les avec des tours de suivi.
- Google Flow. La surface de création de films de Google pour assembler plusieurs plans en une séquence.
- YouTube Shorts. Gratuit pour tout créateur sur la plateforme.
- Application YouTube Create. Génération gratuite, mobile-first.
Pour les forfaits payants, l'accès à Omni est inclus dans les abonnements Google AI Plus, Pro et Ultra. Les créateurs gratuits l'obtiennent directement via YouTube. C'est une démarche de distribution notable. Google met le modèle à la disposition de millions de créateurs de contenu court avant même que l'API pour les développeurs ne soit lancée.
Chaque vidéo produite par Omni porte un filigrane SynthID. Vous pouvez vérifier la provenance via l'application Gemini, Gemini dans Chrome ou Google Search. Si vous construisez quelque chose où la source du contenu est importante (examen de conformité, sécurité de la marque, vérification de nouvelles), c'est une primitive utile. SynthID est invisible pour les spectateurs mais lisible par les détecteurs de Google.
Il existe également une fonctionnalité appelée Avatars. Vous pouvez créer une version numérique de vous-même avec votre propre voix, puis générer des vidéos où cet avatar prononce de nouvelles répliques. La même infrastructure fonctionne pour les personnages de marque. Google n'a pas divulgué à quoi ressemblera le flux de consentement et de vérification pour le niveau API, mais la version grand public nécessite une configuration vocale explicite avant qu'un avatar puisse utiliser votre ressemblance.
L'idée de « raisonnement + génération », en termes simples
Pourquoi le « raisonnement + génération » est-il important ? Prenons un exemple concret.
Invite : « Montre-moi un verre d'eau tombant du bord d'une table et atterrissant sur un parquet en bois. »
Un modèle purement génératif interpole des images qui ressemblent à un verre qui bascule. Un modèle de raisonnement répond d'abord à une série de questions internes. À quelle vitesse un verre à moitié plein bascule-t-il lorsque son centre de masse dépasse le bord ? L'eau quitte-t-elle le verre avant ou après que le bord ne touche le sol ? Le verre se brise-t-il ou rebondit-il ? Quel son cela produirait-il ? Ensuite, il génère des images cohérentes avec ces réponses.
C'est ce que Google entend par « compréhension intuitive de la physique ». Omni n'exécute pas une simulation physique en arrière-plan. Il a été entraîné à prédire les résultats comme le ferait quelqu'un ayant une intuition physique, et cette prédiction guide la génération.
Vous le remarquerez surtout à trois endroits :
- Trajectoire. Les objets qui tombent suivent la gravité au lieu de flotter.
- Comportement des matériaux. Les tissus se plissent, l'eau éclabousse, la fumée s'élève de manière réaliste.
- Contact. Lorsque deux objets entrent en collision, la réponse (rebond, adhérence, déformation) correspond aux attentes.
Cela dit, Omni n'est pas un moteur physique. Il confond toujours le mouvement dans les prises longues, viole occasionnellement la permanence des objets lors des transferts, et ne remplacera pas un pipeline VFX approprié. Le seuil qu'il franchit est « semble plausible sans que vous ayez à concevoir chaque détail de l'invite ».
Où Gemini Omni Flash est disponible actuellement
Un aperçu rapide des niveaux d'accès au lancement :
| Plateforme | Coût | Accès |
|---|---|---|
| YouTube Shorts | Gratuit | Tout créateur |
| Application YouTube Create | Gratuit | Créateurs mobiles |
| Application Gemini | Payant | AI Plus / Pro / Ultra |
| Google Flow | Payant | AI Plus / Pro / Ultra |
| API Développeur | À déterminer | Prochaines semaines |
| API Entreprise | À déterminer | Prochaines semaines |
L'API pour les développeurs est ce qui intéresse la plupart des lecteurs de ce blog. Google n'a pas communiqué de date précise au-delà de « dans les prochaines semaines ». Attendez-vous à des points de terminaison dans Google AI Studio et Vertex AI en premier, suivant le modèle de déploiement de Gemini 3.
En attendant, configurez votre espace de travail API. Téléchargez Apidog, importez le schéma API Gemini existant que vous utilisez pour Gemini 3 Pro ou Veo 3, et vous serez prêt à ajouter le point de terminaison Omni dès que la spécification OpenAPI sera disponible. L'importation Apidog gère l'authentification, les variables d'environnement et les réponses simulées, afin que vous puissiez pré-remplir les réponses de génération vidéo avant que le point de terminaison réel n'existe.
Accès API et développeur : ce que nous savons
Voici tout ce que Google a confirmé jusqu'à présent concernant l'accès pour les développeurs :
- Niveau API. Gemini Omni Flash sera lancé en premier. Des variantes Omni plus grandes n'ont pas été annoncées.
- Points de terminaison. Probablement Google AI Studio (pour le prototypage) et Vertex AI (pour la production). La famille Gemini 3 a suivi ce chemin.
- Modalités d'entrée au lancement. Texte, image, audio, vidéo.
- Modalités de sortie au lancement. Vidéo uniquement. Les sorties image et audio arriveront « en temps voulu », selon la formulation de Google.
- Tarification. Non confirmée. Le niveau Flash est historiquement peu coûteux ; attendez-vous à une facturation par seconde de sortie similaire à celle de Veo.
- Limites de débit. Non confirmées.
- Disponibilité régionale. Non confirmée.
Si votre pipeline actuel repose sur Veo 3.1 ou un modèle vidéo tiers, le chemin de migration est simple en principe. Même structure d'invite, entrées plus riches, sorties plus riches. Les coûts et la latence sont les inconnues.
Le pari le plus sûr pour l'instant est de concevoir votre application pour échanger les modèles derrière une interface interne unique. Enveloppez Veo, Omni et toute future alternative derrière un seul service. Testez l'échange avec Apidog en simulant la nouvelle forme du point de terminaison, en validant votre code client, et en ne remplaçant l'URL en direct qu'une fois qu'Omni est généralement disponible. Nous avons couvert ce modèle exact dans notre guide de l'API texte-vers-vidéo.
Intégration des points de terminaison Omni dans Apidog
Lorsque l'API Omni sera lancée, votre espace de travail Apidog aura besoin de trois choses :
- Configuration de l'authentification. Que Google passe par AI Studio (
x-goog-api-key) ou Vertex (OAuth + compte de service), configurez les deux dans les environnements Apidog. Basculez en un clic au lieu de modifier les en-têtes par requête. - Définition du schéma. Importez la spécification OpenAPI dès que Google la publie. S'ils ne le font pas, esquissez le schéma dans le concepteur visuel d'Apidog en utilisant la spécification Gemini 3 comme base. La même approche a fonctionné lors du lancement de Gemini 3 avant la publication de l'OpenAPI officielle.
- Réponses simulées (Mock responses). La génération vidéo est lente et coûteuse. Les mocks intelligents d'Apidog renvoient des réponses pré-enregistrées en base64 ou via des URL signées afin que votre client frontend puisse être construit et testé sans épuiser le quota réel d'API.
Une requête Omni typique ressemblera probablement à ceci sous forme brute :
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(Cette forme est une projection de l'API multimodale Gemini 3 existante. Google peut modifier les noms de champs.)
Insérez cela dans Apidog comme une requête, enregistrez-le sous votre collection Gemini, et vous aurez un test réexécutable que vous pourrez partager avec l'équipe. Ajoutez des assertions visuelles sur le code de réponse, la taille de la charge utile et la présence du filigrane SynthID. Lorsque le véritable point de terminaison sera opérationnel, seule l'URL devra être mise à jour.
Comment Omni se compare à Sora 2, Veo 3.1 et Nano Banana 2
La gamme de modèles vidéo de 2026 est serrée, une comparaison équitable est donc importante avant de vous engager :
| Modèle | Fournisseur | Raisonnement | Entrée multimodale | Modifiable | Filigrane |
|---|---|---|---|---|---|
| Gemini Omni Flash | Natif | Texte, image, audio, vidéo | Multi-tours | SynthID | |
| Veo 3.1 | Limité | Texte, image | Ré-invite seulement | SynthID | |
| Sora 2 | OpenAI | Partiel | Texte, image | Ré-invite seulement | C2PA |
| Nano Banana 2 | Partiel | Texte, image | Limité | SynthID |
Veo 3.1 a l'avantage en matière de qualité cinématographique en un seul plan. Sora 2 a la simulation de monde la plus forte selon le positionnement d'OpenAI. Nous l'avons détaillé dans notre plongée approfondie sur Sora 2. Les avantages distincts d'Omni sont le raisonnement, l'édition multi-tours et l'audio-en-vidéo-en-sortie sans étape séparée.
Si vous choisissez un modèle pour un workflow de production aujourd'hui, Veo 3.1 avec la couche de simulation d'Apidog est le pari le plus stable. Si vous pilotez quelque chose où les utilisateurs décrivent des modifications en langage clair et s'attendent à ce que le modèle suive, Omni est l'endroit où investir du temps de test une fois l'API lancée. La comparaison complète se trouve dans notre comparaison des modèles vidéo.
Cas d'utilisation réels
Quelques modèles à anticiper dès le début :
- Équipes de marketing produit. Générez des démonstrations de produits localisées à partir d'un seul script anglais et d'une image de référence. Interagissez avec le responsable marketing en discutant avec le modèle.
- Éducateurs. Expliquez un concept de physique en demandant à Omni de le démontrer. L'étape de raisonnement est importante ici. Vous voulez que la démo soit physiquement correcte, et non visuellement propre et physiquement fausse.
- Succès client. Générez de courtes vidéos d'intégration basées sur des avatars, personnalisées par client. La fonction Avatars est la clé.
- Vérification des nouvelles et du contenu. Intégrez la détection SynthID dans votre pipeline de modération pour signaler le matériel généré par Omni. Particulièrement pertinent pour les équipes de confiance et de sécurité.
- Prototypage de jeux et d'applications. Esquissez des séquences cinématiques avant l'intervention de tout artiste 3D.
Bonnes pratiques et pièges
Si vous vous préparez au lancement de l'API d'Omni, quelques choix vous feront gagner un temps précieux :
- Ne codez pas en dur le nom du modèle. Enveloppez-le dans une variable d'environnement. Les noms des modèles Gemini changent entre les aperçus et la disponibilité générale.
- Simulez d'abord (Mock first). La génération vidéo est l'appel le plus coûteux de votre pile. Utilisez les mocks Apidog pour construire l'interface utilisateur et tester les chemins d'erreur client avant de connecter le point de terminaison en direct.
- Mettez en cache la sortie agressivement. La même invite + les mêmes entrées de référence devraient utiliser le cache. L'étape de raisonnement d'Omni coûte plus cher que celle de Veo ; vous ne voulez pas la repayer.
- Surveillez les erreurs de politique de contenu. Le filtre de sécurité de Google bloque la génération impliquant des personnes réelles, des personnages protégés par le droit d'auteur et une longue liste de catégories sensibles. Mettez en place une logique de réessai avec repli, et non des pages d'erreur.
- Prévoyez la vérification SynthID. Si vous republiez du contenu généré par Omni, décidez si vous afficherez la provenance du filigrane aux utilisateurs finaux. Les équipes de conformité commencent à poser des questions.
- Prévoyez un budget pour la latence. La génération vidéo n'est pas instantanée. Les clips de six secondes peuvent prendre plus de 30 secondes de bout en bout. Traitez l'appel comme asynchrone ; ne bloquez pas votre fil principal.
Une erreur courante à éviter : ne vous attendez pas à ce qu'Omni remplace votre pipeline d'édition. C'est un modèle de génération, pas un éditeur non-linéaire. Vous aurez toujours besoin d'une passe finale dans DaVinci, Premiere ou Google Flow pour les coupes, la couleur et le mixage audio.
Questions fréquemment posées
Qu'est-ce que Gemini Omni ?
Gemini Omni est la nouvelle famille de modèles de Google qui combine le raisonnement de Gemini avec une génération multimodale native. La première variante, Gemini Omni Flash, accepte du texte, des images, de l'audio et de la vidéo en entrée et produit de la vidéo en sortie.
Gemini Omni est-il identique à Veo 3 ?
Non. Veo est un modèle de génération vidéo dédié avec un raisonnement limité. Omni est un modèle de raisonnement qui génère de la vidéo ; il peut interpréter des invites complexes, éditer sur plusieurs tours et accepter des types d'entrée plus riches. Consultez notre guide de l'API Veo 3 pour les différences en pratique.
Quand l'API Gemini Omni sera-t-elle lancée ?
Google indique « dans les prochaines semaines » à compter de l'annonce de mai 2026. Les API pour les développeurs et les entreprises seront déployées simultanément. Aucune date ferme n'est donnée.
Combien coûte Gemini Omni ?
Pour les consommateurs, il est gratuit dans YouTube Shorts et YouTube Create, et inclus dans les abonnements Google AI Plus, Pro et Ultra. La tarification de l'API n'a pas été annoncée. Le niveau Flash propose généralement les tarifs les plus bas de Google par appel.
Gemini Omni peut-il générer de l'audio ?
Pas encore. La sortie est vidéo uniquement au lancement. Les sorties audio et image sont sur la feuille de route sans date.
Gemini Omni a-t-il un filigrane ?
Oui. Toutes les vidéos générées par Omni portent un filigrane SynthID, vérifiable via l'application Gemini, Gemini dans Chrome et Google Search. Le filigrane est invisible pour les spectateurs mais lisible par les détecteurs de Google.
Apidog prendra-t-il en charge l'API Gemini Omni ?
Oui, de la même manière qu'Apidog prend en charge les points de terminaison Gemini 3, Veo 3 et Nano Banana aujourd'hui. Dès que Google publiera la spécification OpenAPI pour Omni, vous pourrez l'importer directement. En attendant, esquissez le schéma, simulez les réponses et préparez votre code client.
Comment Gemini Omni gère-t-il la physique ?
Le modèle a été entraîné à prédire les résultats comme le ferait quelqu'un ayant une intuition physique, puis à générer des images cohérentes avec cette prédiction. Il n'exécute pas une simulation physique, mais il gère correctement la gravité, la dynamique des fluides et le comportement de collision plus souvent que les modèles génératifs purs.
En résumé
Gemini Omni est le modèle le plus intéressant que Google ait lancé ce trimestre. C'est plus qu'un Veo plus rapide. C'est une architecture différente qui raisonne avant de générer, prend n'importe quelle entrée que vous avez et édite sur des conversations multi-tours. Les limitations actuelles (sortie vidéo uniquement, pas encore d'API publique) seront levées dans les prochaines semaines.
Cinq choses à faire cette semaine si vous développez avec des modèles vidéo :
- Surveillez le tableau de bord de Google AI Studio pour le point de terminaison Omni Flash.
- Configurez dès maintenant votre authentification et vos variables d'environnement dans Apidog afin de pouvoir changer de modèle sans modifications de code ultérieurement.
- Simulez la forme de la requête Omni projetée et validez votre intégration client.
- Décidez où la génération basée sur le raisonnement vous apporte un avantage par rapport à Veo 3.1.
- Prévoyez la vérification SynthID dans votre pipeline de confiance et de sécurité.
Lorsque l'API sera lancée, les équipes qui auront fait le travail de préparation seront en production en quelques heures. Les autres liront la documentation.
