O blog do Google acaba de lançar o Gemini Omni, um novo modelo que anexa a pilha de raciocínio da empresa à saída generativa. A primeira variante, Gemini Omni Flash, aceita texto, imagem, áudio ou vídeo como entrada e devolve vídeo. Já está disponível no aplicativo Gemini, Google Flow, YouTube Shorts e no aplicativo YouTube Create, com acesso à API para desenvolvedores chegando nas próximas semanas.
Se você constrói com Apidog, você já configurou modelos de texto, geradores de imagem como Nano Banana 2, e modelos de vídeo como Veo 3.1. Gemini Omni é o próximo endpoint a ser planejado, e o design é significativamente diferente de tudo o que o Google lançou antes. Este post detalha o que o Omni faz, onde ele está hoje, quando a API chega, como ele se relaciona com o Gemini 3 Pro e como configurar seu workspace do Apidog para que você possa conectá-lo no dia em que as chaves chegarem.
Em resumo
Gemini Omni é a nova família de modelos do Google que combina a capacidade de raciocínio do Gemini com a geração multimodal nativa. A primeira versão, Gemini Omni Flash, aceita entradas de texto, imagem, áudio e vídeo e produz saída de vídeo, com saída de imagem e áudio planejadas. Está disponível agora no aplicativo Gemini e no Google Flow para assinantes AI Plus, Pro e Ultra, gratuito no YouTube Shorts e YouTube Create, com APIs para desenvolvedores e empresas sendo lançadas nas próximas semanas.
O que é o Gemini Omni
Gemini Omni é um tipo diferente de modelo generativo. A maioria dos geradores de vídeo recebe um prompt e produz quadros. O Omni raciocina sobre o prompt da mesma forma que um modelo de linguagem faria, e então gera a saída. A equipe Google DeepMind liderada por Koray Kavukcuoglu descreve o Omni como um modelo que pensa sobre o que deve acontecer em seguida, utilizando o conhecimento de mundo do Gemini e uma compreensão intuitiva de física como gravidade, energia cinética e dinâmica de fluidos.
Pense assim. O Veo 3 é excelente em produzir movimentos que parecem reais. O Omni é construído de forma que o movimento também se comporte como o mundo se comporta. Se você pedir ao Omni para mostrar uma bola quicando em uma escada, ele não está animando quadros cegamente. Ele está raciocinando sobre a perda de impulso em cada degrau, e então desenhando como isso deveria parecer. Essa é a lacuna que o Google está vendendo: geração baseada em raciocínio, não interpolação de quadros.
A nomenclatura segue o padrão do Google. Gemini 3 Pro para tarefas pesadas, Gemini 3 Flash para velocidade e custo. Gemini Omni Flash se encaixa na mesma categoria Flash, o que significa baixa latência, ampla disponibilidade e um preço que provavelmente espelhará a família Gemini 3 Flash assim que a API for lançada. Variantes maiores do Omni provavelmente estão no roteiro. O Google não as anunciou.
Algumas características definidoras separam o Omni do trabalho de vídeo anterior do Google:
- Entrada multimodal é nativa. Você pode entregar ao Omni uma imagem estática e um clipe de voz e pedir um vídeo de 6 segundos onde o assunto da imagem fala as palavras do clipe. Nenhuma etapa externa de sincronização labial é necessária.
- Combinação de referências. Insira duas tomadas de referência, uma especificação de cor da marca e um roteiro. O Omni mantém tudo isso consistente no clipe gerado e em edições subsequentes.
- Edição em várias etapas. Peça ao Omni um clipe, depois diga “deixe o fundo mais nevado” ou “troque o gato por uma raposa”. Ele mantém as partes que você não mencionou intactas. Isso é mais difícil do que parece. A maioria dos modelos de vídeo atuais descarta a coerência anterior a cada regeneração.
Como ele difere do Veo 3 e Gemini 3 Pro
Se você já desenvolveu com as versões recentes de modelos do Google, a família agora tem três cabeças:
| Modelo | Para que serve | Entrada | Saída | Raciocínio |
|---|---|---|---|---|
| Gemini 3 Pro | Raciocínio textual pesado + multimodal | Texto, imagem, áudio, vídeo, código | Texto, código | Forte (Deep Think disponível) |
| Veo 3.1 | Geração de vídeo pura | Texto, imagem | Vídeo | Limitado; guiado por prompt |
| Gemini Omni Flash | Raciocínio + geração criativa | Texto, imagem, áudio, vídeo | Vídeo (imagem/áudio em breve) | Nativo, aplicado à geração |
O Veo 3 ainda é o vencedor para vídeo de tomada única de mais alta fidelidade. Cobrimos isso em detalhes em nosso guia da API do Veo 3 e na cobertura do lançamento do Veo 3.1. O que o Omni adiciona é o ciclo de raciocínio. O modelo pode ser instruído “crie um tour de produto de 30 segundos onde a câmera acompanha o unboxing de um telefone e reage à narração do usuário”, e ele planejará as tomadas antes de gerá-las.
Você também pode fornecer ao Omni edições intermediárias em linguagem natural. Com o Veo, você reprompta e regenera. Com o Omni, você continua a conversa. É por isso que o Google o posiciona como um “colaborador criativo” em vez de um gerador.
Para trabalho puramente textual, o Gemini 3 Pro ainda é a escolha certa. Para vídeo puro, onde você sabe exatamente o que quer, o Veo 3.1 ainda é mais barato e rápido. O Omni é para o caso em que o prompt precisa de interpretação e a saída precisa reagir ao contexto.
O que você pode construir com ele hoje
O Omni Flash está disponível em quatro lugares neste momento:
- O aplicativo Gemini. Gere clipes de vídeo de forma conversacional, refine com turnos de acompanhamento.
- Google Flow. A superfície de criação de filmes do Google para costurar várias tomadas em uma sequência.
- YouTube Shorts. Gratuito para qualquer criador na plataforma.
- Aplicativo YouTube Create. Geração gratuita, mobile-first.
Para planos pagos, o acesso ao Omni está incluído nas assinaturas Google AI Plus, Pro e Ultra. Criadores gratuitos o obtêm diretamente através do YouTube. Essa é uma jogada de distribuição notável. O Google está colocando o modelo na frente de milhões de criadores de conteúdo curto antes mesmo da API para desenvolvedores ser lançada.
Todo vídeo produzido pelo Omni carrega uma marca d'água SynthID. Você pode verificar a proveniência através do aplicativo Gemini, Gemini no Chrome ou Pesquisa Google. Se você está construindo algo onde a origem do conteúdo importa (revisão de conformidade, segurança da marca, verificação de notícias), isso é um primitivo útil. O SynthID é invisível para os espectadores, mas legível pelos detectores do Google.
Existe também um recurso chamado Avatares. Você pode construir uma versão digital de si mesmo com sua própria voz, e então gerar vídeos onde esse avatar fala novas falas. A mesma estrutura funciona para personagens de marca. O Google não divulgou como será o fluxo de consentimento e verificação para o nível da API, mas a versão para o consumidor requer configuração explícita de voz antes que qualquer avatar possa usar sua imagem.
A ideia de raciocínio mais geração, em termos simples
Por que “raciocínio + geração” importa? Pegue um exemplo concreto.
Prompt: “Mostre-me um copo d'água caindo da borda de uma mesa e aterrissando em um piso de madeira.”
Um modelo generativo puro interpola quadros que se parecem com um copo caindo. Um modelo de raciocínio primeiro responde a uma cadeia de perguntas internas. Com que velocidade um copo meio cheio tomba quando seu centro de massa cruza a borda? A água sai do copo antes ou depois de a borda atingir o chão? O copo quebra ou quica? Que som isso faria? Então ele gera quadros consistentes com essas respostas.
Isso é o que o Google quer dizer com “compreensão intuitiva da física.” O Omni não está executando uma simulação física nos bastidores. Ele foi treinado para prever resultados da mesma forma que alguém com intuição física faria, e essa previsão guia a geração.
Você notará isso principalmente em três lugares:
- Trajetória. Objetos em queda seguem a gravidade em vez de flutuar.
- Comportamento do material. O tecido dobra, a água espirra, a fumaça sobe de maneiras que parecem certas.
- Contato. Quando dois objetos colidem, a resposta (quique, aderência, deformação) corresponde à expectativa.
Dito isso, o Omni não é um motor de física. Ele ainda confunde movimento em tomadas longas, ocasionalmente viola a permanência do objeto em transições e não substituirá um pipeline VFX adequado. O patamar que ele atinge é “parece plausível sem que você precise fazer engenharia de prompt para cada detalhe.”
Onde o Gemini Omni Flash está em execução agora
Um rápido resumo dos níveis de acesso a partir do lançamento:
| Superfície | Custo | Acesso |
|---|---|---|
| YouTube Shorts | Gratuito | Qualquer criador |
| Aplicativo YouTube Create | Gratuito | Criadores móveis |
| Aplicativo Gemini | Pago | AI Plus / Pro / Ultra |
| Google Flow | Pago | AI Plus / Pro / Ultra |
| API para desenvolvedores | A definir | Próximas semanas |
| API para empresas | A definir | Próximas semanas |
A API para desenvolvedores é o que a maioria dos leitores deste blog se importa. O Google não se comprometeu com uma data além de “nas próximas semanas.” Espere endpoints no Google AI Studio e Vertex AI primeiro, seguindo o padrão de lançamento do Gemini 3.
Enquanto espera, configure seu workspace de API. Baixe o Apidog, importe o esquema da API Gemini existente que você está usando para Gemini 3 Pro ou Veo 3, e você estará pronto para adicionar o endpoint Omni assim que a especificação OpenAPI for lançada. A importação do Apidog gerencia autenticação, variáveis de ambiente e respostas mock, para que você possa simular respostas de geração de vídeo antes que o endpoint real exista.
API e acesso para desenvolvedores: o que sabemos
Aqui está tudo o que o Google confirmou sobre o acesso para desenvolvedores até agora:
- Nível da API. Gemini Omni Flash será lançado primeiro. Variantes Omni maiores não foram anunciadas.
- Endpoints. Provavelmente Google AI Studio (para prototipagem) e Vertex AI (para produção). A família Gemini 3 seguiu esse caminho.
- Modalidades de entrada no lançamento. Texto, imagem, áudio, vídeo.
- Modalidades de saída no lançamento. Somente vídeo. Saída de imagem e áudio chegam “com o tempo”, segundo a formulação do Google.
- Preços. Não confirmado. A categoria Flash historicamente tem preços baixos; espere faturamento por segundo de saída semelhante ao Veo.
- Limites de taxa. Não confirmado.
- Disponibilidade regional. Não confirmado.
Se seu pipeline atual depende do Veo 3.1 ou de um modelo de vídeo de terceiros, o caminho de migração é, em princípio, direto. Mesma estrutura de prompt, entradas mais ricas, saídas mais ricas. Custos e latência são as incógnitas.
A aposta mais segura por enquanto é projetar seu aplicativo para trocar modelos por trás de uma única interface interna. Embrulhe Veo, Omni e quaisquer futuras alternativas por trás de um único serviço. Teste a troca com o Apidog simulando o novo formato do endpoint, validando seu código cliente e trocando a URL ativa apenas quando o Omni estiver geralmente disponível. Cobrimos esse padrão exato em nosso guia da API de texto para vídeo.
Adicionando endpoints Omni no Apidog
Quando a API Omni for lançada, seu workspace do Apidog precisará de três coisas:
- Configuração de autenticação. Seja o Google roteando via AI Studio (
x-goog-api-key) ou Vertex (OAuth + conta de serviço), defina ambos nos ambientes do Apidog. Alterne com um clique em vez de editar cabeçalhos por requisição. - Definição de esquema. Importe a especificação OpenAPI no momento em que o Google a publicar. Se não o fizerem, rascunhe o esquema no designer visual do Apidog usando a especificação Gemini 3 como base. A mesma abordagem funcionou quando o Gemini 3 foi lançado antes do OpenAPI oficial ser divulgado.
- Respostas mock. A geração de vídeo é lenta e cara. O mock inteligente do Apidog retorna respostas base64 pré-definidas ou URLs assinadas para que seu cliente frontend possa ser construído e testado sem gastar cota real da API.
Uma requisição Omni típica provavelmente terá esta aparência em formato bruto:
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(Esse formato é uma projeção da API multimodal Gemini 3 existente. O Google pode alterar os nomes dos campos.)
Insira isso no Apidog como uma requisição, salve-o em sua coleção Gemini, e você terá um teste que pode ser executado novamente e compartilhado com a equipe. Adicione asserções visuais sobre o código de resposta, tamanho do payload e presença da marca d'água SynthID. Quando o endpoint real entrar no ar, apenas a URL precisará ser atualizada.
Como o Omni se compara ao Sora 2, Veo 3.1 e Nano Banana 2
A linha de modelos de vídeo de 2026 é apertada, então uma comparação justa importa antes de você se comprometer:
| Modelo | Fornecedor | Raciocínio | Entrada multimodal | Editável | Marca d'água |
|---|---|---|---|---|---|
| Gemini Omni Flash | Nativo | Texto, imagem, áudio, vídeo | Multi-turno | SynthID | |
| Veo 3.1 | Limitado | Texto, imagem | Apenas re-prompt | SynthID | |
| Sora 2 | OpenAI | Alguns | Texto, imagem | Apenas re-prompt | C2PA |
| Nano Banana 2 | Alguns | Texto, imagem | Limitado | SynthID |
O Veo 3.1 tem a vantagem na qualidade cinematográfica de tomada única. O Sora 2 tem a simulação de mundo mais forte, segundo o posicionamento da OpenAI. Nós o detalhamos em nossa análise aprofundada do Sora 2. As vantagens distintas do Omni são raciocínio, edição multi-turno e áudio-para-vídeo sem uma etapa separada.
Se você está escolhendo um para um fluxo de trabalho de produção hoje, o Veo 3.1 mais a camada mock do Apidog é a aposta mais estável. Se você está pilotando algo onde os usuários descrevem edições em linguagem natural e esperam que o modelo acompanhe, o Omni é onde investir tempo de teste assim que a API for lançada. A comparação completa está em nossa batalha de modelos de vídeo.
Casos de uso no mundo real
Alguns padrões a serem esperados precocemente:
- Equipes de marketing de produto. Gere demonstrações de produtos localizadas a partir de um único script em inglês mais uma imagem de referência. Interaja com o líder de marketing conversando com o modelo.
- Educadores. Explique um conceito de física pedindo ao Omni para demonstrá-lo. A etapa de raciocínio importa aqui. Você quer que a demonstração seja fisicamente correta, não visualmente limpa e fisicamente errada.
- Sucesso do cliente. Gere vídeos curtos de integração, guiados por avatares, personalizados por cliente. O recurso Avatares é o que permite isso.
- Verificação de notícias e conteúdo. Incorpore a detecção de SynthID em seu pipeline de moderação para sinalizar material gerado pelo Omni. Particularmente relevante para equipes de confiança e segurança.
- Prototipagem de jogos e aplicativos. Crie sequências cinematográficas antes que qualquer artista 3D seja envolvido.
Melhores práticas e armadilhas
Se você está se preparando para o lançamento da API do Omni, algumas escolhas lhe economizarão tempo real:
- Não codifique o nome do modelo. Envolva-o em uma variável de ambiente. Os nomes dos modelos Gemini mudam entre as prévias e a disponibilidade geral.
- Simule primeiro. A geração de vídeo é a chamada mais cara em sua pilha. Use mocks do Apidog para construir a UI e testar caminhos de erro do cliente antes de conectar o endpoint ao vivo.
- Armazene o output agressivamente em cache. O mesmo prompt + as mesmas entradas de referência devem atingir o cache. A etapa de raciocínio do Omni custa mais do que a do Veo; você não quer pagar novamente por isso.
- Cuidado com erros de política de conteúdo. O filtro de segurança do Google bloqueia a geração envolvendo pessoas reais, personagens protegidos por direitos autorais e uma longa lista de categorias sensíveis. Construa uma lógica de repetição com fallback, não páginas de erro.
- Planeje a verificação do SynthID. Se você republicar a saída do Omni, decida se exibirá a proveniência da marca d'água aos usuários finais. Equipes de conformidade estão começando a perguntar.
- Orce para latência. A geração de vídeo não é instantânea. Clipes de seis segundos podem levar mais de 30 segundos de ponta a ponta. Trate a chamada como assíncrona; não bloqueie seu thread principal.
Um erro comum a evitar: não espere que o Omni substitua seu pipeline de edição. É um modelo de geração, não um editor não linear. Você ainda precisa de uma passagem final no DaVinci, Premiere ou Google Flow para cortes, cores e mixagem de áudio.
Perguntas frequentes
O que é Gemini Omni?
Gemini Omni é a nova família de modelos do Google que combina o raciocínio do Gemini com a geração multimodal nativa. A primeira variante, Gemini Omni Flash, aceita texto, imagem, áudio e vídeo como entrada e produz vídeo como saída.
Gemini Omni é o mesmo que Veo 3?
Não. Veo é um modelo de geração de vídeo dedicado com raciocínio limitado. Omni é um modelo de raciocínio que por acaso gera vídeo; ele pode interpretar prompts complexos, editar em várias etapas e aceitar tipos de entrada mais ricos. Veja nosso guia da API do Veo 3 para as diferenças na prática.
Quando será lançado o API do Gemini Omni?
O Google afirma “nas próximas semanas” a partir do anúncio de maio de 2026. As APIs para desenvolvedores e empresas serão lançadas juntas. Sem data definida.
Quanto custa o Gemini Omni?
Para consumidores, é gratuito no YouTube Shorts e YouTube Create, e incluído nas assinaturas Google AI Plus, Pro e Ultra. Os preços da API não foram anunciados. A categoria Flash geralmente tem a taxa por chamada mais baixa do Google.
O Gemini Omni pode gerar áudio?
Ainda não. A saída é apenas vídeo no lançamento. A saída de áudio e imagem estão no roteiro, sem data definida.
O Gemini Omni tem marca d'água?
Sim. Todos os vídeos gerados pelo Omni carregam uma marca d'água SynthID, verificável através do aplicativo Gemini, Gemini no Chrome e Pesquisa Google. A marca d'água é invisível para os espectadores, mas legível pelos detectores do Google.
O Apidog irá suportar a API do Gemini Omni?
Sim, da mesma forma que o Apidog suporta os endpoints Gemini 3, Veo 3 e Nano Banana hoje. No momento em que o Google publicar a especificação OpenAPI para o Omni, você poderá importá-la diretamente. Enquanto isso, rascunhe o esquema, simule as respostas e tenha seu código cliente pronto.
Como o Gemini Omni lida com a física?
O modelo foi treinado para prever resultados da mesma forma que alguém com intuição física faria, e essa previsão guia a geração. Ele não está executando uma simulação física, mas lida corretamente com a gravidade, dinâmica de fluidos e comportamento de colisão com mais frequência do que modelos generativos puros.
Concluindo
Gemini Omni é o modelo mais interessante que o Google lançou neste trimestre. É mais do que um Veo mais rápido. É uma arquitetura diferente que raciocina antes de gerar, aceita qualquer entrada que você tenha e edita em conversas multi-turno. As limitações atuais (saída apenas de vídeo, sem API pública ainda) serão superadas nas próximas semanas.
Cinco coisas a fazer esta semana se você está construindo com modelos de vídeo:
- Monitore o painel do Google AI Studio para o endpoint Omni Flash.
- Configure sua autenticação e variáveis de ambiente no Apidog agora para que você possa trocar modelos sem alterações de código mais tarde.
- Simule o formato da requisição Omni projetada e valide sua integração de cliente.
- Decida onde a geração baseada em raciocínio oferece uma vantagem sobre o Veo 3.1.
- Planeje a verificação do SynthID em seu pipeline de confiança e segurança.
Quando a API for lançada, as equipes que fizeram o trabalho de preparação estarão em produção em questão de horas. O resto estará lendo documentação.
