El blog de Google acaba de lanzar Gemini Omni, un nuevo modelo que integra la pila de razonamiento de la compañía en la salida generativa. La primera variante, Gemini Omni Flash, toma texto, imagen, audio o video como entrada y te devuelve video. Ya está disponible en la aplicación Gemini, Google Flow, YouTube Shorts y la aplicación YouTube Create, con acceso a la API para desarrolladores que llegará en las próximas semanas.
Si desarrollas con Apidog, ya has conectado modelos de texto, generadores de imágenes como Nano Banana 2 y modelos de video como Veo 3.1. Gemini Omni es el próximo endpoint a considerar, y su diseño es significativamente diferente a cualquier cosa que Google haya lanzado antes. Esta publicación desglosa qué hace Omni, dónde reside hoy, cuándo llega la API, cómo se relaciona con Gemini 3 Pro y cómo configurar tu espacio de trabajo de Apidog para que puedas conectarlo el día que lleguen las claves.
TL;DR
Gemini Omni es la nueva familia de modelos de Google que combina la capacidad de razonamiento de Gemini con la generación multimodal nativa. La primera versión, Gemini Omni Flash, acepta entradas de texto, imagen, audio y video y produce salida de video, con salidas de imagen y audio planificadas. Ya está disponible en la aplicación Gemini y Google Flow para suscriptores de AI Plus, Pro y Ultra, gratis en YouTube Shorts y YouTube Create, con APIs para desarrolladores y empresas que se lanzarán en las próximas semanas.
Qué es Gemini Omni
Gemini Omni es un tipo diferente de modelo generativo. La mayoría de los generadores de video toman una instrucción y producen fotogramas. Omni razona sobre la instrucción como lo haría un modelo de lenguaje, luego genera la salida. El equipo de Google DeepMind, dirigido por Koray Kavukcuoglu, describe a Omni como un modelo que piensa en lo que debería suceder a continuación utilizando el conocimiento del mundo de Gemini más una comprensión intuitiva de la física como la gravedad, la energía cinética y la dinámica de fluidos.
Piénsalo de esta manera. Veo 3 es excelente para producir movimiento que parece real. Omni está diseñado para que el movimiento también se comporte como se comporta el mundo. Si le pides a Omni que muestre una pelota rebotando en una escalera, no está animando fotogramas a ciegas. Está razonando sobre la pérdida de impulso en cada escalón, y luego dibujando cómo debería verse. Esa es la brecha que Google está vendiendo: generación impulsada por el razonamiento, no interpolación de fotogramas.
La denominación sigue el patrón de Google. Gemini 3 Pro para tareas pesadas, Gemini 3 Flash para velocidad y costo. Gemini Omni Flash encaja en el mismo nivel Flash, lo que significa baja latencia, amplia disponibilidad y un precio que probablemente reflejará la familia Gemini 3 Flash una vez que se lance la API. Es probable que haya variantes Omni más grandes en la hoja de ruta. Google no las anunció.
Algunas características definitorias separan a Omni de trabajos anteriores de Google en video:
- La entrada multimodal es nativa. Puedes darle a Omni una imagen fija y un clip de voz y pedir un video de 6 segundos donde el sujeto de la imagen pronuncie las palabras del clip. No se requiere una etapa externa de sincronización labial.
- Fusión de referencias. Introduce dos tomas de referencia, una especificación de color de marca y un guion. Omni mantiene todo consistente en el clip generado y en las ediciones posteriores.
- Edición multi-turno. Pídele a Omni un clip, luego di "haz el fondo más nevado" o "cambia el gato por un zorro". Mantiene intactas las partes que no mencionaste. Eso es más difícil de lo que parece. La mayoría de los modelos de video actuales descartan la coherencia anterior en cada regeneración.
Cómo difiere de Veo 3 y Gemini 3 Pro
Si has trabajado con los lanzamientos recientes de modelos de Google, la familia ahora tiene tres cabezas:
| Modelo | Para qué sirve | Entrada | Salida | Razonamiento |
|---|---|---|---|---|
| Gemini 3 Pro | Texto pesado + razonamiento multimodal | Texto, imagen, audio, video, código | Texto, código | Fuerte (Deep Think disponible) |
| Veo 3.1 | Generación de video pura | Texto, imagen | Video | Limitado; impulsado por instrucciones |
| Gemini Omni Flash | Razonamiento + generación creativa | Texto, imagen, audio, video | Video (imagen/audio próximamente) | Nativo, aplicado a la generación |
Veo 3 sigue ganando en videos de una sola toma de la más alta fidelidad. Cubrimos eso en detalle en nuestra guía de la API de Veo 3 y la cobertura del lanzamiento de Veo 3.1. Lo que Omni añade es el ciclo de razonamiento. Se le puede decir al modelo “créame un recorrido de producto de 30 segundos donde la cámara sigue el unboxing de un teléfono y reacciona a la voz en off del usuario”, y planificará las tomas antes de generarlas.
También puedes alimentar a Omni con ediciones intermedias en lenguaje sencillo. Con Veo, vuelves a solicitar y a generar. Con Omni, continúas la conversación. Por eso Google lo posiciona como un "colaborador creativo" en lugar de un generador.
Para trabajos de texto puro, Gemini 3 Pro sigue siendo la opción correcta. Para video puro donde sabes exactamente lo que quieres, Veo 3.1 sigue siendo más barato y rápido. Omni es para el caso en que la instrucción necesita interpretación y la salida necesita reaccionar al contexto.
Qué puedes construir con él hoy
Omni Flash está disponible en cuatro lugares ahora mismo:
- La aplicación Gemini. Genera videoclips de forma conversacional, refina con turnos de seguimiento.
- Google Flow. La superficie de creación de películas de Google para unir múltiples tomas en una secuencia.
- YouTube Shorts. Gratuito para cualquier creador en la plataforma.
- Aplicación YouTube Create. Generación gratuita, priorizando el móvil.
Para los planes de pago, el acceso a Omni está incluido en las suscripciones de Google AI Plus, Pro y Ultra. Los creadores gratuitos lo obtienen directamente a través de YouTube. Esa es una estrategia de distribución notable. Google está poniendo el modelo a disposición de millones de creadores de formato corto antes de que la API para desarrolladores sea siquiera lanzada.
Cada video que produce Omni lleva una marca de agua SynthID. Puedes verificar la procedencia a través de la aplicación Gemini, Gemini en Chrome o la Búsqueda de Google. Si estás construyendo algo donde la fuente del contenido importa (revisión de cumplimiento, seguridad de marca, verificación de noticias), eso es una característica útil. SynthID es invisible para los espectadores pero legible por los detectores de Google.
También hay una función llamada Avatares. Puedes crear una versión digital de ti mismo con tu propia voz, y luego generar videos donde ese avatar pronuncie nuevas líneas. La misma infraestructura funciona para personajes de marca. Google no reveló cómo será el flujo de consentimiento y verificación para el nivel de la API, pero la versión para el consumidor requiere una configuración de voz explícita antes de que cualquier avatar pueda usar tu imagen.
La idea de "razonamiento más generación", en términos sencillos
¿Por qué importa el "razonamiento + generación"? Tomemos un ejemplo concreto.
Instrucción: “Muéstrame un vaso de agua cayendo de un borde de mesa y aterrizando en un suelo de madera.”
Un modelo generativo puro interpola fotogramas que parecen un vaso volcándose. Un modelo de razonamiento primero responde a una cadena de preguntas internas. ¿Qué tan rápido se inclina un vaso medio lleno cuando su centro de masa cruza el borde? ¿El agua sale del vaso antes o después de que el borde toque el suelo? ¿El vaso se rompe o rebota? ¿Qué sonido haría? Luego genera fotogramas consistentes con esas respuestas.
Eso es lo que Google quiere decir con "comprensión intuitiva de la física". Omni no está ejecutando una simulación física internamente. Ha sido entrenado para predecir resultados de la manera en que lo haría alguien con intuición física, y esa predicción guía la generación.
Lo notarás principalmente en tres lugares:
- Trayectoria. Los objetos que caen siguen la gravedad en lugar de flotar.
- Comportamiento del material. La tela se pliega, el agua salpica, el humo sube de formas que se sienten correctas.
- Contacto. Cuando dos objetos chocan, la respuesta (rebote, adherencia, deformación) coincide con la expectativa.
Dicho esto, Omni no es un motor de física. Todavía confunde el movimiento en tomas largas, ocasionalmente viola la permanencia del objeto en las transiciones y no reemplazará un flujo de trabajo de efectos visuales adecuado. El nivel que supera es "parece plausible sin que tengas que diseñar cada detalle de la instrucción".
Dónde se ejecuta Gemini Omni Flash ahora mismo
Un breve resumen de los niveles de acceso al momento del lanzamiento:
| Superficie | Costo | Acceso |
|---|---|---|
| YouTube Shorts | Gratis | Cualquier creador |
| Aplicación YouTube Create | Gratis | Creadores móviles |
| Aplicación Gemini | De pago | AI Plus / Pro / Ultra |
| Google Flow | De pago | AI Plus / Pro / Ultra |
| API para desarrolladores | Por determinar | Próximas semanas |
| API empresarial | Por determinar | Próximas semanas |
La API para desarrolladores es lo que más interesa a la mayoría de los lectores de este blog. Google no ha comprometido una fecha más allá de "en las próximas semanas". Espera los endpoints primero en Google AI Studio y Vertex AI, siguiendo el patrón de lanzamiento de Gemini 3.
Mientras esperas, configura tu espacio de trabajo de API. Descarga Apidog, importa el esquema de API de Gemini existente que estás usando para Gemini 3 Pro o Veo 3, y estarás listo para añadir el endpoint de Omni tan pronto como se publique la especificación OpenAPI. La importación de Apidog maneja la autenticación, las variables de entorno y las respuestas simuladas, para que puedas simular las respuestas de generación de video antes de que el endpoint real exista.
Acceso a la API y para desarrolladores: lo que sabemos
Esto es todo lo que Google ha confirmado sobre el acceso para desarrolladores hasta ahora:
- Nivel de API. Gemini Omni Flash será el primero en llegar. No se han anunciado variantes Omni más grandes.
- Endpoints. Probablemente Google AI Studio (para prototipos) y Vertex AI (para producción). La familia Gemini 3 siguió ese camino.
- Modalidades de entrada en el lanzamiento. Texto, imagen, audio, video.
- Modalidades de salida en el lanzamiento. Solo video. Las salidas de imagen y audio llegarán "a su debido tiempo", según la terminología de Google.
- Precios. Sin confirmar. El nivel Flash históricamente tiene precios bajos; espera una facturación por segundo de salida similar a Veo.
- Límites de tasa. Sin confirmar.
- Disponibilidad regional. Sin confirmar.
Si tu pipeline actual se basa en Veo 3.1 o en un modelo de video de terceros, el camino de migración es sencillo en principio. Misma estructura de instrucciones, entradas más ricas, salidas más ricas. Los costos y la latencia son las incógnitas.
La apuesta más segura por ahora es diseñar tu aplicación para intercambiar modelos detrás de una única interfaz interna. Envuelve Veo, Omni y cualquier alternativa futura detrás de un solo servicio. Prueba el intercambio con Apidog simulando la forma del nuevo endpoint, validando tu código cliente y solo intercambiando la URL en vivo una vez que Omni esté generalmente disponible. Cubrimos ese patrón exacto en nuestra guía de API de texto a video.
Impulsando los endpoints de Omni dentro de Apidog
Cuando se lance la API de Omni, tu espacio de trabajo de Apidog necesitará tres cosas:
- Configuración de autenticación. Ya sea que Google enrute a través de AI Studio (
x-goog-api-key) o Vertex (OAuth + cuenta de servicio), configura ambos en los entornos de Apidog. Cambia con un solo clic en lugar de editar los encabezados por solicitud. - Definición del esquema. Importa la especificación OpenAPI en el momento en que Google la publique. Si no lo hacen, bosqueja el esquema en el diseñador visual de Apidog usando la especificación de Gemini 3 como base. El mismo enfoque funcionó cuando Gemini 3 se lanzó antes de que se publicara la OpenAPI oficial.
- Respuestas simuladas. La generación de video es lenta y costosa. La simulación inteligente de Apidog devuelve respuestas predefinidas en base64 o URL firmadas para que tu cliente frontend pueda construirse y probarse sin consumir cuota real de API.
Una solicitud típica de Omni probablemente se verá así en su forma bruta:
curl -X POST https://generativelanguage.googleapis.com/v1beta/models/gemini-omni-flash:generateContent \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "Generate a 6s product shot of the attached phone rotating on a white background" },
{ "inline_data": { "mime_type": "image/jpeg", "data": "<base64-image>" } }
]
}],
"generationConfig": {
"responseMimeType": "video/mp4",
"durationSeconds": 6
}
}'
(Esa forma es una proyección de la API multimodal de Gemini 3 existente. Google podría cambiar los nombres de los campos.)
Introduce eso en Apidog como una solicitud, guárdalo bajo tu colección de Gemini, y tendrás una prueba reutilizable que puedes compartir con el equipo. Añade aserciones visuales sobre el código de respuesta, el tamaño de la carga útil y la presencia de la marca de agua SynthID. Cuando el endpoint real entre en funcionamiento, solo la URL necesitará ser actualizada.
Cómo se compara Omni con Sora 2, Veo 3.1 y Nano Banana 2
La línea de modelos de video de 2026 es ajustada, por lo que una comparación justa es importante antes de comprometerte:
| Modelo | Proveedor | Razonamiento | Entrada multimodal | Editable | Marca de agua |
|---|---|---|---|---|---|
| Gemini Omni Flash | Nativo | Texto, imagen, audio, video | Multi-turno | SynthID | |
| Veo 3.1 | Limitado | Texto, imagen | Solo re-instrucción | SynthID | |
| Sora 2 | OpenAI | Algo | Texto, imagen | Solo re-instrucción | C2PA |
| Nano Banana 2 | Algo | Texto, imagen | Limitado | SynthID |
Veo 3.1 tiene la ventaja en calidad cinematográfica de toma única. Sora 2 tiene la simulación de mundo más fuerte según el posicionamiento de OpenAI. Lo analizamos en nuestro análisis a fondo de Sora 2. Las ventajas distintivas de Omni son el razonamiento, la edición multi-turno y la salida de audio en video sin una etapa separada.
Si estás eligiendo uno para un flujo de trabajo de producción hoy, Veo 3.1 más la capa de simulación de Apidog es la apuesta más estable. Si estás pilotando algo donde los usuarios describen ediciones en lenguaje sencillo y esperan que el modelo siga el ritmo, Omni es donde invertir tiempo de prueba una vez que se lance la API. La comparación completa se encuentra en nuestro enfrentamiento de modelos de video.
Casos de uso en el mundo real
Algunos patrones a esperar pronto:
- Equipos de marketing de producto. Genera recorridos de producto localizados a partir de un único guion en inglés más una imagen de referencia. Itera con el líder de marketing conversando con el modelo.
- Educadores. Explica un concepto de física pidiéndole a Omni que lo demuestre. El paso de razonamiento es importante aquí. Quieres que la demostración sea físicamente correcta, no visualmente limpia y físicamente incorrecta.
- Éxito del cliente. Genera videos cortos de incorporación impulsados por avatares, personalizados por cliente. La función Avatares es la clave.
- Verificación de noticias y contenido. Incrusta la detección de SynthID en tu pipeline de moderación para marcar material generado por Omni. Particularmente relevante para los equipos de confianza y seguridad.
- Prototipos de juegos y aplicaciones. Diseña secuencias cinematográficas antes de que intervenga cualquier artista 3D.
Mejores prácticas y precauciones
Si te estás preparando para el lanzamiento de la API de Omni, un puñado de decisiones te ahorrarán tiempo real:
- No codifiques el nombre del modelo. Envuelve esto en una variable de entorno. Los nombres de los modelos Gemini cambian entre las vistas previas y la disponibilidad general.
- Simula primero. El video generativo es la llamada más costosa en tu pila. Usa las simulaciones de Apidog para construir la interfaz de usuario y probar las rutas de error del cliente antes de conectar el endpoint en vivo.
- Almacena en caché la salida de forma agresiva. La misma instrucción + las mismas entradas de referencia deberían usar la caché. El paso de razonamiento de Omni cuesta más que el de Veo; no querrás volver a pagarlo.
- Estate atento a los errores de política de contenido. El filtro de seguridad de Google bloquea la generación que involucra a personas reales, personajes con derechos de autor y una larga lista de categorías sensibles. Construye lógica de reintento con retroceso, no páginas de error.
- Planifica la verificación de SynthID. Si republicas la salida de Omni, decide si mostrarás la procedencia de la marca de agua a los usuarios finales. Los equipos de cumplimiento están empezando a preguntar.
- Presupuesta la latencia. La generación de video no es instantánea. Los clips de seis segundos pueden tardar más de 30 segundos de principio a fin. Trata la llamada como asíncrona; no bloquees tu hilo principal.
Un error común a evitar: no esperes que Omni reemplace tu flujo de trabajo de edición. Es un modelo de generación, no un editor no lineal. Todavía necesitarás una pasada final en DaVinci, Premiere o Google Flow para los cortes, el color y la mezcla de audio.
Preguntas frecuentes
¿Qué es Gemini Omni?
Gemini Omni es la nueva familia de modelos de Google que combina el razonamiento de Gemini con la generación multimodal nativa. La primera variante, Gemini Omni Flash, acepta texto, imagen, audio y video como entrada y produce video como salida.
¿Es Gemini Omni lo mismo que Veo 3?
No. Veo es un modelo de generación de video dedicado con razonamiento limitado. Omni es un modelo de razonamiento que genera video; puede interpretar instrucciones complejas, editar en múltiples turnos y aceptar tipos de entrada más ricos. Consulta nuestra guía de la API de Veo 3 para ver las diferencias en la práctica.
¿Cuándo se lanza la API de Gemini Omni?
Google dice "en las próximas semanas" a partir del anuncio de mayo de 2026. Las APIs para desarrolladores y empresas se lanzarán juntas. No hay una fecha fija.
¿Cuánto cuesta Gemini Omni?
Para los consumidores, es gratuito en YouTube Shorts y YouTube Create, y está incluido en las suscripciones de Google AI Plus, Pro y Ultra. El precio de la API no ha sido anunciado. El nivel Flash generalmente tiene la tarifa por llamada más baja de Google.
¿Puede Gemini Omni generar audio?
Todavía no. La salida es solo video en el lanzamiento. La salida de audio y la salida de imagen están en la hoja de ruta sin fecha.
¿Tiene Gemini Omni una marca de agua?
Sí. Todos los videos generados por Omni llevan una marca de agua SynthID, verificable a través de la aplicación Gemini, Gemini en Chrome y la Búsqueda de Google. La marca de agua es invisible para los espectadores pero legible por los detectores de Google.
¿Apidog será compatible con la API de Gemini Omni?
Sí, de la misma manera que Apidog es compatible con los endpoints de Gemini 3, Veo 3 y Nano Banana hoy. En el momento en que Google publique la especificación OpenAPI para Omni, podrás importarla directamente. Mientras tanto, bosqueja el esquema, simula las respuestas y ten tu código cliente listo.
¿Cómo maneja Gemini Omni la física?
El modelo ha sido entrenado para predecir resultados de la manera en que lo haría alguien con intuición física, y luego generar fotogramas consistentes con esa predicción. No está ejecutando una simulación física, pero maneja correctamente la gravedad, la dinámica de fluidos y el comportamiento de colisiones con más frecuencia que los modelos generativos puros.
Conclusión
Gemini Omni es el modelo más interesante que Google ha lanzado este trimestre. Es más que un Veo más rápido. Es una arquitectura diferente que razona antes de generar, acepta cualquier entrada que le des y edita a lo largo de conversaciones de múltiples turnos. Las limitaciones actuales (solo salida de video, aún sin API pública) se levantarán en las próximas semanas.
Cinco cosas que hacer esta semana si estás construyendo con modelos de video:
- Vigila el panel de Google AI Studio para el endpoint de Omni Flash.
- Configura tu autenticación y variables de entorno en Apidog ahora para que puedas cambiar de modelos sin cambios en el código más adelante.
- Simula la forma proyectada de la solicitud de Omni y valida tu integración de cliente.
- Decide dónde la generación basada en razonamiento te ofrece algo sobre Veo 3.1.
- Planifica la verificación de SynthID en tu pipeline de confianza y seguridad.
Cuando se lance la API, los equipos que hayan hecho el trabajo de preparación estarán en producción en cuestión de horas. El resto estará leyendo la documentación.
