Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026, y la afirmación principal de su precio es audaz: "menos de la mitad del costo de otros modelos de vanguardia" para tareas agentivas. Esa es la línea de marketing. Esta guía hace las cuentas reales.
Encontrarás las tarifas por token, los límites de la capa gratuita, el descuento por modo por lotes, escenarios de costos reales para cargas de trabajo comunes y una comparación de costos lado a lado con GPT-5.5 y Claude Opus 4.7. Al final, sabrás exactamente cuánto cuesta ejecutar Flash y dónde puedes ahorrar un 50% o más sin sacrificar mucho.

Resumen rápido
| Tipo de costo | Tarifa |
|---|---|
| Entrada estándar | ~$1.50 / 1M tokens |
| Salida estándar | ~$9.00 / 1M tokens |
| Entrada en modo por lotes | ~$0.75 / 1M tokens (~50% de descuento) |
| Salida en modo por lotes | ~$4.50 / 1M tokens (~50% de descuento) |
| Entrada en caché | tarifa reducida (variable) |
| Capa gratuita (AI Studio) | ~1,500 solicitudes/día, 1M tokens/min, 15 RPM |
| Nueva cuenta de Vertex AI | Crédito de $300 durante 90 días |
Tarifas actuales a mayo de 2026 según el anuncio de lanzamiento de Google y los listados de agregadores. Siempre verifica en la página oficial de precios antes de comprometer el presupuesto.
Tarifas por token de Gemini 3.5 Flash
Flash utiliza el mismo modelo de pago por uso que ha utilizado cada variante de Gemini desde 2.5: pagas por millón de tokens de entrada y por millón de tokens de salida, de forma independiente.
| Nivel | Entrada ($/1M) | Salida ($/1M) |
|---|---|---|
| Estándar | ~$1.50 | ~$9.00 |
| Entrada en caché | con descuento | n/a |
| Lote (asíncrono) | ~$0.75 | ~$4.50 |
Dos notas prácticas:
- Los tokens no son palabras. Regla aproximada: 1,000 tokens ≈ 750 palabras en inglés. Una novela de 100,000 palabras es aproximadamente 133K tokens de entrada.
- La salida es aproximadamente 6 veces más cara que la entrada. Las indicaciones que provocan respuestas largas cuestan mucho más que las indicaciones que obtienen respuestas cortas. Los esquemas de salida estructurada suelen ahorrar dinero en comparación con la prosa de forma libre porque el modelo escribe menos.
Para obtener información sobre cómo funciona el modo por lotes de Gemini, consulta El modo por lotes de la API de Gemini ya está aquí y es un 50% más barato.
Capa gratuita: lo que obtienes sin pagar
La capa gratuita de AI Studio incluye Flash desde el primer día. Límites en el lanzamiento:
- 1,500 solicitudes por día
- 1M tokens por minuto
- 15 solicitudes por minuto
Eso es suficiente para la mayoría de los proyectos paralelos, prototipos internos y automatización a pequeña escala. Si tu carga de trabajo se ajusta a 1,500 llamadas/día, pagas $0.
Detalles de la capa gratuita:
- No se requiere tarjeta de crédito
- El mismo modelo
gemini-3.5-flashque el endpoint de pago - El mismo patrón de SDK, solo una clave diferente
- Las indicaciones pueden usarse para mejorar los modelos de Google (opta por no participar en la configuración de AI Studio)
- Las cuotas pueden cambiar; no apuestes una fecha límite de lanzamiento a los números exactos
Para la guía de configuración completa, consulta Cómo usar Gemini 3.5 Flash gratis y Cómo obtener una clave API gratuita de Google Gemini.
Modo por lotes: el descuento del 50% que la mayoría de los equipos pierden
Si tu carga de trabajo no necesita respuestas en tiempo real, el modo por lotes reduce los costos de Flash aproximadamente a la mitad.
Cómo funciona:
- Envía un trabajo por lotes con hasta 50,000 indicaciones a la vez
- Google los procesa en 24 horas
- Pagas ~50% menos por token, tanto de entrada como de salida
Cuándo tiene sentido el modo por lotes:
- Análisis masivo de documentos (revisión legal, clasificación de tickets de soporte, moderación de contenido)
- Generación de contenido nocturna para paneles de control de SaaS
- Precomputación tipo embedding
- Trabajos de migración donde se reprocesan datos históricos
Cuando no tiene sentido:
- Interfaces de usuario de chat (los usuarios no esperarán 24 horas)
- Bucles de agente en vivo con interacción del usuario
- Cualquier cosa orientada al usuario en tiempo real
La mayoría de las pilas de producción deberían ejecutar el modo por lotes para cualquier carga de trabajo que pueda tolerar la latencia. Los ahorros se acumulan rápidamente a escala. Detalles de configuración en nuestra guía de modo por lotes.
Entrada en caché: otra palanca
Si tus indicaciones comparten un prefijo estático largo (indicación del sistema, documento de referencia grande, instrucciones largas), el almacenamiento en caché de contexto te ofrece un descuento en la porción en caché.
Patrón:
- Cacha un documento de referencia de 100K tokens una vez
- Reutilízalo en miles de consultas
- Paga la tarifa completa solo por la nueva pregunta, no por el prefijo en caché
Los ahorros concretos dependen de la tasa de aciertos de la caché, pero para aplicaciones tipo RAG donde los mismos fragmentos recuperados vuelven en varias consultas, espera una reducción del 30-60% en el costo de entrada.
Escenarios de costos en el mundo real
El cálculo de tokens se vuelve abstracto rápidamente. Aquí hay cinco escenarios concretos con las tarifas estándar de Flash.
Escenario 1: Chatbot de soporte al cliente
- 10,000 mensajes de usuario por día
- Promedio de 200 tokens de entrada (mensaje de usuario + indicación del sistema)
- Promedio de 400 tokens de salida (respuesta)
Costo diario:
- Entrada: 10,000 × 200 × ($1.50 / 1M) = $3.00/día
- Salida: 10,000 × 400 × ($9.00 / 1M) = $36.00/día
- Total: ~$39/día, ~$1,170/mes
Ejecuta la misma carga de trabajo en modo por lotes (si puedes tolerar respuestas por lotes): ~$585/mes. Agrega el almacenamiento en caché de contexto para la indicación del sistema: otro 20-30% de descuento.
Escenario 2: SaaS de Preguntas y Respuestas de Documentos
- 1,000 documentos analizados por día
- Cada documento promedia 30K tokens (PDF largo)
- Cada pregunta y respuesta devuelve 500 tokens de salida
Costo diario:
- Entrada: 1,000 × 30,000 × ($1.50 / 1M) = $45.00/día
- Salida: 1,000 × 500 × ($9.00 / 1M) = $4.50/día
- Total: ~$50/día, ~$1,500/mes
Aquí es donde el contexto de 1M de Flash brilla: sin infraestructura de fragmentación, solo envía el documento completo. En comparación con RAG fragmentado con un modelo insignia, pagarías mucho más en API más infraestructura.
Escenario 3: Agente autónomo de larga duración
- Una ejecución de agente = ~50 turnos de modelo
- Cada turno promedia 5K de entrada (contexto creciente) y 1K de salida
- 200 ejecuciones por día
Costo por ejecución:
- Entrada: 50 × 5,000 × ($1.50 / 1M) = $0.375
- Salida: 50 × 1,000 × ($9.00 / 1M) = $0.45
- Por ejecución: ~$0.83
Total diario: 200 × $0.83 = ~$165/día, ~$4,950/mes
Para comparar, la misma carga de trabajo en Opus 4.7 (~$15/$75 por 1M) cuesta aproximadamente $25/ejecución, o $5,000/día. Esa es la brecha de costos agentivos a la que apunta la afirmación de Google.
Escenario 4: Pipeline de extracción de gráficos
- 5,000 capturas de pantalla de paneles por día
- Cada imagen de entrada: equivalente a ~1,500 tokens
- Salida: 300 tokens de JSON estructurado
Costo diario:
- Entrada: 5,000 × 1,500 × ($1.50 / 1M) = $11.25/día
- Salida: 5,000 × 300 × ($9.00 / 1M) = $13.50/día
- Total: ~$25/día, ~$750/mes
Agrega el modo por lotes y la misma carga de trabajo se ejecuta a ~$375/mes. El razonamiento de CharXiv al 84.2% significa que la calidad se mantiene.
Escenario 5: Generación de contenido de alto volumen
- 100,000 artículos cortos generados por día
- 500 tokens de entrada, 2,000 tokens de salida cada uno
Costo diario:
- Entrada: 100,000 × 500 × ($1.50 / 1M) = $75/día
- Salida: 100,000 × 2,000 × ($9.00 / 1M) = $1,800/día
- Total: ~$1,875/día, ~$56,250/mes
Mueve esto al modo por lotes y la factura mensual baja a ~$28K. A esta escala, también querrías probar enrutar piezas rutinarias a modelos aún más baratos como 3.1 Flash-Lite y reservar Flash para generaciones más difíciles.
Costo vs GPT-5.5 y Opus 4.7
La comparación de precios principal:
| Modelo | Entrada ($/1M) | Salida ($/1M) | Múltiplo vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× (línea base) |
| GPT-5.5 | ~$10 | ~$30 | 6.7× entrada, 3.3× salida |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× entrada, 8.3× salida |
Ejecuta el Escenario 1 (chat de soporte al cliente) a través de cada uno:
- Flash: $39/día
- GPT-5.5: ~$140/día (3.6× más)
- Opus 4.7: ~$330/día (8.5× más)
Esta es la brecha de costos agentivos que impulsa la línea de marketing de Google. Los modelos insignia devuelven una calidad marginalmente mejor en las tareas más difíciles; para las cargas de trabajo diarias, Flash es suficiente a una fracción del precio.
Para análisis más profundos, consulta Precios de GPT-5.5 y nuestra comparación a tres bandas.
Costo vs otras variantes de Gemini
| Modelo | Entrada ($/1M) | Salida ($/1M) | Cuándo usar |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Trabajo rutinario de alto volumen |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Generación anterior, aún sólida |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Trabajo intensivo en razonamiento antes de 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Nuevo valor predeterminado para la mayoría de las cargas de trabajo |
| Gemini 3.5 Pro (Junio 2026) | Por determinar | Por determinar | Tareas de razonamiento más difíciles |
Flash es más caro que sus predecesores 3.x Flash, pero es creíblemente más barato que el nivel Pro anterior. Para la mayoría de los equipos, esa es la compensación correcta: mejor que Flash 3.x, cuesta menos que Pro 3.x.
Para la línea Gemini anterior, consulta 3.1 Flash-Lite, precios de la API 3.0 y 3 Flash.
Precios de Vertex AI (producción)
Si llamas a Flash a través de Vertex AI en lugar de AI Studio, el precio por token es el mismo. Las diferencias son la facturación y las características de la cuenta:
- Autenticación de cuenta de servicio en lugar de claves API
- Registros de auditoría en Cloud Logging
- Controles de residencia de datos
- Sin capa gratuita, pero el crédito de $300 para nuevas cuentas cubre ~90 días de uso moderado
- Cuotas personalizadas que puedes negociar a escala
Para la mayoría de los equipos de producción, el camino es: prototipar en la capa gratuita de AI Studio, cambiar a AI Studio de pago para escalar, luego moverse a Vertex AI cuando necesites controles empresariales. El comportamiento del modelo es idéntico en los tres.
Consejos de optimización de costos
Seis hábitos concretos que más reducen las facturas de Flash:
- Ejecuta el modo por lotes para cualquier cosa que no necesite respuesta en tiempo real. 50% de descuento, sin pérdida de calidad.
- Cacha prefijos estáticos largos. Indicaciones del sistema, documentos de referencia, instrucciones, todos son buenos candidatos.
- Usa salida JSON estructurada. Obliga al modelo a escribir menos, es más rápido y más barato que la prosa de forma libre.
- Enruta por complejidad de tarea. Tareas fáciles a Flash-Lite; difíciles a Flash; la rara tarea crítica a 3.5 Pro cuando se lance.
- Prevalida las entradas. No quemes tokens en solicitudes mal formadas. Apidog las detecta antes de que lleguen a la API.
- Rastrea el costo por indicación. Agrega un middleware de registro que registre los tokens de entrada/salida por solicitud. Los excesos de costos casi siempre provienen de unas pocas indicaciones atípicas.
Para el flujo de validación de indicaciones, descarga Apidog, crea un escenario de prueba para tu endpoint de Gemini y agrega aserciones de forma de respuesta. Quemar la misma solicitud defectuosa 200 veces en una sesión de depuración es cómo los equipos desperdician sus cuotas de capa gratuita en una sola tarde.
Cuando la capa gratuita no es suficiente
Tres señales para actualizar de Flash gratuito a Flash de pago:
- Estás alcanzando 1,500 solicitudes/día varios días seguidos. El pago por uso es lo suficientemente barato como para que el tiempo de desarrollo dedicado a esquivar las cuotas cueste más que la actualización.
- Necesitas un mayor rendimiento de RPM. La capa gratuita limita a 15 solicitudes por minuto; las capas de pago van mucho más allá.
- Necesitas residencia de datos o registros de auditoría. Muévete a Vertex AI en una cuenta facturada.
La mayoría de los equipos encuentran que $50-$200/mes en uso de Flash de pago reemplaza una gran cantidad de malabarismos con la capa gratuita.
Riesgos de precios y qué observar
Tres cosas que podrían cambiar los cálculos:
- Endurecimiento de cuotas. Google históricamente ha reducido las cuotas de la capa gratuita a medida que los modelos envejecen. No diseñes tu arquitectura en torno al número exacto de 1,500/día.
- Precios de lanzamiento de Pro. Cuando 3.5 Pro se lance en junio, el precio de Flash podría subir o bajar dependiendo de cómo Google posicione los niveles.
- Recargos regionales. Los precios de Vertex AI varían según la región. EE. UU. Central es la referencia más barata; espera primas del 10-20% en algunas regiones.
Configura alertas de costos desde el primer día. Tanto AI Studio (en la página de cuotas del proyecto) como Vertex AI (en Cloud Billing) admiten límites de presupuesto diarios. Úsalos.
En resumen
Gemini 3.5 Flash es lo suficientemente económico como para que la mayoría de las cargas de trabajo de IA en producción en 2026 deberían comenzar allí. Las tarifas estándar ($1.50 / $9 por 1M de tokens) son inferiores a cualquier otra opción de clase de vanguardia. El modo por lotes y el almacenamiento en caché de contexto empujan el costo efectivo aún más abajo.
Para las cargas de trabajo donde Flash no es suficiente, la medida correcta es mezclar niveles: Flash para la mayor parte, un modelo insignia como GPT-5.5 o Opus 4.7 para las tareas más difíciles. El enrutamiento por complejidad de la tarea es la optimización de costos de mayor impacto que puedes realizar.
Para poner esto en práctica:
- Descarga Apidog y guarda el endpoint de Gemini 3.5 Flash como una solicitud
- Crea una pequeña evaluación comparando Flash con tu modelo actual en 20 indicaciones reales
- Registra el recuento de tokens; extrapola el costo mensual
- Decide dónde Flash reemplaza un modelo más caro y dónde no
Eso son dos días de trabajo que generalmente se recuperan en un solo ciclo de facturación.
