Precios de Gemini 3.5 Flash: ¿Cuánto Cuesta Realmente?

Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026, y la afirmación principal de su precio es audaz: "menos de la mitad del costo de otros modelos de vanguardia" para tareas agentivas. Esa es la línea de marketing. Esta guía hace las cuentas reales.

Encontrarás las tarifas por token, los límites de la capa gratuita, el descuento por modo por lotes, escenarios de costos reales para cargas de trabajo comunes y una comparación de costos lado a lado con GPT-5.5 y Claude Opus 4.7. Al final, sabrás exactamente cuánto cuesta ejecutar Flash y dónde puedes ahorrar un 50% o más sin sacrificar mucho.

Resumen rápido

Tipo de costo	Tarifa
Entrada estándar	~$1.50 / 1M tokens
Salida estándar	~$9.00 / 1M tokens
Entrada en modo por lotes	~$0.75 / 1M tokens (~50% de descuento)
Salida en modo por lotes	~$4.50 / 1M tokens (~50% de descuento)
Entrada en caché	tarifa reducida (variable)
Capa gratuita (AI Studio)	~1,500 solicitudes/día, 1M tokens/min, 15 RPM
Nueva cuenta de Vertex AI	Crédito de $300 durante 90 días

Tarifas actuales a mayo de 2026 según el anuncio de lanzamiento de Google y los listados de agregadores. Siempre verifica en la página oficial de precios antes de comprometer el presupuesto.

Tarifas por token de Gemini 3.5 Flash

Flash utiliza el mismo modelo de pago por uso que ha utilizado cada variante de Gemini desde 2.5: pagas por millón de tokens de entrada y por millón de tokens de salida, de forma independiente.

Nivel	Entrada ($/1M)	Salida ($/1M)
Estándar	~$1.50	~$9.00
Entrada en caché	con descuento	n/a
Lote (asíncrono)	~$0.75	~$4.50

Dos notas prácticas:

Los tokens no son palabras. Regla aproximada: 1,000 tokens ≈ 750 palabras en inglés. Una novela de 100,000 palabras es aproximadamente 133K tokens de entrada.
La salida es aproximadamente 6 veces más cara que la entrada. Las indicaciones que provocan respuestas largas cuestan mucho más que las indicaciones que obtienen respuestas cortas. Los esquemas de salida estructurada suelen ahorrar dinero en comparación con la prosa de forma libre porque el modelo escribe menos.

Para obtener información sobre cómo funciona el modo por lotes de Gemini, consulta El modo por lotes de la API de Gemini ya está aquí y es un 50% más barato.

Capa gratuita: lo que obtienes sin pagar

La capa gratuita de AI Studio incluye Flash desde el primer día. Límites en el lanzamiento:

1,500 solicitudes por día
1M tokens por minuto
15 solicitudes por minuto

Eso es suficiente para la mayoría de los proyectos paralelos, prototipos internos y automatización a pequeña escala. Si tu carga de trabajo se ajusta a 1,500 llamadas/día, pagas $0.

Detalles de la capa gratuita:

No se requiere tarjeta de crédito
El mismo modelo gemini-3.5-flash que el endpoint de pago
El mismo patrón de SDK, solo una clave diferente
Las indicaciones pueden usarse para mejorar los modelos de Google (opta por no participar en la configuración de AI Studio)
Las cuotas pueden cambiar; no apuestes una fecha límite de lanzamiento a los números exactos

Para la guía de configuración completa, consulta Cómo usar Gemini 3.5 Flash gratis y Cómo obtener una clave API gratuita de Google Gemini.

Modo por lotes: el descuento del 50% que la mayoría de los equipos pierden

Si tu carga de trabajo no necesita respuestas en tiempo real, el modo por lotes reduce los costos de Flash aproximadamente a la mitad.

Cómo funciona:

Envía un trabajo por lotes con hasta 50,000 indicaciones a la vez
Google los procesa en 24 horas
Pagas ~50% menos por token, tanto de entrada como de salida

Cuándo tiene sentido el modo por lotes:

Análisis masivo de documentos (revisión legal, clasificación de tickets de soporte, moderación de contenido)
Generación de contenido nocturna para paneles de control de SaaS
Precomputación tipo embedding
Trabajos de migración donde se reprocesan datos históricos

Cuando no tiene sentido:

Interfaces de usuario de chat (los usuarios no esperarán 24 horas)
Bucles de agente en vivo con interacción del usuario
Cualquier cosa orientada al usuario en tiempo real

La mayoría de las pilas de producción deberían ejecutar el modo por lotes para cualquier carga de trabajo que pueda tolerar la latencia. Los ahorros se acumulan rápidamente a escala. Detalles de configuración en nuestra guía de modo por lotes.

Entrada en caché: otra palanca

Si tus indicaciones comparten un prefijo estático largo (indicación del sistema, documento de referencia grande, instrucciones largas), el almacenamiento en caché de contexto te ofrece un descuento en la porción en caché.

Patrón:

Cacha un documento de referencia de 100K tokens una vez
Reutilízalo en miles de consultas
Paga la tarifa completa solo por la nueva pregunta, no por el prefijo en caché

Los ahorros concretos dependen de la tasa de aciertos de la caché, pero para aplicaciones tipo RAG donde los mismos fragmentos recuperados vuelven en varias consultas, espera una reducción del 30-60% en el costo de entrada.

Escenarios de costos en el mundo real

El cálculo de tokens se vuelve abstracto rápidamente. Aquí hay cinco escenarios concretos con las tarifas estándar de Flash.

Escenario 1: Chatbot de soporte al cliente

10,000 mensajes de usuario por día
Promedio de 200 tokens de entrada (mensaje de usuario + indicación del sistema)
Promedio de 400 tokens de salida (respuesta)

Costo diario:

Entrada: 10,000 × 200 × ($1.50 / 1M) = $3.00/día
Salida: 10,000 × 400 × ($9.00 / 1M) = $36.00/día
Total: ~$39/día, ~$1,170/mes

Ejecuta la misma carga de trabajo en modo por lotes (si puedes tolerar respuestas por lotes): ~$585/mes. Agrega el almacenamiento en caché de contexto para la indicación del sistema: otro 20-30% de descuento.

Escenario 2: SaaS de Preguntas y Respuestas de Documentos

1,000 documentos analizados por día
Cada documento promedia 30K tokens (PDF largo)
Cada pregunta y respuesta devuelve 500 tokens de salida

Costo diario:

Entrada: 1,000 × 30,000 × ($1.50 / 1M) = $45.00/día
Salida: 1,000 × 500 × ($9.00 / 1M) = $4.50/día
Total: ~$50/día, ~$1,500/mes

Aquí es donde el contexto de 1M de Flash brilla: sin infraestructura de fragmentación, solo envía el documento completo. En comparación con RAG fragmentado con un modelo insignia, pagarías mucho más en API más infraestructura.

Escenario 3: Agente autónomo de larga duración

Una ejecución de agente = ~50 turnos de modelo
Cada turno promedia 5K de entrada (contexto creciente) y 1K de salida
200 ejecuciones por día

Costo por ejecución:

Entrada: 50 × 5,000 × ($1.50 / 1M) = $0.375
Salida: 50 × 1,000 × ($9.00 / 1M) = $0.45
Por ejecución: ~$0.83

Total diario: 200 × $0.83 = ~$165/día, ~$4,950/mes

Para comparar, la misma carga de trabajo en Opus 4.7 (~$15/$75 por 1M) cuesta aproximadamente $25/ejecución, o $5,000/día. Esa es la brecha de costos agentivos a la que apunta la afirmación de Google.

Escenario 4: Pipeline de extracción de gráficos

5,000 capturas de pantalla de paneles por día
Cada imagen de entrada: equivalente a ~1,500 tokens
Salida: 300 tokens de JSON estructurado

Costo diario:

Entrada: 5,000 × 1,500 × ($1.50 / 1M) = $11.25/día
Salida: 5,000 × 300 × ($9.00 / 1M) = $13.50/día
Total: ~$25/día, ~$750/mes

Agrega el modo por lotes y la misma carga de trabajo se ejecuta a ~$375/mes. El razonamiento de CharXiv al 84.2% significa que la calidad se mantiene.

Escenario 5: Generación de contenido de alto volumen

100,000 artículos cortos generados por día
500 tokens de entrada, 2,000 tokens de salida cada uno

Costo diario:

Entrada: 100,000 × 500 × ($1.50 / 1M) = $75/día
Salida: 100,000 × 2,000 × ($9.00 / 1M) = $1,800/día
Total: ~$1,875/día, ~$56,250/mes

Mueve esto al modo por lotes y la factura mensual baja a ~$28K. A esta escala, también querrías probar enrutar piezas rutinarias a modelos aún más baratos como 3.1 Flash-Lite y reservar Flash para generaciones más difíciles.

Costo vs GPT-5.5 y Opus 4.7

La comparación de precios principal:

Modelo	Entrada ($/1M)	Salida ($/1M)	Múltiplo vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1× (línea base)
GPT-5.5	~$10	~$30	6.7× entrada, 3.3× salida
Claude Opus 4.7	~$15	~$75	10× entrada, 8.3× salida

Ejecuta el Escenario 1 (chat de soporte al cliente) a través de cada uno:

Flash: $39/día
GPT-5.5: ~$140/día (3.6× más)
Opus 4.7: ~$330/día (8.5× más)

Esta es la brecha de costos agentivos que impulsa la línea de marketing de Google. Los modelos insignia devuelven una calidad marginalmente mejor en las tareas más difíciles; para las cargas de trabajo diarias, Flash es suficiente a una fracción del precio.

Para análisis más profundos, consulta Precios de GPT-5.5 y nuestra comparación a tres bandas.

Costo vs otras variantes de Gemini

Modelo	Entrada ($/1M)	Salida ($/1M)	Cuándo usar
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Trabajo rutinario de alto volumen
Gemini 3 Flash	~$0.50	~$3.00	Generación anterior, aún sólida
Gemini 3.1 Pro	~$2.00	~$12.00	Trabajo intensivo en razonamiento antes de 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Nuevo valor predeterminado para la mayoría de las cargas de trabajo
Gemini 3.5 Pro (Junio 2026)	Por determinar	Por determinar	Tareas de razonamiento más difíciles

Flash es más caro que sus predecesores 3.x Flash, pero es creíblemente más barato que el nivel Pro anterior. Para la mayoría de los equipos, esa es la compensación correcta: mejor que Flash 3.x, cuesta menos que Pro 3.x.

Para la línea Gemini anterior, consulta 3.1 Flash-Lite, precios de la API 3.0 y 3 Flash.

Precios de Vertex AI (producción)

Si llamas a Flash a través de Vertex AI en lugar de AI Studio, el precio por token es el mismo. Las diferencias son la facturación y las características de la cuenta:

Autenticación de cuenta de servicio en lugar de claves API
Registros de auditoría en Cloud Logging
Controles de residencia de datos
Sin capa gratuita, pero el crédito de $300 para nuevas cuentas cubre ~90 días de uso moderado
Cuotas personalizadas que puedes negociar a escala

Para la mayoría de los equipos de producción, el camino es: prototipar en la capa gratuita de AI Studio, cambiar a AI Studio de pago para escalar, luego moverse a Vertex AI cuando necesites controles empresariales. El comportamiento del modelo es idéntico en los tres.

Consejos de optimización de costos

Seis hábitos concretos que más reducen las facturas de Flash:

Ejecuta el modo por lotes para cualquier cosa que no necesite respuesta en tiempo real. 50% de descuento, sin pérdida de calidad.
Cacha prefijos estáticos largos. Indicaciones del sistema, documentos de referencia, instrucciones, todos son buenos candidatos.
Usa salida JSON estructurada. Obliga al modelo a escribir menos, es más rápido y más barato que la prosa de forma libre.
Enruta por complejidad de tarea. Tareas fáciles a Flash-Lite; difíciles a Flash; la rara tarea crítica a 3.5 Pro cuando se lance.
Prevalida las entradas. No quemes tokens en solicitudes mal formadas. Apidog las detecta antes de que lleguen a la API.
Rastrea el costo por indicación. Agrega un middleware de registro que registre los tokens de entrada/salida por solicitud. Los excesos de costos casi siempre provienen de unas pocas indicaciones atípicas.

Para el flujo de validación de indicaciones, descarga Apidog, crea un escenario de prueba para tu endpoint de Gemini y agrega aserciones de forma de respuesta. Quemar la misma solicitud defectuosa 200 veces en una sesión de depuración es cómo los equipos desperdician sus cuotas de capa gratuita en una sola tarde.

Cuando la capa gratuita no es suficiente

Tres señales para actualizar de Flash gratuito a Flash de pago:

Estás alcanzando 1,500 solicitudes/día varios días seguidos. El pago por uso es lo suficientemente barato como para que el tiempo de desarrollo dedicado a esquivar las cuotas cueste más que la actualización.
Necesitas un mayor rendimiento de RPM. La capa gratuita limita a 15 solicitudes por minuto; las capas de pago van mucho más allá.
Necesitas residencia de datos o registros de auditoría. Muévete a Vertex AI en una cuenta facturada.

La mayoría de los equipos encuentran que $50-$200/mes en uso de Flash de pago reemplaza una gran cantidad de malabarismos con la capa gratuita.

Riesgos de precios y qué observar

Tres cosas que podrían cambiar los cálculos:

Endurecimiento de cuotas. Google históricamente ha reducido las cuotas de la capa gratuita a medida que los modelos envejecen. No diseñes tu arquitectura en torno al número exacto de 1,500/día.
Precios de lanzamiento de Pro. Cuando 3.5 Pro se lance en junio, el precio de Flash podría subir o bajar dependiendo de cómo Google posicione los niveles.
Recargos regionales. Los precios de Vertex AI varían según la región. EE. UU. Central es la referencia más barata; espera primas del 10-20% en algunas regiones.

Configura alertas de costos desde el primer día. Tanto AI Studio (en la página de cuotas del proyecto) como Vertex AI (en Cloud Billing) admiten límites de presupuesto diarios. Úsalos.

En resumen

Gemini 3.5 Flash es lo suficientemente económico como para que la mayoría de las cargas de trabajo de IA en producción en 2026 deberían comenzar allí. Las tarifas estándar ($1.50 / $9 por 1M de tokens) son inferiores a cualquier otra opción de clase de vanguardia. El modo por lotes y el almacenamiento en caché de contexto empujan el costo efectivo aún más abajo.

Para las cargas de trabajo donde Flash no es suficiente, la medida correcta es mezclar niveles: Flash para la mayor parte, un modelo insignia como GPT-5.5 o Opus 4.7 para las tareas más difíciles. El enrutamiento por complejidad de la tarea es la optimización de costos de mayor impacto que puedes realizar.

Para poner esto en práctica:

Descarga Apidog y guarda el endpoint de Gemini 3.5 Flash como una solicitud
Crea una pequeña evaluación comparando Flash con tu modelo actual en 20 indicaciones reales
Registra el recuento de tokens; extrapola el costo mensual
Decide dónde Flash reemplaza un modelo más caro y dónde no

Eso son dos días de trabajo que generalmente se recuperan en un solo ciclo de facturación.

botón