Precios de Gemini 3.5 Flash: ¿Cuánto Cuesta Realmente?

Ashley Innocent

Ashley Innocent

20 May 2026

Precios de Gemini 3.5 Flash: ¿Cuánto Cuesta Realmente?

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026, y la afirmación principal de su precio es audaz: "menos de la mitad del costo de otros modelos de vanguardia" para tareas agentivas. Esa es la línea de marketing. Esta guía hace las cuentas reales.

Encontrarás las tarifas por token, los límites de la capa gratuita, el descuento por modo por lotes, escenarios de costos reales para cargas de trabajo comunes y una comparación de costos lado a lado con GPT-5.5 y Claude Opus 4.7. Al final, sabrás exactamente cuánto cuesta ejecutar Flash y dónde puedes ahorrar un 50% o más sin sacrificar mucho.

Resumen rápido

Tipo de costo Tarifa
Entrada estándar ~$1.50 / 1M tokens
Salida estándar ~$9.00 / 1M tokens
Entrada en modo por lotes ~$0.75 / 1M tokens (~50% de descuento)
Salida en modo por lotes ~$4.50 / 1M tokens (~50% de descuento)
Entrada en caché tarifa reducida (variable)
Capa gratuita (AI Studio) ~1,500 solicitudes/día, 1M tokens/min, 15 RPM
Nueva cuenta de Vertex AI Crédito de $300 durante 90 días

Tarifas actuales a mayo de 2026 según el anuncio de lanzamiento de Google y los listados de agregadores. Siempre verifica en la página oficial de precios antes de comprometer el presupuesto.

Tarifas por token de Gemini 3.5 Flash

Flash utiliza el mismo modelo de pago por uso que ha utilizado cada variante de Gemini desde 2.5: pagas por millón de tokens de entrada y por millón de tokens de salida, de forma independiente.

Nivel Entrada ($/1M) Salida ($/1M)
Estándar ~$1.50 ~$9.00
Entrada en caché con descuento n/a
Lote (asíncrono) ~$0.75 ~$4.50

Dos notas prácticas:

Para obtener información sobre cómo funciona el modo por lotes de Gemini, consulta El modo por lotes de la API de Gemini ya está aquí y es un 50% más barato.

Capa gratuita: lo que obtienes sin pagar

La capa gratuita de AI Studio incluye Flash desde el primer día. Límites en el lanzamiento:

Eso es suficiente para la mayoría de los proyectos paralelos, prototipos internos y automatización a pequeña escala. Si tu carga de trabajo se ajusta a 1,500 llamadas/día, pagas $0.

Detalles de la capa gratuita:

Para la guía de configuración completa, consulta Cómo usar Gemini 3.5 Flash gratis y Cómo obtener una clave API gratuita de Google Gemini.

Modo por lotes: el descuento del 50% que la mayoría de los equipos pierden

Si tu carga de trabajo no necesita respuestas en tiempo real, el modo por lotes reduce los costos de Flash aproximadamente a la mitad.

Cómo funciona:

  1. Envía un trabajo por lotes con hasta 50,000 indicaciones a la vez
  2. Google los procesa en 24 horas
  3. Pagas ~50% menos por token, tanto de entrada como de salida

Cuándo tiene sentido el modo por lotes:

Cuando no tiene sentido:

La mayoría de las pilas de producción deberían ejecutar el modo por lotes para cualquier carga de trabajo que pueda tolerar la latencia. Los ahorros se acumulan rápidamente a escala. Detalles de configuración en nuestra guía de modo por lotes.

Entrada en caché: otra palanca

Si tus indicaciones comparten un prefijo estático largo (indicación del sistema, documento de referencia grande, instrucciones largas), el almacenamiento en caché de contexto te ofrece un descuento en la porción en caché.

Patrón:

Los ahorros concretos dependen de la tasa de aciertos de la caché, pero para aplicaciones tipo RAG donde los mismos fragmentos recuperados vuelven en varias consultas, espera una reducción del 30-60% en el costo de entrada.

Escenarios de costos en el mundo real

El cálculo de tokens se vuelve abstracto rápidamente. Aquí hay cinco escenarios concretos con las tarifas estándar de Flash.

Escenario 1: Chatbot de soporte al cliente

Costo diario:

Ejecuta la misma carga de trabajo en modo por lotes (si puedes tolerar respuestas por lotes): ~$585/mes. Agrega el almacenamiento en caché de contexto para la indicación del sistema: otro 20-30% de descuento.

Escenario 2: SaaS de Preguntas y Respuestas de Documentos

Costo diario:

Aquí es donde el contexto de 1M de Flash brilla: sin infraestructura de fragmentación, solo envía el documento completo. En comparación con RAG fragmentado con un modelo insignia, pagarías mucho más en API más infraestructura.

Escenario 3: Agente autónomo de larga duración

Costo por ejecución:

Total diario: 200 × $0.83 = ~$165/día, ~$4,950/mes

Para comparar, la misma carga de trabajo en Opus 4.7 (~$15/$75 por 1M) cuesta aproximadamente $25/ejecución, o $5,000/día. Esa es la brecha de costos agentivos a la que apunta la afirmación de Google.

Escenario 4: Pipeline de extracción de gráficos

Costo diario:

Agrega el modo por lotes y la misma carga de trabajo se ejecuta a ~$375/mes. El razonamiento de CharXiv al 84.2% significa que la calidad se mantiene.

Escenario 5: Generación de contenido de alto volumen

Costo diario:

Mueve esto al modo por lotes y la factura mensual baja a ~$28K. A esta escala, también querrías probar enrutar piezas rutinarias a modelos aún más baratos como 3.1 Flash-Lite y reservar Flash para generaciones más difíciles.

Costo vs GPT-5.5 y Opus 4.7

La comparación de precios principal:

Modelo Entrada ($/1M) Salida ($/1M) Múltiplo vs Flash
Gemini 3.5 Flash ~$1.50 ~$9.00 1× (línea base)
GPT-5.5 ~$10 ~$30 6.7× entrada, 3.3× salida
Claude Opus 4.7 ~$15 ~$75 10× entrada, 8.3× salida

Ejecuta el Escenario 1 (chat de soporte al cliente) a través de cada uno:

Esta es la brecha de costos agentivos que impulsa la línea de marketing de Google. Los modelos insignia devuelven una calidad marginalmente mejor en las tareas más difíciles; para las cargas de trabajo diarias, Flash es suficiente a una fracción del precio.

Para análisis más profundos, consulta Precios de GPT-5.5 y nuestra comparación a tres bandas.

Costo vs otras variantes de Gemini

Modelo Entrada ($/1M) Salida ($/1M) Cuándo usar
Gemini 3.1 Flash-Lite ~$0.40 ~$2.00 Trabajo rutinario de alto volumen
Gemini 3 Flash ~$0.50 ~$3.00 Generación anterior, aún sólida
Gemini 3.1 Pro ~$2.00 ~$12.00 Trabajo intensivo en razonamiento antes de 3.5 Pro
Gemini 3.5 Flash ~$1.50 ~$9.00 Nuevo valor predeterminado para la mayoría de las cargas de trabajo
Gemini 3.5 Pro (Junio 2026) Por determinar Por determinar Tareas de razonamiento más difíciles

Flash es más caro que sus predecesores 3.x Flash, pero es creíblemente más barato que el nivel Pro anterior. Para la mayoría de los equipos, esa es la compensación correcta: mejor que Flash 3.x, cuesta menos que Pro 3.x.

Para la línea Gemini anterior, consulta 3.1 Flash-Lite, precios de la API 3.0 y 3 Flash.

Precios de Vertex AI (producción)

Si llamas a Flash a través de Vertex AI en lugar de AI Studio, el precio por token es el mismo. Las diferencias son la facturación y las características de la cuenta:

Para la mayoría de los equipos de producción, el camino es: prototipar en la capa gratuita de AI Studio, cambiar a AI Studio de pago para escalar, luego moverse a Vertex AI cuando necesites controles empresariales. El comportamiento del modelo es idéntico en los tres.

Consejos de optimización de costos

Seis hábitos concretos que más reducen las facturas de Flash:

  1. Ejecuta el modo por lotes para cualquier cosa que no necesite respuesta en tiempo real. 50% de descuento, sin pérdida de calidad.
  2. Cacha prefijos estáticos largos. Indicaciones del sistema, documentos de referencia, instrucciones, todos son buenos candidatos.
  3. Usa salida JSON estructurada. Obliga al modelo a escribir menos, es más rápido y más barato que la prosa de forma libre.
  4. Enruta por complejidad de tarea. Tareas fáciles a Flash-Lite; difíciles a Flash; la rara tarea crítica a 3.5 Pro cuando se lance.
  5. Prevalida las entradas. No quemes tokens en solicitudes mal formadas. Apidog las detecta antes de que lleguen a la API.
  6. Rastrea el costo por indicación. Agrega un middleware de registro que registre los tokens de entrada/salida por solicitud. Los excesos de costos casi siempre provienen de unas pocas indicaciones atípicas.

Para el flujo de validación de indicaciones, descarga Apidog, crea un escenario de prueba para tu endpoint de Gemini y agrega aserciones de forma de respuesta. Quemar la misma solicitud defectuosa 200 veces en una sesión de depuración es cómo los equipos desperdician sus cuotas de capa gratuita en una sola tarde.

Cuando la capa gratuita no es suficiente

Tres señales para actualizar de Flash gratuito a Flash de pago:

  1. Estás alcanzando 1,500 solicitudes/día varios días seguidos. El pago por uso es lo suficientemente barato como para que el tiempo de desarrollo dedicado a esquivar las cuotas cueste más que la actualización.
  2. Necesitas un mayor rendimiento de RPM. La capa gratuita limita a 15 solicitudes por minuto; las capas de pago van mucho más allá.
  3. Necesitas residencia de datos o registros de auditoría. Muévete a Vertex AI en una cuenta facturada.

La mayoría de los equipos encuentran que $50-$200/mes en uso de Flash de pago reemplaza una gran cantidad de malabarismos con la capa gratuita.

Riesgos de precios y qué observar

Tres cosas que podrían cambiar los cálculos:

Configura alertas de costos desde el primer día. Tanto AI Studio (en la página de cuotas del proyecto) como Vertex AI (en Cloud Billing) admiten límites de presupuesto diarios. Úsalos.

En resumen

Gemini 3.5 Flash es lo suficientemente económico como para que la mayoría de las cargas de trabajo de IA en producción en 2026 deberían comenzar allí. Las tarifas estándar ($1.50 / $9 por 1M de tokens) son inferiores a cualquier otra opción de clase de vanguardia. El modo por lotes y el almacenamiento en caché de contexto empujan el costo efectivo aún más abajo.

Para las cargas de trabajo donde Flash no es suficiente, la medida correcta es mezclar niveles: Flash para la mayor parte, un modelo insignia como GPT-5.5 o Opus 4.7 para las tareas más difíciles. El enrutamiento por complejidad de la tarea es la optimización de costos de mayor impacto que puedes realizar.

Para poner esto en práctica:

Eso son dos días de trabajo que generalmente se recuperan en un solo ciclo de facturación.

botón

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs