¿Qué es Gemini 3.5 Flash? Explicación del Nuevo Modelo Rápido de Google

Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026. Es la variante rápida y de bajo costo de la nueva familia 3.5, y es el único modelo de esa familia que puedes usar hoy. Gemini 3.5 Pro está anunciado para junio de 2026, pero Flash fue lo primero en llegar, y es el que importa para la mayoría de las cargas de trabajo de producción en este momento.

Flash es el modelo que Google construyó para las cargas de trabajo que realmente se ejecutan en 2026: bucles de agentes largos, automatización de terminales, codificación de múltiples archivos, análisis multimodal de documentos y chat en streaming. Funciona aproximadamente 4 veces más rápido que otros modelos de vanguardia en tokens de salida y cuesta menos de la mitad de lo que cuestan por tarea.

Esta guía explica qué es Gemini 3.5 Flash, qué hay realmente de nuevo, los números de referencia, cómo acceder a él y cómo encaja junto al resto de tu pila, incluyendo Apidog para probar puntos finales de IA.

Datos rápidos sobre Gemini 3.5 Flash

Fecha de lanzamiento: 19 de mayo de 2026
Variante: Gemini 3.5 Flash (Pro llega en junio de 2026)
Ventana de contexto: 1M tokens de entrada, 64K de salida
Modalidades: texto, imágenes, código, generación de gráficos
Benchmarks destacados: 76.2% Terminal-Bench 2.1, 84.2% CharXiv Reasoning, 83.6% MCP Atlas, 1656 Elo en GDPval-AA
Velocidad: ~4 veces más rápido en tokens/segundo de salida que otros modelos de vanguardia
Costo: menos de la mitad del costo de modelos de vanguardia comparables para tareas de agente
Nombre de la API: gemini-3.5-flash
Acceso: Aplicación Gemini, Modo IA en Búsqueda, Google Antigravity, API de Gemini, AI Studio, Android Studio, Gemini Enterprise

Para el desglose completo de precios, incluidos los límites del nivel gratuito y los escenarios de costos reales, consulta nuestra guía de precios de Gemini 3.5 Flash.

Novedades de 3.5 Flash frente a 3 y 3.1

Gemini 3.5 Flash se basa en las líneas Gemini 3 Flash y Gemini 3.1 Pro con cinco mejoras concretas:

La ejecución agéntica es más precisa. Flash maneja cadenas de tareas más largas sin perder el hilo. Las llamadas a herramientas se ejecutan en el orden correcto. El despacho de subagentes funciona como una capacidad de primera clase, no como una solución temporal.
La salida de código es más densa. Las refactorizaciones de múltiples archivos, los trabajos de refactorización a largo plazo y los flujos de trabajo impulsados por CLI son donde Flash mejora claramente sobre la línea 3.x.
La generación de gráficos se hizo realidad. La interfaz de usuario web interactiva, los SVG enriquecidos y los diagramas en línea salen directamente del modelo. Ya no es necesario pasar por un modelo de imagen separado para los gráficos en línea.
La velocidad de salida se dispara. Google afirma aproximadamente 4 veces más tokens/segundo que otros modelos de vanguardia. Esto cambia la forma en que construyes la UX de streaming.
Se ampliaron las barreras de seguridad. Salvaguardias cibernéticas y CBRN más sólidas, además de herramientas de interpretabilidad que explican por qué el modelo rechazó o redirigió una solicitud.

El patrón es consistente. Google está optimizando Flash para cargas de trabajo de agentes de producción, no solo para chat. Esa es la misma dirección que tomaron OpenAI y Anthropic con GPT-5.5 y Claude Opus 4.7.

Benchmarks de Gemini 3.5 Flash

Flash rinde muy por encima de su categoría. Los números de la tabla publicada por Google:

Benchmark	Qué evalúa	Gemini 3.5 Flash
Terminal-Bench 2.1	Flujos de trabajo CLI de largo alcance	76.2%
MCP Atlas	Coordinación multi-herramienta	83.6%
CharXiv Reasoning	Interpretación de gráficos y diagramas	84.2%
GDPval-AA	Valor agéntico general	1656 Elo
MRCR v2 (1M context)	Recuperación de contexto largo	Cima de la tabla de Google

Donde Flash destaca visiblemente: razonamiento de gráficos, trabajo agéntico multi-herramienta, recuperación de contexto largo.

Donde no domina: el SWE-Bench Verified puro sigue siendo una carrera ajustada entre Opus 4.7 y GPT-5.5. Si tu única métrica son las correcciones de errores de un solo intento, esos buques insignia aún se adelantan. Si te importan las ejecuciones de agentes largas a bajo costo, Flash toma la delantera.

Para un desglose más profundo de los tres, consulta Gemini 3.5 Flash vs GPT-5.5 vs Opus 4.7.

La familia de modelos Gemini 3.5

Gemini 3.5 Flash (disponible ahora)

Flash es la variante de trabajo. Está disponible inmediatamente a través de AI Studio, la API de Gemini, la aplicación Gemini, el Modo IA en Búsqueda, Antigravity, Android Studio y Gemini Enterprise.

El precio reportado el día del lanzamiento ronda los $1.50 por cada 1M de tokens de entrada y $9.00 por cada 1M de tokens de salida. Eso es notablemente superior al 3.1 Flash-Lite del año pasado, pero sigue siendo mucho más barato que los competidores de nivel Pro. Consulta la guía completa de precios para el modo por lotes, la entrada en caché y las tarifas de Vertex.

Donde Flash brilla:

Bucles de agente de alto rendimiento
Comprensión de gráficos y documentos con gran carga visual
Uso incrustado dentro de los scripts de prueba de Apidog donde la latencia importa
Interfaces de usuario de chat en streaming donde la velocidad de salida es visible para los usuarios
Análisis de documentos de 1M de tokens sin segmentación

Gemini 3.5 Pro (lanzamiento en junio de 2026)

Pro está anunciado pero aún no se ha lanzado. Google lo está posicionando como el buque insignia agéntico: la variante que ejecutas cuando el presupuesto de la tarea incluye trabajo autónomo de varias horas, investigación profunda o la cima absoluta de la clasificación. Se espera que el precio de Pro se acerque más a las tarifas de lista de GPT-5.5 y Opus 4.7.

Hasta que Pro se lance, Flash soporta la carga. La buena noticia: Flash ya es creíble en los benchmarks agénticos, así que no tienes que esperar para empezar a construir.

¿Qué pasa con Nano?

Google no lanzó una variante 3.5 Nano. La inferencia en el dispositivo todavía se ejecuta en la línea 3.1 Flash-Lite. Espera un anuncio de 3.5 Nano más cerca del próximo ciclo de Pixel.

Dónde puedes usar Gemini 3.5 Flash

Seis plataformas se lanzaron el día del estreno:

Aplicación Gemini: lanzamiento global, tanto en niveles gratuitos como de pago
Modo IA en la Búsqueda de Google: respuestas y seguimientos
Google Antigravity: la plataforma de agentes de Google para la automatización del usuario final
API de Gemini: el punto de entrada para desarrolladores a través de AI Studio
Android Studio: asistencia de codificación a nivel de IDE para desarrolladores de Android
Gemini Enterprise + Plataforma de Agentes: entorno de ejecución de agentes gestionado para uso en toda la organización

La superficie más nueva es Gemini Spark, un agente personal que se ejecuta 24/7 en tu cuenta. Spark utiliza Flash internamente y se conecta a tu contexto de Gmail, Calendar y Drive.

Los agentes de información dentro de la Búsqueda también son nuevos, pequeños ayudantes autónomos que recopilan actualizaciones sobre temas que sigues sin que tengas que volver a consultarlos.

Cómo empezar a usar Gemini 3.5 Flash

Tienes cuatro caminos reales. Cada uno se asigna a un caso de uso diferente.

1. Aplicación Gemini (el camino del chat)

Abre gemini.google.com, elige "3.5 Flash" en el selector de modelos y listo. La interfaz de la aplicación cubre la mayoría de las cargas de trabajo casuales: investigación, escritura, bocetos de código, análisis de imágenes.

2. Google AI Studio (el camino de desarrollo gratuito)

Dirígete a ai.google.dev, inicia sesión y obtendrás una clave de API con una cuota diaria gratuita. Flash está en el nivel gratuito con aproximadamente 1,500 solicitudes por día en el lanzamiento.

Si ya usaste la API de Google Gemini antes, el patrón es idéntico. Configura GEMINI_API_KEY, apunta el SDK a gemini-3.5-flash, envía tu solicitud. Consulta nuestra guía de claves de API de Gemini gratuitas para el paso a paso, o nuestra guía gratuita específica de Flash para las cinco rutas gratuitas.

3. API de Gemini en producción

Las cargas de trabajo de producción se enrutan a través del mismo punto final con una cuenta facturada. El precio por token de Flash sigue el modelo estándar de entrada/salida y se sitúa muy por debajo de los competidores insignia. Consulta Cómo usar la API de Gemini 3.5 Flash para obtener ejemplos de código completos en Python, Node y curl, además de patrones de streaming, uso de herramientas y multimodales.

Cuando lo conectes a tu pila, prueba el punto final correctamente. Apidog maneja el ciclo completo de solicitud/respuesta para los puntos finales REST y de streaming de Flash en un único espacio de trabajo, útil cuando necesitas verificar llamadas a herramientas o cargas útiles multimodales de extremo a extremo.

4. Gemini Enterprise (el camino gestionado)

Para las organizaciones, la Plataforma de Agentes Gemini Enterprise incluye Flash con registros de auditoría, residencia de datos y el tiempo de ejecución de la Plataforma de Agentes. Este es el camino que la mayoría de los grandes equipos elegirán una vez que hayan prototipado en la API para desarrolladores.

Para qué es realmente bueno Gemini 3.5 Flash

Después de un día de pruebas públicas, los patrones son claros:

Bucles de agente largos a bajo costo. La investigación web multi-paso con llamadas a herramientas funciona mejor antes de desviarse. La puntuación del MCP Atlas del 83.6% es la evidencia práctica. Flash elige la herramienta correcta con más frecuencia, se recupera mejor de los errores de las herramientas y no se queda en un bucle en el mismo paso.
Razonamiento de gráficos y documentos. CharXiv con un 84.2% significa que los informes y PDF reales se vuelven manejables. Si has estado creando pipelines de extracción de gráficos manualmente, Flash los colapsa en llamadas únicas.
Generación interactiva de UI. Pide un panel de control y obtén HTML funcional + widgets interactivos en una sola pasada. El salto en la calidad de los gráficos sobre 3.1 Flash-Lite es la mejora más visible.
Cargas de trabajo de producción sensibles al costo. "Menos de la mitad del costo de otros modelos de vanguardia" es el marco de Google para las tareas agénticas. Incluso considerando el marketing, el costo por tarea de Flash para una ejecución de agente larga es materialmente inferior a Opus 4.7 o GPT-5.5. Los números están en nuestro desglose de precios.

En qué Flash todavía no es tan bueno

Ningún modelo es una bala de plata. Tres puntos débiles honestos el primer día:

SWE-Bench Verified puro: el 87.6% de Opus 4.7 sigue liderando en los benchmarks de corrección de errores aislados. Si tu único KPI es la resolución de problemas únicos, la brecha con Flash es real.
Voz: la pila de voz de Gemini es separada. Compara con Grok Voice vs GPT-Realtime para esa carga de trabajo.
Madurez del ecosistema de herramientas: OpenAI y Anthropic llevan ventaja en adaptadores de terceros. Google se está poniendo al día rápidamente con Antigravity, pero el ecosistema es más joven.

Cómo probar Gemini 3.5 Flash correctamente

Dos cosas importan cuando incorporas un nuevo modelo a una pila de producción: la estabilidad de la forma de respuesta y la corrección de las llamadas a herramientas.

Crea un pequeño arnés de evaluación:

Fija un conjunto de prompts representativos
Ejecútalos contra gemini-3.5-flash y tu modelo actual
Califica la latencia, el costo de los tokens y el éxito de la tarea posterior
Observa la desviación del esquema de llamadas a herramientas entre versiones menores

Para los pasos 1 y 3, Apidog te ofrece una suite de pruebas grabada para los puntos finales de la API Flash, incluido el streaming. Puedes reproducir los mismos prompts en diferentes versiones del modelo y comparar las salidas. Descarga Apidog si quieres configurarlo localmente.

Consejos de migración de Gemini 3.1 a 3.5 Flash

Si ya estás en 3.1, la migración es un cambio de cadena de modelo de una sola línea en la mayoría de los SDKs. Algunos detalles que vale la pena destacar:

Los presupuestos de tokens son estables. 1M de entrada / 64K de salida se mantiene igual.
Los esquemas de herramientas son estables. Las definiciones de funciones existentes se mantienen sin cambios.
La velocidad de salida es aproximadamente 4 veces más rápida. Tu UI de streaming podría necesitar regularse si no puede renderizar tan rápido.
El precio es diferente. Re-establece las proyecciones de costos utilizando la guía de precios de Flash antes de desviar tráfico pesado.
Las respuestas de seguridad son más estrictas. Espera diferentes patrones de rechazo; vuelve a ejecutar tu evaluación de equipo rojo.

Para notas de migración más profundas, la guía de la API de Google Gemini 3 cubre el patrón del SDK en detalle.

Preguntas Frecuentes

¿Cuándo estará disponible Gemini 3.5 Pro? Google anunció su "lanzamiento el próximo mes" el 19 de mayo de 2026. Se espera disponibilidad general en junio de 2026 a través de AI Studio, Gemini API y Gemini Enterprise. Hasta entonces, Flash es la única variante 3.5 que puedes usar.
¿Es Gemini 3.5 Flash de uso gratuito? Sí, con cuotas diarias. El nivel estándar de la aplicación Gemini y AI Studio con una clave de API te dan acceso a Flash sin pago. Consulta nuestra guía gratuita de Flash y Obtén API de Gemini ilimitada y gratuita para las cinco rutas gratuitas.
¿Gemini 3.5 Flash es compatible con la llamada de funciones? Sí. La llamada de herramientas y el despacho de subagentes son de primera clase. La puntuación del MCP Atlas del 83.6% es la evidencia principal.
¿Cómo se compara Flash con Opus 4.7 y GPT-5.5? Flash lidera en costo, velocidad de salida y razonamiento de gráficos. Opus 4.7 sigue estando un paso por delante en SWE-Bench Pro y escritura de formato largo. GPT-5.5 gana en eficiencia de tokens. Consulta la comparación a tres bandas para el desglose por carga de trabajo.
¿Puedo ejecutar Gemini 3.5 Flash localmente? No. No hay una versión de pesos abiertos. Para inferencia local, consulta los mejores LLM locales de 2026 en su lugar.
¿Gemini 3.5 Flash funciona con Cursor? Sí, a través de la API estándar de Gemini. El patrón es el mismo que con Gemini 3.0 Pro con Cursor.
¿Cuál es el nombre del modelo de API para Flash? gemini-3.5-flash. Usa esta cadena en el SDK o en el punto final REST.

Qué significa esto para tu pila

Si hoy ejecutas una función de IA en producción, aquí tienes la versión corta:

¿Ya estás en 3.1 Flash? Prueba 3.5 Flash en paralelo esta semana. Solo el salto en la velocidad de salida ya justifica el cambio en las interfaces de usuario de streaming.
¿Ya estás en Opus 4.7 o GPT-5.5? Realiza una evaluación de costo y calidad contra Flash. Para cargas de trabajo intensivas en agentes, la diferencia de costo puede justificar desviar parte del tráfico a Flash.
¿Estás construyendo un nuevo bucle de agente? Empieza con Flash. Es el camino más económico con un rendimiento agéntico creíble.
¿Carga de trabajo multimodal pesada? Muévete ahora. El razonamiento CharXiv al 84.2% es significativo.

Sea cual sea el camino que tomes, trata el modelo como un componente en una pipeline que necesita pruebas de extremo a extremo. Apidog cubre la parte de pruebas específicamente para la API de Gemini; el resto del bucle, el diseño de prompts, la conexión de herramientas, la escritura de scripts de evaluación, corre por tu cuenta.