La API de Gemini 3.5 Flash se lanzó junto con el modelo el 19 de mayo de 2026. Flash es la única variante de la familia 3.5 disponible hoy; Pro llega en junio. Esta guía detalla la configuración completa para desarrolladores de Flash: obtener una clave, hacer su primera llamada, manejar entradas multimodales, streaming, uso de herramientas y probarlo todo correctamente con Apidog.
Si ya ha utilizado la API de Gemini antes, el patrón no ha cambiado. La única novedad es la cadena del nombre del modelo: gemini-3.5-flash. Si es nuevo en esto, podrá hacer solicitudes de Flash funcionales en unos diez minutos.

Qué obtiene con la API de Gemini 3.5 Flash
Tres cosas importan el primer día:
gemini-3.5-flash: disponible ahora, rápido, económico, multimodal- Mismo endpoint estilo OpenAPI: reemplazo directo para proyectos que ya llaman a Gemini 3 o 3.1
- Capa gratuita en AI Studio: ~1,500 solicitudes/día sin tarjeta de crédito
Capacidades expuestas a través de la API de Flash:
- Contexto de entrada de 1 millón de tokens, 64 mil tokens de salida
- Entrada de texto + imagen, salida de texto + estructurada
- Llamadas a funciones nativas y uso de herramientas (83.6% MCP Atlas)
- Respuestas en streaming (~4 veces más rápidas en tokens de salida/segundo que otros modelos de vanguardia)
- Puntuación de recuperación de contexto largo en la parte superior de la tabla MRCR v2 de Google
- Razonamiento de gráficos y documentos (84.2% CharXiv)
Para obtener detalles de precios, incluidas las tarifas por token y los descuentos por modo por lotes, consulte nuestra guía de precios de Gemini 3.5 Flash.
Paso 1: Obtenga su clave de API de Gemini 3.5 Flash
Dos caminos, dependiendo de si desea cuotas gratuitas o escala de pago.
Ruta A, Google AI Studio (capa gratuita)
- Vaya a aistudio.google.com
- Inicie sesión con una cuenta de Google
- Haga clic en Obtener clave de API en la navegación izquierda
- Elija un proyecto existente o cree uno nuevo
- Haga clic en Crear clave de API, luego cópiela
Este es el mismo flujo cubierto en nuestra guía gratuita de claves de API de Gemini. La clave funciona con gemini-3.5-flash inmediatamente con la cuota diaria gratuita.

Ruta B, Vertex AI (producción)
Para cargas de trabajo de producción con facturación y registros de auditoría:
- Habilite la API de Vertex AI en Google Cloud Console
- Cree una cuenta de servicio con
aiplatform.user - Descargue las credenciales JSON
- Autentíquese a través de
gcloud auth application-default logino el archivo JSON
Vertex enruta Flash bajo un patrón de SDK ligeramente diferente. La mayoría de los equipos comienzan con AI Studio y migran cuando necesitan controles de organización.
Paso 2: Instale el SDK
El SDK oficial de Google GenAI está disponible para Python, Node.js, Go y Java. Elija su lenguaje:
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
No necesita el SDK en absoluto si está llamando al endpoint REST directamente; vea el ejemplo de curl a continuación.
Paso 3: Realice su primera llamada Flash
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
}]
}'
Ese es el camino feliz para Flash. A partir de aquí, agregue las características que realmente necesita.
Respuestas en streaming
La salida de Flash es rápida. El streaming hace que la velocidad sea visible para sus usuarios.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Write a 5-step tutorial on writing a REST API client in Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
El endpoint cambia de :generateContent a :streamGenerateContent para llamadas REST puras.
Entrada multimodal con Flash
Gemini 3.5 Flash acepta imágenes junto con texto. La puntuación de razonamiento CharXiv del 84.2% es real, la comprensión de gráficos realmente funciona en este modelo.
Python (imagen desde disco)
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Extract every metric in this dashboard as a JSON object."
]
)
print(response.text)
Tipos MIME compatibles: image/png, image/jpeg, image/webp, image/heic, image/heif. Los PDFs y videos también funcionan a través de types.Part.from_uri().
Llamada a funciones y uso de herramientas con Flash
La llamada a herramientas es donde Flash se diferencia de sus predecesores. La puntuación MCP Atlas del 83.6% significa que Flash selecciona la herramienta correcta de manera más confiable que la generación 3.1.
Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Get the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="What's the weather in Singapore right now?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Flash devuelve un objeto function_call con el nombre y los argumentos. Ejecute la función localmente, envíe el resultado de vuelta y continúe la conversación. El patrón coincide con lo que los equipos ya utilizan con la API de Gemini 3 Flash.
Salida estructurada (modo JSON)
Fuerce la salida JSON de Flash configurando el tipo MIME de respuesta y el esquema:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="List 3 popular API testing tools with their pricing.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
JSON validado en cada llamada. Sin análisis de regex, sin bucles de reintentos.
Precios (a mayo de 2026)
Tarifas de pago por uso para gemini-3.5-flash:
| Nivel | Entrada | Salida |
|---|---|---|
| Estándar | ~$1.50 / 1 millón de tokens | ~$9.00 / 1 millón de tokens |
| Entrada en caché | tarifa reducida | n/a |
| Modo por lotes | ~50% de descuento | ~50% de descuento |
Para cargas de trabajo por lotes, el modo por lotes de la API de Gemini le ofrece un 50% de descuento en trabajos que no requieren latencia en tiempo real. Vale la pena revisarlo antes de comprometerse a escalar.
Para el cálculo completo de precios, incluidos escenarios de costo real para cargas de trabajo SaaS diarias y bucles de agente, consulte nuestro desglose de precios de Flash. Para la referencia oficial de Google, consulte precios de la API para desarrolladores de Gemini.
Probando su integración de Gemini 3.5 Flash con Apidog
Una llamada SDK que funciona es solo el primer paso. Las integraciones de producción deben manejar las partes complicadas: fragmentos de streaming, validación de llamadas a herramientas, cargas útiles multimodales, reintentos de errores, límites de velocidad. Ahí es donde tener una configuración de prueba adecuada rinde frutos.

Apidog maneja toda la superficie de la API de Gemini Flash en un solo espacio de trabajo:
- Guarde el endpoint de Flash como una solicitud: pegue la URL completa, adjunte su
x-goog-api-key, presione Enviar - Reproduzca en diferentes versiones de modelos: cambie
gemini-3.5-flashpor el antiguogemini-3-flashen la misma solicitud, compare las salidas - Transmita respuestas en línea: Apidog renderiza los fragmentos de streaming a medida que llegan, con tiempos por fragmento
- Valide la salida del esquema JSON: las aserciones detectan desviaciones cuando cambia los prompts
- Simule el endpoint de Flash: genere una respuesta simulada para probar su código downstream sin agotar la cuota de la API
- Construya escenarios de prueba para bucles de agente: encadene múltiples llamadas de Flash con validación de llamadas a herramientas entre pasos
Para empezar, descargue Apidog, cree una nueva solicitud apuntando al endpoint de Flash e importe el fragmento de curl de antes en esta publicación. La configuración completa toma unos dos minutos.
Manejo de errores y límites de velocidad
El modelo de errores de Flash es sencillo. Códigos importantes:
- 400: solicitud incorrecta (la mayoría de las veces una matriz
contentsmal formada o un tipo MIME no compatible) - 401: clave de API incorrecta
- 403: cuota agotada o modelo no habilitado
- 429: límite de velocidad alcanzado (espere y reintente)
- 500/503: lado del servidor, reintente con retroceso exponencial
Envuelva sus llamadas Flash con un bucle de reintentos:
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(model=model, contents=prompt)
except Exception as e:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
Las cuotas de la capa gratuita se restablecen diariamente (15 solicitudes por minuto, ~1,500 por día en Flash). Las cuotas de la capa de producción se restablecen por minuto y por día. Para trabajos de alto rendimiento, consulte la ruta del modo por lotes o utilice una alternativa escalonada a Gemini 3 Flash cuando alcance los límites.
Migrando de Gemini 3.1 a 3.5 Flash
La mayoría de los proyectos solo necesitan cambiar una cadena: el nombre del modelo.
# Antes
model="gemini-3.1-pro" # or gemini-3.1-flash
# Después
model="gemini-3.5-flash"
Lo que debe verificar después del cambio:
- Los esquemas de herramientas aún coinciden, lo hacen para la mayoría de las llamadas, pero vuelva a ejecutar su evaluación
- Velocidad de salida, su interfaz de usuario de streaming podría necesitar regulación porque Flash transmite ~4 veces más rápido
- Presupuestos de tokens, los mismos límites de 1M / 64K, pero el modelo es más denso, por lo que un prompt dado puede usar menos tokens de salida
- Patrones de rechazo, las barandillas de seguridad son más estrictas; espere rechazos diferentes en casos extremos
Para una guía de migración más profunda, nuestra guía de la API de Gemini 3.1 Pro cubre el patrón del SDK; todo se mantiene.
Patrones comunes de Flash
Análisis de documentos de contexto largo
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Summarize the financial outlook from this report in 5 bullet points."
]
)
El contexto de 1 millón de tokens de Flash maneja PDFs completos sin fragmentación.
Bucle de agente con llamadas a herramientas
conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({"role": "model", "parts": [part]})
conversation.append({"role": "user", "parts": [{"function_response": result}]})
Este es el patrón de bucle que mide la puntuación de Terminal-Bench 2.1 de Flash (76.2%). Los agentes reales funcionan.
Preguntas frecuentes
¿Existe una capa gratuita para la API de Gemini 3.5 Flash? Sí, a través de Google AI Studio con cuotas diarias (~1,500 solicitudes/día). No se requiere tarjeta de crédito.
¿Flash es compatible con endpoints compatibles con OpenAI? Sí. Google expone una simulación compatible con OpenAI en /v1beta/openai/. Puede apuntar cualquier SDK de OpenAI a ella configurando base_url y usando su clave de Gemini. El nombre del modelo sigue siendo gemini-3.5-flash.
¿Puedo usar Flash con LangChain o LlamaIndex? Sí, ambos tienen integraciones nativas de Gemini. Pase model="gemini-3.5-flash" en sus respectivos wrappers.
¿Cuándo se lanza Gemini 3.5 Pro? Junio de 2026 según el anuncio de lanzamiento de Google. Hasta entonces, Flash es la única variante 3.5 disponible.
¿Cuál es el tamaño máximo de imagen para Flash? Se recomienda 3072×3072. Las imágenes más grandes se remuestrean. Para trabajos intensivos en OCR, consulte el flujo de trabajo OCR de Gemini 2.0 Flash; los mismos patrones aplican.
¿Cómo pruebo los endpoints de streaming en Apidog? Abra la solicitud, establezca :streamGenerateContent como sufijo del endpoint, y Apidog renderizará los fragmentos SSE a medida que lleguen. Útil para depurar respuestas incompletas.
¿Dónde puedo ver los registros de la API? En AI Studio en "Actividad", o en Vertex AI en "Explorador de registros" para implementaciones de producción.
Qué construir primero
Una breve lista de proyectos iniciales que vale la pena lanzar en la primera semana con Flash:
- Bot de preguntas y respuestas de PDF: inserte un PDF en la ventana de contexto de 1 millón de tokens, haga preguntas, obtenga respuestas citadas
- Pipeline de gráfico a JSON: alimente capturas de pantalla de dashboards, extraiga datos estructurados
- Agente de soporte al cliente: llamada a funciones contra su CRM, se ejecuta sin supervisión
- Asistente de revisión de código: contexto de diferencias de múltiples archivos, salida estructurada con calificaciones de severidad
- Agente de búsqueda interna: combine el contexto de 1 millón de tokens con llamadas a herramientas a APIs internas
Para cada uno, se aplica el mismo flujo de prueba: construya el prompt, envuélvalo en su llamada SDK, valide la forma de la respuesta con Apidog y láncelo.
