Cómo Usar la API Gemini 3.5 Flash

La API de Gemini 3.5 Flash se lanzó junto con el modelo el 19 de mayo de 2026. Flash es la única variante de la familia 3.5 disponible hoy; Pro llega en junio. Esta guía detalla la configuración completa para desarrolladores de Flash: obtener una clave, hacer su primera llamada, manejar entradas multimodales, streaming, uso de herramientas y probarlo todo correctamente con Apidog.

Si ya ha utilizado la API de Gemini antes, el patrón no ha cambiado. La única novedad es la cadena del nombre del modelo: gemini-3.5-flash. Si es nuevo en esto, podrá hacer solicitudes de Flash funcionales en unos diez minutos.

Qué obtiene con la API de Gemini 3.5 Flash

Tres cosas importan el primer día:

gemini-3.5-flash: disponible ahora, rápido, económico, multimodal
Mismo endpoint estilo OpenAPI: reemplazo directo para proyectos que ya llaman a Gemini 3 o 3.1
Capa gratuita en AI Studio: ~1,500 solicitudes/día sin tarjeta de crédito

Capacidades expuestas a través de la API de Flash:

Contexto de entrada de 1 millón de tokens, 64 mil tokens de salida
Entrada de texto + imagen, salida de texto + estructurada
Llamadas a funciones nativas y uso de herramientas (83.6% MCP Atlas)
Respuestas en streaming (~4 veces más rápidas en tokens de salida/segundo que otros modelos de vanguardia)
Puntuación de recuperación de contexto largo en la parte superior de la tabla MRCR v2 de Google
Razonamiento de gráficos y documentos (84.2% CharXiv)

Para obtener detalles de precios, incluidas las tarifas por token y los descuentos por modo por lotes, consulte nuestra guía de precios de Gemini 3.5 Flash.

Paso 1: Obtenga su clave de API de Gemini 3.5 Flash

Dos caminos, dependiendo de si desea cuotas gratuitas o escala de pago.

Ruta A, Google AI Studio (capa gratuita)

Vaya a aistudio.google.com
Inicie sesión con una cuenta de Google
Haga clic en Obtener clave de API en la navegación izquierda
Elija un proyecto existente o cree uno nuevo
Haga clic en Crear clave de API, luego cópiela

Este es el mismo flujo cubierto en nuestra guía gratuita de claves de API de Gemini. La clave funciona con gemini-3.5-flash inmediatamente con la cuota diaria gratuita.

Ruta B, Vertex AI (producción)

Para cargas de trabajo de producción con facturación y registros de auditoría:

Habilite la API de Vertex AI en Google Cloud Console
Cree una cuenta de servicio con aiplatform.user
Descargue las credenciales JSON
Autentíquese a través de gcloud auth application-default login o el archivo JSON

Vertex enruta Flash bajo un patrón de SDK ligeramente diferente. La mayoría de los equipos comienzan con AI Studio y migran cuando necesitan controles de organización.

Paso 2: Instale el SDK

El SDK oficial de Google GenAI está disponible para Python, Node.js, Go y Java. Elija su lenguaje:

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

No necesita el SDK en absoluto si está llamando al endpoint REST directamente; vea el ejemplo de curl a continuación.

Paso 3: Realice su primera llamada Flash

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'

Ese es el camino feliz para Flash. A partir de aquí, agregue las características que realmente necesita.

Respuestas en streaming

La salida de Flash es rápida. El streaming hace que la velocidad sea visible para sus usuarios.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

El endpoint cambia de :generateContent a :streamGenerateContent para llamadas REST puras.

Entrada multimodal con Flash

Gemini 3.5 Flash acepta imágenes junto con texto. La puntuación de razonamiento CharXiv del 84.2% es real, la comprensión de gráficos realmente funciona en este modelo.

Python (imagen desde disco)

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)

Tipos MIME compatibles: image/png, image/jpeg, image/webp, image/heic, image/heif. Los PDFs y videos también funcionan a través de types.Part.from_uri().

Llamada a funciones y uso de herramientas con Flash

La llamada a herramientas es donde Flash se diferencia de sus predecesores. La puntuación MCP Atlas del 83.6% significa que Flash selecciona la herramienta correcta de manera más confiable que la generación 3.1.

Python

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Flash devuelve un objeto function_call con el nombre y los argumentos. Ejecute la función localmente, envíe el resultado de vuelta y continúe la conversación. El patrón coincide con lo que los equipos ya utilizan con la API de Gemini 3 Flash.

Salida estructurada (modo JSON)

Fuerce la salida JSON de Flash configurando el tipo MIME de respuesta y el esquema:

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

JSON validado en cada llamada. Sin análisis de regex, sin bucles de reintentos.

Precios (a mayo de 2026)

Tarifas de pago por uso para gemini-3.5-flash:

Nivel	Entrada	Salida
Estándar	~$1.50 / 1 millón de tokens	~$9.00 / 1 millón de tokens
Entrada en caché	tarifa reducida	n/a
Modo por lotes	~50% de descuento	~50% de descuento

Para cargas de trabajo por lotes, el modo por lotes de la API de Gemini le ofrece un 50% de descuento en trabajos que no requieren latencia en tiempo real. Vale la pena revisarlo antes de comprometerse a escalar.

Para el cálculo completo de precios, incluidos escenarios de costo real para cargas de trabajo SaaS diarias y bucles de agente, consulte nuestro desglose de precios de Flash. Para la referencia oficial de Google, consulte precios de la API para desarrolladores de Gemini.

Probando su integración de Gemini 3.5 Flash con Apidog

Una llamada SDK que funciona es solo el primer paso. Las integraciones de producción deben manejar las partes complicadas: fragmentos de streaming, validación de llamadas a herramientas, cargas útiles multimodales, reintentos de errores, límites de velocidad. Ahí es donde tener una configuración de prueba adecuada rinde frutos.

Apidog maneja toda la superficie de la API de Gemini Flash en un solo espacio de trabajo:

Guarde el endpoint de Flash como una solicitud: pegue la URL completa, adjunte su x-goog-api-key, presione Enviar
Reproduzca en diferentes versiones de modelos: cambie gemini-3.5-flash por el antiguo gemini-3-flash en la misma solicitud, compare las salidas
Transmita respuestas en línea: Apidog renderiza los fragmentos de streaming a medida que llegan, con tiempos por fragmento
Valide la salida del esquema JSON: las aserciones detectan desviaciones cuando cambia los prompts
Simule el endpoint de Flash: genere una respuesta simulada para probar su código downstream sin agotar la cuota de la API
Construya escenarios de prueba para bucles de agente: encadene múltiples llamadas de Flash con validación de llamadas a herramientas entre pasos

Para empezar, descargue Apidog, cree una nueva solicitud apuntando al endpoint de Flash e importe el fragmento de curl de antes en esta publicación. La configuración completa toma unos dos minutos.

Manejo de errores y límites de velocidad

El modelo de errores de Flash es sencillo. Códigos importantes:

400: solicitud incorrecta (la mayoría de las veces una matriz contents mal formada o un tipo MIME no compatible)
401: clave de API incorrecta
403: cuota agotada o modelo no habilitado
429: límite de velocidad alcanzado (espere y reintente)
500/503: lado del servidor, reintente con retroceso exponencial

Envuelva sus llamadas Flash con un bucle de reintentos:

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(model=model, contents=prompt)
        except Exception as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Las cuotas de la capa gratuita se restablecen diariamente (15 solicitudes por minuto, ~1,500 por día en Flash). Las cuotas de la capa de producción se restablecen por minuto y por día. Para trabajos de alto rendimiento, consulte la ruta del modo por lotes o utilice una alternativa escalonada a Gemini 3 Flash cuando alcance los límites.

Migrando de Gemini 3.1 a 3.5 Flash

La mayoría de los proyectos solo necesitan cambiar una cadena: el nombre del modelo.

# Antes
model="gemini-3.1-pro"  # or gemini-3.1-flash

# Después
model="gemini-3.5-flash"

Lo que debe verificar después del cambio:

Los esquemas de herramientas aún coinciden, lo hacen para la mayoría de las llamadas, pero vuelva a ejecutar su evaluación
Velocidad de salida, su interfaz de usuario de streaming podría necesitar regulación porque Flash transmite ~4 veces más rápido
Presupuestos de tokens, los mismos límites de 1M / 64K, pero el modelo es más denso, por lo que un prompt dado puede usar menos tokens de salida
Patrones de rechazo, las barandillas de seguridad son más estrictas; espere rechazos diferentes en casos extremos

Para una guía de migración más profunda, nuestra guía de la API de Gemini 3.1 Pro cubre el patrón del SDK; todo se mantiene.

Patrones comunes de Flash

Análisis de documentos de contexto largo

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)

El contexto de 1 millón de tokens de Flash maneja PDFs completos sin fragmentación.

Bucle de agente con llamadas a herramientas

conversation = [{"role": "user", "parts": [{"text": "Book me a flight to Tokyo"}]}]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(tools=[flight_search_tool, booking_tool])
    )

    part = response.candidates[0].content.parts[0]
    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)
    conversation.append({"role": "model", "parts": [part]})
    conversation.append({"role": "user", "parts": [{"function_response": result}]})

Este es el patrón de bucle que mide la puntuación de Terminal-Bench 2.1 de Flash (76.2%). Los agentes reales funcionan.

Preguntas frecuentes

¿Existe una capa gratuita para la API de Gemini 3.5 Flash? Sí, a través de Google AI Studio con cuotas diarias (~1,500 solicitudes/día). No se requiere tarjeta de crédito.

¿Flash es compatible con endpoints compatibles con OpenAI? Sí. Google expone una simulación compatible con OpenAI en /v1beta/openai/. Puede apuntar cualquier SDK de OpenAI a ella configurando base_url y usando su clave de Gemini. El nombre del modelo sigue siendo gemini-3.5-flash.

¿Puedo usar Flash con LangChain o LlamaIndex? Sí, ambos tienen integraciones nativas de Gemini. Pase model="gemini-3.5-flash" en sus respectivos wrappers.

¿Cuándo se lanza Gemini 3.5 Pro? Junio de 2026 según el anuncio de lanzamiento de Google. Hasta entonces, Flash es la única variante 3.5 disponible.

¿Cuál es el tamaño máximo de imagen para Flash? Se recomienda 3072×3072. Las imágenes más grandes se remuestrean. Para trabajos intensivos en OCR, consulte el flujo de trabajo OCR de Gemini 2.0 Flash; los mismos patrones aplican.

¿Cómo pruebo los endpoints de streaming en Apidog? Abra la solicitud, establezca :streamGenerateContent como sufijo del endpoint, y Apidog renderizará los fragmentos SSE a medida que lleguen. Útil para depurar respuestas incompletas.

¿Dónde puedo ver los registros de la API? En AI Studio en "Actividad", o en Vertex AI en "Explorador de registros" para implementaciones de producción.

Qué construir primero

Una breve lista de proyectos iniciales que vale la pena lanzar en la primera semana con Flash:

Bot de preguntas y respuestas de PDF: inserte un PDF en la ventana de contexto de 1 millón de tokens, haga preguntas, obtenga respuestas citadas
Pipeline de gráfico a JSON: alimente capturas de pantalla de dashboards, extraiga datos estructurados
Agente de soporte al cliente: llamada a funciones contra su CRM, se ejecuta sin supervisión
Asistente de revisión de código: contexto de diferencias de múltiples archivos, salida estructurada con calificaciones de severidad
Agente de búsqueda interna: combine el contexto de 1 millón de tokens con llamadas a herramientas a APIs internas

Para cada uno, se aplica el mismo flujo de prueba: construya el prompt, envuélvalo en su llamada SDK, valide la forma de la respuesta con Apidog y láncelo.

botón