La API Gemini de Google ahora presenta el Modo por Lotes, una actualización transformadora diseñada para tareas asíncronas a gran escala que viene con una reducción del 50% en el costo. 🚀
- Este potente punto final le permite procesar trabajos enormes con sus resultados entregados en 24 horas, todo a la mitad del precio estándar de la API.
- El sistema está diseñado para cargas de trabajo de alto rendimiento, admitiendo archivos JSONL de hasta 2 GB y aprovechando optimizaciones como el Almacenamiento en Caché de Contexto para una mayor eficiencia.
- También es compatible con herramientas integradas como la Búsqueda de Google y se gestiona a través de una API simple para crear, eliminar y recuperar trabajos, lo que hace que el procesamiento masivo de IA sea más asequible y directo.
¡Así que, echemos un vistazo de cerca al nuevo Modo por Lotes de la API Gemini de Google!
¿Quiere una plataforma integrada y todo en uno para que su equipo de desarrolladores trabaje en conjunto con la máxima productividad?
¡Apidog satisface todas sus demandas y reemplaza a Postman a un precio mucho más asequible!
Precios del Modo por Lotes de la API Gemini
Un beneficio principal del Modo por Lotes de la API Gemini es una reducción significativa en el costo. Todos los trabajos enviados a través de este punto final tienen un precio del 50% menos que la tarifa estándar para el modelo equivalente utilizado en una llamada síncrona (en tiempo real).
Este descuento del 50% se aplica directamente a la estructura de precios por token. Ya sea que esté utilizando gemini-2.5-pro
, gemini-2.5-flash
o cualquier otro modelo compatible, el costo de los tokens de entrada y salida se reduce a la mitad cuando se procesan a través de un trabajo por lotes. Este modelo de precios hace que sea financieramente viable realizar tareas a gran escala, como analizar terabytes de datos de texto o generar contenido para un catálogo de productos completo, que podrían ser prohibitivas en costos utilizando la API estándar. El costo aún se calcula en función del número de tokens en su entrada y la salida generada, pero la tarifa por token es lo que se descuenta.
Cómo Usar el Modo por Lotes de la API Gemini: Una Guía Paso a Paso
El flujo de trabajo para el Modo por Lotes de la API Gemini está diseñado para ser sencillo, involucrando la preparación de archivos, la creación de trabajos y la recuperación de resultados. Las siguientes secciones proporcionan una guía práctica utilizando el SDK de Python de Google GenAI.

Paso 1: Preparar su Archivo de Entrada para el Modo por Lotes de la API Gemini
El Modo por Lotes de la API Gemini procesa solicitudes desde un archivo JSON Lines (JSONL). Cada línea en el archivo debe ser un objeto JSON válido que represente una única solicitud autocontenida. El archivo puede tener hasta 2 GB.
Cada objeto JSON en el archivo debe contener dos campos:
key
: Un identificador de cadena único (de su elección) para cada solicitud, que se utiliza para correlacionar las solicitudes con sus resultados.request
: La carga útil de la solicitud, que es idéntica en estructura a una solicitud enviada a la API Gemini síncrona. Contiene un campocontents
con el prompt del modelo.
Ejemplo de batch_requests.jsonl
:
{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}
Paso 2: El Flujo de Trabajo de Programación para el Modo por Lotes de la API Gemini
El SDK de Python simplifica el proceso de interacción con el punto final de procesamiento por lotes en unas pocas llamadas a funciones clave.
Subir el Archivo de Entrada: Primero, debe subir su archivo JSONL al servicio de archivos de Google. Esto devuelve un objeto de archivo al que hará referencia al crear el trabajo.
import google.generativeai as genai
# It is recommended to configure your API key as an environment variable
# genai.configure(api_key="YOUR_API_KEY")
uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")
Crear el Trabajo por Lotes: Con el archivo subido, ahora puede crear el trabajo por lotes. Esta llamada requiere especificar el modelo que desea usar y proporcionar el archivo subido como la fuente de las solicitudes.
batch_job = genai.create_batch_job(
model="gemini-2.5-flash", # Or "gemini-2.5-pro", etc.
requests=uploaded_batch_requests,
config={
'display_name': "MyFirstBatchJob-1",
},
)
print(f"Created batch job: {batch_job.name}")
print(f"Initial state: {batch_job.state.name}")
Esta función regresa inmediatamente, proporcionando el nombre del trabajo y su estado inicial, que suele ser JOB_STATE_PENDING
.
Paso 3: Gestionar y Monitorear Trabajos en el Modo por Lotes de la API Gemini
Dado que los trabajos por lotes son asíncronos, debe monitorear su estado. Puede recuperar el estado actual de un trabajo en cualquier momento usando su nombre. Se garantiza que los trabajos se completarán en un plazo de 24 horas.
Los posibles estados de trabajo son:
JOB_STATE_UNSPECIFIED
: Estado predeterminado.JOB_STATE_PENDING
: El trabajo ha sido creado y está a la espera de ser procesado.JOB_STATE_RUNNING
: El trabajo está siendo procesado activamente.JOB_STATE_SUCCEEDED
: El trabajo se ha completado con éxito.JOB_STATE_FAILED
: El trabajo falló. El campoerror
en el objeto de trabajo contendrá información de diagnóstico.JOB_STATE_CANCELLING
: Se ha recibido una solicitud de cancelación.JOB_STATE_CANCELLED
: El trabajo ha sido cancelado.
Ejemplo de verificación del estado del trabajo:
# Check the status after some time has passed
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Current job state: {retrieved_job.state.name}")
Paso 4: Procesar Resultados del Modo por Lotes de la API Gemini
Una vez que el estado del trabajo es JOB_STATE_SUCCEEDED
, los resultados están disponibles para descargar como un archivo JSONL. Cada línea en el archivo de salida corresponde a una solicitud del archivo de entrada.
El objeto JSON de salida contiene la key
de la solicitud original y un objeto response
que contiene la salida del modelo.
- Descargar el Archivo de Resultados:
if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
result_file_metadata = retrieved_job.result_file
result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
# Decode and process the results
file_content = result_file_content_bytes.decode('utf-8')
for line in file_content.splitlines():
print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
print(f"Job failed with error: {retrieved_job.error}")
Línea de Ejemplo del Archivo de Salida:
{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}
Puede analizar este archivo, utilizando la key
para hacer coincidir cada respuesta con su prompt original.
Funcionalidad Avanzada en el Modo por Lotes de la API Gemini
El Modo por Lotes de la API Gemini también admite funciones más avanzadas para optimizar flujos de trabajo a gran escala.
Almacenamiento en Caché de Contexto con el Modo por Lotes de la API Gemini
Para tareas que involucran una parte grande y compartida de contexto (por ejemplo, un documento largo sobre el que desea hacer múltiples preguntas), puede usar el Almacenamiento en Caché de Contexto. Esta función le permite almacenar en caché el contexto compartido, de modo que no se vuelva a procesar con cada solicitud individual en el lote. Esto puede generar ahorros de costos significativos y tiempos de procesamiento más rápidos al reducir el número total de tokens procesados.
Uso de Herramientas Integradas con el Modo por Lotes de la API Gemini
Los trabajos por lotes admiten el uso de herramientas, incluida la funcionalidad de Búsqueda de Google integrada. Esto le permite realizar tareas a gran escala que requieren que el modelo acceda y procese información en tiempo real de la web. Por ejemplo, un trabajo por lotes podría configurarse para analizar miles de URL y resumir su contenido.
Google ha destacado varias organizaciones que ya utilizan esta funcionalidad:
- Reforged Labs utiliza el Modo por Lotes de la API Gemini para analizar y etiquetar grandes volúmenes de anuncios de video, reduciendo costos y acelerando su flujo de trabajo.
- Vals AI utiliza el alto rendimiento del Modo por Lotes para comparar modelos fundacionales con un gran número de consultas de evaluación, eludiendo los límites de velocidad de las API síncronas.
Conclusión: El Valor Técnico del Modo por Lotes de la API Gemini
El Modo por Lotes de la API Gemini proporciona una solución técnicamente robusta y financieramente ventajosa para el procesamiento de IA asíncrono a gran escala. Al ofrecer una reducción del 50% en el costo, un flujo de trabajo simplificado basado en archivos y soporte para funciones avanzadas como el almacenamiento en caché de contexto y el uso de herramientas, elimina las barreras de ingeniería y financieras asociadas con las tareas de IA de alto rendimiento. Es una herramienta esencial para desarrolladores y organizaciones que buscan aprovechar todo el poder de los modelos Gemini en conjuntos de datos masivos.
¿Quiere una plataforma integrada y todo en uno para que su equipo de desarrolladores trabaje en conjunto con la máxima productividad?
¡Apidog satisface todas sus demandas y reemplaza a Postman a un precio mucho más asequible!