A API Gemini do Google agora apresenta o Modo em Lotes, uma atualização transformadora projetada para tarefas assíncronas e em larga escala que vem com uma redução de 50% no custo. 🚀
- Este poderoso endpoint permite processar grandes volumes de trabalho com resultados entregues em 24 horas, tudo pela metade do preço padrão da API.
- O sistema é projetado para cargas de trabalho de alto rendimento, acomodando arquivos JSONL de até 2GB e aproveitando otimizações como o Cache de Contexto para maior eficiência.
- Ele também suporta ferramentas integradas como o Google Search e é gerenciado por meio de uma API simples para criar, excluir e recuperar trabalhos, tornando o processamento massivo de IA mais acessível e direto.
Então, vamos dar uma olhada de perto no novo Modo em Lotes da API Gemini do Google!
Quer uma plataforma integrada e completa para sua Equipe de Desenvolvedores trabalhar em conjunto com máxima produtividade?
Apidog atende a todas as suas demandas e substitui o Postman por um preço muito mais acessível!
Preços do Modo em Lotes da API Gemini
Um benefício primário do Modo em Lotes da API Gemini é uma redução significativa no custo. Todos os trabalhos submetidos através deste endpoint têm um preço 50% menor que a taxa padrão para o modelo equivalente usado em uma chamada síncrona (em tempo real).
Este desconto de 50% se aplica diretamente à estrutura de preços por token. Se você estiver usando gemini-2.5-pro
, gemini-2.5-flash
ou qualquer outro modelo suportado, o custo tanto para tokens de entrada quanto de saída é reduzido pela metade quando processado via um trabalho em lote. Este modelo de precificação torna financeiramente viável a realização de tarefas em larga escala, como a análise de terabytes de dados de texto ou a geração de conteúdo para um catálogo de produtos inteiro, que poderiam ser proibitivamente caros usando a API padrão. O custo ainda é calculado com base no número de tokens em sua entrada e na saída gerada, mas a taxa por token é o que está com desconto.
Como Usar o Modo em Lotes da API Gemini: Um Guia Passo a Passo
O fluxo de trabalho para o Modo em Lotes da API Gemini é projetado para ser direto, envolvendo preparação de arquivos, criação de trabalhos e recuperação de resultados. As seções a seguir fornecem um guia prático usando o SDK Python do Google GenAI.

Passo 1: Preparando Seu Arquivo de Entrada para o Modo em Lotes da API Gemini
O Modo em Lotes da API Gemini processa solicitações de um arquivo JSON Lines (JSONL). Cada linha no arquivo deve ser um objeto JSON válido representando uma única solicitação autocontida. O arquivo pode ter até 2GB.
Cada objeto JSON no arquivo deve conter dois campos:
key
: Um identificador de string único (de sua escolha) para cada solicitação, que é usado para correlacionar as solicitações com seus resultados.request
: O payload da solicitação, que é idêntico em estrutura a uma solicitação enviada para a API Gemini síncrona. Ele contém um campocontents
com o prompt do modelo.
Exemplo de batch_requests.jsonl
:
{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}
Passo 2: O Fluxo de Trabalho de Programação para o Modo em Lotes da API Gemini
O SDK Python simplifica o processo de interação com o endpoint de processamento em lote em algumas chamadas de função chave.
Upload do Arquivo de Entrada: Primeiro, você deve fazer o upload do seu arquivo JSONL para o serviço de arquivos do Google. Isso retorna um objeto de arquivo que você referenciará ao criar o trabalho.
import google.generativeai as genai
# It is recommended to configure your API key as an environment variable
# genai.configure(api_key="YOUR_API_KEY")
uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")
Criar o Trabalho em Lote: Com o arquivo carregado, você pode agora criar o trabalho em lote. Esta chamada requer a especificação do modelo que você deseja usar e o fornecimento do arquivo carregado como a fonte das solicitações.
batch_job = genai.create_batch_job(
model="gemini-2.5-flash", # Ou "gemini-2.5-pro", etc.
requests=uploaded_batch_requests,
config={
'display_name': "MyFirstBatchJob-1",
},
)
print(f"Trabalho em lote criado: {batch_job.name}")
print(f"Estado inicial: {batch_job.state.name}")
Esta função retorna imediatamente, fornecendo o nome do trabalho e seu estado inicial, que é tipicamente JOB_STATE_PENDING
.
Passo 3: Gerenciando e Monitorando Trabalhos no Modo em Lotes da API Gemini
Como os trabalhos em lote são assíncronos, você precisa monitorar o status deles. Você pode recuperar o estado atual de um trabalho a qualquer momento usando seu nome. Os trabalhos têm garantia de serem concluídos em um período de 24 horas.
Os possíveis estados do trabalho são:
JOB_STATE_UNSPECIFIED
: Estado padrão.JOB_STATE_PENDING
: O trabalho foi criado e está aguardando processamento.JOB_STATE_RUNNING
: O trabalho está sendo processado ativamente.JOB_STATE_SUCCEEDED
: O trabalho foi concluído com sucesso.JOB_STATE_FAILED
: O trabalho falhou. O campoerror
no objeto do trabalho conterá informações de diagnóstico.JOB_STATE_CANCELLING
: Uma solicitação de cancelamento foi recebida.JOB_STATE_CANCELLED
: O trabalho foi cancelado.
Exemplo de verificação do status do trabalho:
# Verifica o status após algum tempo ter passado
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Estado atual do trabalho: {retrieved_job.state.name}")
Passo 4: Processando Resultados do Modo em Lotes da API Gemini
Assim que o estado do trabalho for JOB_STATE_SUCCEEDED
, os resultados estarão disponíveis para download como um arquivo JSONL. Cada linha no arquivo de saída corresponde a uma solicitação do arquivo de entrada.
O objeto JSON de saída contém a key
da solicitação original e um objeto response
contendo a saída do modelo.
- Baixar o Arquivo de Resultados:
if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
result_file_metadata = retrieved_job.result_file
result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
# Decodifica e processa os resultados
file_content = result_file_content_bytes.decode('utf-8')
for line in file_content.splitlines():
print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
print(f"O trabalho falhou com erro: {retrieved_job.error}")
Exemplo de Linha do Arquivo de Saída:
{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}
Você pode analisar este arquivo, usando a key
para corresponder cada resposta ao seu prompt original.
Funcionalidade Avançada no Modo em Lotes da API Gemini
O Modo em Lotes da API Gemini também suporta recursos mais avançados para otimizar fluxos de trabalho em larga escala.
Cache de Contexto com o Modo em Lotes da API Gemini
Para tarefas que envolvem um grande pedaço de contexto compartilhado (por exemplo, um documento longo sobre o qual você deseja fazer várias perguntas), você pode usar o Cache de Contexto. Este recurso permite que você armazene em cache o contexto compartilhado, para que ele não seja reprocessado a cada solicitação no lote. Isso pode levar a economias de custo significativas e tempos de processamento mais rápidos, reduzindo o número total de tokens processados.
Usando Ferramentas Integradas com o Modo em Lotes da API Gemini
Trabalhos em lote suportam o uso de ferramentas, incluindo a funcionalidade de Pesquisa Google integrada. Isso permite que você realize tarefas em larga escala que exigem que o modelo acesse e processe informações em tempo real da web. Por exemplo, um trabalho em lote poderia ser configurado para analisar milhares de URLs e resumir seu conteúdo.
O Google destacou várias organizações que já utilizam esta funcionalidade:
- Reforged Labs usa o Modo em Lotes da API Gemini para analisar e rotular grandes volumes de anúncios em vídeo, cortando custos e acelerando seu fluxo de trabalho.
- Vals AI usa o alto rendimento do Modo em Lotes para fazer benchmark de modelos de base com um grande número de consultas de avaliação, contornando os limites de taxa das APIs síncronas.
Conclusão: O Valor Técnico do Modo em Lotes da API Gemini
O Modo em Lotes da API Gemini oferece uma solução tecnicamente robusta e financeiramente vantajosa para o processamento de IA assíncrono em larga escala. Ao oferecer uma redução de 50% nos custos, um fluxo de trabalho simplificado baseado em arquivos e suporte para recursos avançados como cache de contexto e uso de ferramentas, ele remove as barreiras de engenharia e financeiras associadas a tarefas de IA de alto rendimento. É uma ferramenta essencial para desenvolvedores e organizações que buscam aproveitar todo o poder dos modelos Gemini em conjuntos de dados massivos.
Quer uma plataforma integrada e completa para sua Equipe de Desenvolvedores trabalhar em conjunto com máxima produtividade?
Apidog atende a todas as suas demandas e substitui o Postman por um preço muito mais acessível!