API Gemini do Google Modo Batch Chegou: 50% Mais Barato

A API Gemini do Google agora apresenta o Modo em Lotes, uma atualização transformadora projetada para tarefas assíncronas e em larga escala que vem com uma redução de 50% no custo. 🚀

Este poderoso endpoint permite processar grandes volumes de trabalho com resultados entregues em 24 horas, tudo pela metade do preço padrão da API.
O sistema é projetado para cargas de trabalho de alto rendimento, acomodando arquivos JSONL de até 2GB e aproveitando otimizações como o Cache de Contexto para maior eficiência.
Ele também suporta ferramentas integradas como o Google Search e é gerenciado por meio de uma API simples para criar, excluir e recuperar trabalhos, tornando o processamento massivo de IA mais acessível e direto.

Então, vamos dar uma olhada de perto no novo Modo em Lotes da API Gemini do Google!

💡

Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada e completa para sua Equipe de Desenvolvedores trabalhar em conjunto com máxima produtividade?

Apidog atende a todas as suas demandas e substitui o Postman por um preço muito mais acessível!

botão

Preços do Modo em Lotes da API Gemini

Um benefício primário do Modo em Lotes da API Gemini é uma redução significativa no custo. Todos os trabalhos submetidos através deste endpoint têm um preço 50% menor que a taxa padrão para o modelo equivalente usado em uma chamada síncrona (em tempo real).

Este desconto de 50% se aplica diretamente à estrutura de preços por token. Se você estiver usando gemini-2.5-pro, gemini-2.5-flash ou qualquer outro modelo suportado, o custo tanto para tokens de entrada quanto de saída é reduzido pela metade quando processado via um trabalho em lote. Este modelo de precificação torna financeiramente viável a realização de tarefas em larga escala, como a análise de terabytes de dados de texto ou a geração de conteúdo para um catálogo de produtos inteiro, que poderiam ser proibitivamente caros usando a API padrão. O custo ainda é calculado com base no número de tokens em sua entrada e na saída gerada, mas a taxa por token é o que está com desconto.

Como Usar o Modo em Lotes da API Gemini: Um Guia Passo a Passo

O fluxo de trabalho para o Modo em Lotes da API Gemini é projetado para ser direto, envolvendo preparação de arquivos, criação de trabalhos e recuperação de resultados. As seções a seguir fornecem um guia prático usando o SDK Python do Google GenAI.

Passo 1: Preparando Seu Arquivo de Entrada para o Modo em Lotes da API Gemini

O Modo em Lotes da API Gemini processa solicitações de um arquivo JSON Lines (JSONL). Cada linha no arquivo deve ser um objeto JSON válido representando uma única solicitação autocontida. O arquivo pode ter até 2GB.

Cada objeto JSON no arquivo deve conter dois campos:

key: Um identificador de string único (de sua escolha) para cada solicitação, que é usado para correlacionar as solicitações com seus resultados.
request: O payload da solicitação, que é idêntico em estrutura a uma solicitação enviada para a API Gemini síncrona. Ele contém um campo contents com o prompt do modelo.

Exemplo de batch_requests.jsonl:

{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}

Passo 2: O Fluxo de Trabalho de Programação para o Modo em Lotes da API Gemini

O SDK Python simplifica o processo de interação com o endpoint de processamento em lote em algumas chamadas de função chave.

Upload do Arquivo de Entrada: Primeiro, você deve fazer o upload do seu arquivo JSONL para o serviço de arquivos do Google. Isso retorna um objeto de arquivo que você referenciará ao criar o trabalho.

import google.generativeai as genai

# It is recommended to configure your API key as an environment variable
# genai.configure(api_key="YOUR_API_KEY")

uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")

Criar o Trabalho em Lote: Com o arquivo carregado, você pode agora criar o trabalho em lote. Esta chamada requer a especificação do modelo que você deseja usar e o fornecimento do arquivo carregado como a fonte das solicitações.

batch_job = genai.create_batch_job(
    model="gemini-2.5-flash",  # Ou "gemini-2.5-pro", etc.
    requests=uploaded_batch_requests,
    config={
        'display_name': "MyFirstBatchJob-1",
    },
)
print(f"Trabalho em lote criado: {batch_job.name}")
print(f"Estado inicial: {batch_job.state.name}")

Esta função retorna imediatamente, fornecendo o nome do trabalho e seu estado inicial, que é tipicamente JOB_STATE_PENDING.

Passo 3: Gerenciando e Monitorando Trabalhos no Modo em Lotes da API Gemini

Como os trabalhos em lote são assíncronos, você precisa monitorar o status deles. Você pode recuperar o estado atual de um trabalho a qualquer momento usando seu nome. Os trabalhos têm garantia de serem concluídos em um período de 24 horas.

Os possíveis estados do trabalho são:

JOB_STATE_UNSPECIFIED: Estado padrão.
JOB_STATE_PENDING: O trabalho foi criado e está aguardando processamento.
JOB_STATE_RUNNING: O trabalho está sendo processado ativamente.
JOB_STATE_SUCCEEDED: O trabalho foi concluído com sucesso.
JOB_STATE_FAILED: O trabalho falhou. O campo error no objeto do trabalho conterá informações de diagnóstico.
JOB_STATE_CANCELLING: Uma solicitação de cancelamento foi recebida.
JOB_STATE_CANCELLED: O trabalho foi cancelado.

Exemplo de verificação do status do trabalho:

# Verifica o status após algum tempo ter passado
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Estado atual do trabalho: {retrieved_job.state.name}")

Passo 4: Processando Resultados do Modo em Lotes da API Gemini

Assim que o estado do trabalho for JOB_STATE_SUCCEEDED, os resultados estarão disponíveis para download como um arquivo JSONL. Cada linha no arquivo de saída corresponde a uma solicitação do arquivo de entrada.

O objeto JSON de saída contém a key da solicitação original e um objeto response contendo a saída do modelo.

Baixar o Arquivo de Resultados:

if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_metadata = retrieved_job.result_file
    result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
    
    # Decodifica e processa os resultados
    file_content = result_file_content_bytes.decode('utf-8')
    for line in file_content.splitlines():
        print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
    print(f"O trabalho falhou com erro: {retrieved_job.error}")

Exemplo de Linha do Arquivo de Saída:

{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}

Você pode analisar este arquivo, usando a key para corresponder cada resposta ao seu prompt original.

Funcionalidade Avançada no Modo em Lotes da API Gemini

O Modo em Lotes da API Gemini também suporta recursos mais avançados para otimizar fluxos de trabalho em larga escala.

Cache de Contexto com o Modo em Lotes da API Gemini

Para tarefas que envolvem um grande pedaço de contexto compartilhado (por exemplo, um documento longo sobre o qual você deseja fazer várias perguntas), você pode usar o Cache de Contexto. Este recurso permite que você armazene em cache o contexto compartilhado, para que ele não seja reprocessado a cada solicitação no lote. Isso pode levar a economias de custo significativas e tempos de processamento mais rápidos, reduzindo o número total de tokens processados.

Usando Ferramentas Integradas com o Modo em Lotes da API Gemini

Trabalhos em lote suportam o uso de ferramentas, incluindo a funcionalidade de Pesquisa Google integrada. Isso permite que você realize tarefas em larga escala que exigem que o modelo acesse e processe informações em tempo real da web. Por exemplo, um trabalho em lote poderia ser configurado para analisar milhares de URLs e resumir seu conteúdo.

O Google destacou várias organizações que já utilizam esta funcionalidade:

Reforged Labs usa o Modo em Lotes da API Gemini para analisar e rotular grandes volumes de anúncios em vídeo, cortando custos e acelerando seu fluxo de trabalho.
Vals AI usa o alto rendimento do Modo em Lotes para fazer benchmark de modelos de base com um grande número de consultas de avaliação, contornando os limites de taxa das APIs síncronas.

Conclusão: O Valor Técnico do Modo em Lotes da API Gemini

O Modo em Lotes da API Gemini oferece uma solução tecnicamente robusta e financeiramente vantajosa para o processamento de IA assíncrono em larga escala. Ao oferecer uma redução de 50% nos custos, um fluxo de trabalho simplificado baseado em arquivos e suporte para recursos avançados como cache de contexto e uso de ferramentas, ele remove as barreiras de engenharia e financeiras associadas a tarefas de IA de alto rendimento. É uma ferramenta essencial para desenvolvedores e organizações que buscam aproveitar todo o poder dos modelos Gemini em conjuntos de dados massivos.

💡

botão