API Gemini de Google : Mode Batch Disponible et 50% Moins Cher

L'API Gemini de Google propose désormais le mode Batch (Traitement par lots), une mise à jour transformative conçue pour les tâches asynchrones à grande échelle, qui s'accompagne d'une réduction de coût de 50 %. 🚀

Ce puissant point d'accès vous permet de traiter des tâches énormes avec des résultats livrés dans les 24 heures, le tout à la moitié du prix standard de l'API.
Le système est conçu pour les charges de travail à haut débit, acceptant des fichiers JSONL allant jusqu'à 2 Go et tirant parti d'optimisations comme la mise en cache du contexte pour une plus grande efficacité.
Il prend également en charge les outils intégrés comme Google Search et est géré via une API simple pour la création, la suppression et la récupération de tâches, rendant le traitement massif de l'IA plus abordable et plus simple.

Alors, examinons de plus près le nouveau mode Batch de l'API Google Gemini !

💡

Vous voulez un excellent outil de test d'API qui génère une belle documentation d'API ?

Vous voulez une plateforme intégrée et tout-en-un pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos exigences et remplace Postman à un prix beaucoup plus abordable !

button

Tarification du mode Batch de l'API Gemini

Un avantage principal du mode Batch de l'API Gemini est une réduction significative des coûts. Toutes les tâches soumises via ce point d'accès sont facturées 50 % moins cher que le tarif standard pour le modèle équivalent utilisé dans un appel synchrone (en temps réel).

Cette réduction de 50 % s'applique directement à la structure de tarification par jeton. Que vous utilisiez gemini-2.5-pro, gemini-2.5-flash, ou tout autre modèle pris en charge, le coût des jetons d'entrée et de sortie est réduit de moitié lorsqu'il est traité via une tâche par lots. Ce modèle de tarification rend financièrement viable l'exécution de tâches à grande échelle, telles que l'analyse de téraoctets de données textuelles ou la génération de contenu pour un catalogue de produits entier, qui pourraient être trop coûteuses avec l'API standard. Le coût est toujours calculé en fonction du nombre de jetons dans votre entrée et la sortie générée, mais le taux par jeton est celui qui est réduit.

Comment utiliser le mode Batch de l'API Gemini : Un guide étape par étape

Le flux de travail pour le mode Batch de l'API Gemini est conçu pour être simple, impliquant la préparation des fichiers, la création de tâches et la récupération des résultats. Les sections suivantes fournissent un guide pratique utilisant le SDK Python de Google GenAI.

Étape 1 : Préparation de votre fichier d'entrée pour le mode Batch de l'API Gemini

Le mode Batch de l'API Gemini traite les requêtes à partir d'un fichier JSON Lines (JSONL). Chaque ligne du fichier doit être un objet JSON valide représentant une requête unique et autonome. Le fichier peut faire jusqu'à 2 Go.

Chaque objet JSON dans le fichier doit contenir deux champs :

key : Un identifiant de chaîne unique (de votre choix) pour chaque requête, utilisé pour corréler les requêtes avec leurs résultats.
request : La charge utile de la requête, dont la structure est identique à celle d'une requête envoyée à l'API Gemini synchrone. Elle contient un champ contents avec l'invite du modèle.

Exemple batch_requests.jsonl :

{"key": "request_1", "request": {"contents": [{"parts": [{"text": "Explain how AI works in a few words"}]}]}}
{"key": "request_2", "request": {"contents": [{"parts": [{"text": "Summarize the key benefits of context caching in LLMs."}]}]}}
{"key": "request_3", "request": {"contents": [{"parts": [{"text": "Write a python function to reverse a string."}]}]}}

Étape 2 : Le flux de travail de programmation pour le mode Batch de l'API Gemini

Le SDK Python simplifie le processus d'interaction avec le point d'accès de traitement par lots en quelques appels de fonction clés.

Télécharger le fichier d'entrée : Tout d'abord, vous devez télécharger votre fichier JSONL vers le service de fichiers de Google. Cela renvoie un objet fichier que vous référencerez lors de la création de la tâche.

import google.generativeai as genai

# Il est recommandé de configurer votre clé API comme variable d'environnement
# genai.configure(api_key="YOUR_API_KEY")

uploaded_batch_requests = genai.upload_file(path="batch_requests.jsonl")

Créer la tâche par lots : Une fois le fichier téléchargé, vous pouvez maintenant créer la tâche par lots. Cet appel nécessite de spécifier le modèle que vous souhaitez utiliser et de fournir le fichier téléchargé comme source des requêtes.

batch_job = genai.create_batch_job(
    model="gemini-2.5-flash",  # Ou "gemini-2.5-pro", etc.
    requests=uploaded_batch_requests,
    config={
        'display_name': "MyFirstBatchJob-1",
    },
)
print(f"Created batch job: {batch_job.name}")
print(f"Initial state: {batch_job.state.name}")

Cette fonction renvoie immédiatement le nom de la tâche et son état initial, qui est généralement JOB_STATE_PENDING.

Étape 3 : Gestion et surveillance des tâches en mode Batch de l'API Gemini

Étant donné que les tâches par lots sont asynchrones, vous devez surveiller leur statut. Vous pouvez récupérer l'état actuel d'une tâche à tout moment en utilisant son nom. Les tâches sont garanties de se terminer dans une fenêtre de 24 heures.

Les états de tâche possibles sont :

JOB_STATE_UNSPECIFIED : État par défaut.
JOB_STATE_PENDING : La tâche a été créée et est en attente de traitement.
JOB_STATE_RUNNING : La tâche est en cours de traitement actif.
JOB_STATE_SUCCEEDED : La tâche s'est terminée avec succès.
JOB_STATE_FAILED : La tâche a échoué. Le champ error de l'objet tâche contiendra des informations de diagnostic.
JOB_STATE_CANCELLING : Une demande d'annulation a été reçue.
JOB_STATE_CANCELLED : La tâche a été annulée.

Exemple de vérification du statut d'une tâche :

# Vérifier le statut après un certain temps
retrieved_job = genai.get_batch_job(name=batch_job.name)
print(f"Current job state: {retrieved_job.state.name}")

Étape 4 : Traitement des résultats du mode Batch de l'API Gemini

Une fois que l'état de la tâche est JOB_STATE_SUCCEEDED, les résultats sont disponibles en téléchargement sous forme de fichier JSONL. Chaque ligne du fichier de sortie correspond à une requête du fichier d'entrée.

L'objet JSON de sortie contient la key de la requête originale et un objet response contenant la sortie du modèle.

Télécharger le fichier de résultats :

if retrieved_job.state.name == 'JOB_STATE_SUCCEEDED':
    result_file_metadata = retrieved_job.result_file
    result_file_content_bytes = genai.download_file(name=result_file_metadata.name).read()
    
    # Décoder et traiter les résultats
    file_content = result_file_content_bytes.decode('utf-8')
    for line in file_content.splitlines():
        print(line)
elif retrieved_job.state.name == 'JOB_STATE_FAILED':
    print(f"Job failed with error: {retrieved_job.error}")

Exemple de ligne de fichier de sortie :

{"key": "request_1", "response": {"candidates": [{"content": {"parts": [{"text": "Artificial intelligence enables machines to learn and reason."}]}}]}}

Vous pouvez analyser ce fichier, en utilisant la key pour faire correspondre chaque réponse à son invite originale.

Fonctionnalités avancées du mode Batch de l'API Gemini

Le mode Batch de l'API Gemini prend également en charge des fonctionnalités plus avancées pour l'optimisation des flux de travail à grande échelle.

Mise en cache du contexte avec le mode Batch de l'API Gemini

Pour les tâches impliquant une grande partie de contexte partagée (par exemple, un long document sur lequel vous souhaitez poser plusieurs questions), vous pouvez utiliser la mise en cache du contexte. Cette fonctionnalité vous permet de mettre en cache le contexte partagé, afin qu'il ne soit pas retraité à chaque requête individuelle du lot. Cela peut entraîner des économies de coûts significatives supplémentaires et des temps de traitement plus rapides en réduisant le nombre total de jetons traités.

Utilisation des outils intégrés avec le mode Batch de l'API Gemini

Les tâches par lots prennent en charge l'utilisation d'outils, y compris la fonctionnalité de recherche Google intégrée. Cela vous permet d'effectuer des tâches à grande échelle qui nécessitent que le modèle accède et traite des informations en temps réel depuis le web. Par exemple, une tâche par lots pourrait être configurée pour analyser des milliers d'URL et en résumer le contenu.

Google a mis en avant plusieurs organisations utilisant déjà cette fonctionnalité :

Reforged Labs utilise le mode Batch de l'API Gemini pour analyser et étiqueter de grands volumes de publicités vidéo, réduisant les coûts et accélérant leur flux de travail.
Vals AI utilise le débit élevé du mode Batch pour évaluer des modèles fondamentaux avec un grand nombre de requêtes d'évaluation, en contournant les limites de débit des API synchrones.

Conclusion : La valeur technique du mode Batch de l'API Gemini

Le mode Batch de l'API Gemini offre une solution techniquement robuste et financièrement avantageuse pour le traitement asynchrone de l'IA à grande échelle. En offrant une réduction de coût de 50 %, un flux de travail simplifié basé sur des fichiers et la prise en charge de fonctionnalités avancées telles que la mise en cache du contexte et l'utilisation d'outils, il supprime les obstacles techniques et financiers associés aux tâches d'IA à haut débit. C'est un outil essentiel pour les développeurs et les organisations cherchant à exploiter toute la puissance des modèles Gemini sur des ensembles de données massifs.

💡

button