Guide : Qu'est-ce que l'API Google Gemini et comment l'utiliser ?

Google a récemment mis à jour son modèle d'IA Bard vers le tout nouveau Gemini. Potentiellement l'un des modèles d'IA les plus performants et généraux que Google ait construits à ce jour, Gemini a fourni 3 modèles pour Gemini 1.0 : Gemini Ultra, Gemini Pro et Gemini Nano.

💡

Comme l'API Google Gemini 1.0 est sortie, les développeurs de logiciels et de sites web peuvent commencer à l'intégrer dans leurs projets et applications. Pour construire, tester, documenter et déboguer vos projets d'API Gemini, nous aimerions vous présenter Apidog - un outil de développement d'API axé sur la conception.

Apidog est un outil d'API gratuit, alors commencez dès aujourd'hui en cliquant sur le bouton ci-dessous ! 👇 👇 👇

button

Qu'est-ce que Google Gemini ?

Gemini est le nouveau modèle d'IA général de Google (ou service), conçu pour la multimodalité.

Gemini est un modèle d'IA généralisé pour pouvoir traiter divers types d'informations, notamment du texte, du code, de l'audio, des images et des vidéos.

Cette fois, Google a choisi de publier trois modèles d'IA Gemini différents : Gemini Ultra, Gemini Pro et Gemini Nano, chacun avec ses descriptions de signature, citant leur rapport Gemini 1 :

Gemini Ultra : Le modèle Gemini le plus performant qui offre des performances de pointe sur un large éventail de tâches très complexes, notamment le raisonnement et les tâches multimodales. Il est efficacement utilisable à grande échelle sur les accélérateurs TPU grâce à l'architecture Gemini.
Gemini Pro : Un modèle optimisé en termes de performances, de coût et de latence, qui offre des performances significatives sur un large éventail de tâches. Ce modèle présente de solides performances de raisonnement et de vastes capacités multimodales.
Gemini Nano : Le modèle le plus efficace de Google, conçu pour fonctionner sur l'appareil. Ils ont formé deux versions de Nano, avec 1,8B (Nano-1) et 3,25B (Nano-2) paramètres, ciblant respectivement les appareils à faible et haute mémoire. Nano est formé par distillation à partir de modèles Gemini plus grands et est quantifié sur 4 bits pour le déploiement, offrant les meilleures performances de sa catégorie.

Google Gemini est également célèbre pour être le premier modèle à surpasser les experts humains en Massive Multitask Language Understanding (MMLU).

Repères du modèle Gemini

Au moment de leur sortie, le plus grand concurrent de Gemini est GPT-4 d'OpenAI.

Avec 4 domaines de comparaison différents, Gemini Ultra, le modèle Gemini le plus puissant, bat GPT-4 dans presque tous les aspects, à l'exception du raisonnement de bon sens pour les tâches quotidiennes. Gemini Ultra excelle dans la génération de code Python précis, les compétences en résolution de problèmes mathématiques et le MMLU général.

Google a également réalisé un rapport de référence plus complet avec Gemini Pro et d'autres modèles d'IA pertinents qui sont disponibles pour une utilisation :

Pour fournir plus de contexte sur la capacité des modèles Gemini, Google a effectué un test interne normalisé, en utilisant Gemini Pro comme principal point de référence.

Fonctionnalités de l'IA Gemini

L'IA Gemini est conçue pour être nativement multimodale pour une efficacité accrue. Elle aide Gemini à comprendre et à raisonner avec toutes sortes d'entrées, elle excelle donc à aider ses utilisateurs qui recherchent de l'aide dans :

Raisonnement sophistiqué

Les capacités de raisonnement multimodal complexes de Gemini peuvent permettre au modèle d'IA de digérer et de traiter des informations complexes. Gemini est donc compétent pour déduire des significations cachées au milieu de grandes quantités de données.

Vous pouvez également utiliser Gemini pour extraire des informations spécifiques de milliers de documents - il peut filtrer et comprendre les informations en fonction des critères saisis et vous fournir les informations que vous recherchez.

Codage avancé

Gemini est capable de comprendre, d'expliquer et de générer du code. Il peut générer du code pour des langages de programmation largement utilisés tels que Python, Java, C++ et Go.

Cela signifie que si vous avez du code que vous ne comprenez pas, vous pouvez l'exécuter via Gemini pour une ventilation de ce que fait le code. De plus, Gemini peut aider à fournir du code pour les fonctionnalités avec lesquelles vous rencontrez des difficultés.

Génération d'idées à partir de diverses entrées

Gemini peut répondre à différents types d'entrées. Cela inclut les fichiers PDF, les images, les textes et les vidéos. Grâce à des compétences d'identification précises et détaillées, Gemini peut devenir une source d'inspiration - un outil de brainstorming si vous voulez l'appeler ainsi.

À propos de l'API Gemini

La sortie de Gemini s'accompagne de l'API Google Gemini, permettant aux développeurs une grande variété d'applications basées sur l'IA. Avec Gemini, vous n'êtes plus lié uniquement au texte - vous pouvez également saisir des images pour générer des sorties pertinentes pour l'entrée.

Disponibilité de l'API Gemini

Actuellement, il existe une liste de langues et de régions disponibles où l'API Gemini peut fonctionner. Consultez ces liens ci-dessous pour savoir si vous êtes éligible pour utiliser l'API Gemini !

Langues disponibles pour l'API Gemini

Régions disponibles pour l'API Gemini

Tarification de l'API Gemini

Google fournit une version gratuite de Gemini Pro. Bien qu'il encourage les utilisateurs à créer des applications avec l'API Gemini Pro, les utilisateurs doivent savoir que les invites et les réponses impliquées dans la version gratuite de l'API sont enregistrées et utilisées dans le processus de recherche et de développement de Gemini Pro. En d'autres termes, Google aura un enregistrement de tout ce que l'API reçoit et fournit (pas de confidentialité).

Comme Gemini est relativement nouveau, la tarification complète de l'API Gemini n'est pas entièrement sortie, cependant, un prix cité pour l'entrée à la sortie a été fourni. Il en coûtera 0,000125 $ pour saisir 1000 caractères et 0,0025 $ pour saisir un message. Pour donner une réponse, l'API Gemini facturera 0,000375 $ pour sortir 1000 caractères. Cependant, la version payante de l'API Gemini prendra en charge plus de 60 requêtes par minute.

Guide alternatif manuel étape par étape sur la façon d'utiliser l'API Gemini

Le modèle d'IA Gemini est l'un des modèles d'IA les plus puissants accessibles gratuitement. Si vous souhaitez créer des applications avec celui-ci, continuez à lire cette section ci-dessous.

Étape 1 : Obtenir la clé API Gemini

Pour accéder à l'API Gemini, nous devons d'abord obtenir la clé API Gemini auprès de Google AI for Developers.

Vous entrerez ensuite dans le tableau de bord Google AI Studio, où ils vous inviteront à choisir de démarrer une nouvelle invite ou d'obtenir une clé API.

Localisez le bouton ci-dessus pour créer une clé API.

select existing porject or new project gemini api key

Gemini offre la possibilité de choisir si vous souhaitez travailler sur un projet déjà sur Google Cloud (peut-être sur un projet d'équipe) ou créer un tout nouveau projet.

Une fois que vous avez choisi une option, Gemini générera une clé API pour vous !

Étape 2 - Copier le code cURL

Tout d'abord, accédez au site Web Google AI for Developers et copiez l'URL comme indiqué dans l'image ci-dessus. N'incluez pas la dernière partie 2> /dev/null car elle n'est pas censée faire partie du code cURL.

Ensuite, ouvrez Apidog et sélectionnez le bouton violet + dans le coin supérieur gauche de la fenêtre Apidog. Vous devriez pouvoir voir Importer cURL. Alternativement, vous pouvez utiliser le raccourci Ctrl + I.

Collez le code cURL dans la fenêtre et appuyez sur le bouton OK.

Apidog permet aux utilisateurs d'importer du code cURL existant dans de nouvelles requêtes ! De plus, vous pouvez modifier ces requêtes de code cURL en fonction de la façon dont vous souhaitez qu'elles fonctionnent.

Étapes manuelles alternatives si le code cURL ne fonctionne pas

Obtenir Apidog pour créer une API avec la clé API Gemini

Cet article montrera comment utiliser la clé API Gemini avec Apidog, un outil de développement d'API axé sur la conception.

Tout d'abord, créez un nouveau projet sur Apidog. Vous pouvez l'appeler Gemini API, ou tout ce que vous souhaitez !

Ensuite, appuyez sur le bouton Nouvelle API.

Maintenant, accédez au site Web Google AI for Developers et copiez l'URL comme indiqué dans l'image ci-dessus.

Retournez à Apidog et collez l'URL de l'API Gemini que vous avez copiée dans la zone en surbrillance indiquée dans l'image. Comme cet exemple est une requête POST, assurez-vous également de changer la méthode de GET à POST.

Notez que le paramètre de requête à la fin de l'URL est supprimé. Ne vous inquiétez pas - dans Apidog, tous les paramètres de requête seront automatiquement extraits et remplis dans Paramètres de requête, trouvés sous la section Paramètres, comme indiqué dans l'image.

button

Vous devrez remplacer cette section par la clé API Gemini générée précédemment. Collez-la dans la section en surbrillance indiquée dans l'image ci-dessus. Cliquez ensuite sur Enregistrer pour enregistrer votre progression.

Retournez au site Web Google AI for Developers pour copier le corps de la requête POST. Copiez la partie en surbrillance du corps.

gemini api paste json body post request see response

Retournez à Apidog et, sous la section Requête, sélectionnez l'en-tête Corps et sélectionnez json. Ensuite, collez le corps de la requête POST dans la section Exemple.

Si vous souhaitez modifier l'invite qui sera envoyée à l'API Gemini, vous pouvez modifier la chaîne trouvée entre les guillemets de l'élément "text".

Enfin, appuyez sur le bouton Envoyer ci-dessus pour faire une demande. Vous devriez alors recevoir une réponse de l'API Gemini !

Conclusions

L'API Google Gemini est un outil extrêmement puissant que de nombreux développeurs peuvent utiliser aujourd'hui pour de petits programmes, applications et entreprises. Avec la possibilité de traiter à la fois les entrées de texte et d'images, l'API Gemini peut fournir aux utilisateurs des réponses perspicaces qui impliquent des inférences intelligentes et contextuelles.

Apidog, en plus de créer des API, peut également fournir un environnement simple et intuitif pour tester, simuler et documenter les API. Avec de nombreux processus automatisés pour aider à augmenter l'efficacité d'un développeur, considérez Apidog comme votre prochaine plateforme API !

button