Leitfaden: Was ist die Google Gemini API und wie man sie verwendet?

Google hat kürzlich sein Bard AI-Modell auf das brandneue Gemini aktualisiert. Möglicherweise eines der leistungsfähigsten und allgemeinsten KI-Modelle, die Google bisher entwickelt hat, hat Gemini 3 Modelle für Gemini 1.0 bereitgestellt: Gemini Ultra, Gemini Pro und Gemini Nano.

💡

Da die Google Gemini 1.0 API verfügbar ist, können Software- und Webentwickler damit beginnen, sie in ihre Projekte und Anwendungen zu integrieren. Um Ihre Gemini API-Projekte zu erstellen, zu testen, zu dokumentieren und zu debuggen, möchten wir Ihnen Apidog - ein Design-First-API-Entwicklungstool vorstellen.

Apidog ist ein kostenlos nutzbares API-Tool, also starten Sie noch heute, indem Sie auf die Schaltfläche unten klicken! 👇 👇 👇

button

Was ist Google's Gemini?

Gemini ist Googles neuestes allgemeines KI-Modell (oder -Dienst), das für Multimodalität entwickelt wurde.

Gemini ist ein KI-Modell, das so verallgemeinert wurde, dass es verschiedene Arten von Informationen verarbeiten kann, einschließlich Text, Code, Audio, Bild und Video.

Diesmal hat sich Google entschieden, drei verschiedene Gemini KI-Modelle zu veröffentlichen: Gemini Ultra, Gemini Pro und Gemini Nano, jedes mit seinen charakteristischen Beschreibungen, unter Berufung auf ihren Gemini 1-Bericht:

Gemini Ultra: Das leistungsfähigste Gemini-Modell, das erstklassige Leistung über eine Vielzahl von hochkomplexen Aufgaben liefert, einschließlich Reasoning- und multimodaler Aufgaben. Es ist aufgrund der Gemini-Architektur effizient auf TPU-Beschleunigern skalierbar.
Gemini Pro: Ein leistungsoptimiertes Modell in Bezug auf Kosten und Latenz, das eine signifikante Leistung über eine Vielzahl von Aufgaben liefert. Dieses Modell zeigt eine starke Reasoning-Leistung und breite multimodale Fähigkeiten.
Gemini Nano: Googles effizientestes Modell, das für die Ausführung auf dem Gerät konzipiert ist. Sie haben zwei Versionen von Nano trainiert, mit 1,8B (Nano-1) und 3,25B (Nano-2) Parametern, die sich an Geräte mit geringem bzw. hohem Speicher richten. Nano wird durch Distillation von größeren Gemini-Modellen trainiert und ist für den Einsatz 4-Bit-quantisiert, was die beste Leistung seiner Klasse bietet.

Google's Gemini ist auch dafür bekannt, das erste Modell zu sein, das menschliche Experten in Massive Multitask Language Understanding (MMLU) übertrifft.

Gemini Model Benchmarks

Zum Zeitpunkt seiner Veröffentlichung ist Geminis größter Konkurrent OpenAI's GPT-4.

Mit 4 verschiedenen Vergleichsbereichen übertrifft Gemini Ultra, das leistungsstärkste Gemini-Modell, GPT-4 in fast jeder Hinsicht, außer beim gesunden Menschenverstand für alltägliche Aufgaben. Gemini Ultra zeichnet sich durch eine genaue Python-Code-Generierung, mathematische Problemlösungsfähigkeiten und allgemeines MMLU aus.

Google hat auch einen umfassenderen Benchmark-Bericht mit Gemini Pro und anderen relevanten KI-Modellen erstellt, die zur Nutzung verfügbar sind:

Um mehr Kontext zur Fähigkeit der Gemini-Modelle zu geben, hat Google einen normalisierten internen Test durchgeführt, wobei Gemini Pro als Haupt-Benchmark verwendet wurde.

Gemini AI Funktionalitäten

Die Gemini KI ist so konzipiert, dass sie nativ multimodal ist, um die Effektivität weiter zu steigern. Sie unterstützt Gemini beim Verstehen und Schlussfolgern mit allen Arten von Eingaben und zeichnet sich daher darin aus, seine Benutzer zu unterstützen, die Hilfe suchen in:

Sophisticated Reasoning

Geminis komplexe multimodale Reasoning-Fähigkeiten können es dem KI-Modell ermöglichen, komplexe Informationen zu verarbeiten und zu verarbeiten. Gemini ist daher in der Lage, versteckte Bedeutungen inmitten großer Datenmengen zu erschließen.

Sie können Gemini auch verwenden, um spezifische Informationen aus Tausenden von Dokumenten zu extrahieren - es kann Informationen basierend auf den eingegebenen Kriterien filtern und verstehen und Ihnen die gewünschten Informationen liefern.

Advanced Coding

Gemini ist in der Lage, Code zu verstehen, zu erklären und zu generieren. Es kann Code für weit verbreitete Programmiersprachen wie Python, Java, C++ und Go generieren.

Das bedeutet, dass Sie, wenn Sie Code haben, den Sie nicht verstehen, ihn durch Gemini laufen lassen können, um eine Aufschlüsselung dessen zu erhalten, was der Code tut. Darüber hinaus kann Gemini helfen, Code für Funktionalitäten bereitzustellen, mit denen Sie zu kämpfen haben.

Idea Generation From Various Inputs

Gemini kann auf verschiedene Arten von Eingaben reagieren. Dies beinhaltet PDF-Dateien, Bilder, Texte und Videos. Mit genauen und detaillierten Identifikationsfähigkeiten kann Gemini zu einer Inspirationsquelle werden - einem Brainstorming-Tool, wenn Sie es so nennen möchten.

Über Gemini API

Die Veröffentlichung von Gemini erfolgt mit der Google Gemini API, die Entwicklern eine Vielzahl von KI-basierten Anwendungen ermöglicht. Mit Gemini sind Sie nicht mehr nur an Text gebunden - Sie können auch Bilder eingeben, um eingabebezogene Ausgaben zu generieren.

Verfügbarkeit der Gemini API

Derzeit gibt es eine Liste der verfügbaren Sprachen und Regionen, in denen die Gemini API betrieben werden kann. Überprüfen Sie diese Links unten, um herauszufinden, ob Sie berechtigt sind, die Gemini API zu verwenden!

Verfügbare Sprachen für die Gemini API

Verfügbare Regionen für die Gemini API

Gemini API Preisgestaltung

Google bietet eine kostenlose Version des Gemini Pro an. Obwohl es die Benutzer ermutigt, Apps mit der Gemini Pro API zu erstellen, sollten sich die Benutzer bewusst sein, dass die in der kostenlosen Version der API enthaltenen Prompts und Antworten aufgezeichnet und im Forschungs- und Entwicklungsprozess von Gemini Pro verwendet werden. Mit anderen Worten, Google wird eine Aufzeichnung darüber haben, was die API empfängt und bereitstellt (keine Privatsphäre).

Da Gemini relativ neu ist, ist die vollständige Preisgestaltung für die Gemini API noch nicht vollständig bekannt, aber ein angegebener Preis für die Eingabe am Ausgang wurde bereitgestellt. Es kostet 0,000125 $ für die Eingabe von 1000 Zeichen und 0,0025 $ für die Eingabe einer Nachricht. Um eine Antwort zu geben, berechnet die Gemini API 0,000375 $ für die Ausgabe von 1000 Zeichen. Die kostenpflichtige Version der Gemini API unterstützt jedoch mehr als 60 Abfragen pro Minute.

Alternative manuelle Schritt-für-Schritt-Anleitung zur Verwendung der Gemini API

Das Gemini KI-Modell ist eines der leistungsstärksten KI-Modelle, die kostenlos zugänglich sind. Wenn Sie daran interessiert sind, Anwendungen damit zu erstellen, lesen Sie diesen Abschnitt unten weiter.

Schritt 1: Gemini API-Schlüssel abrufen

Um Zugriff auf die Gemini API zu erhalten, müssen wir zuerst den Gemini API-Schlüssel von Google AI for Developers abrufen.

Sie gelangen dann zum Google AI Studio-Dashboard, wo Sie aufgefordert werden, einen neuen Prompt zu starten oder einen API-Schlüssel abzurufen.

Suchen Sie die obige Schaltfläche, um einen API-Schlüssel zu erstellen.

select existing porject or new project gemini api key

Gemini bietet die Möglichkeit, auszuwählen, ob Sie an einem Projekt arbeiten möchten, das sich bereits in Google Cloud befindet (vielleicht an einem Teamprojekt), oder ein brandneues Projekt erstellen möchten.

Sobald Sie eine Option ausgewählt haben, generiert Gemini einen API-Schlüssel für Sie!

Schritt 2 - Kopieren Sie den cURL-Code

Gehen Sie zunächst auf die Google AI for Developers-Website und kopieren Sie die URL, wie im obigen Bild hervorgehoben. Schließen Sie den letzten Teil 2> /dev/null nicht ein, da er nicht Teil des cURL-Codes sein soll.

Öffnen Sie als Nächstes Apidog und wählen Sie die lila +-Schaltfläche in der oberen linken Ecke des Apidog-Fensters aus. Sie sollten cURL importieren sehen können. Alternativ können Sie die Verknüpfung Strg + I verwenden.

Fügen Sie den cURL-Code in das Fenster ein und drücken Sie die Schaltfläche OK.

Apidog ermöglicht es Benutzern, vorhandenen cURL-Code in neue Anfragen zu importieren! Darüber hinaus können Sie diese cURL-Code-Anfragen anpassen, je nachdem, wie sie funktionieren sollen.

Alternative manuelle Schritte, wenn der cURL-Code nicht funktioniert

Lassen Sie Apidog eine API mit dem Gemini API-Schlüssel erstellen

Dieser Artikel zeigt, wie Sie den Gemini API-Schlüssel mit Apidog, einem Design-First-API-Entwicklungstool, verwenden.

Erstellen Sie zuerst ein neues Projekt auf Apidog. Sie können es Gemini API nennen oder wie auch immer Sie möchten!

Drücken Sie dann die Schaltfläche Neue API.

Gehen Sie nun auf die Google AI for Developers-Website und kopieren Sie die URL, wie im obigen Bild hervorgehoben.

Kehren Sie zu Apidog zurück und fügen Sie die Gemini API-URL, die Sie kopiert haben, in den im Bild gezeigten hervorgehobenen Bereich ein. Da es sich bei diesem Beispiel um eine POST-Anfrage handelt, stellen Sie außerdem sicher, dass Sie die Methode von GET in POST ändern.

Beachten Sie, dass der Abfrageparameter am Ende der URL entfernt wird. Keine Sorge - in Apidog werden alle Abfrageparameter automatisch extrahiert und in Request Params ausgefüllt, die Sie im Abschnitt Params finden, wie im Bild gezeigt.

button

Sie müssen diesen Abschnitt durch den zuvor generierten Gemini API-Schlüssel ersetzen. Fügen Sie ihn in den im obigen Bild gezeigten hervorgehobenen Abschnitt ein. Klicken Sie anschließend auf Speichern, um Ihren Fortschritt zu speichern.

Kehren Sie zur Google AI for Developers-Website zurück, um den Text der POST-Anfrage zu kopieren. Kopieren Sie den hervorgehobenen Teil des Texts.

gemini api paste json body post request see response

Wechseln Sie zurück zu Apidog und wählen Sie unter dem Abschnitt Anfrage die Kopfzeile Body und wählen Sie json. Fügen Sie dann den POST-Anfragetext im Abschnitt Beispiel ein.

Wenn Sie den Prompt ändern möchten, der an die Gemini API gesendet wird, können Sie die Zeichenfolge bearbeiten, die sich innerhalb der Anführungszeichen des Elements "text" befindet.

Drücken Sie abschließend die Schaltfläche Senden oben, um eine Anfrage zu stellen. Sie sollten dann eine Antwort von der Gemini API erhalten!

Schlussfolgerungen

Die Google Gemini API ist ein äußerst leistungsstarkes Tool, das viele Entwickler heute für kleine Programme, Anwendungen und Unternehmen nutzen können. Mit der Fähigkeit, sowohl Text- als auch Bildeingaben zu verarbeiten, kann die Gemini API den Benutzern aufschlussreiche Antworten liefern, die intelligente, kontextbezogene Schlussfolgerungen beinhalten.

Apidog kann neben dem Erstellen von APIs auch eine einfache und intuitive Umgebung zum Testen, Mocken und Dokumentieren von APIs bieten. Ziehen Sie Apidog mit vielen automatisierten Prozessen zur Steigerung der Effizienz eines Entwicklers als Ihre nächste API-Plattform in Betracht!

button