ガイド: Google Gemini APIとは？その使い方を解説

Googleは最近、Bard AIモデルをブランド新しいGeminiにアップデートしました。Googleがこれまでに最も能力が高く、汎用性のあるAIモデルになり、Gemini 1.0ではGemini Ultra、Gemini Pro、Gemini Nanoの3つのモデルが提供されています。本文では、Google Geminiを紹介した上、Gemini APIの使い方を皆さんに紹介します。

💡

Gemini APIプロジェクトをビルド、テスト、ドキュメント化、デバッグするために、Apidogという使いやすいAPI管理ツールをご紹介します。

Apidogは無料で使えるAPIツールなので、下のボタンをクリックして今すぐ利用をスタートしましょう! 👇 👇 👇

button

GoogleのGeminiとは?

GeminiはGoogleの最新の汎用AIモデル(またはサービス)で、マルチモダリティ向けに構築されています。

Geminiは、テキスト、コード、音声、画像、ビデオなど、さまざまな種類の情報を処理できるように一般化されたAIモデルです。

今回、Googleは3つの異なるGemini AIモデル、Gemini Ultra、Gemini Pro、Gemini Nanoをリリースしました。それぞれの特徴はGemini 1報告書から引用すると次のようになっています。

Gemini Ultra: 高度に複雑なタスク、推論とマルチモーダルタスクを含む幅広い範囲で最先端の性能を発揮する、最も能力の高いGeminiモデル。Geminiアーキテクチャのおかげで、TPUアクセラレータ上でスケーラブルに効率的にサービスを提供できる。
Gemini Pro: コストとレイテンシーの両面で最適化されたモデルで、幅広いタスクで大きな性能を発揮する。強力な推論能力と幅広いマルチモーダル機能を備えている。
Gemini Nano: オンデバイス実行を目的とした、Googleで最も効率的なモデル。Nano-1 (18億パラメータ)とNano-2 (32.5億パラメータ)の2つのバージョンを、低メモリデバイスと高メモリデバイスに合わせてトレーニングしている。NanoはGeminiの大型モデルから知識を引き継ぎ、デプロイ時に4ビット量子化されており、最高のパフォーマンスを実現している。

GoogleのGeminiは、Massive Multitask Language Understanding (MMLU)で人間の専門家を上回った、史上初のモデルとしても有名です。

Geminiモデルのベンチマーク

リリース時点で、GeminiのライバルといえばOpenAIのGPT-4です。

4つの評価項目のうち、最強のGemini Ultra はGPT-4を上回る性能を示しており、日常的な課題に関する一般常識推論だけがGPT-4に劣っています。Gemini Ultraは、正確なPythonコード生成、数学的な問題解決能力、一般的なMMULで優れています。

Googleは、Gemini Proとその他利用可能なAIモデルも含めたより包括的なベンチマークレポートを提供しています。

Geminiモデルの能力をより適切に説明するため、GoogleはGemini Proを基準とした正規化された内部テストを行っています。

Gemini AIの機能

Gemini AIはネイティブのマルチモーダルに対応するよう設計されており、あらゆる種類の入力を理解し推論することで、その効率性を発揮します。したがって、次のような場面で、Geminiはユーザーを助けることができます。

高度な推論

Geminiの複雑なマルチモーダル推論機能により、AIモデルは複雑な情報を消化し処理することができます。大量のデータの中に隠された意味を推論する力に優れています。

Geminiを使えば、特定の情報を何千ものドキュメントの中から抽出することも可能です。与えられた基準に基づいて情報をフィルタリングし理解し、求めている情報を提供してくれます。

高度なコーディング

Geminiはコードを理解し、説明し、生成することができます。Python、Java、C++、Goなど、広く使われているプログラミング言語のコードを生成できます。

つまり、理解できないコードがあればGeminiに入力すればコードの内容を分解して説明してくれます。加えて、機能実装に困ったらGeminiに相談すればコードを提示してくれるのです。

さまざまな入力からのアイデア生成

Geminiは、PDFファイル、画像、テキスト、ビデオなどさまざまな入力に対応しています。正確で詳細な識別力を備えているため、Geminiはインスピレーションの源泉、いわばブレインストーミングツールとして活用できます。

Gemini APIについて

GeminiのリリースにはGoogle Gemini APIが付随し、開発者はさまざまなAIベースのアプリケーションを構築できるようになりました。Geminiを使えば、テキスト入力に限らず、画像入力に対しても関連する出力を生成できます。

Gemini APIの提供状況

現時点で、Gemini APIが利用できる言語と地域にはリストがあります。次のリンクから確認して、Gemini APIを使えるかどうか確認してください。

Gemini APIで利用可能な言語

Gemini APIで利用可能な地域

Gemini API料金

GoogleはGemini Proの無料版を提供していますが、無料版でAPIに送信されたプロンプトとレスポンスはすべて記録され、Gemini Proの研究開発プロセスに利用されることに注意が必要です。つまり、無料版ではプライバシーがないということは言えるのでしょう。

Geminiはまだ新しいため、Gemini APIの完全な料金は発表されていませんが、入力と出力それぞれの価格が提示されています。1000文字の入力に対して$0.000125、1メッセージの入力に対して$0.0025が課金されます。出力では、1000文字ごとに$0.000375の料金がかかります。ただし、有料版のGemini APIでは1分あたり60クエリ以上をサポートします。

超詳細：Gemini APIの使い方

Gemini AIモデルは、無料で利用できる最も強力なAIモデルの1つです。これを使ったアプリケーションを作りたい場合は、以下の手順を参照してください。

ステップ1: Gemini APIキーを取得する

Gemini APIにアクセスするには、まずGoogle AI for Developersページにアクセスして、「Get an API Key」ボタンをクリックすることで、Gemini APIキーを取得する必要があります。

Google AI Studioダッシュボードに入ると、新しいプロンプトを開始するか、「Create API Key」を選択するよう促されます。

上の画像のボタンを探して、APIキーの作成を行います。

GeminiではGoogle Cloudで既に作業中のプロジェクト(チームプロジェクトなど)か、新しいプロジェクトを作成するかを選択できます。

オプションを選ぶと、利用可能なGeminiのAPIキーが生成されます。

ステップ2 - cURLコードでGemini APIを利用

まず、Google AI for Developersウェブサイトに行き、画像で強調表示されているURLをコピーします。

ご案内：画像のように、最後の部分2> /dev/nullを含めてコピーしないでください。

button

ステップ⒊cURLをApidogにコピーしてGemini APIを利用

次に、Apidogを開き、Apidogウィンドウの左上にある紫色の+ボタンを選択してcURLをインポートを選択します。または、Ctrl + Iショートカットを使ってcURLの認識機能を呼び出すことも可能です。

cURLコードを新しく出てきたウィンドウに貼り付け、OKボタンを押します。

ここで、Apidogは一瞬でcURLを解析でき、各タブでcURLで定義したものを確認することができます。間違いがない場合は、「送信」をクリックして簡単にリクエストを送信できるようになります。

このように、Apidogでは既存のcURLコードを新しいリクエストとしてインポートできます。さらに、インポートされたcURLコードリクエストを自由に変更して、望む機能に合わせることができます。

button

おわりに

Google Gemini API は、非常に強力なツールで、今日の多くの開発者がそれを小さなプログラム、アプリケーション、ビジネスに活用できます。テキストと画像の両方の入力を処理できるため、Gemini API はユーザーに対し、コンテキストに基づいた賢明な推論を含む洞察に富んだ回答を提供できます。

Apidog は API の構築だけでなく、API のテスト、モック作成、ドキュメント化の環境も提供しています。開発者の効率を高めるための多くの自動化されたプロセスを備えているため、次の API プラットフォームとして Apidog を検討してみてはいかがでしょうか。