Gemini 3.5 Flash 料金: 実際の費用はいくらですか?

Ashley Innocent

Ashley Innocent

20 5月 2026

Gemini 3.5 Flash 料金: 実際の費用はいくらですか?

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

Googleは2026年5月19日にGemini 3.5 Flashを出荷し、その大胆な主要価格設定の主張は「エージェントタスクにおいて他のフロンティアモデルの半額以下」というものです。これがマーケティングラインですが、このガイドでは実際の費用を計算します。

トークンあたりの料金、無料枠の制限、バッチモード割引、一般的なワークロードにおける実際の費用シナリオ、そしてGPT-5.5およびClaude Opus 4.7との並列での費用比較を見つけることができます。読み終える頃には、Flashの実行費用が正確にわかり、性能をほとんど犠牲にせずに50%以上節約できる場所もわかるでしょう。

クイックサマリー

費用タイプ 料金
標準入力 約1.50ドル / 100万トークン
標準出力 約9.00ドル / 100万トークン
バッチモード入力 約0.75ドル / 100万トークン (約50%オフ)
バッチモード出力 約4.50ドル / 100万トークン (約50%オフ)
キャッシュ入力 割引料金 (変動)
無料枠 (AI Studio) 1日あたり約1,500リクエスト、1分あたり100万トークン、1分あたり15リクエスト
Vertex AI 新規アカウント 90日間で300ドル分のクレジット

料金はGoogleの発表およびアグリゲーターのリストに基づき、2026年5月現在のものです。予算を確定する前に、必ず公式料金ページで確認してください。

Gemini 3.5 Flash トークンあたりの料金

Flashは、Gemini 2.5以降のすべてのGemini派生モデルが採用している従量課金モデルを使用しています。つまり、100万入力トークンごと、および100万出力トークンごとに個別に料金を支払います。

ティア 入力 ($/100万) 出力 ($/100万)
標準 約1.50ドル 約9.00ドル
キャッシュ入力 割引 該当なし
バッチ (非同期) 約0.75ドル 約4.50ドル

2つの実用的な注意点:

Geminiのバッチモードの仕組みについては、「Gemini APIバッチモードが登場し、50%安くなった」を参照してください。

無料枠:料金を支払わずに得られるもの

AI Studioの無料枠は、Flashとともに初日から提供されます。提供開始時の制限は以下の通りです。

これは、ほとんどのサイドプロジェクト、社内プロトタイプ、小規模な自動化に十分です。1日あたり1,500回のリクエストに収まるワークロードであれば、料金は0ドルです。

無料枠の具体的な内容:

詳細な設定手順については、「Gemini 3.5 Flashを無料で使う方法」と「無料でGoogle Gemini APIキーを取得する方法」を参照してください。

バッチモード:ほとんどのチームが見落とす50%割引

ワークロードがリアルタイム応答を必要としない場合、バッチモードはFlashのコストをほぼ半減させます。

仕組み:

  1. 最大50,000のプロンプトを一度にバッチジョブとして送信
  2. Googleは24時間以内にそれらを処理
  3. 入力と出力の両方で、トークンあたり約50%安くなる

バッチモードが適している場合:

適していない場合:

ほとんどのプロダクションスタックは、レイテンシーを許容できるすべてのワークロードでバッチモードを実行すべきです。規模が大きくなるにつれて節約効果は急速に増大します。設定の詳細については、弊社のバッチモードガイドを参照してください。

キャッシュ入力:もう一つの手段

プロンプトが長い静的なプレフィックス(システムプロンプト、大規模な参照文書、長い指示など)を共有する場合、コンテキストキャッシュにより、キャッシュされた部分に対して割引が適用されます。

パターン:

具体的な節約額はキャッシュヒット率に依存しますが、同じ検索されたチャンクが複数のクエリで返されるRAGスタイルのアプリケーションでは、入力コストが30~60%削減されると予想されます。

実世界の費用シナリオ

トークンの計算はすぐに抽象的になります。ここでは、Flashの標準料金での5つの具体的なシナリオを紹介します。

シナリオ1:顧客サポートチャットボット

1日の費用:

同じワークロードをバッチモードで実行する場合(バッチ処理された応答を許容できる場合):月額約585ドル。システムプロンプトにコンテキストキャッシュを追加すると、さらに20〜30%割引になります。

シナリオ2:ドキュメントQ&A SaaS

1日の費用:

Flashの100万トークンのコンテキストが輝くのはここです。チャンキングインフラは不要で、ドキュメント全体を送信するだけです。フラッグシップモデルを用いたチャンク化RAGと比較すると、APIとインフラで何倍も費用がかかるでしょう。

シナリオ3:長時間稼働する自律エージェント

実行あたりの費用:

1日の合計:200 × 0.83ドル = 約165ドル/日、約4,950ドル/月

比較として、Opus 4.7(100万あたり約15ドル/75ドル)で同じワークロードを実行すると、1実行あたり約25ドル、または1日あたり5,000ドルかかります。これこそが、Googleが指摘するエージェントタスクの費用差です。

シナリオ4:グラフ抽出パイプライン

1日の費用:

バッチモードを追加すると、同じワークロードが月額約375ドルで実行されます。CharXivの推論が84.2%ということは、品質が維持されることを意味します。

シナリオ5:大量コンテンツ生成

1日の費用:

これをバッチモードに移行すると、月額料金は約2万8千ドルに下がります。この規模では、ルーチン的な部分は3.1 Flash-Liteのようなさらに安価なモデルにルーティングし、Flashはより困難な生成のために予約するテストも行いたくなるでしょう。

GPT-5.5およびOpus 4.7との費用比較

主要な価格比較:

モデル 入力 ($/100万) 出力 ($/100万) Flashに対する倍率
Gemini 3.5 Flash 約1.50ドル 約9.00ドル 1倍 (ベースライン)
GPT-5.5 約10ドル 約30ドル 入力6.7倍、出力3.3倍
Claude Opus 4.7 約15ドル 約75ドル 入力10倍、出力8.3倍

シナリオ1(顧客サポートチャット)をそれぞれで実行:

これこそが、Googleのマーケティング戦略を支えるエージェントタスクの費用差です。フラッグシップモデルは最も困難なタスクでわずかに優れた品質を提供しますが、日常的なワークロードには、Flashがわずかな費用で十分です。

より詳細な分析については、「GPT-5.5の価格」と「3モデル比較」を参照してください。

他のGemini派生モデルとの費用比較

モデル 入力 ($/100万) 出力 ($/100万) 使用場面
Gemini 3.1 Flash-Lite 約0.40ドル 約2.00ドル 大量の定型作業
Gemini 3 Flash 約0.50ドル 約3.00ドル 旧世代、依然として堅実
Gemini 3.1 Pro 約2.00ドル 約12.00ドル 3.5 Pro登場以前の推論重視の作業
Gemini 3.5 Flash 約1.50ドル 約9.00ドル ほとんどのワークロードの新しいデフォルト
Gemini 3.5 Pro (2026年6月) 未定 未定 最も困難な推論タスク

Flashは3.x Flashの先行モデルよりも高価ですが、以前のProティアよりも信頼できるほど安価です。ほとんどのチームにとって、これは正しいトレードオフです。Flash 3.xよりも優れており、Pro 3.xよりも費用がかかりません。

以前のGeminiラインについては、3.1 Flash-Lite3.0 API価格、および3 Flashを参照してください。

Vertex AI価格設定(本番環境)

AI Studioの代わりにVertex AIを介してFlashを呼び出す場合、トークンあたりの料金は同じです。違いは請求とアカウント機能です。

ほとんどのプロダクションチームにとっての道筋は、AI Studioの無料枠でプロトタイプを作成し、規模に合わせてAI Studioの有料版に切り替え、エンタープライズ管理が必要になったらVertex AIに移行することです。モデルの動作は3つのすべてで同じです。

費用最適化のヒント

Flashの請求額を最も削減する6つの具体的な習慣:

  1. リアルタイム応答を必要としないものはすべてバッチモードで実行します。 50%割引で、品質の損失はありません。
  2. 長い静的プレフィックスをキャッシュします。 システムプロンプト、参照文書、指示はすべて良い候補です。
  3. 構造化されたJSON出力を使用します。 モデルに記述を少なくさせ、自由形式の散文よりも高速かつ安価になります。
  4. タスクの複雑さでルーティングします。 簡単なタスクはFlash-Liteへ。難しいタスクはFlashへ。稀な非常に困難なタスクは、3.5 Proが出荷されたらそちらへ。
  5. 入力を事前検証します。 不正なリクエストでトークンを無駄にしないでください。ApidogはAPIに到達する前にこれらを検出します。
  6. プロンプトごとの費用を追跡します。 リクエストごとの入力/出力トークンを記録するロギングミドルウェアを追加します。費用超過は、ほとんどの場合、少数の外れ値プロンプトから発生します。

プロンプト検証フローについては、Apidogをダウンロードし、Geminiエンドポイントのテストシナリオを構築し、応答形状のアサーションを追加してください。デバッグセッションで同じ壊れたリクエストを200回も実行することは、チームが無料枠のクォータをたった1日で無駄にする方法です。

無料枠では不十分な場合

無料版から有料版Flashにアップグレードする3つの兆候:

  1. 1日あたり1,500リクエストを複数日連続で達成している場合。 従量課金は十分に安価であるため、クォータを回避するために費やす開発時間はアップグレード費用よりも高くなります。
  2. より高いRPMスループットが必要な場合。 無料枠は1分あたり15リクエストが上限ですが、有料枠ははるかに高くなります。
  3. データ所在地または監査ログが必要な場合。 請求可能なアカウントでVertex AIに移行してください。

ほとんどのチームは、月額50~200ドルの有料Flash使用が、多くの無料枠のやりくりを不要にすることに気づくでしょう。

価格設定のリスクと注意点

計算を変える可能性のある3つのこと:

初日から費用アラートを設定してください。AI Studio(プロジェクトのクォータページ内)とVertex AI(Cloud Billing内)の両方で、1日あたりの予算上限がサポートされています。それらを使用してください。

結論

Gemini 3.5 Flashは十分に安価であり、2026年のほとんどのプロダクションAIワークロードはそこから始めるべきです。標準料金(100万トークンあたり1.50ドル/9ドル)は、他のすべてのフロンティアクラスのオプションを下回っています。バッチモードとコンテキストキャッシュにより、実質的なコストはさらに低くなります。

Flashでは不十分なワークロードの場合、正しい選択はティアを組み合わせることです。大部分はFlash、最も困難なタスクにはGPT-5.5Opus 4.7のようなフラッグシップモデルを使用します。タスクの複雑性によるルーティングは、最もレバレッジの高い費用最適化策です。

これを実践するには:

これは通常、1回の請求サイクルで元が取れる2日間の作業です。

ボタン

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる