Googleは2026年5月19日にGemini 3.5 Flashを出荷し、その大胆な主要価格設定の主張は「エージェントタスクにおいて他のフロンティアモデルの半額以下」というものです。これがマーケティングラインですが、このガイドでは実際の費用を計算します。
トークンあたりの料金、無料枠の制限、バッチモード割引、一般的なワークロードにおける実際の費用シナリオ、そしてGPT-5.5およびClaude Opus 4.7との並列での費用比較を見つけることができます。読み終える頃には、Flashの実行費用が正確にわかり、性能をほとんど犠牲にせずに50%以上節約できる場所もわかるでしょう。

クイックサマリー
| 費用タイプ | 料金 |
|---|---|
| 標準入力 | 約1.50ドル / 100万トークン |
| 標準出力 | 約9.00ドル / 100万トークン |
| バッチモード入力 | 約0.75ドル / 100万トークン (約50%オフ) |
| バッチモード出力 | 約4.50ドル / 100万トークン (約50%オフ) |
| キャッシュ入力 | 割引料金 (変動) |
| 無料枠 (AI Studio) | 1日あたり約1,500リクエスト、1分あたり100万トークン、1分あたり15リクエスト |
| Vertex AI 新規アカウント | 90日間で300ドル分のクレジット |
料金はGoogleの発表およびアグリゲーターのリストに基づき、2026年5月現在のものです。予算を確定する前に、必ず公式料金ページで確認してください。
Gemini 3.5 Flash トークンあたりの料金
Flashは、Gemini 2.5以降のすべてのGemini派生モデルが採用している従量課金モデルを使用しています。つまり、100万入力トークンごと、および100万出力トークンごとに個別に料金を支払います。
| ティア | 入力 ($/100万) | 出力 ($/100万) |
|---|---|---|
| 標準 | 約1.50ドル | 約9.00ドル |
| キャッシュ入力 | 割引 | 該当なし |
| バッチ (非同期) | 約0.75ドル | 約4.50ドル |
2つの実用的な注意点:
- トークンは単語ではありません。 大まかな目安:1,000トークン ≈ 英語750単語。10万語の小説は、約13.3万入力トークンに相当します。
- 出力は入力よりも約6倍高価です。 長い回答を引き出すプロンプトは、短い回答を得るプロンプトよりもはるかに費用がかかります。構造化された出力スキーマは、モデルが記述する量を減らすため、自由形式の散文よりも通常費用を節約できます。
Geminiのバッチモードの仕組みについては、「Gemini APIバッチモードが登場し、50%安くなった」を参照してください。
無料枠:料金を支払わずに得られるもの
AI Studioの無料枠は、Flashとともに初日から提供されます。提供開始時の制限は以下の通りです。
- 1日あたり1,500リクエスト
- 1分あたり100万トークン
- 1分あたり15リクエスト
これは、ほとんどのサイドプロジェクト、社内プロトタイプ、小規模な自動化に十分です。1日あたり1,500回のリクエストに収まるワークロードであれば、料金は0ドルです。
無料枠の具体的な内容:
- クレジットカード不要
- 有料エンドポイントと同じ
gemini-3.5-flashモデル - 同じSDKパターンですが、異なるキーを使用
- プロンプトはGoogleのモデル改善のために使用される場合があります(AI Studioの設定でオプトアウト可能)
- クォータは変更される可能性があるため、ローンチの期限を正確な数値に依存しないでください。
詳細な設定手順については、「Gemini 3.5 Flashを無料で使う方法」と「無料でGoogle Gemini APIキーを取得する方法」を参照してください。
バッチモード:ほとんどのチームが見落とす50%割引
ワークロードがリアルタイム応答を必要としない場合、バッチモードはFlashのコストをほぼ半減させます。
仕組み:
- 最大50,000のプロンプトを一度にバッチジョブとして送信
- Googleは24時間以内にそれらを処理
- 入力と出力の両方で、トークンあたり約50%安くなる
バッチモードが適している場合:
- 大量文書分析(法的レビュー、サポートチケットのトリアージ、コンテンツモデレーション)
- SaaSダッシュボード向けの一夜コンテンツ生成
- 埋め込み形式の事前計算
- 履歴データを再処理するマイグレーションジョブ
適していない場合:
- チャットUI(ユーザーは24時間も待たない)
- ユーザーインタラクションを伴うライブエージェントループ
- リアルタイムでユーザーに面するあらゆるもの
ほとんどのプロダクションスタックは、レイテンシーを許容できるすべてのワークロードでバッチモードを実行すべきです。規模が大きくなるにつれて節約効果は急速に増大します。設定の詳細については、弊社のバッチモードガイドを参照してください。
キャッシュ入力:もう一つの手段
プロンプトが長い静的なプレフィックス(システムプロンプト、大規模な参照文書、長い指示など)を共有する場合、コンテキストキャッシュにより、キャッシュされた部分に対して割引が適用されます。
パターン:
- 10万トークンの参照文書を一度キャッシュする
- 数千のクエリでそれを再利用する
- 新しい質問に対してのみ全額を支払い、キャッシュされたプレフィックスには支払わない
具体的な節約額はキャッシュヒット率に依存しますが、同じ検索されたチャンクが複数のクエリで返されるRAGスタイルのアプリケーションでは、入力コストが30~60%削減されると予想されます。
実世界の費用シナリオ
トークンの計算はすぐに抽象的になります。ここでは、Flashの標準料金での5つの具体的なシナリオを紹介します。
シナリオ1:顧客サポートチャットボット
- 1日あたり10,000件のユーザーメッセージ
- 平均200入力トークン(ユーザーメッセージ + システムプロンプト)
- 平均400出力トークン(応答)
1日の費用:
- 入力:10,000 × 200 × (1.50ドル / 100万) = 3.00ドル/日
- 出力:10,000 × 400 × (9.00ドル / 100万) = 36.00ドル/日
- 合計:約39ドル/日、約1,170ドル/月
同じワークロードをバッチモードで実行する場合(バッチ処理された応答を許容できる場合):月額約585ドル。システムプロンプトにコンテキストキャッシュを追加すると、さらに20〜30%割引になります。
シナリオ2:ドキュメントQ&A SaaS
- 1日あたり1,000件のドキュメントを分析
- 各ドキュメントは平均3万トークン(長いPDF)
- 各Q&Aは500出力トークンを返す
1日の費用:
- 入力:1,000 × 30,000 × (1.50ドル / 100万) = 45.00ドル/日
- 出力:1,000 × 500 × (9.00ドル / 100万) = 4.50ドル/日
- 合計:約50ドル/日、約1,500ドル/月
Flashの100万トークンのコンテキストが輝くのはここです。チャンキングインフラは不要で、ドキュメント全体を送信するだけです。フラッグシップモデルを用いたチャンク化RAGと比較すると、APIとインフラで何倍も費用がかかるでしょう。
シナリオ3:長時間稼働する自律エージェント
- エージェントの1回の実行 = モデルの約50ターン
- 各ターンは平均5千入力(コンテキストが増加)と1千出力
- 1日あたり200回実行
実行あたりの費用:
- 入力:50 × 5,000 × (1.50ドル / 100万) = 0.375ドル
- 出力:50 × 1,000 × (9.00ドル / 100万) = 0.45ドル
- 1実行あたり:約0.83ドル
1日の合計:200 × 0.83ドル = 約165ドル/日、約4,950ドル/月
比較として、Opus 4.7(100万あたり約15ドル/75ドル)で同じワークロードを実行すると、1実行あたり約25ドル、または1日あたり5,000ドルかかります。これこそが、Googleが指摘するエージェントタスクの費用差です。
シナリオ4:グラフ抽出パイプライン
- 1日あたり5,000枚のダッシュボードスクリーンショット
- 各画像入力:約1,500トークンに相当
- 出力:300トークンの構造化JSON
1日の費用:
- 入力:5,000 × 1,500 × (1.50ドル / 100万) = 11.25ドル/日
- 出力:5,000 × 300 × (9.00ドル / 100万) = 13.50ドル/日
- 合計:約25ドル/日、約750ドル/月
バッチモードを追加すると、同じワークロードが月額約375ドルで実行されます。CharXivの推論が84.2%ということは、品質が維持されることを意味します。
シナリオ5:大量コンテンツ生成
- 1日あたり10万件の短い記事を生成
- 各記事につき500入力トークン、2,000出力トークン
1日の費用:
- 入力:100,000 × 500 × (1.50ドル / 100万) = 75ドル/日
- 出力:100,000 × 2,000 × (9.00ドル / 100万) = 1,800ドル/日
- 合計:約1,875ドル/日、約56,250ドル/月
これをバッチモードに移行すると、月額料金は約2万8千ドルに下がります。この規模では、ルーチン的な部分は3.1 Flash-Liteのようなさらに安価なモデルにルーティングし、Flashはより困難な生成のために予約するテストも行いたくなるでしょう。
GPT-5.5およびOpus 4.7との費用比較
主要な価格比較:
| モデル | 入力 ($/100万) | 出力 ($/100万) | Flashに対する倍率 |
|---|---|---|---|
| Gemini 3.5 Flash | 約1.50ドル | 約9.00ドル | 1倍 (ベースライン) |
| GPT-5.5 | 約10ドル | 約30ドル | 入力6.7倍、出力3.3倍 |
| Claude Opus 4.7 | 約15ドル | 約75ドル | 入力10倍、出力8.3倍 |
シナリオ1(顧客サポートチャット)をそれぞれで実行:
- Flash:39ドル/日
- GPT-5.5:約140ドル/日 (3.6倍高価)
- Opus 4.7:約330ドル/日 (8.5倍高価)
これこそが、Googleのマーケティング戦略を支えるエージェントタスクの費用差です。フラッグシップモデルは最も困難なタスクでわずかに優れた品質を提供しますが、日常的なワークロードには、Flashがわずかな費用で十分です。
より詳細な分析については、「GPT-5.5の価格」と「3モデル比較」を参照してください。
他のGemini派生モデルとの費用比較
| モデル | 入力 ($/100万) | 出力 ($/100万) | 使用場面 |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | 約0.40ドル | 約2.00ドル | 大量の定型作業 |
| Gemini 3 Flash | 約0.50ドル | 約3.00ドル | 旧世代、依然として堅実 |
| Gemini 3.1 Pro | 約2.00ドル | 約12.00ドル | 3.5 Pro登場以前の推論重視の作業 |
| Gemini 3.5 Flash | 約1.50ドル | 約9.00ドル | ほとんどのワークロードの新しいデフォルト |
| Gemini 3.5 Pro (2026年6月) | 未定 | 未定 | 最も困難な推論タスク |
Flashは3.x Flashの先行モデルよりも高価ですが、以前のProティアよりも信頼できるほど安価です。ほとんどのチームにとって、これは正しいトレードオフです。Flash 3.xよりも優れており、Pro 3.xよりも費用がかかりません。
以前のGeminiラインについては、3.1 Flash-Lite、3.0 API価格、および3 Flashを参照してください。
Vertex AI価格設定(本番環境)
AI Studioの代わりにVertex AIを介してFlashを呼び出す場合、トークンあたりの料金は同じです。違いは請求とアカウント機能です。
- APIキーの代わりにサービスアカウント認証
- Cloud Loggingでの監査ログ
- データ所在地管理
- 無料枠はありませんが、新規アカウントの300ドルクレジットで約90日間の適度な使用をカバー
- 規模に応じて交渉可能なカスタムクォータ
ほとんどのプロダクションチームにとっての道筋は、AI Studioの無料枠でプロトタイプを作成し、規模に合わせてAI Studioの有料版に切り替え、エンタープライズ管理が必要になったらVertex AIに移行することです。モデルの動作は3つのすべてで同じです。
費用最適化のヒント
Flashの請求額を最も削減する6つの具体的な習慣:
- リアルタイム応答を必要としないものはすべてバッチモードで実行します。 50%割引で、品質の損失はありません。
- 長い静的プレフィックスをキャッシュします。 システムプロンプト、参照文書、指示はすべて良い候補です。
- 構造化されたJSON出力を使用します。 モデルに記述を少なくさせ、自由形式の散文よりも高速かつ安価になります。
- タスクの複雑さでルーティングします。 簡単なタスクはFlash-Liteへ。難しいタスクはFlashへ。稀な非常に困難なタスクは、3.5 Proが出荷されたらそちらへ。
- 入力を事前検証します。 不正なリクエストでトークンを無駄にしないでください。ApidogはAPIに到達する前にこれらを検出します。
- プロンプトごとの費用を追跡します。 リクエストごとの入力/出力トークンを記録するロギングミドルウェアを追加します。費用超過は、ほとんどの場合、少数の外れ値プロンプトから発生します。
プロンプト検証フローについては、Apidogをダウンロードし、Geminiエンドポイントのテストシナリオを構築し、応答形状のアサーションを追加してください。デバッグセッションで同じ壊れたリクエストを200回も実行することは、チームが無料枠のクォータをたった1日で無駄にする方法です。
無料枠では不十分な場合
無料版から有料版Flashにアップグレードする3つの兆候:
- 1日あたり1,500リクエストを複数日連続で達成している場合。 従量課金は十分に安価であるため、クォータを回避するために費やす開発時間はアップグレード費用よりも高くなります。
- より高いRPMスループットが必要な場合。 無料枠は1分あたり15リクエストが上限ですが、有料枠ははるかに高くなります。
- データ所在地または監査ログが必要な場合。 請求可能なアカウントでVertex AIに移行してください。
ほとんどのチームは、月額50~200ドルの有料Flash使用が、多くの無料枠のやりくりを不要にすることに気づくでしょう。
価格設定のリスクと注意点
計算を変える可能性のある3つのこと:
- クォータの厳格化。 Googleは歴史的に、モデルが古くなるにつれて無料枠のクォータを狭めてきました。正確な1日1,500という数値に基づいてアーキテクチャを設計しないでください。
- Proのリリース価格。 6月に3.5 Proが登場する際、Googleが各ティアをどのように位置づけるかによって、Flashの価格が上下する可能性があります。
- 地域による追加料金。 Vertex AIの価格は地域によって異なります。米国中部が最も安い参考価格であり、一部の地域では10~20%のプレミアムが予想されます。
初日から費用アラートを設定してください。AI Studio(プロジェクトのクォータページ内)とVertex AI(Cloud Billing内)の両方で、1日あたりの予算上限がサポートされています。それらを使用してください。
結論
Gemini 3.5 Flashは十分に安価であり、2026年のほとんどのプロダクションAIワークロードはそこから始めるべきです。標準料金(100万トークンあたり1.50ドル/9ドル)は、他のすべてのフロンティアクラスのオプションを下回っています。バッチモードとコンテキストキャッシュにより、実質的なコストはさらに低くなります。
Flashでは不十分なワークロードの場合、正しい選択はティアを組み合わせることです。大部分はFlash、最も困難なタスクにはGPT-5.5やOpus 4.7のようなフラッグシップモデルを使用します。タスクの複雑性によるルーティングは、最もレバレッジの高い費用最適化策です。
これを実践するには:
- Apidogをダウンロードし、Gemini 3.5 Flashエンドポイントをリクエストとして保存します
- 20の実際のプロンプトでFlashと現在のモデルを比較する小規模な評価を作成します
- トークン数を記録し、月額費用を推定します
- Flashがより高価なモデルの代替となる場所とならない場所を決定します
これは通常、1回の請求サイクルで元が取れる2日間の作業です。
ボタン
