구글은 2026년 5월 19일에 Gemini 3.5 Flash를 출시했으며, 헤드라인 가격 주장은 대담합니다: 에이전트 작업에 대해 "다른 선도 모델 비용의 절반 미만". 이것이 마케팅 문구입니다. 이 가이드에서는 실제 계산을 수행합니다.
토큰당 요금, 무료 티어 한도, 배치 모드 할인, 일반적인 작업 부하에 대한 실제 비용 시나리오, GPT-5.5 및 Claude Opus 4.7과의 비용 비교를 나란히 비교할 수 있습니다. 이 가이드를 통해 Flash 실행 비용이 정확히 얼마인지, 그리고 크게 포기하지 않고 50% 이상 절약할 수 있는 방법을 알게 될 것입니다.

빠른 요약
| 비용 유형 | 요금 |
|---|---|
| 표준 입력 | ~$1.50 / 1M 토큰 |
| 표준 출력 | ~$9.00 / 1M 토큰 |
| 배치 모드 입력 | ~$0.75 / 1M 토큰 (~50% 할인) |
| 배치 모드 출력 | ~$4.50 / 1M 토큰 (~50% 할인) |
| 캐시된 입력 | 할인된 요금 (변동) |
| 무료 티어 (AI Studio) | ~1,500 요청/일, 1M 토큰/분, 15 RPM |
| Vertex AI 신규 계정 | 90일 동안 $300 크레딧 |
2026년 5월 Google의 출시 발표 및 애그리게이터 목록에 따른 현재 요금입니다. 예산을 확정하기 전에 항상 공식 가격 페이지에서 확인하세요.
Gemini 3.5 Flash 토큰당 요금
Flash는 Gemini 2.5 이후 모든 Gemini 변형이 사용했던 동일한 종량제 모델을 사용합니다: 입력 토큰 100만 개당, 출력 토큰 100만 개당 별도로 비용을 지불합니다.
| 티어 | 입력 ($/1M) | 출력 ($/1M) |
|---|---|---|
| 표준 | ~$1.50 | ~$9.00 |
| 캐시된 입력 | 할인됨 | 해당 없음 |
| 배치 (비동기) | ~$0.75 | ~$4.50 |
두 가지 실용적인 참고 사항:
- 토큰은 단어가 아닙니다. 대략적인 규칙: 1,000 토큰 ≈ 750 영어 단어. 100,000 단어 소설은 약 133,000개의 입력 토큰입니다.
- 출력은 입력보다 약 6배 더 비쌉니다. 긴 답변을 유도하는 프롬프트는 짧은 답변을 유도하는 프롬프트보다 훨씬 더 많은 비용이 듭니다. 구조화된 출력 스키마는 일반적으로 모델이 적게 작성하기 때문에 자유 형식의 산문보다 비용을 절약합니다.
Gemini의 배치 모드 작동 방식에 대한 배경 정보는 Gemini API 배치 모드가 출시되었으며 50% 저렴합니다를 참조하세요.
무료 티어: 비용을 지불하지 않고 얻을 수 있는 것
AI Studio 무료 티어는 첫날부터 Flash와 함께 제공됩니다. 출시 시 제한 사항:
- 일일 1,500회 요청
- 분당 100만 토큰
- 분당 15회 요청
이것은 대부분의 사이드 프로젝트, 내부 프로토타입 및 소규모 자동화에 충분합니다. 워크로드가 일일 1,500회 호출 이내라면 $0를 지불합니다.
무료 티어 세부 정보:
- 신용 카드 불필요
- 유료 엔드포인트와 동일한
gemini-3.5-flash모델 - 동일한 SDK 패턴, 단지 다른 키
- 프롬프트는 Google 모델 개선에 사용될 수 있음 (AI Studio 설정에서 옵트아웃)
- 쿼터는 변경될 수 있으므로 정확한 수치에 출시 기한을 걸지 마세요
전체 설정 가이드는 Gemini 3.5 Flash를 무료로 사용하는 방법 및 무료 Google Gemini API 키를 얻는 방법을 참조하세요.
배치 모드: 대부분의 팀이 놓치는 50% 할인
워크로드가 실시간 응답을 필요로 하지 않는다면, 배치 모드는 Flash 비용을 대략 절반으로 줄여줍니다.
작동 방식:
- 최대 50,000개의 프롬프트로 배치 작업을 한 번에 제출합니다.
- Google은 24시간 이내에 이를 처리합니다.
- 입력 및 출력 모두 토큰당 약 50% 적게 지불합니다.
배치 모드가 합리적인 경우:
- 대량 문서 분석 (법률 검토, 지원 티켓 분류, 콘텐츠 검토)
- SaaS 대시보드를 위한 야간 콘텐츠 생성
- 임베딩 스타일의 사전 계산
- 이전 데이터를 다시 처리하는 마이그레이션 작업
그렇지 않은 경우:
- 채팅 UI (사용자는 24시간을 기다리지 않을 것입니다)
- 사용자 상호 작용이 있는 라이브 에이전트 루프
- 실시간으로 사용자에게 노출되는 모든 것
대부분의 프로덕션 스택은 지연 시간을 허용할 수 있는 모든 워크로드에 대해 배치 모드를 실행해야 합니다. 절약 효과는 대규모로 빠르게 합쳐집니다. 설정 세부 정보는 배치 모드 가이드를 참조하세요.
캐시된 입력: 또 다른 지렛대
프롬프트가 긴 정적 접두사(시스템 프롬프트, 대형 참조 문서, 긴 지침)를 공유하는 경우, 컨텍스트 캐싱은 캐시된 부분에 대해 할인을 제공합니다.
패턴:
- 100K 토큰 참조 문서를 한 번 캐시합니다.
- 수천 개의 쿼리에 걸쳐 재사용합니다.
- 새로운 질문에 대해서만 전체 요금을 지불하고, 캐시된 접두사에 대해서는 지불하지 않습니다.
구체적인 절감액은 캐시 히트율에 따라 달라지지만, 동일한 검색된 청크가 쿼리에 걸쳐 다시 나타나는 RAG 스타일 앱의 경우 30-60%의 입력 비용 절감을 기대할 수 있습니다.
실제 비용 시나리오
토큰 계산은 빠르게 추상적으로 변합니다. Flash의 표준 요금으로 5가지 구체적인 시나리오를 제시합니다.
시나리오 1: 고객 지원 챗봇
- 일일 10,000건의 사용자 메시지
- 평균 200개의 입력 토큰 (사용자 메시지 + 시스템 프롬프트)
- 평균 400개의 출력 토큰 (응답)
일일 비용:
- 입력: 10,000 × 200 × ($1.50 / 1M) = $3.00/일
- 출력: 10,000 × 400 × ($9.00 / 1M) = $36.00/일
- 총계: ~$39/일, ~$1,170/월
동일한 워크로드를 배치 모드로 실행하면 (배치 응답을 허용할 수 있는 경우): ~$585/월. 시스템 프롬프트에 컨텍스트 캐싱을 추가하면: 20-30% 추가 할인.
시나리오 2: 문서 Q&A SaaS
- 하루에 1,000개의 문서 분석
- 각 문서는 평균 30K 토큰 (긴 PDF)
- 각 Q&A는 500개의 출력 토큰 반환
일일 비용:
- 입력: 1,000 × 30,000 × ($1.50 / 1M) = $45.00/일
- 출력: 1,000 × 500 × ($9.00 / 1M) = $4.50/일
- 총계: ~$50/일, ~$1,500/월
이것이 Flash의 1M 컨텍스트가 빛나는 지점입니다. 청킹 인프라 없이 전체 문서를 보내기만 하면 됩니다. 주력 모델의 청크 RAG와 비교하면 API 및 인프라 비용을 몇 배 더 지불해야 할 것입니다.
시나리오 3: 장기 실행 자율 에이전트
- 에이전트 실행 1회 = ~50회 모델 턴
- 각 턴은 평균 5K 입력 (증가하는 컨텍스트) 및 1K 출력
- 하루 200회 실행
실행당 비용:
- 입력: 50 × 5,000 × ($1.50 / 1M) = $0.375
- 출력: 50 × 1,000 × ($9.00 / 1M) = $0.45
- 실행당: ~$0.83
일일 총계: 200 × $0.83 = ~$165/일, ~$4,950/월
비교를 위해, Opus 4.7 (~$15/$75 per 1M)에서 동일한 작업 부하는 실행당 약 $25 또는 일일 $5,000가 듭니다. 이것이 Google의 주장이 가리키는 에이전트 비용 격차입니다.
시나리오 4: 차트 추출 파이프라인
- 하루에 5,000개의 대시보드 스크린샷
- 각 이미지 입력: ~1,500 토큰에 해당
- 출력: 300 토큰의 구조화된 JSON
일일 비용:
- 입력: 5,000 × 1,500 × ($1.50 / 1M) = $11.25/일
- 출력: 5,000 × 300 × ($9.00 / 1M) = $13.50/일
- 총계: ~$25/일, ~$750/월
배치 모드를 추가하면 동일한 작업 부하가 월 약 $375에 실행됩니다. CharXiv 추론은 84.2%로 품질이 유지됩니다.
시나리오 5: 고용량 콘텐츠 생성
- 하루에 100,000개의 짧은 기사 생성
- 각각 500개의 입력 토큰, 2,000개의 출력 토큰
일일 비용:
- 입력: 100,000 × 500 × ($1.50 / 1M) = $75/일
- 출력: 100,000 × 2,000 × ($9.00 / 1M) = $1,800/일
- 총계: ~$1,875/일, ~$56,250/월
이를 배치 모드로 이동하면 월 청구서가 약 $28K로 줄어듭니다. 이 규모에서는 일반적인 부분을 3.1 Flash-Lite와 같이 훨씬 저렴한 모델로 라우팅하고, 더 어려운 생성 작업에는 Flash를 예약하는 것도 테스트하고 싶을 것입니다.
GPT-5.5 및 Opus 4.7 대비 비용
헤드라인 가격 비교:
| 모델 | 입력 ($/1M) | 출력 ($/1M) | Flash 대비 배율 |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1배 (기준) |
| GPT-5.5 | ~$10 | ~$30 | 입력 6.7배, 출력 3.3배 |
| Claude Opus 4.7 | ~$15 | ~$75 | 입력 10배, 출력 8.3배 |
각 모델을 통해 시나리오 1(고객 지원 채팅)을 실행하면:
- Flash: $39/일
- GPT-5.5: ~$140/일 (3.6배 더 많음)
- Opus 4.7: ~$330/일 (8.5배 더 많음)
이것이 Google의 마케팅 전략을 이끄는 에이전트 비용 격차입니다. 주력 모델은 가장 어려운 작업에서 미미하게 더 나은 품질을 제공하지만, 일상적인 작업 부하의 경우 Flash는 훨씬 저렴한 가격으로 충분합니다.
더 자세한 분석은 GPT-5.5 가격 및 세 가지 모델 비교를 참조하세요.
다른 Gemini 변형 대비 비용
| 모델 | 입력 ($/1M) | 출력 ($/1M) | 사용 시기 |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | 고용량 루틴 작업 |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | 이전 세대, 여전히 견고함 |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | 3.5 Pro 이전의 추론 중심 작업 |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 대부분의 워크로드에 대한 새로운 기본값 |
| Gemini 3.5 Pro (2026년 6월) | 미정 | 미정 | 가장 어려운 추론 작업 |
Flash는 3.x Flash 이전 모델보다 비싸지만 이전 Pro 티어보다 훨씬 저렴합니다. 대부분의 팀에게는 이것이 올바른 타협점입니다: Flash 3.x보다 좋고, Pro 3.x보다 비용이 적게 듭니다.
이전 Gemini 라인에 대해서는 3.1 Flash-Lite, 3.0 API 가격, 3 Flash를 참조하세요.
Vertex AI 가격 (운영 환경)
AI Studio 대신 Vertex AI를 통해 Flash를 호출하는 경우 토큰당 가격은 동일합니다. 차이점은 청구 및 계정 기능입니다.
- API 키 대신 서비스 계정 인증
- Cloud Logging의 감사 로그
- 데이터 상주 제어
- 무료 티어 없음, 하지만 $300 신규 계정 크레딧은 약 90일의 적당한 사용량을 커버합니다.
- 대규모로 협상 가능한 맞춤형 쿼터
대부분의 운영 팀의 경우 경로는 다음과 같습니다: AI Studio 무료 티어에서 프로토타입을 만들고, 규모에 따라 AI Studio 유료 버전으로 전환한 다음, 엔터프라이즈 제어가 필요할 때 Vertex AI로 이동합니다. 모델 동작은 세 가지 모두에서 동일합니다.
비용 최적화 팁
Flash 비용을 가장 많이 절감하는 6가지 구체적인 습관:
- 실시간 응답이 필요 없는 모든 작업에 배치 모드를 실행합니다. 50% 할인, 품질 저하 없음.
- 긴 정적 접두사를 캐시합니다. 시스템 프롬프트, 참조 문서, 지침 등 모두 좋은 후보입니다.
- 구조화된 JSON 출력을 사용합니다. 모델이 더 적게 쓰도록 강제하여 자유 형식의 산문보다 빠르고 저렴합니다.
- 작업 복잡도에 따라 라우팅합니다. 쉬운 작업은 Flash-Lite로, 어려운 작업은 Flash로, 드물게 발생하는 매우 어려운 작업은 3.5 Pro 출시 시 3.5 Pro로 라우팅합니다.
- 입력을 사전 검증합니다. 잘못된 요청에 토큰을 낭비하지 마세요. Apidog는 이러한 요청이 API에 도달하기 전에 잡아냅니다.
- 프롬프트당 비용을 추적합니다. 요청당 입력/출력 토큰을 기록하는 로깅 미들웨어를 추가합니다. 비용 초과는 거의 항상 몇 가지 특이한 프롬프트에서 발생합니다.
프롬프트 유효성 검사 흐름을 위해 Apidog를 다운로드하고 Gemini 엔드포인트에 대한 테스트 시나리오를 구축한 다음 응답 형태 어설션을 추가하세요. 디버그 세션에서 동일한 잘못된 요청을 200번 실행하는 것은 팀이 오후 한나절 동안 무료 티어 쿼터를 낭비하는 방식입니다.
무료 티어가 충분하지 않을 때
무료 Flash에서 유료 Flash로 업그레이드해야 하는 세 가지 신호:
- 여러 날 연속으로 하루 1,500개 요청 한도를 초과합니다. 종량제는 저렴하므로, 쿼터를 피하려 드는 개발 시간이 업그레이드 비용보다 더 많이 듭니다.
- 더 높은 RPM 처리량이 필요합니다. 무료 티어는 분당 15개 요청으로 제한되지만, 유료 티어는 훨씬 높습니다.
- 데이터 상주 또는 감사 로그가 필요합니다. 유료 계정으로 Vertex AI로 이동합니다.
대부분의 팀은 유료 Flash 사용량이 월 $50~200이면 많은 무료 티어 관리를 대체할 수 있음을 알게 됩니다.
가격 책정 위험 및 주시할 사항
계산에 영향을 미칠 수 있는 세 가지:
- 쿼터 강화. Google은 역사적으로 모델이 오래될수록 무료 티어 쿼터를 축소했습니다. 정확히 일일 1,500개라는 수치에 맞춰 아키텍처를 설계하지 마세요.
- Pro 출시 가격. 6월에 3.5 Pro가 출시되면 Google이 티어를 어떻게 포지셔닝하는지에 따라 Flash 가격이 오르거나 내릴 수 있습니다.
- 지역 할증료. Vertex AI 가격은 지역에 따라 다릅니다. 미국 중부가 가장 저렴한 기준이며, 일부 지역에서는 10~20%의 할증이 예상됩니다.
첫날부터 비용 알림을 설정하세요. AI Studio (프로젝트의 쿼터 페이지)와 Vertex AI (Cloud Billing) 모두 일일 예산 한도를 지원합니다. 이를 활용하세요.
결론
Gemini 3.5 Flash는 너무 저렴해서 2026년 대부분의 운영 AI 워크로드는 Flash로 시작해야 합니다. 표준 요금(1M 토큰당 $1.50 / $9)은 다른 모든 선도 모델 옵션을 능가합니다. 배치 모드와 컨텍스트 캐싱은 실제 비용을 더욱 낮춥니다.
Flash로 충분하지 않은 워크로드의 경우, 올바른 방법은 여러 티어를 혼합하는 것입니다: 대량 작업에는 Flash, 가장 어려운 작업에는 GPT-5.5 또는 Opus 4.7과 같은 주력 모델을 사용합니다. 작업 복잡도에 따른 라우팅은 가장 효과적인 비용 최적화 방법입니다.
이를 실제로 적용하려면:
- Apidog를 다운로드하고 Gemini 3.5 Flash 엔드포인트를 요청으로 저장합니다.
- 20개의 실제 프롬프트에서 Flash와 현재 모델을 비교하는 작은 평가를 구축합니다.
- 토큰 수를 기록하고 월별 비용을 추정합니다.
- Flash가 더 비싼 모델을 대체할 수 있는 경우와 그렇지 않은 경우를 결정합니다.
이것은 보통 한 번의 청구 주기 안에 비용을 회수할 수 있는 이틀간의 작업입니다.
