Gemini 3.5 Flash 가격: 실제 비용은 얼마일까?

Ashley Innocent

Ashley Innocent

20 May 2026

Gemini 3.5 Flash 가격: 실제 비용은 얼마일까?

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

구글은 2026년 5월 19일에 Gemini 3.5 Flash를 출시했으며, 헤드라인 가격 주장은 대담합니다: 에이전트 작업에 대해 "다른 선도 모델 비용의 절반 미만". 이것이 마케팅 문구입니다. 이 가이드에서는 실제 계산을 수행합니다.

토큰당 요금, 무료 티어 한도, 배치 모드 할인, 일반적인 작업 부하에 대한 실제 비용 시나리오, GPT-5.5 및 Claude Opus 4.7과의 비용 비교를 나란히 비교할 수 있습니다. 이 가이드를 통해 Flash 실행 비용이 정확히 얼마인지, 그리고 크게 포기하지 않고 50% 이상 절약할 수 있는 방법을 알게 될 것입니다.

빠른 요약

비용 유형 요금
표준 입력 ~$1.50 / 1M 토큰
표준 출력 ~$9.00 / 1M 토큰
배치 모드 입력 ~$0.75 / 1M 토큰 (~50% 할인)
배치 모드 출력 ~$4.50 / 1M 토큰 (~50% 할인)
캐시된 입력 할인된 요금 (변동)
무료 티어 (AI Studio) ~1,500 요청/일, 1M 토큰/분, 15 RPM
Vertex AI 신규 계정 90일 동안 $300 크레딧

2026년 5월 Google의 출시 발표 및 애그리게이터 목록에 따른 현재 요금입니다. 예산을 확정하기 전에 항상 공식 가격 페이지에서 확인하세요.

Gemini 3.5 Flash 토큰당 요금

Flash는 Gemini 2.5 이후 모든 Gemini 변형이 사용했던 동일한 종량제 모델을 사용합니다: 입력 토큰 100만 개당, 출력 토큰 100만 개당 별도로 비용을 지불합니다.

티어 입력 ($/1M) 출력 ($/1M)
표준 ~$1.50 ~$9.00
캐시된 입력 할인됨 해당 없음
배치 (비동기) ~$0.75 ~$4.50

두 가지 실용적인 참고 사항:

Gemini의 배치 모드 작동 방식에 대한 배경 정보는 Gemini API 배치 모드가 출시되었으며 50% 저렴합니다를 참조하세요.

무료 티어: 비용을 지불하지 않고 얻을 수 있는 것

AI Studio 무료 티어는 첫날부터 Flash와 함께 제공됩니다. 출시 시 제한 사항:

이것은 대부분의 사이드 프로젝트, 내부 프로토타입 및 소규모 자동화에 충분합니다. 워크로드가 일일 1,500회 호출 이내라면 $0를 지불합니다.

무료 티어 세부 정보:

전체 설정 가이드는 Gemini 3.5 Flash를 무료로 사용하는 방법무료 Google Gemini API 키를 얻는 방법을 참조하세요.

배치 모드: 대부분의 팀이 놓치는 50% 할인

워크로드가 실시간 응답을 필요로 하지 않는다면, 배치 모드는 Flash 비용을 대략 절반으로 줄여줍니다.

작동 방식:

  1. 최대 50,000개의 프롬프트로 배치 작업을 한 번에 제출합니다.
  2. Google은 24시간 이내에 이를 처리합니다.
  3. 입력 및 출력 모두 토큰당 약 50% 적게 지불합니다.

배치 모드가 합리적인 경우:

그렇지 않은 경우:

대부분의 프로덕션 스택은 지연 시간을 허용할 수 있는 모든 워크로드에 대해 배치 모드를 실행해야 합니다. 절약 효과는 대규모로 빠르게 합쳐집니다. 설정 세부 정보는 배치 모드 가이드를 참조하세요.

캐시된 입력: 또 다른 지렛대

프롬프트가 긴 정적 접두사(시스템 프롬프트, 대형 참조 문서, 긴 지침)를 공유하는 경우, 컨텍스트 캐싱은 캐시된 부분에 대해 할인을 제공합니다.

패턴:

구체적인 절감액은 캐시 히트율에 따라 달라지지만, 동일한 검색된 청크가 쿼리에 걸쳐 다시 나타나는 RAG 스타일 앱의 경우 30-60%의 입력 비용 절감을 기대할 수 있습니다.

실제 비용 시나리오

토큰 계산은 빠르게 추상적으로 변합니다. Flash의 표준 요금으로 5가지 구체적인 시나리오를 제시합니다.

시나리오 1: 고객 지원 챗봇

일일 비용:

동일한 워크로드를 배치 모드로 실행하면 (배치 응답을 허용할 수 있는 경우): ~$585/월. 시스템 프롬프트에 컨텍스트 캐싱을 추가하면: 20-30% 추가 할인.

시나리오 2: 문서 Q&A SaaS

일일 비용:

이것이 Flash의 1M 컨텍스트가 빛나는 지점입니다. 청킹 인프라 없이 전체 문서를 보내기만 하면 됩니다. 주력 모델의 청크 RAG와 비교하면 API 및 인프라 비용을 몇 배 더 지불해야 할 것입니다.

시나리오 3: 장기 실행 자율 에이전트

실행당 비용:

일일 총계: 200 × $0.83 = ~$165/일, ~$4,950/월

비교를 위해, Opus 4.7 (~$15/$75 per 1M)에서 동일한 작업 부하는 실행당 약 $25 또는 일일 $5,000가 듭니다. 이것이 Google의 주장이 가리키는 에이전트 비용 격차입니다.

시나리오 4: 차트 추출 파이프라인

일일 비용:

배치 모드를 추가하면 동일한 작업 부하가 월 약 $375에 실행됩니다. CharXiv 추론은 84.2%로 품질이 유지됩니다.

시나리오 5: 고용량 콘텐츠 생성

일일 비용:

이를 배치 모드로 이동하면 월 청구서가 약 $28K로 줄어듭니다. 이 규모에서는 일반적인 부분을 3.1 Flash-Lite와 같이 훨씬 저렴한 모델로 라우팅하고, 더 어려운 생성 작업에는 Flash를 예약하는 것도 테스트하고 싶을 것입니다.

GPT-5.5 및 Opus 4.7 대비 비용

헤드라인 가격 비교:

모델 입력 ($/1M) 출력 ($/1M) Flash 대비 배율
Gemini 3.5 Flash ~$1.50 ~$9.00 1배 (기준)
GPT-5.5 ~$10 ~$30 입력 6.7배, 출력 3.3배
Claude Opus 4.7 ~$15 ~$75 입력 10배, 출력 8.3배

각 모델을 통해 시나리오 1(고객 지원 채팅)을 실행하면:

이것이 Google의 마케팅 전략을 이끄는 에이전트 비용 격차입니다. 주력 모델은 가장 어려운 작업에서 미미하게 더 나은 품질을 제공하지만, 일상적인 작업 부하의 경우 Flash는 훨씬 저렴한 가격으로 충분합니다.

더 자세한 분석은 GPT-5.5 가격세 가지 모델 비교를 참조하세요.

다른 Gemini 변형 대비 비용

모델 입력 ($/1M) 출력 ($/1M) 사용 시기
Gemini 3.1 Flash-Lite ~$0.40 ~$2.00 고용량 루틴 작업
Gemini 3 Flash ~$0.50 ~$3.00 이전 세대, 여전히 견고함
Gemini 3.1 Pro ~$2.00 ~$12.00 3.5 Pro 이전의 추론 중심 작업
Gemini 3.5 Flash ~$1.50 ~$9.00 대부분의 워크로드에 대한 새로운 기본값
Gemini 3.5 Pro (2026년 6월) 미정 미정 가장 어려운 추론 작업

Flash는 3.x Flash 이전 모델보다 비싸지만 이전 Pro 티어보다 훨씬 저렴합니다. 대부분의 팀에게는 이것이 올바른 타협점입니다: Flash 3.x보다 좋고, Pro 3.x보다 비용이 적게 듭니다.

이전 Gemini 라인에 대해서는 3.1 Flash-Lite, 3.0 API 가격, 3 Flash를 참조하세요.

Vertex AI 가격 (운영 환경)

AI Studio 대신 Vertex AI를 통해 Flash를 호출하는 경우 토큰당 가격은 동일합니다. 차이점은 청구 및 계정 기능입니다.

대부분의 운영 팀의 경우 경로는 다음과 같습니다: AI Studio 무료 티어에서 프로토타입을 만들고, 규모에 따라 AI Studio 유료 버전으로 전환한 다음, 엔터프라이즈 제어가 필요할 때 Vertex AI로 이동합니다. 모델 동작은 세 가지 모두에서 동일합니다.

비용 최적화 팁

Flash 비용을 가장 많이 절감하는 6가지 구체적인 습관:

  1. 실시간 응답이 필요 없는 모든 작업에 배치 모드를 실행합니다. 50% 할인, 품질 저하 없음.
  2. 긴 정적 접두사를 캐시합니다. 시스템 프롬프트, 참조 문서, 지침 등 모두 좋은 후보입니다.
  3. 구조화된 JSON 출력을 사용합니다. 모델이 더 적게 쓰도록 강제하여 자유 형식의 산문보다 빠르고 저렴합니다.
  4. 작업 복잡도에 따라 라우팅합니다. 쉬운 작업은 Flash-Lite로, 어려운 작업은 Flash로, 드물게 발생하는 매우 어려운 작업은 3.5 Pro 출시 시 3.5 Pro로 라우팅합니다.
  5. 입력을 사전 검증합니다. 잘못된 요청에 토큰을 낭비하지 마세요. Apidog는 이러한 요청이 API에 도달하기 전에 잡아냅니다.
  6. 프롬프트당 비용을 추적합니다. 요청당 입력/출력 토큰을 기록하는 로깅 미들웨어를 추가합니다. 비용 초과는 거의 항상 몇 가지 특이한 프롬프트에서 발생합니다.

프롬프트 유효성 검사 흐름을 위해 Apidog를 다운로드하고 Gemini 엔드포인트에 대한 테스트 시나리오를 구축한 다음 응답 형태 어설션을 추가하세요. 디버그 세션에서 동일한 잘못된 요청을 200번 실행하는 것은 팀이 오후 한나절 동안 무료 티어 쿼터를 낭비하는 방식입니다.

무료 티어가 충분하지 않을 때

무료 Flash에서 유료 Flash로 업그레이드해야 하는 세 가지 신호:

  1. 여러 날 연속으로 하루 1,500개 요청 한도를 초과합니다. 종량제는 저렴하므로, 쿼터를 피하려 드는 개발 시간이 업그레이드 비용보다 더 많이 듭니다.
  2. 더 높은 RPM 처리량이 필요합니다. 무료 티어는 분당 15개 요청으로 제한되지만, 유료 티어는 훨씬 높습니다.
  3. 데이터 상주 또는 감사 로그가 필요합니다. 유료 계정으로 Vertex AI로 이동합니다.

대부분의 팀은 유료 Flash 사용량이 월 $50~200이면 많은 무료 티어 관리를 대체할 수 있음을 알게 됩니다.

가격 책정 위험 및 주시할 사항

계산에 영향을 미칠 수 있는 세 가지:

첫날부터 비용 알림을 설정하세요. AI Studio (프로젝트의 쿼터 페이지)와 Vertex AI (Cloud Billing) 모두 일일 예산 한도를 지원합니다. 이를 활용하세요.

결론

Gemini 3.5 Flash는 너무 저렴해서 2026년 대부분의 운영 AI 워크로드는 Flash로 시작해야 합니다. 표준 요금(1M 토큰당 $1.50 / $9)은 다른 모든 선도 모델 옵션을 능가합니다. 배치 모드와 컨텍스트 캐싱은 실제 비용을 더욱 낮춥니다.

Flash로 충분하지 않은 워크로드의 경우, 올바른 방법은 여러 티어를 혼합하는 것입니다: 대량 작업에는 Flash, 가장 어려운 작업에는 GPT-5.5 또는 Opus 4.7과 같은 주력 모델을 사용합니다. 작업 복잡도에 따른 라우팅은 가장 효과적인 비용 최적화 방법입니다.

이를 실제로 적용하려면:

이것은 보통 한 번의 청구 주기 안에 비용을 회수할 수 있는 이틀간의 작업입니다.

버튼

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요