요약
Claude Sonnet 4.6은 백만 입력 토큰당 $3, 백만 출력 토큰당 $15의 비용이 듭니다. 이는 Sonnet 4.5와 동일한 가격이며, Opus에 가까운 성능을 제공합니다. 프롬프트 캐싱을 사용하면 캐시 읽기 비용이 M토큰당 $0.30으로 감소합니다(90% 절감). 배치 API는 비용을 절반으로 줄여 M토큰당 $1.50/$7.50이 됩니다. 100만 토큰 컨텍스트 창(베타)은 20만 토큰을 초과하는 요청에 대해 M토큰당 $6/$22.50의 긴 컨텍스트 요금을 적용합니다.
Claude Sonnet 4.6 기본 요금
Claude Sonnet 4.6은 이전 버전과 동일한 가격대를 유지하면서도 훨씬 더 나은 결과를 제공합니다. 핵심 요금은 다음과 같습니다:
| 요금 등급 | 입력 토큰 | 출력 토큰 |
|---|---|---|
| 표준 | $3.00 / M토큰 | $15.00 / M토큰 |
| 배치 API | $1.50 / M토큰 | $7.50 / M토큰 |
| 캐시 쓰기 (5분) | $3.75 / M토큰 | — |
| 캐시 쓰기 (1시간) | $6.00 / M토큰 | — |
| 캐시 읽기 | $0.30 / M토큰 | — |
| 긴 컨텍스트 >200K (표준) | $6.00 / M토큰 | $22.50 / M토큰 |
| 긴 컨텍스트 >200K (배치) | $3.00 / M토큰 | $11.25 / M토큰 |
M토큰 = 백만 토큰. 모든 가격은 USD 기준입니다.
여기서 가치 이야기는 무시하기 어렵습니다. 초기 테스터들은 직접 비교에서 59%의 경우 이전 프리미엄 모델인 Opus 4.5보다 Sonnet 4.6을 선호했으며, 비용은 60%에 불과했습니다.

대부분의 코딩, 분석 및 에이전트 작업에서 더 이상 Opus 수준의 결과를 얻기 위해 Opus 가격을 지불할 필요가 없습니다.
기능별 전체 요금 분석
표준 API 요금
표준 요금은 Anthropic API를 통해 이루어지는 모든 동기식 API 호출에 적용됩니다:
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[{"role": "user", "content": "Summarize this document."}]
)
# 정확한 토큰 사용량 확인
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")
# 비용 계산
input_cost = response.usage.input_tokens / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")
500 토큰 입력 및 300 토큰 출력의 일반적인 API 호출의 경우 비용은 대략 $0.0060입니다. 이는 표준 요금으로 요청당 1센트 미만입니다.
프롬프트 캐싱 요금
프롬프트 캐싱은 Sonnet 4.6의 가장 효과적인 비용 절감 수단입니다. 프롬프트의 일부를 서버 측에 저장하고 캐시 적중 시 훨씬 적은 비용을 청구합니다.
캐시 쓰기 요금:- 5분 캐시: M토큰당 $3.75 (기본 입력 가격의 1.25배) - 1시간 캐시: M토큰당 $6.00 (기본 입력 가격의 2배)
캐시 읽기 요금:- M토큰당 $0.30 — 표준 입력 가격의 10분의 1
시스템 프롬프트가 10,000 토큰이고 하루에 1,000개의 요청을 처리하는 경우: - 캐싱 없음: 10,000 × 1,000 × M토큰당 $3 = 일 $30- 캐싱 사용 (한 번 쓰기, 999회 읽기): $3.75 + (999 × 0.30) × 10,000/M토큰 ≈ 일 $3.04
정적 시스템 프롬프트만으로도 90%의 절감 효과입니다.
import anthropic
client = anthropic.Anthropic()
# 비용이 많이 드는 정적 콘텐츠를 캐싱하도록 표시
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
"cache_control": {"type": "ephemeral"} # 이 블록 캐시
}
],
messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)
# 캐시에서 온 토큰과 새 토큰 비교 확인
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens: {usage.cache_read_input_tokens}")
print(f"Uncached tokens: {usage.input_tokens}")
어떤 캐시 지속 시간을 사용해야 하는가:- 5분 캐시: 고빈도 호출, 버스트 트래픽, 짧은 대화 기간 - 1시간 캐시: 백그라운드 처리 파이프라인, 간격이 긴 배치 작업, 에이전트 루프
배치 API 요금
배치 API는 비동기 처리(결과는 24시간 이내에, 일반적으로 훨씬 더 빨리 사용 가능)를 대가로 입력 및 출력 토큰 모두에 대해 50% 할인된 가격을 제공합니다.
| 표준 | 배치 API | |
|---|---|---|
| 입력 | $3.00/M토큰 | $1.50/M토큰 |
| 출력 | $15.00/M토큰 | $7.50/M토큰 |
배치 API에 가장 적합한 사용 사례:- 콘텐츠 검수 파이프라인 - 대규모 문서 분류 - 야간 데이터 강화 - 대규모 데이터셋에 대한 임베딩 또는 요약 생성 - 지연 시간이 중요하지 않은 비대화형 처리
M토큰당 $1.50/$7.50으로, 각각 500 입력 토큰과 100 출력 토큰을 가진 백만 개의 문서를 처리하는 비용은 다음과 같습니다: - 입력: 5억 토큰 × M토큰당 $1.50 = $750- 출력: 1억 토큰 × M토큰당 $7.50 = $750- 총계: 100만 문서에 $1,500 (문서당 약 $0.0015)
배치 API: 실시간이 아닌 워크로드에 대한 50% 할인
배치 처리는 간단합니다. 요청을 제출하고 절반 가격으로 비동기적으로 결과를 받습니다. 단점은 지연 시간입니다. 결과는 24시간 이내에 도착하지만, 일반적으로 훨씬 더 빠릅니다.
import anthropic, time
client = anthropic.Anthropic()
def batch_classify(texts: list[str]) -> list[str]:
"""배치 API 요율로 텍스트 목록을 분류합니다."""
# 배치 제출
requests = [
{
"custom_id": f"item-{i}",
"params": {
"model": "claude-sonnet-4-6",
"max_tokens": 20,
"messages": [{
"role": "user",
"content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
}]
}
}
for i, text in enumerate(texts)
]
batch = client.messages.batches.create(requests=requests)
# 완료될 때까지 폴링
while True:
status = client.messages.batches.retrieve(batch.id)
if status.processing_status == "ended":
break
time.sleep(60)
# 순서대로 결과 수집
results = {}
for result in client.messages.batches.results(batch.id):
if result.result.type == "succeeded":
results[result.custom_id] = result.result.message.content[0].text.strip()
return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]
긴 컨텍스트(100만 토큰) 요금
context-1m-2025-08-07 베타 헤더를 통해 100만 토큰 컨텍스트 창을 활성화하면, 20만 입력 토큰을 초과하는 요청에 대해 더 높은 요금이 부과됩니다.
긴 컨텍스트 요금표
| 입력 토큰 | 입력 가격 | 출력 가격 |
|---|---|---|
| ≤ 20만 | $3.00/M토큰 | $15.00/M토큰 |
| > 20만 | $6.00/M토큰 | $22.50/M토큰 |
20만 임계값은 다음을 포함하는 총 입력 토큰을 기준으로 합니다: - input_tokens (표준 입력) - cache_creation_input_tokens (프롬프트 캐싱 사용 시) - cache_read_input_tokens (프롬프트 캐싱 사용 시)
총계가 20만을 초과하는 경우, 해당 요청의 모든 토큰은 더 높은 요금으로 청구됩니다.
긴 컨텍스트 + 배치 API
배치 API 50% 할인은 긴 컨텍스트 요금과 중복 적용됩니다:
| 시나리오 | 입력 요율 | 출력 요율 |
|---|---|---|
| 표준 | $3.00/M토큰 | $15.00/M토큰 |
| 긴 컨텍스트 (>20만) | $6.00/M토큰 | $22.50/M토큰 |
| 배치 API | $1.50/M토큰 | $7.50/M토큰 |
| 긴 컨텍스트 + 배치 | $3.00/M토큰 | $11.25/M토큰 |
배치 API를 통해 대규모 문서를 일괄 처리하면 긴 컨텍스트 비용을 관리할 수 있습니다.
도구 및 기능 요금
일부 도구는 토큰 비용 외에 별도의 요금이 부과됩니다.
웹 검색 도구
검색 1,000회당 $10.00
+ 검색으로 생성된 콘텐츠에 대한 표준 토큰 비용
각 웹 검색 호출은 결과 수와 관계없이 1회 사용으로 간주됩니다. 검색 오류 발생 시 요금은 청구되지 않습니다.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
betas=["code-execution-web-tools-2026-02-09"],
tools=[{"type": "web_search_20260209", "name": "web_search"}],
messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)
usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Web searches used: {search_count.get('web_search_requests', 0)}")
# 각 검색: $0.01
코드 실행 도구
웹 검색 또는 웹 가져오기와 함께 사용 시 무료 (web_search_20260209 또는 web_fetch_20260209 도구 버전 사용 시).
단독으로 사용 시: - 조직당 월 1,550시간 무료 - 무료 사용량을 초과하는 경우 컨테이너당 시간당 $0.05 - 최소 청구 단위: 5분
대부분의 개발 및 테스트 워크로드에는 무료 티어가 충분합니다.
웹 가져오기 도구
추가 요금 없음. 대화에 포함되는 콘텐츠에 대해서만 표준 토큰 비용을 지불합니다.
| 도구 | 추가 비용 | 비고 |
|---|---|---|
| 웹 검색 | $10/검색 1천회 | 검색당 요금 |
| 웹 가져오기 | 무료 | 토큰 비용만 |
| 코드 실행 (웹 도구 포함) | 무료 | 번들 |
| 코드 실행 (단독) | 월 1,550시간 무료 후 시간당 $0.05 | 컨테이너당 |
| 컴퓨터 사용 오버헤드 | 약 735개의 추가 입력 토큰 | 도구 정의당 |
| 텍스트 편집기 오버헤드 | 약 700개의 추가 입력 토큰 | 도구 정의당 |
컴퓨터 사용 오버헤드
컴퓨터 사용은 고정 토큰 오버헤드를 추가합니다: - 시스템 프롬프트 추가: 466–499 토큰 - 도구 정의 토큰: 도구당 735 토큰 (Claude 4.x 모델)
스크린샷 포함, 턴당 200 토큰으로 100번의 컴퓨터 사용 세션의 경우: - 도구 오버헤드: 735 토큰 × M토큰당 $3 = $0.0022 (무시할 수 있음) - 스크린샷 토큰은 해상도에 따라 다릅니다; 스크린샷당 약 2,000–5,000 토큰을 예상하세요.
Claude Sonnet 4.6 대 모든 모델: 전체 비교
현재 모델 요금
| 모델 | 입력 | 출력 | 캐시 읽기 | 배치 입력 | 배치 출력 |
|---|---|---|---|---|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 | $7.50 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | $0.50 | $2.50 |
| Claude Opus 4.6 | $5.00 | $25.00 | $0.50 | $2.50 | $12.50 |
| Claude Opus 4.5 | $5.00 | $25.00 | $0.50 | $2.50 | $12.50 |
| Claude Opus 4.1 | $15.00 | $75.00 | $1.50 | $7.50 | $37.50 |
모든 가격은 백만 토큰당 USD 기준입니다.
Sonnet 4.6 대 Opus 4.6: 가치 문제
| Claude Sonnet 4.6 | Claude Opus 4.6 | |
|---|---|---|
| 입력 가격 | $3/M토큰 | $5/M토큰 |
| 출력 가격 | $15/M토큰 | $25/M토큰 |
| 상대 비용 | 1배 | 1.67배 |
| SWE-벤치 검증됨 | 79.6% | ~80.8% |
| OSWorld (컴퓨터 사용) | 72.5% | 72.7% |
| Sonnet 4.5 대비 사용자 선호도 | 70% | 해당 없음 |
| Opus 4.5 대비 사용자 선호도 | 59% | 해당 없음 |
| 100만 컨텍스트 창 | 예 (베타) | 예 (베타) |
| 적응형 사고 | 예 | 예 |
| 최대 출력 | 64K 토큰 | 128K 토큰 |
코딩, 분석, 문서 처리, 에이전트 워크플로우와 같은 대다수의 작업에서 Sonnet 4.6은 Opus 성능을 60% 가격으로 제공합니다. Opus 4.6은 128K 출력 토큰이 필요하거나 새로운 추론 작업에서 절대적인 최대 성능이 필요할 때 프리미엄 가치가 있습니다.
Sonnet 4.6 대 Haiku 4.5: 언제 사용해야 하는가
| 사용 사례 | Sonnet 4.6 | Haiku 4.5 |
|---|---|---|
| 복잡한 코드 생성 | ✅ | ⚠️ |
| 단순 분류 | ⚠️ 과잉 | ✅ |
| 문서 요약 | ✅ | ✅ |
| 다단계 에이전트 작업 | ✅ | ❌ |
| 고볼륨 저복잡성 | ❌ 비쌈 | ✅ |
| 도구 호출 / 함수 사용 | ✅ | ✅ |
| 긴 추론 체인 | ✅ | ❌ |
| 지연 시간에 민감한 앱 | ✅ 빠름 | ✅ 가장 빠름 |
현명한 패턴: 라우팅, 분류 및 단순 추출에는 Haiku 4.5를 사용하고, 복잡한 작업은 Sonnet 4.6으로 라우팅합니다. 이 하이브리드 접근 방식은 일반적으로 모든 작업에 대해 Sonnet 4.6보다 60–80% 저렴한 비용을 제공합니다.
운영 전에 Apidog로 비용 테스트하기
운영 환경에 배포하기 전에 각 요청의 정확한 비용을 알고 싶을 것입니다. Apidog의 시각적 API 클라이언트를 사용하면 Claude Sonnet 4.6 호출을 테스트하고, usage 객체를 포함한 전체 응답을 검사하며, 요청별 토큰 수를 추적할 수 있습니다.

Apidog에서 비용 가시성 설정하기
https://api.anthropic.com/v1/messages에 새 POST 요청 생성- 헤더 추가:
x-api-key,anthropic-version: 2023-06-01,Content-Type: application/json - 모델 및 메시지로 본문 설정
- 요청 실행 — 응답
usage객체가 정확한 토큰 수를 보여줍니다.
{
"usage": {
"input_tokens": 523,
"cache_creation_input_tokens": 5000,
"cache_read_input_tokens": 0,
"output_tokens": 312
}
}
이 숫자를 바탕으로 실제 비용을 계산합니다: - 입력: 523 토큰 × M토큰당 $3 = $0.00157 - 캐시 쓰기: 5,000 토큰 × M토큰당 $3.75 = $0.01875 - 출력: 312 토큰 × M토큰당 $15 = $0.00468 - 첫 번째 호출 총계: $0.025 (캐시 적중 시 후속 호출: 약 $0.006)
이러한 요청을 Apidog에 컬렉션으로 저장하고, 팀과 공유하고, 프로덕션 설계를 확정하기 전에 다양한 프롬프트 변형에 대한 비용 추정치를 실행할 수 있습니다.
구축을 시작할 준비가 되셨나요? Apidog를 무료로 다운로드하여 Claude Sonnet 4.6 API 호출을 시각적으로 테스트하고, 요청별 토큰 사용량을 검사하며, 배포 전에 비용을 정확하게 산정하세요.
