클로드 소넷 4.6 가격: 실제 비용은 얼마일까요?

요약

Claude Sonnet 4.6은 백만 입력 토큰당 $3, 백만 출력 토큰당 $15의 비용이 듭니다. 이는 Sonnet 4.5와 동일한 가격이며, Opus에 가까운 성능을 제공합니다. 프롬프트 캐싱을 사용하면 캐시 읽기 비용이 M토큰당 $0.30으로 감소합니다(90% 절감). 배치 API는 비용을 절반으로 줄여 M토큰당 $1.50/$7.50이 됩니다. 100만 토큰 컨텍스트 창(베타)은 20만 토큰을 초과하는 요청에 대해 M토큰당 $6/$22.50의 긴 컨텍스트 요금을 적용합니다.

Claude Sonnet 4.6 기본 요금

Claude Sonnet 4.6은 이전 버전과 동일한 가격대를 유지하면서도 훨씬 더 나은 결과를 제공합니다. 핵심 요금은 다음과 같습니다:

요금 등급	입력 토큰	출력 토큰
표준	$3.00 / M토큰	$15.00 / M토큰
배치 API	$1.50 / M토큰	$7.50 / M토큰
캐시 쓰기 (5분)	$3.75 / M토큰	—
캐시 쓰기 (1시간)	$6.00 / M토큰	—
캐시 읽기	$0.30 / M토큰	—
긴 컨텍스트 >200K (표준)	$6.00 / M토큰	$22.50 / M토큰
긴 컨텍스트 >200K (배치)	$3.00 / M토큰	$11.25 / M토큰

M토큰 = 백만 토큰. 모든 가격은 USD 기준입니다.

여기서 가치 이야기는 무시하기 어렵습니다. 초기 테스터들은 직접 비교에서 59%의 경우 이전 프리미엄 모델인 Opus 4.5보다 Sonnet 4.6을 선호했으며, 비용은 60%에 불과했습니다.

대부분의 코딩, 분석 및 에이전트 작업에서 더 이상 Opus 수준의 결과를 얻기 위해 Opus 가격을 지불할 필요가 없습니다.

💡

운영 코드를 작성하기 전에 이러한 요청을 테스트하면 대규모 비용을 절감할 수 있습니다. Apidog를 다운로드하여 Claude Sonnet 4.6에 대해 API 호출을 시범 실행하고, 요청별 실제 토큰 사용량을 확인하고, 확정하기 전에 예산을 정확하게 책정하세요.

버튼

기능별 전체 요금 분석

표준 API 요금

표준 요금은 Anthropic API를 통해 이루어지는 모든 동기식 API 호출에 적용됩니다:

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Summarize this document."}]
)

# 정확한 토큰 사용량 확인
print(f"Input tokens: {response.usage.input_tokens}")
print(f"Output tokens: {response.usage.output_tokens}")

# 비용 계산
input_cost  = response.usage.input_tokens  / 1_000_000 * 3.00
output_cost = response.usage.output_tokens / 1_000_000 * 15.00
print(f"Request cost: ${input_cost + output_cost:.6f}")

500 토큰 입력 및 300 토큰 출력의 일반적인 API 호출의 경우 비용은 대략 $0.0060입니다. 이는 표준 요금으로 요청당 1센트 미만입니다.

프롬프트 캐싱 요금

프롬프트 캐싱은 Sonnet 4.6의 가장 효과적인 비용 절감 수단입니다. 프롬프트의 일부를 서버 측에 저장하고 캐시 적중 시 훨씬 적은 비용을 청구합니다.

캐시 쓰기 요금:- 5분 캐시: M토큰당 $3.75 (기본 입력 가격의 1.25배) - 1시간 캐시: M토큰당 $6.00 (기본 입력 가격의 2배)

캐시 읽기 요금:- M토큰당 $0.30 — 표준 입력 가격의 10분의 1

시스템 프롬프트가 10,000 토큰이고 하루에 1,000개의 요청을 처리하는 경우: - 캐싱 없음: 10,000 × 1,000 × M토큰당 $3 = 일 $30- 캐싱 사용 (한 번 쓰기, 999회 읽기): $3.75 + (999 × 0.30) × 10,000/M토큰 ≈ 일 $3.04

정적 시스템 프롬프트만으로도 90%의 절감 효과입니다.

import anthropic

client = anthropic.Anthropic()

# 비용이 많이 드는 정적 콘텐츠를 캐싱하도록 표시
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are a senior code reviewer specializing in Python, FastAPI, and distributed systems. Here are our coding standards and review guidelines: [large block of standards text]...",
            "cache_control": {"type": "ephemeral"}  # 이 블록 캐시
        }
    ],
    messages=[{"role": "user", "content": "Review this pull request: [PR content]"}]
)

# 캐시에서 온 토큰과 새 토큰 비교 확인
usage = response.usage
print(f"Cache write tokens: {usage.cache_creation_input_tokens}")
print(f"Cache read tokens:  {usage.cache_read_input_tokens}")
print(f"Uncached tokens:    {usage.input_tokens}")

어떤 캐시 지속 시간을 사용해야 하는가:- 5분 캐시: 고빈도 호출, 버스트 트래픽, 짧은 대화 기간 - 1시간 캐시: 백그라운드 처리 파이프라인, 간격이 긴 배치 작업, 에이전트 루프

배치 API 요금

배치 API는 비동기 처리(결과는 24시간 이내에, 일반적으로 훨씬 더 빨리 사용 가능)를 대가로 입력 및 출력 토큰 모두에 대해 50% 할인된 가격을 제공합니다.

	표준	배치 API
입력	$3.00/M토큰	$1.50/M토큰
출력	$15.00/M토큰	$7.50/M토큰

배치 API에 가장 적합한 사용 사례:- 콘텐츠 검수 파이프라인 - 대규모 문서 분류 - 야간 데이터 강화 - 대규모 데이터셋에 대한 임베딩 또는 요약 생성 - 지연 시간이 중요하지 않은 비대화형 처리

M토큰당 $1.50/$7.50으로, 각각 500 입력 토큰과 100 출력 토큰을 가진 백만 개의 문서를 처리하는 비용은 다음과 같습니다: - 입력: 5억 토큰 × M토큰당 $1.50 = $750- 출력: 1억 토큰 × M토큰당 $7.50 = $750- 총계: 100만 문서에 $1,500 (문서당 약 $0.0015)

배치 API: 실시간이 아닌 워크로드에 대한 50% 할인

배치 처리는 간단합니다. 요청을 제출하고 절반 가격으로 비동기적으로 결과를 받습니다. 단점은 지연 시간입니다. 결과는 24시간 이내에 도착하지만, 일반적으로 훨씬 더 빠릅니다.

import anthropic, time

client = anthropic.Anthropic()

def batch_classify(texts: list[str]) -> list[str]:
    """배치 API 요율로 텍스트 목록을 분류합니다."""

    # 배치 제출
    requests = [
        {
            "custom_id": f"item-{i}",
            "params": {
                "model": "claude-sonnet-4-6",
                "max_tokens": 20,
                "messages": [{
                    "role": "user",
                    "content": f"Classify as POSITIVE, NEGATIVE, or NEUTRAL. Reply with one word only.\n\n{text}"
                }]
            }
        }
        for i, text in enumerate(texts)
    ]

    batch = client.messages.batches.create(requests=requests)

    # 완료될 때까지 폴링
    while True:
        status = client.messages.batches.retrieve(batch.id)
        if status.processing_status == "ended":
            break
        time.sleep(60)

    # 순서대로 결과 수집
    results = {}
    for result in client.messages.batches.results(batch.id):
        if result.result.type == "succeeded":
            results[result.custom_id] = result.result.message.content[0].text.strip()

    return [results.get(f"item-{i}", "ERROR") for i in range(len(texts))]

긴 컨텍스트(100만 토큰) 요금

context-1m-2025-08-07 베타 헤더를 통해 100만 토큰 컨텍스트 창을 활성화하면, 20만 입력 토큰을 초과하는 요청에 대해 더 높은 요금이 부과됩니다.

긴 컨텍스트 요금표

입력 토큰	입력 가격	출력 가격
≤ 20만	$3.00/M토큰	$15.00/M토큰
> 20만	$6.00/M토큰	$22.50/M토큰

20만 임계값은 다음을 포함하는 총 입력 토큰을 기준으로 합니다: - input_tokens (표준 입력) - cache_creation_input_tokens (프롬프트 캐싱 사용 시) - cache_read_input_tokens (프롬프트 캐싱 사용 시)

총계가 20만을 초과하는 경우, 해당 요청의 모든 토큰은 더 높은 요금으로 청구됩니다.

긴 컨텍스트 + 배치 API

배치 API 50% 할인은 긴 컨텍스트 요금과 중복 적용됩니다:

시나리오	입력 요율	출력 요율
표준	$3.00/M토큰	$15.00/M토큰
긴 컨텍스트 (>20만)	$6.00/M토큰	$22.50/M토큰
배치 API	$1.50/M토큰	$7.50/M토큰
긴 컨텍스트 + 배치	$3.00/M토큰	$11.25/M토큰

배치 API를 통해 대규모 문서를 일괄 처리하면 긴 컨텍스트 비용을 관리할 수 있습니다.

도구 및 기능 요금

일부 도구는 토큰 비용 외에 별도의 요금이 부과됩니다.

웹 검색 도구

검색 1,000회당 $10.00
+ 검색으로 생성된 콘텐츠에 대한 표준 토큰 비용

각 웹 검색 호출은 결과 수와 관계없이 1회 사용으로 간주됩니다. 검색 오류 발생 시 요금은 청구되지 않습니다.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    betas=["code-execution-web-tools-2026-02-09"],
    tools=[{"type": "web_search_20260209", "name": "web_search"}],
    messages=[{"role": "user", "content": "What's the latest LLM benchmark news from this week?"}]
)

usage = response.usage
search_count = getattr(usage, 'server_tool_use', {})
print(f"Web searches used: {search_count.get('web_search_requests', 0)}")
# 각 검색: $0.01

코드 실행 도구

웹 검색 또는 웹 가져오기와 함께 사용 시 무료 (web_search_20260209 또는 web_fetch_20260209 도구 버전 사용 시).

단독으로 사용 시: - 조직당 월 1,550시간 무료 - 무료 사용량을 초과하는 경우 컨테이너당 시간당 $0.05 - 최소 청구 단위: 5분

대부분의 개발 및 테스트 워크로드에는 무료 티어가 충분합니다.

웹 가져오기 도구

추가 요금 없음. 대화에 포함되는 콘텐츠에 대해서만 표준 토큰 비용을 지불합니다.

도구	추가 비용	비고
웹 검색	$10/검색 1천회	검색당 요금
웹 가져오기	무료	토큰 비용만
코드 실행 (웹 도구 포함)	무료	번들
코드 실행 (단독)	월 1,550시간 무료 후 시간당 $0.05	컨테이너당
컴퓨터 사용 오버헤드	약 735개의 추가 입력 토큰	도구 정의당
텍스트 편집기 오버헤드	약 700개의 추가 입력 토큰	도구 정의당

컴퓨터 사용 오버헤드

컴퓨터 사용은 고정 토큰 오버헤드를 추가합니다: - 시스템 프롬프트 추가: 466–499 토큰 - 도구 정의 토큰: 도구당 735 토큰 (Claude 4.x 모델)

스크린샷 포함, 턴당 200 토큰으로 100번의 컴퓨터 사용 세션의 경우: - 도구 오버헤드: 735 토큰 × M토큰당 $3 = $0.0022 (무시할 수 있음) - 스크린샷 토큰은 해상도에 따라 다릅니다; 스크린샷당 약 2,000–5,000 토큰을 예상하세요.

Claude Sonnet 4.6 대 모든 모델: 전체 비교

현재 모델 요금

모델	입력	출력	캐시 읽기	배치 입력	배치 출력
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50	$7.50
Claude Haiku 4.5	$1.00	$5.00	$0.10	$0.50	$2.50
Claude Opus 4.6	$5.00	$25.00	$0.50	$2.50	$12.50
Claude Opus 4.5	$5.00	$25.00	$0.50	$2.50	$12.50
Claude Opus 4.1	$15.00	$75.00	$1.50	$7.50	$37.50

모든 가격은 백만 토큰당 USD 기준입니다.

Sonnet 4.6 대 Opus 4.6: 가치 문제

	Claude Sonnet 4.6	Claude Opus 4.6
입력 가격	$3/M토큰	$5/M토큰
출력 가격	$15/M토큰	$25/M토큰
상대 비용	1배	1.67배
SWE-벤치 검증됨	79.6%	~80.8%
OSWorld (컴퓨터 사용)	72.5%	72.7%
Sonnet 4.5 대비 사용자 선호도	70%	해당 없음
Opus 4.5 대비 사용자 선호도	59%	해당 없음
100만 컨텍스트 창	예 (베타)	예 (베타)
적응형 사고	예	예
최대 출력	64K 토큰	128K 토큰

코딩, 분석, 문서 처리, 에이전트 워크플로우와 같은 대다수의 작업에서 Sonnet 4.6은 Opus 성능을 60% 가격으로 제공합니다. Opus 4.6은 128K 출력 토큰이 필요하거나 새로운 추론 작업에서 절대적인 최대 성능이 필요할 때 프리미엄 가치가 있습니다.

Sonnet 4.6 대 Haiku 4.5: 언제 사용해야 하는가

사용 사례	Sonnet 4.6	Haiku 4.5
복잡한 코드 생성	✅	⚠️
단순 분류	⚠️ 과잉	✅
문서 요약	✅	✅
다단계 에이전트 작업	✅	❌
고볼륨 저복잡성	❌ 비쌈	✅
도구 호출 / 함수 사용	✅	✅
긴 추론 체인	✅	❌
지연 시간에 민감한 앱	✅ 빠름	✅ 가장 빠름

현명한 패턴: 라우팅, 분류 및 단순 추출에는 Haiku 4.5를 사용하고, 복잡한 작업은 Sonnet 4.6으로 라우팅합니다. 이 하이브리드 접근 방식은 일반적으로 모든 작업에 대해 Sonnet 4.6보다 60–80% 저렴한 비용을 제공합니다.

운영 전에 Apidog로 비용 테스트하기

운영 환경에 배포하기 전에 각 요청의 정확한 비용을 알고 싶을 것입니다. Apidog의 시각적 API 클라이언트를 사용하면 Claude Sonnet 4.6 호출을 테스트하고, usage 객체를 포함한 전체 응답을 검사하며, 요청별 토큰 수를 추적할 수 있습니다.

Apidog에서 비용 가시성 설정하기

https://api.anthropic.com/v1/messages에 새 POST 요청 생성
헤더 추가: x-api-key, anthropic-version: 2023-06-01, Content-Type: application/json
모델 및 메시지로 본문 설정
요청 실행 — 응답 usage 객체가 정확한 토큰 수를 보여줍니다.

{
  "usage": {
    "input_tokens": 523,
    "cache_creation_input_tokens": 5000,
    "cache_read_input_tokens": 0,
    "output_tokens": 312
  }
}

이 숫자를 바탕으로 실제 비용을 계산합니다: - 입력: 523 토큰 × M토큰당 $3 = $0.00157 - 캐시 쓰기: 5,000 토큰 × M토큰당 $3.75 = $0.01875 - 출력: 312 토큰 × M토큰당 $15 = $0.00468 - 첫 번째 호출 총계: $0.025 (캐시 적중 시 후속 호출: 약 $0.006)

이러한 요청을 Apidog에 컬렉션으로 저장하고, 팀과 공유하고, 프로덕션 설계를 확정하기 전에 다양한 프롬프트 변형에 대한 비용 추정치를 실행할 수 있습니다.

구축을 시작할 준비가 되셨나요? Apidog를 무료로 다운로드하여 Claude Sonnet 4.6 API 호출을 시각적으로 테스트하고, 요청별 토큰 사용량을 검사하며, 배포 전에 비용을 정확하게 산정하세요.

버튼