DeepSeek V4 API 가격

DeepSeek은 모델 출시일인 2026년 4월 23일에 V4 가격을 발표했으며, 이 수치는 선도적인 AI 모델의 최저 가격을 재설정했습니다. V4-Flash는 백만 입력 토큰당 $0.14, 백만 출력 토큰당 $0.28에 실행됩니다. V4-Pro는 입력 백만 토큰당 $1.74, 출력 백만 토큰당 $3.48에 실행됩니다. 두 모델 모두 1M 토큰 컨텍스트 창과 최대 384K 출력 토큰을 지원합니다. 또한 두 모델 모두 반복되는 프롬프트에 대해 입력 비용을 80%에서 90%까지 절감하는 공격적인 캐시 적중 할인을 제공합니다.

이 가이드는 전체 요금표, 컨텍스트 캐싱이 실제 호출당 비용을 어떻게 변화시키는지, GPT-5.5 및 Claude Opus와의 솔직한 비교, 그리고 Apidog 내에서 지출을 예측 가능하게 유지하는 네 가지 방법을 다룹니다.

버튼

제품 개요는 DeepSeek V4란 무엇인가를 참조하십시오. 개발자 가이드는 DeepSeek V4 API 사용 방법을 참조하십시오. 무료 경로는 DeepSeek V4를 무료로 사용하는 방법을 참조하십시오.

요약 (TL;DR)

V4-Flash: 입력 백만 토큰당 $0.14 (캐시 미스), 입력 백만 토큰당 $0.028 (캐시 적중), 출력 백만 토큰당 $0.28.
V4-Pro: 입력 백만 토큰당 $1.74 (캐시 미스), 입력 백만 토큰당 $0.145 (캐시 적중), 출력 백만 토큰당 $3.48.
컨텍스트 창: 두 변형 모두 1M 토큰 입력, 384K 토큰 출력.
캐시 적중 할인: 반복되는 접두사에 대해 Flash는 약 80% 할인, Pro는 약 92% 할인.
deepseek-chat 및 deepseek-reasoner는 2026년 7월 24일에 사용 중단되며, 요금은 V4-Flash에 매핑됩니다.
캐시 미스 요율에서 V4-Pro는 입력에서 GPT-5.5보다 약 2.9배 저렴하고 출력에서 약 8.6배 저렴합니다.

전체 요금표

모델	입력 (캐시 미스)	입력 (캐시 적중)	출력	컨텍스트
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M	1M / 384K
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M	1M / 384K
`deepseek-chat` (2026-07-24 사용 중단)	V4-Flash 비-사고 모드에 매핑	—	—	—
`deepseek-reasoner` (2026-07-24 사용 중단)	V4-Flash 사고 모드에 매핑	—	—	—

세 가지 세부 사항이 원시 숫자보다 더 중요합니다.

첫째, 사고(thinking) 모드이든 비사고(non-thinking) 모드이든 가격은 동일합니다. 모델 ID가 요율을 설정하고, 추론 모드는 해당 요율로 소모되는 토큰 수를 변경할 뿐입니다.

둘째, 캐시 적중 가격은 자동입니다. 동일한 계정 내에서 반복되는 접두사를 사용하는 모든 요청에 혜택이 적용되며, 별도로 선택하거나 설정할 필요가 없습니다. 접두사는 최소 1,024 토큰 길이여야 하며 바이트 단위로 일치해야 합니다.

셋째, 기존의 deepseek-chat 및 deepseek-reasoner ID는 이제 V4-Flash 별칭으로 청구됩니다. 아직 마이그레이션하지 않았다면, 이미 V4-Flash 품질을 V4-Flash 가격으로 이용하고 있는 것이며, ID 사용 중단 기한은 2026년 7월 24일입니다.

컨텍스트 캐싱을 쉽게 설명

캐싱은 DeepSeek V4의 가장 큰 비용 절감 수단입니다. 패턴은 간단합니다. 특히 긴 시스템 프롬프트, 에이전트 도구 스키마, RAG 컨텍스트 등 여러 호출에서 반복되는 모든 내용은 두 번째 호출부터는 전체 입력 요율의 일부만 청구됩니다.

구체적인 예입니다. 변경되지 않는 20,000 토큰 시스템 프롬프트가 있는 에이전트를 실행한 다음, 각각 200 토큰짜리 사용자 질문 100개를 던집니다.

캐싱 없이:

입력: 100회 호출 × 20,200 토큰 × $1.74 / M = $3.52
출력: 100회 호출 × 500 토큰 × $3.48 / M = $0.17
총계: $3.69

캐싱 적용 (첫 호출 미스, 다음 99회 적중):

첫 호출 입력: 20,200 × $1.74 / M = $0.035
다음 99회 캐시 적중 접두사: 99 × 20,000 × $0.145 / M = $0.287
다음 99회 캐시 미스 사용자 차례: 99 × 200 × $1.74 / M = $0.034
출력: 100 × 500 × $3.48 / M = $0.174
총계: $0.53

동일한 워크로드에서 약 7배 저렴합니다. V4-Flash에서는 원시 요율이 이미 낮기 때문에 캐싱 효과가 훨씬 더 극적입니다.

GPT-5.5 및 Claude와의 비교

대부분의 팀이 실제로 궁금해하는 비교입니다:

모델	입력 (표준)	입력 (캐시됨)	출력	컨텍스트
DeepSeek V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M	1M
DeepSeek V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M	1M
GPT-5.5	$5 / M	$1.25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1.50 / M	$75 / M	200K

이 표를 세 가지 관점에서 읽어보겠습니다.

출력 토큰에서 V4-Pro는 GPT-5.5보다 약 8.6배 저렴하고, Claude Opus 4.6보다 21배 저렴합니다. 출력은 대부분의 에이전트 워크로드가 예산을 지출하는 부분이며, 이 차이는 더욱 커집니다.
캐시된 입력에서 V4-Pro는 캐시된 GPT-5.5보다 약 10배 저렴하고, 캐시된 Claude보다 10배 저렴합니다. 긴 시스템 프롬프트, 도구 스키마 및 반복되는 RAG 컨텍스트가 여기서 가장 큰 영향을 미칩니다.
원시 벤치마크 비율에서 V4-Pro는 LiveCodeBench(최상위권 대비 93.5) 및 Codeforces(3168 대비 3206)에서 GPT-5.5와 동등하거나 능가하며, 비용은 훨씬 적게 듭니다. 이것이 오픈 가중치(open-weights)의 핵심 가치 제안입니다. 전체 벤치마크 표는 DeepSeek V4란 무엇인가를 참조하십시오.

솔직한 주의사항: Claude는 여전히 긴 컨텍스트 검색 벤치마크에서 V4-Pro를 능가하며, Gemini 3.1 Pro는 여전히 MMLU-Pro를 선도합니다. 워크로드가 백만 토큰 내에서 바늘 찾기 검색에 의존하는 경우, 토큰당 절약 비용이 품질 격차를 만회하지 못할 수 있습니다.

일반적인 워크로드에 대한 비용 모델링

네 가지 워크로드가 대부분의 프로덕션 사용 사례를 포괄합니다. 다음은 각 워크로드의 V4-Pro 비용입니다 (캐시 미스 기준; 캐시 적중 절감은 추가로 발생합니다).

1. 에이전트형 코딩 루프 (50K 컨텍스트, 2K 출력, 작업당 20회 호출)

입력: 50,000 × 20 × $1.74 / M = $1.74
출력: 2,000 × 20 × $3.48 / M = $0.14
작업당 비용: 약 $1.88

동일한 형태로 GPT-5.5와 비교하면 작업당 약 $6.20입니다.

2. 긴 문서 Q&A (500K 컨텍스트, 1K 출력)

입력: 500,000 × $1.74 / M = $0.87
출력: 1,000 × $3.48 / M = $0.003
호출당 비용: 약 $0.87

GPT-5.5와 비교하면 호출당 약 $2.53입니다.

3. 대량 분류 (2K 컨텍스트, 200 출력, 10,000회 호출)

여기서는 V4-Flash를 사용하세요. V4-Pro는 과잉입니다.

입력: 2,000 × 10,000 × $0.14 / M = $2.80
출력: 200 × 10,000 × $0.28 / M = $0.56
실행 비용: 약 $3.36

동일한 실행에서 GPT-5.5와 비교하면 약 $110입니다.

4. 반복 프롬프트 챗봇 (10K 시스템 프롬프트, 500 사용자 토큰, 1K 출력, 1,000 세션)

첫 호출 입력: 10,500 × $1.74 / M = $0.018
캐시 적중 입력: 999 × 10,000 × $0.145 / M = $1.45
캐시 미스 사용자 차례: 999 × 500 × $1.74 / M = $0.87
출력: 1,000 × 1,000 × $3.48 / M = $3.48
세션 실행 비용: 약 $5.82

동일한 워크로드에서 캐싱이 적용된 GPT-5.5와 비교하면 약 $26.35입니다.

주의해야 할 숨겨진 비용

표시 가격이 전부가 아닙니다. 첫 달 이후 팀에 영향을 미치는 네 가지 항목이 있습니다:

사고 모드 토큰 인플레이션. thinking_max는 동일한 프롬프트에서 non-thinking보다 3배에서 10배 더 많은 출력 토큰을 소모합니다. 이러한 추론 토큰은 출력 요율로 청구됩니다. Think Max는 플래그 뒤에 숨기십시오.
조용한 컨텍스트 증가. 에이전트 루프는 종종 전체 대화를 각 차례에 다시 공급합니다. 1M 토큰 컨텍스트에서는 이것이 빠르게 증가합니다. 적극적으로 잘라내거나 요약하십시오.
재시도 폭풍. 모든 500 응답에서 재시도하는 버그가 있는 루프는 한 시간 만에 청구 금액을 두 배로 만들 수 있습니다. 지수 백오프(exponential backoff)와 하드한 요청당 재시도 상한을 추가하십시오.
개발 변동. curl을 통해 프롬프트를 반복하면 매번 전체 컨텍스트가 다시 실행됩니다. Apidog를 사용하면 변수 대체로 인해 프롬프트 조정 재시도가 전체 페이로드를 다시 입력할 필요 없이 거의 무료가 되므로 이를 거의 0으로 줄일 수 있습니다.

Apidog에서 비용 추적

청구서가 실제가 된 후 대부분의 팀이 사용하는 워크플로우:

Apidog 다운로드 및 DEEPSEEK_API_KEY를 환경별 비밀 변수로 저장.
https://api.deepseek.com/v1/chat/completions에 대한 단일 POST 요청 저장.
응답 패널에서 usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens를 고정합니다. 모든 호출은 출력과 동일한 화면에서 비용 계산을 표시합니다.
model 및 thinking_mode를 매개변수화하여 요청을 복제하지 않고도 V4-Flash 대 V4-Pro, Non-Think 대 Think Max를 A/B 테스트할 수 있습니다.
GPT-5.5에 대해서도 동일한 컬렉션을 미러링합니다 (해당 GPT-5.5 API 가이드에 설정이 설명되어 있습니다). 하나의 창에서 두 제공업체의 비용을 한눈에 볼 수 있습니다.

이 워크플로우는 월말 청구서에 나타나는 비용 놀라움의 약 80%를 잡아냅니다.

지출을 예측 가능하게 유지하는 네 가지 규칙

기본적으로 V4-Flash를 사용하십시오. 수익에 영향을 미치는 품질 격차를 측정한 경우에만 V4-Pro로 전환하십시오.
기본적으로 Non-Think를 사용하십시오. 어려운 작업에서는 Think High로 에스컬레이트하십시오. Think Max는 정확성이 중요한 작업에만 사용하십시오.
max_tokens를 제한하십시오. 384K 출력 상한은 안전 장치이지 목표가 아닙니다. 대부분의 프로덕션 답변은 2K 내에서 해결됩니다.
사용량 원격 측정(telemetry)을 발송하십시오. 모든 호출에서 prompt_tokens, completion_tokens, reasoning_tokens를 기록하십시오. 추론 토큰 급증에 대한 경고를 설정하십시오. 이는 실수로 Think Max 영역으로 넘어간 프롬프트를 나타냅니다.

자주 묻는 질문

무료 등급이 있나요?
무료 API 등급은 없지만, 신규 계정은 가끔 소액의 체험 크레딧을 받습니다. API 외부의 무료 경로는 DeepSeek V4를 무료로 사용하는 방법을 참조하십시오.

캐시 적중 가격은 어떻게 작동하나요?
동일한 계정 내에서 요청 간에 반복되는 1,024 토큰 이상의 접두사는 캐시 적중 요율로 청구됩니다. 첫 호출은 캐시 미스 요율로 지불하고, 이후 동일한 접두사를 사용하는 호출은 할인된 요율로 지불합니다. 캐싱은 자동입니다.

사고 모드는 비용이 더 많이 드나요?
토큰당 요율은 동일합니다. 사고 모드는 모델이 추론 과정을 작성하기 때문에 더 많은 토큰을 소모합니다. usage 객체에서 reasoning_tokens를 추적하여 실제 비용을 측정하십시오.

가격은 안정적인가요?
DeepSeek은 주기적으로 가격을 변경합니다. V3.2 요율은 2025년 대부분 동안 유지되었으며, V4 가격은 게시된 종료 날짜가 없습니다. 예산을 책정하기 전에 실시간 가격 페이지를 확인하십시오.

V4-Pro와 V4-Flash는 동일한 출력 요율로 청구되나요?
아니요. V4-Pro 출력은 백만 토큰당 $3.48이고, V4-Flash 출력은 백만 토큰당 $0.28입니다. 12.4배의 비율은 V4-Flash를 기본으로 사용하는 가장 큰 이유입니다.

Anthropic-형식 엔드포인트도 가격에 영향을 주나요?
아니요. https://api.deepseek.com/anthropic는 OpenAI-형식 엔드포인트와 동일한 요율을 사용합니다. 형식은 청구에 영향을 주지 않습니다.