DeepSeek은 2026년 LLM 가격 책정에서 가장 공격적인 일시적 할인을 새로운 표준으로 만들었습니다. 5월 22일, DeepSeek 팀은 원래 2026년 5월 31일 15:59 UTC에 만료될 예정이었던 DeepSeek-V4-Pro 75% 할인 혜택이 되돌아가지 않을 것이라고 발표했습니다. 이 프로모션 요금은 영구적인 정식 가격이 됩니다. 입력 토큰당 가격은 백만 토큰당 $0.435로, 출력은 $0.87로, 캐시 히트는 $0.003625로 내려갑니다. 아래에서는 무엇이 변했는지, 무엇이 그대로 남아 있는지, 그리고 모든 API 개발자가 이번 주에 무엇을 재고해야 하는지 분석합니다.
요약 (TL;DR)
- DeepSeek-V4-Pro API 가격은 이제 원래 정식 가격의 1/4로 영구화됩니다: 입력 백만 토큰당 $0.435, 출력 백만 토큰당 $0.87, 캐시 히트 백만 토큰당 $0.003625.
- 2026년 5월 31일에 종료될 예정이었던 75% 프로모션 할인은 이제 정식 요금이 됩니다. 되돌림 없습니다. 갑작스러운 만료도 없습니다.
- V4-Pro는 이제 출력 측면에서 GPT-5.5보다 약 34배 저렴하며, 대부분의 코딩 및 추론 벤치마크에서 GPT-5.5의 ~95% 수준에 이릅니다.
- $0.003625/MTok의 캐시 히트 가격은 헤드라인 할인 외에 90% 추가 할인으로, 저평가된 세부 사항입니다. 긴 시스템 프롬프트는 이제 프리픽스에서 거의 무료입니다.
- 지난 분기에 GPT-5.5 또는 Claude Opus 4.7을 기준으로 AI 기능 가격을 책정했다면, 이번 주에 구축 비용 계산이 달라졌습니다.
지금 왜 중요한가
LLM 가격은 보통 한 방향으로 움직입니다: 천천히, 각주와 함께 하락합니다. DeepSeek은 각주를 생략했습니다. 팀은 5월 내내 공격적인 프로모션을 진행했고, 개발자 트래픽이 증가하는 것을 지켜본 후, 가격을 원래대로 되돌리는 대신 고정하기로 결정했습니다. 이것은 중국의 선도 모델 경제가 어디로 향하고 있는지에 대한 구조적 신호이며, 일회성 이벤트가 아닙니다.
핫 패스(자동 완성, 검색 증강 채팅, 코드 검토, 에이전트 루프)에서 LLM을 호출하는 제품을 출시하고 있다면, 백만 출력 토큰당 $3.48와 $0.87의 차이는 이번 달 청구서에 나타날 것입니다. 비약적인 사용자를 가진 에이전트에게 현실적인 부하인 하루 5천만 출력 토큰을 처리하면, 새로운 가격은 월별 LLM 비용을 약 $5,200에서 $1,300로 절감합니다. 이는 영업 인력 한 명을 고용하거나 1년치 GPU 크레딧에 해당합니다.
DeepSeek 위에 구축하고 계신가요? Apidog는 스트리밍, 도구 호출, JSON 스키마 유효성 검사를 포함하여 단일 작업 공간에서 V4-Pro API 호출을 생성, 테스트 및 모니터링할 수 있도록 합니다. Apidog를 다운로드하면 이 기사의 요청을 1분 이내에 복제할 수 있습니다.
이 게시물의 나머지 부분에서는 새로운 전체 가격표, GPT-5.5 및 Claude Opus 4.7과의 정면 비교, 대부분의 기사가 놓치는 캐시 히트 계산, 세 가지 실제 청구 시나리오, 그리고 오늘 마이그레이션할지 여부를 결정하는 5단계 의사 결정 프레임워크를 볼 수 있습니다.
무엇이 변했나: 발표 해독
DeepSeek의 공식 가격 공지는 짧지만, 각 줄은 숫자를 움직입니다. 주목할 만한 세 가지 사실:
- 75% 할인이 영구화됩니다. 2026년 5월 31일 15:59 UTC까지 진행된 프로모션은 6월 1일에 출시 당시 정식 가격으로 돌아갈 예정이었습니다. 그렇게 되지 않습니다. 프로모션 요금은 출시 시점부터 소급 적용되며 무기한으로 새로운 정식 요금이 됩니다.
- 할인은 V4-Pro에만 적용됩니다. DeepSeek-V4-Flash는 백만 토큰당 $0.14 / $0.28로 이미 저렴했습니다. 선도급 모델인 V4-Pro의 가격이 인하되었습니다. Flash와 Pro의 차이점은 DeepSeek V4란 무엇인가를 참조하십시오.
- 캐시 히트 가격은 2026년 4월 26일 12:15 UTC부터 출시 당시의 1/10로 인하되었습니다. 이는 헤드라인 75% 할인과는 별개의 변경 사항이며, 두 가지가 중첩 적용됩니다. 그 결과: 2026년 시장에서 가장 낮은 자체 선도 모델 캐시 가격인 $0.003625/MTok으로 캐시 히트가 가능합니다.
종합적으로 보면, 이 발표는 DeepSeek이 개발자 마인드쉐어를 유지하기 위해 주력 모델의 총마진을 흡수할 의향이 있음을 말해줍니다. 캐시 히트 변경은 V4-Pro에 에이전트와 장문 컨텍스트 도구를 구축하기를 원한다는 것을 의미합니다. 두 가지 움직임 모두 동일한 전략을 가리킵니다. 지금 추론 워크로드를 확보하고, 나중에 플랫폼으로 수익을 창출하는 것입니다.
새로운 영구 가격표
백만 토큰당 가격, USD, 즉시 적용 및 영구적:
| 토큰 유형 | 이전 정식 가격 | 새로운 영구 가격 | 인하율 |
|---|---|---|---|
| 입력 (캐시 미스) | $1.74 | $0.435 | 75% |
| 입력 (캐시 히트) | $0.0145 | $0.003625 | 75% |
| 출력 | $3.48 | $0.87 | 75% |
이 표가 숨기고 있는 몇 가지 시사점:
- 출력 토큰 가격 인하는 청구서에 가장 큰 영향을 미칩니다. 모델이 추론하거나 코드를 작성하는 모든 에이전트 루프에서 출력 토큰이 지배적이기 때문입니다.
- 캐시 히트 행은 절대 숫자가 매우 작기 때문에 미미해 보입니다. 절약은 비율에 있습니다. 입력 미스와 입력 히트의 비율은 대략 120:1입니다. 잘 설계된 시스템 프롬프트가 90%의 시간 동안 캐시를 적중하면 입력에 거의 비용을 지불하지 않으며, 이는 안정적인 스캐폴드를 가진 모든 에이전트에게 중요한 장점입니다.
- 이 요금은 API에만 적용됩니다. DeepSeek의 웹 채팅은 개인에게 무료로 유지됩니다.
V4 가격 계층 및 Flash-vs-Pro 트레이드오프에 대한 더 깊은 역사적 맥락은 DeepSeek V4 API 가격 책정 참조를 참조하십시오.
V4-Pro가 GPT-5.5, Claude Opus 4.7, Gemini 3.5 Flash와 비교되는 방식
흥미로운 비교는 V4-Pro의 이전 버전이 아닙니다. 나머지 선도 모델들과의 비교입니다.
| 모델 | 입력 ($/MTok) | 출력 ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (신규) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
기억해야 할 두 가지 숫자. 청구서를 늘리는 항목인 출력 토큰에서 DeepSeek-V4-Pro는 GPT-5.5보다 34배 저렴하고 Claude Opus 4.7보다 17배 저렴합니다. 벤치마크에서는 DataCamp 비교에 따르면 V4-Pro는 대부분의 공개 코딩 및 추론 평가에서 GPT-5.5의 3~7% 포인트 내에 있습니다.
워크로드가 대기 시간에 관대하고 해당 작은 범위 내에서 품질이 허용된다면, 마이그레이션은 단 하나의 답을 가진 수학 문제입니다. 벤치마크 점수 마지막 5점이 중요한 워크로드(에이전트 도구 신뢰성, 장기 계획, 어려운 수학)의 경우, V4-Pro는 추측성 디코딩 또는 비평가 패턴 뒤의 초안 모델로 사용하는 것이 여전히 저렴합니다.
더 깊은 정면 비교 검토는 코딩을 위한 DeepSeek V4 vs Claude Opus 4.5 및 GLM-5 vs DeepSeek V3 vs GPT-5: 속도, 비용 및 실제 개발자 비교를 참조하십시오.
대부분의 기사가 놓치는 캐시 히트 관점
모두가 $0.87 출력 가격을 언급합니다. $0.003625 캐시 히트 입력 가격이 시스템 설계에 어떤 영향을 미치는지 설명하는 사람은 거의 없습니다.
DeepSeek의 프롬프트 캐시는 요청의 접두사가 약 30분 이내의 최근 이전 요청과 바이트 단위로 동일할 때 적중합니다. 채팅 에이전트 및 검색 파이프라인의 경우, 접두사는 일반적으로 시스템 프롬프트와 도구 정의, 지침 스캐폴딩입니다. 이는 일반적으로 턴 사이에서 변경되지 않는 4,000~10,000 토큰입니다.
구체적인 예시. 어시스턴트가 6,000 토큰 시스템 프롬프트를 사용하고 하루에 10만 번의 채팅 턴을 처리하며, 평균 사용자 메시지가 200 입력 토큰이고 평균 응답이 800 출력 토큰이라고 가정해 봅시다.
- 캐시 히트 없음: 100,000 턴 × 6,200 입력 토큰 × $0.435 / 1,000,000 = 입력만으로 하루 $269.70.
- 이러한 시스템 프롬프트 토큰의 90%가 캐시를 적중하는 경우: 동일한 100,000 턴은 200 × $0.435 + 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) / 백만 토큰을 지불합니다. 이는 하루 약 $32에 해당합니다. 입력 비용이 88% 절감됩니다.
이것은 반올림 오차가 아닙니다. 모델이 지속 가능한 항목이냐 사치스러운 항목이냐의 차이입니다. 공급자 전반에 걸쳐 접두사 캐싱이 어떻게 작동하는지에 대한 자세한 내용은 프롬프트 캐싱 심층 분석에서 메커니즘을 설명합니다.
실제 에이전트에서 캐시 히트를 얻는 세 가지 패턴:
- 접두사 고정. 시스템 프롬프트, 도구 스키마 및 Few-shot 예시를 모든 요청 시작 부분에 단일 블록으로 유지하십시오. 세션별 텍스트를 접두사에 섞지 마십시오.
- 동적 컨텍스트 정렬 또는 해싱. 검색된 청크를 추가하는 경우, 안정적으로 정렬하거나 요청을 해싱하고 동일한 해시를 동일한 노드로 라우팅하십시오. 작은 지문 변화는 캐시를 무력화합니다.
- 워밍업 호출 실행. 에이전트 시작 시, 사용자 트래픽이 발생하기 전에 전체 접두사로 요청을 한 번 보내 공급자의 캐시에 자리 잡게 하십시오.
이번 주에 해야 할 일
마이그레이션 결정은 이분법적이지 않습니다. 실행 중인 LLM 워크로드의 종류에 따라 달라집니다. 5단계 프레임워크:
1. 현재 출력:입력 비율을 측정하십시오. 토큰 예산의 80%를 출력(모든 에이전트, 코드 생성기 또는 콘텐츠 도구)에 사용하고 있다면, V4-Pro의 절감 효과는 큽니다. 80%를 입력(긴 문서에 대한 RAG)에 사용하고 있다면, 절감 효과는 더 작지만 캐시 히트가 발생하면 여전히 실제적입니다.
2. 실제 워크로드에서 100개 샘플 평가를 실행하십시오. 공개 벤치마크를 믿지 마십시오. 프로덕션 트래픽에서 100개의 트레이스를 추출하여 동일한 프롬프트로 V4-Pro 및 현재 모델에 대해 실행하고 자체 평가자로 점수를 매기십시오. 대부분의 팀은 V4-Pro가 트래픽의 70%에서 85%에 대해 "충분히 좋다"는 것을 발견합니다.
3. 경로별 패턴 일치. 70%~85%는 V4-Pro로 라우팅하고, 어려운 부분은 프리미엄 모델에 유지하십시오. 이 한 가지 변경으로 거의 0에 가까운 품질 저하로 70%+의 비용 절감을 달성할 수 있습니다.
4. 캐시 접두사를 고정하십시오. 시스템 프롬프트를 감사하십시오. 요청별로 달라지는 모든 것(타임스탬프, 사용자 ID, 세션 ID)은 시스템 프롬프트가 아닌 사용자 메시지에 속합니다. 이동시키십시오.
5. 출시 전에 회귀 테스트를 설정하십시오. 여기서 Apidog가 제 역할을 합니다. 현재 모델에서 황금 응답을 기록한 다음, 동일한 요청을 V4-Pro에 대해 다시 실행하고 출력을 비교하십시오. Apidog의 JSON 스키마 유효성 검사는 도구 호출 형태의 드리프트를 프로덕션에 도달하기 전에 포착합니다. Apidog를 다운로드하여 OpenAI 호환 컬렉션을 가져오고, 기본 URL을 https://api.deepseek.com으로 변경하면 10분 이내에 동시 스모크 테스트를 실행할 수 있습니다.
V4-Pro 엔드포인트 형태에 대한 실습 안내서는 DeepSeek V4 API 사용 방법을 참조하십시오.
V4-Pro가 다른 2026년 가격 인하에 비해 어떤가
DeepSeek만이 가격을 인하하는 유일한 연구소는 아닙니다. 2026년 LLM 시장은 명확한 마진 압축 단계에 있습니다:
- OpenAI O3는 올해 초 80% 인하되었습니다. 계산법은 O3 가격 분석을 참조하십시오.
- Kimi K2는 DeepSeek의 V3 계층과 경쟁하기 위해 공격적으로 가격을 재조정했습니다. Kimi K2 API 가격 책정에서 세부 정보를 다룹니다.
- Anthropic Claude는 Opus 가격을 유지했지만 더 저렴한 Haiku 및 Sonnet 계층을 도입했습니다. 전체 Claude API 비용 분석에서는 각 계층이 어디에 적합한지 설명합니다.
V4-Pro의 인하는 예산 계층이 아닌 선도적인 기능 영역을 목표로 하기 때문에 올해 가장 공격적인 인하입니다. 이것이 이 발표가 시장을 재설정하고 다른 발표는 그렇지 않은 이유입니다.
구축 비용 계산이 달라졌다
DeepSeek은 가격을 인하한 것이 아닙니다. 그들은 곡선을 다시 그렸습니다. 1달러 미만의 출력 가격으로 선도적인 기능을 제공하는 것이 이제는 예외가 아닌 기본이며, 나머지 시장은 이에 반응할 것입니다. 비용 때문에 LLM 기능을 미뤄왔다면, 지난 분기에 책정했던 2026년 예산은 필요한 것보다 4배 이상 과장되었을 것입니다.
세 가지 다음 단계:
- 위 프레임워크에 따라 상위 세 가지 LLM 워크로드를 감사하고 이번 주에 마이그레이션할 하나를 선택하십시오.
- 캐시 접두사를 고정하십시오. 이는 어떤 모델을 사용하든 저렴한 이득입니다.
- Apidog 회귀 스위트를 설정하여 다음 가격 인하(반드시 있을 것임)를 몇 주가 아닌 몇 시간 만에 평가할 수 있도록 하십시오.
프로모션 플래그는 사라졌지만, 할인은 사라지지 않았습니다.
