DeepSeek은 2026년 4월 23일에 V4를 출시했으며, 이는 사소한 포인트 릴리스가 아닙니다. 항저우 연구소는 1.6조 개의 총 매개변수, MIT 라이선스, 1백만 토큰 컨텍스트 창을 특징으로 하는 DeepSeek-V4-Pro를 필두로 네 가지 체크포인트를 동시에 공개했습니다. 더 작은 모델인 DeepSeek-V4-Flash는 동일한 컨텍스트와 공개 가중치를 가지며 2,840억 개의 매개변수를 가집니다. 벤치마크에 따르면 Pro 버전은 LiveCodeBench 및 Codeforces에서 Claude Opus 4.6보다 앞서며, MMLU-Pro에서는 GPT-5.4 xHigh에 근접하는 성능을 보입니다.
Claude, GPT-5.5 또는 Qwen를 DeepSeek V4로 교체할지 결정하고 있다면, 이 가이드는 이 모델이 무엇인지, V3.2에서 무엇이 바뀌었는지, 벤치마크 성능을 이끄는 아키텍처 선택 사항, 그리고 오늘날 어디에서 실행할 수 있는지 다룹니다.
관련 개발자 가이드로는 DeepSeek V4 API 가이드, 무료 액세스 가이드, 그리고 전체 DeepSeek V4 사용 가이드가 있습니다. 요청 형식은 OpenAI의 형식에 깔끔하게 매핑되므로, 키를 받기 전에 Apidog에서 컬렉션을 미리 구축할 수 있습니다.
요약
- DeepSeek V4는 2026년 4월 23일에 MIT 라이선스 하에 출시된 Mixture-of-Experts 계열 모델입니다.
- 출시 시점에 V4-Pro, V4-Pro-Base, V4-Flash, V4-Flash-Base의 네 가지 체크포인트가 제공됩니다.
- V4-Pro는 총 1.6조 개의 매개변수 중 490억 개가 활성화되며, V4-Flash는 총 2,840억 개 중 130억 개가 활성화됩니다.
- 두 변형 모두 1백만 토큰 컨텍스트 창과 세 가지 추론 모드(Non-Think, Think High, Think Max)를 지원합니다.
- 주요 점수: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (Pro 변형).
- API는 `api.deepseek.com`에서 `deepseek-v4-pro` 및 `deepseek-v4-flash` 모델 ID로 활성화되어 있으며, 가중치는 Hugging Face 및 ModelScope에 있습니다.
DeepSeek V4는 실제로 무엇인가요?
DeepSeek V4는 작년에 연구소를 유명하게 만든 V3 및 V3.2 라인의 후속 모델입니다. 아키텍처는 여전히 Mixture-of-Experts이지만, 모델의 형태가 변경되었습니다. V4-Pro는 토큰당 1.6조 개의 매개변수 중 490억 개만 활성화하므로, 토큰당 계산 비용은 1조 개 매개변수 프론티어 시스템보다는 500억 개 매개변수 밀집 모델에 가깝습니다. 전체 기술 보고서는 DeepSeek V4 모델 카드에서 확인할 수 있습니다.

출시 시점에 네 가지 체크포인트가 제공됩니다:
- DeepSeek-V4-Pro — 플래그십 모델. 총 1.6조 개, 활성 490억 개, 1백만 컨텍스트. 대부분의 팀이 API를 통해 호출할 모델입니다.
- DeepSeek-V4-Pro-Base — 후처리 없이 사전 훈련된 기본 모델. 연구원 및 맞춤형 미세 조정을 구축하는 팀을 대상으로 합니다.
- DeepSeek-V4-Flash — 효율성 변형 모델. 총 2,840억 개, 활성 130억 개, 동일한 1백만 컨텍스트. 대기 시간에 민감한 작업 부하 및 2~3개의 H100에서 로컬 배포를 목표로 합니다.
- DeepSeek-V4-Flash-Base — Flash에 대한 일치하는 기본 체크포인트입니다.
네 가지 모델 모두 MIT 라이선스 하에 제공된다는 점이 중요한 사실입니다. GPT-5.5는 비공개이며 백만 입력 토큰당 5달러의 비용이 들고, Claude Opus 4.6은 비공개이며 15달러에 가깝습니다. DeepSeek V4-Pro는 라이선스 비용 없이 자체 하드웨어에 다운로드, 미러링, 미세 조정 및 배포할 수 있는 공개 가중치를 제공합니다.
V3.2에서 무엇이 바뀌었나요?
V3는 이미 추론 및 코드 분야에서 경쟁력이 있었습니다. V4는 어텐션 스택과 훈련 파이프라인을 재작성하여 긴 컨텍스트와 효율성을 동시에 강화했습니다.
| 기능 | V3.2 | V4-Pro |
|---|---|---|
| 총 매개변수 | 6,850억 개 | 1.6조 개 |
| 활성 매개변수 | 370억 개 | 490억 개 |
| 컨텍스트 창 | 128K | 1M |
| 추론 FLOPs (1M 컨텍스트) | 기준 | V3.2의 27% |
| KV 캐시 (1M 컨텍스트) | 기준 | V3.2의 10% |
| 정밀도 | FP8 | FP4 + FP8 혼합 |
| 라이선스 | DeepSeek 라이선스 | MIT |
| 추론 모드 | 단일 | 세 가지 |
세 가지 요인이 성능 향상을 이끌었습니다. 첫째, 압축 희소 어텐션(Compressed Sparse Attention)과 고도로 압축된 어텐션(Heavily Compressed Attention)을 결합한 새로운 하이브리드 어텐션 스택입니다. 10%의 KV-캐시 수치가 여기서 나옵니다. 둘째, V4에 필요한 깊이에서 그래디언트를 안정화하는 매니폴드 제약 하이퍼-연결(Manifold-Constrained Hyper-Connections)입니다. 셋째, 더 빠른 수렴을 위한 뮤온(Muon) 옵티마이저로의 전환입니다. 훈련 코퍼스 또한 32조 토큰 이상으로 확장되었으며, 후처리에는 도메인별 전문가를 먼저 육성한 다음 정책 기반 증류(on-policy distillation)로 통합하는 2단계 파이프라인이 사용됩니다.

중요한 벤치마크
DeepSeek이 발표한 수치는 V4-Pro가 코딩 및 지식 분야에서 선두를 달리고 있지만, 긴 컨텍스트 검색에서는 격차가 있음을 보여줍니다.

더 작은 변형인 V4-Flash의 경우, DeepSeek은 MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0을 보고했습니다. 이는 활성 130억 개 모델에게는 선두권의 성능이며, Flash가 자체 하드웨어에 배포하려는 사용자에게 흥미로운 체크포인트인 이유입니다. 전체 표는 DeepSeek V4-Flash 카드에서 확인하세요.
솔직한 평가: V4-Pro는 코드, 개방형 사실 회상에서 우수하며, 일반 지식에서는 Gemini 3.1 Pro에 뒤지고, 1백만 토큰 검색 벤치마크에서는 Claude Opus에 뒤집니다. 작업 부하가 에이전트 코딩 또는 추론 중심 분석이라면 V4-Pro가 고려 대상입니다. 수백만 토큰에서 바늘 찾기 검색이라면 Claude가 여전히 우위에 있습니다.
세 가지 추론 모드
모든 V4 체크포인트는 세 가지 추론 노력을 제공하며, 올바른 모드를 선택하는 것이 가장 큰 비용 지렛대입니다.
- Non-Think — 빠른 경로. 단일 통과 생성, 사고 과정 없음, 추가 추론 토큰 없음. 분류, 라우팅, 짧은 요약, 그리고 정확성보다 지연 시간이 더 중요한 모든 경우에 사용합니다.
- Think High — 어려운 작업의 기본값. 모델은 답변 전에 추론 토큰을 작성하고, 도구 호출을 계획하며, 출력을 확인합니다. GPT-5.5가 "사고 모드"라고 부르고 Claude가 "확장된 사고"라고 부르는 것과 일치합니다.
- Think Max — 최고 수준. 더 긴 추론 경로, 더 적극적인 자기 비판, 그리고 최소 384K 토큰 컨텍스트 창 권장. 이것이 LiveCodeBench 93.5라는 수치를 만들어내며, 토큰 비용의 상응하는 상승을 예상해야 합니다.
API의 단일 `thinking_mode` 매개변수 또는 로컬 추론 스크립트의 플래그를 사용하여 이들 간에 전환할 수 있습니다. DeepSeek의 샘플링 권장 사항은 세 가지 모두에 대해 `temperature=1.0, top_p=1.0`입니다.
간단히 설명하는 아키텍처
V4 아키텍처 논문은 내용이 방대하지만, 세 가지 선택이 효율성 스토리를 설명합니다.
- 하이브리드 어텐션. 대부분의 트랜스포머 레이어는 압축 희소 어텐션(Compressed Sparse Attention)을 사용하는데, 이는 소수의 고가치 토큰에 완전히 집중하고 나머지를 압축합니다. 일부 레이어는 시퀀스 길이에 선형 비용에 더 가까운 고도로 압축된 어텐션(Heavily Compressed Attention)을 사용합니다. 이러한 혼합이 1백만 토큰에서 27% FLOPs 및 10% KV-캐시 수치를 제공합니다.
- 매니폴드 제약 하이퍼-연결. 일반적인 잔차 연결 대신, V4는 각 레이어의 잔차를 안정적인 매니폴드에 활성화를 유지하는 제약으로 감쌉니다. 실제 효과는 그래디언트 혼란 없이 더 많은 레이어를 쌓을 수 있다는 것입니다.
- 뮤온(Muon) 옵티마이저. 대부분의 훈련에서 AdamW를 대체합니다. Muon은 더 빠르게 수렴하며, MoE 모델이 생성하는 거대한 그래디언트 노름을 AdamW보다 더 잘 처리합니다.
이러한 아이디어 중 어느 것도 그 자체로 완전히 새로운 것은 아닙니다. V4의 기여는 이 세 가지를 1조 개 매개변수 규모에서 훈련을 폭발시키지 않고 함께 작동하도록 하는 데 있습니다.
오늘날의 가용성
DeepSeek은 네 가지 체크포인트와 API를 같은 날 출시했습니다. 2026년 4월 24일 현재의 현황입니다.
| 접근 방식 | 접근 |
|---|---|
| chat.deepseek.com | 무료 웹 채팅, V4-Pro 기본, 로그인 필요 |
| DeepSeek API | api.deepseek.com에서 라이브; 모델 ID deepseek-v4-pro, deepseek-v4-flash |
| Hugging Face 가중치 | V4-Pro, V4-Flash, 둘 다 MIT 라이선스 |
| ModelScope | 중국 사용자를 위한 미러링된 가중치 |
| OpenRouter 및 애그리게이터 | 수일 내 예상; 일반적인 DeepSeek 출시 패턴 |
deepseek-chat / deepseek-reasoner |
2026년 7월 24일 사용 중단 예정 |
사용 중단 공지는 주목할 만합니다. 프로덕션 환경에서 여전히 `deepseek-chat`을 호출하고 있다면, `deepseek-v4-pro` 또는 `deepseek-v4-flash`로 마이그레이션할 시간이 3개월 주어집니다.
GPT-5.5 및 Claude와 어떻게 비교되나요?
대부분의 팀이 실제로 관심을 가지는 세 가지 비교 사항:
- 비용. V4-Pro와 V4-Flash는 공개 가중치를 가지고 있습니다. GPT-5.5와 Claude Opus 4.6은 그렇지 않습니다. 자체 호스팅이 가능하다면, V4는 어떤 심각한 규모에서도 단위 경제성에서 우수합니다.
- 코딩. V4-Pro의 LiveCodeBench 93.5점과 Codeforces 3206점은 동일한 스위트에서 GPT-5.5 벤치마크 라인과 Claude Opus 모두를 능가합니다.
- 지식 범위. Gemini 3.1 Pro는 MMLU-Pro에서 여전히 91.0으로 선두를 달리고 있습니다. GPT-5.5와 V4-Pro는 87.5로 동률입니다. SimpleQA-Verified에서는 V4가 GPT-5.5와 Claude를 두 자릿수 차이로 앞섭니다.
- 긴 컨텍스트 검색. Claude Opus는 MRCR 1M에서 약 9점 차이로 승리합니다. 작업 부하가 "백만 토큰에서 한 문장 찾기"라면 Claude가 여전히 더 안전한 선택입니다.
- 라이선스. MIT는 사용 계약 없이 V4-Pro를 제품 내부에 포함하여 배포할 수 있음을 의미합니다. OpenAI나 Anthropic이 제공하는 어떤 것도 이에 필적할 만한 것이 없습니다.
무엇을 구축할 수 있나요?
네 가지 작업 부하가 V4의 강점과 깔끔하게 일치합니다:
- 에이전트 코딩 루프. SWE Verified 79.0 및 Codeforces 3206 수치는 다중 파일 디버깅, 리포지토리 인식 리팩토링, 자율 테스트 수정 기능을 직접적으로 보여줍니다. Apidog와 같은 좋은 API 클라이언트와 함께 사용하여 프롬프트를 조정하는 동안 모든 요청과 응답을 검사하세요.
- 긴 문서에 대한 추론. 1백만 토큰은 대부분의 모노레포, 대부분의 계약, 대부분의 연구 코퍼스에 충분합니다. Think High가 이에 적합한 모드입니다.
- 자체 호스팅 AI 제품. 규정 준수 요건으로 온프레미스 추론이 필요한 경우, V4-Flash는 품질 면에서 폐쇄형 프론티어 API와 경쟁하는 최초의 공개 가중치 모델입니다.
- 연구 및 미세 조정. 기본(Base) 체크포인트는 맞춤형 훈련을 위해 특별히 존재합니다. 이를 도메인 데이터셋과 결합하면 프로덕션 수준의 전문 모델을 얻을 수 있습니다.
적합하지 않은 경우: 대량 분류, 임베딩 검색 또는 짧은 프롬프트 채팅. V4-Flash는 여전히 이러한 용도에는 과도하며, 이전 DeepSeek 체크포인트가 비용이 더 적게 듭니다.
한 줄로 요약하는 가격 책정
작성 시점에는 DeepSeek이 최종 API 요금표를 게시하지 않았습니다. V3.2는 백만 입력 토큰당 약 0.28달러, 백만 출력 토큰당 0.42달러로 운영되었으며, 연구소는 V-시리즈 가격을 해당 최저치에 가깝게 유지해 온 실적이 있습니다. V4-Flash는 동일한 범위에서, V4-Pro는 약간의 프리미엄이 붙을 것으로 예상됩니다. 폐쇄형 경쟁사들은 백만 입력 토큰당 5~15달러로 가격을 책정하므로, V3.2에서 3배 인상된다 하더라도 DeepSeek은 프론티어 API 중간값보다 훨씬 낮을 것입니다. 실시간 수치는 DeepSeek 가격 페이지에서 확인하세요.
오늘 V4를 테스트하는 방법
세 가지 경로 (첫 토큰까지의 시간 순):
- 웹 채팅. chat.deepseek.com을 열고 로그인합니다. V4-Pro가 기본이며, UI에서 Think High로 전환할 수 있습니다. 무료이며, 카드 필요 없이 지금 작동합니다.
- API. 키를 발급받아 클라이언트를
https://api.deepseek.com으로 설정하고,"model": "deepseek-v4-pro"를 지정한 다음 시작합니다. 요청 형식은 OpenAI와 호환되므로, 기존 OpenAI 클라이언트도 기본 URL만 변경하면 작동합니다. 전체 가이드는 DeepSeek V4 API 가이드에서 확인할 수 있습니다. - 로컬 가중치. Hugging Face 또는 ModelScope에서 다운로드합니다. V4-Flash는 2~4개의 H100에서 실행되며, V4-Pro는 상당한 클러스터가 필요합니다. 추론 코드는 모델 리포지토리의
/inference폴더에 있습니다.
Apidog 기반 프롬프트 반복을 포함한 전체 가이드는 DeepSeek V4 사용 방법을 참조하세요. 비용을 들이지 않고 사용하려면 DeepSeek V4 무료 사용 방법을 참조하세요. Apidog를 다운로드하여 컬렉션을 미리 구축하세요. OpenAI 호환 형식은 DeepSeek, OpenAI 및 기타 모든 프론티어 API에서 하나의 요청으로 작동함을 의미합니다.
자주 묻는 질문
- DeepSeek V4는 정말 오픈 소스인가요? 네. 네 가지 체크포인트 모두 MIT 라이선스를 따르며, 이는 별도의 사용 계약 없이 상업적 사용, 수정 및 재배포를 허용합니다.
- V4-Flash를 실행하려면 GPU 클러스터터가 필요한가요? V4-Flash를 완전 정밀도로 실행하려면 2~4개의 H100 또는 H200이 필요하며, 양자화하면 더 적게 필요합니다. V4-Pro는 진정한 클러스터가 필요합니다. 하드웨어 없이 V4를 사용해보고 싶다면 API 또는 chat.deepseek.com을 사용하세요.
- V4는 언제 DeepSeek API에 출시되나요? 2026년 4월 23일 기준으로 이미 활성화되어 있습니다. 모델 ID는
deepseek-v4-pro및deepseek-v4-flash입니다. 이전deepseek-chat및deepseek-reasonerID는 2026년 7월 24일에 사용 중단됩니다. - V4는 Kimi 및 Qwen과 어떻게 비교되나요? V4-Pro는 DeepSeek이 보고한 표에서 Kimi K2 및 Qwen 3 Max보다 더 높은 LiveCodeBench 및 Codeforces 수치를 기록합니다. 세 모델 모두 유사한 배포 프로필을 가진 공개 가중치 MoE 시스템입니다. 작업 부하에 가장 가까운 벤치마크를 기준으로 선택하세요.
- 내 데이터로 V4를 미세 조정할 수 있나요? 네. 기본(Base) 체크포인트가 이를 위해 존재합니다. 이를 도메인 데이터와 표준 SFT 파이프라인과 결합하세요. MIT 라이선스는 결과 모델의 상업적 재배포를 허용합니다.
- V4는 기존 OpenAI 호환 도구와 작동하나요? 네. API는
https://api.deepseek.com및https://api.deepseek.com/anthropic에서 각각 OpenAI 및 Anthropic 메시지 형식을 모두 허용합니다. 대부분의 기존 OpenAI 클라이언트는 단일 기본 URL 변경으로 작동합니다. 유사한 패턴에 대해서는 해당 GPT-5.5 API 가이드를 참조하세요.
