DeepSeek V4란 무엇인가?

Ashley Innocent

Ashley Innocent

24 April 2026

DeepSeek V4란 무엇인가?

Apidog 엔터프라이즈

온프레미스 배포

SSO & RBAC

SOC 2 준수

Apidog Enterprise 살펴보기

DeepSeek은 2026년 4월 23일에 V4를 출시했으며, 이는 사소한 포인트 릴리스가 아닙니다. 항저우 연구소는 1.6조 개의 총 매개변수, MIT 라이선스, 1백만 토큰 컨텍스트 창을 특징으로 하는 DeepSeek-V4-Pro를 필두로 네 가지 체크포인트를 동시에 공개했습니다. 더 작은 모델인 DeepSeek-V4-Flash는 동일한 컨텍스트와 공개 가중치를 가지며 2,840억 개의 매개변수를 가집니다. 벤치마크에 따르면 Pro 버전은 LiveCodeBench 및 Codeforces에서 Claude Opus 4.6보다 앞서며, MMLU-Pro에서는 GPT-5.4 xHigh에 근접하는 성능을 보입니다.

Claude, GPT-5.5 또는 Qwen를 DeepSeek V4로 교체할지 결정하고 있다면, 이 가이드는 이 모델이 무엇인지, V3.2에서 무엇이 바뀌었는지, 벤치마크 성능을 이끄는 아키텍처 선택 사항, 그리고 오늘날 어디에서 실행할 수 있는지 다룹니다.

관련 개발자 가이드로는 DeepSeek V4 API 가이드, 무료 액세스 가이드, 그리고 전체 DeepSeek V4 사용 가이드가 있습니다. 요청 형식은 OpenAI의 형식에 깔끔하게 매핑되므로, 키를 받기 전에 Apidog에서 컬렉션을 미리 구축할 수 있습니다.

button

요약

DeepSeek V4는 실제로 무엇인가요?

DeepSeek V4는 작년에 연구소를 유명하게 만든 V3 및 V3.2 라인의 후속 모델입니다. 아키텍처는 여전히 Mixture-of-Experts이지만, 모델의 형태가 변경되었습니다. V4-Pro는 토큰당 1.6조 개의 매개변수 중 490억 개만 활성화하므로, 토큰당 계산 비용은 1조 개 매개변수 프론티어 시스템보다는 500억 개 매개변수 밀집 모델에 가깝습니다. 전체 기술 보고서는 DeepSeek V4 모델 카드에서 확인할 수 있습니다.

출시 시점에 네 가지 체크포인트가 제공됩니다:

네 가지 모델 모두 MIT 라이선스 하에 제공된다는 점이 중요한 사실입니다. GPT-5.5는 비공개이며 백만 입력 토큰당 5달러의 비용이 들고, Claude Opus 4.6은 비공개이며 15달러에 가깝습니다. DeepSeek V4-Pro는 라이선스 비용 없이 자체 하드웨어에 다운로드, 미러링, 미세 조정 및 배포할 수 있는 공개 가중치를 제공합니다.

V3.2에서 무엇이 바뀌었나요?

V3는 이미 추론 및 코드 분야에서 경쟁력이 있었습니다. V4는 어텐션 스택과 훈련 파이프라인을 재작성하여 긴 컨텍스트와 효율성을 동시에 강화했습니다.

기능 V3.2 V4-Pro
총 매개변수 6,850억 개 1.6조 개
활성 매개변수 370억 개 490억 개
컨텍스트 창 128K 1M
추론 FLOPs (1M 컨텍스트) 기준 V3.2의 27%
KV 캐시 (1M 컨텍스트) 기준 V3.2의 10%
정밀도 FP8 FP4 + FP8 혼합
라이선스 DeepSeek 라이선스 MIT
추론 모드 단일 세 가지

세 가지 요인이 성능 향상을 이끌었습니다. 첫째, 압축 희소 어텐션(Compressed Sparse Attention)과 고도로 압축된 어텐션(Heavily Compressed Attention)을 결합한 새로운 하이브리드 어텐션 스택입니다. 10%의 KV-캐시 수치가 여기서 나옵니다. 둘째, V4에 필요한 깊이에서 그래디언트를 안정화하는 매니폴드 제약 하이퍼-연결(Manifold-Constrained Hyper-Connections)입니다. 셋째, 더 빠른 수렴을 위한 뮤온(Muon) 옵티마이저로의 전환입니다. 훈련 코퍼스 또한 32조 토큰 이상으로 확장되었으며, 후처리에는 도메인별 전문가를 먼저 육성한 다음 정책 기반 증류(on-policy distillation)로 통합하는 2단계 파이프라인이 사용됩니다.

중요한 벤치마크

DeepSeek이 발표한 수치는 V4-Pro가 코딩 및 지식 분야에서 선두를 달리고 있지만, 긴 컨텍스트 검색에서는 격차가 있음을 보여줍니다.

더 작은 변형인 V4-Flash의 경우, DeepSeek은 MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052, SWE Verified 79.0을 보고했습니다. 이는 활성 130억 개 모델에게는 선두권의 성능이며, Flash가 자체 하드웨어에 배포하려는 사용자에게 흥미로운 체크포인트인 이유입니다. 전체 표는 DeepSeek V4-Flash 카드에서 확인하세요.

솔직한 평가: V4-Pro는 코드, 개방형 사실 회상에서 우수하며, 일반 지식에서는 Gemini 3.1 Pro에 뒤지고, 1백만 토큰 검색 벤치마크에서는 Claude Opus에 뒤집니다. 작업 부하가 에이전트 코딩 또는 추론 중심 분석이라면 V4-Pro가 고려 대상입니다. 수백만 토큰에서 바늘 찾기 검색이라면 Claude가 여전히 우위에 있습니다.

세 가지 추론 모드

모든 V4 체크포인트는 세 가지 추론 노력을 제공하며, 올바른 모드를 선택하는 것이 가장 큰 비용 지렛대입니다.

API의 단일 `thinking_mode` 매개변수 또는 로컬 추론 스크립트의 플래그를 사용하여 이들 간에 전환할 수 있습니다. DeepSeek의 샘플링 권장 사항은 세 가지 모두에 대해 `temperature=1.0, top_p=1.0`입니다.

간단히 설명하는 아키텍처

V4 아키텍처 논문은 내용이 방대하지만, 세 가지 선택이 효율성 스토리를 설명합니다.

  1. 하이브리드 어텐션. 대부분의 트랜스포머 레이어는 압축 희소 어텐션(Compressed Sparse Attention)을 사용하는데, 이는 소수의 고가치 토큰에 완전히 집중하고 나머지를 압축합니다. 일부 레이어는 시퀀스 길이에 선형 비용에 더 가까운 고도로 압축된 어텐션(Heavily Compressed Attention)을 사용합니다. 이러한 혼합이 1백만 토큰에서 27% FLOPs 및 10% KV-캐시 수치를 제공합니다.
  2. 매니폴드 제약 하이퍼-연결. 일반적인 잔차 연결 대신, V4는 각 레이어의 잔차를 안정적인 매니폴드에 활성화를 유지하는 제약으로 감쌉니다. 실제 효과는 그래디언트 혼란 없이 더 많은 레이어를 쌓을 수 있다는 것입니다.
  3. 뮤온(Muon) 옵티마이저. 대부분의 훈련에서 AdamW를 대체합니다. Muon은 더 빠르게 수렴하며, MoE 모델이 생성하는 거대한 그래디언트 노름을 AdamW보다 더 잘 처리합니다.

이러한 아이디어 중 어느 것도 그 자체로 완전히 새로운 것은 아닙니다. V4의 기여는 이 세 가지를 1조 개 매개변수 규모에서 훈련을 폭발시키지 않고 함께 작동하도록 하는 데 있습니다.

오늘날의 가용성

DeepSeek은 네 가지 체크포인트와 API를 같은 날 출시했습니다. 2026년 4월 24일 현재의 현황입니다.

접근 방식 접근
chat.deepseek.com 무료 웹 채팅, V4-Pro 기본, 로그인 필요
DeepSeek API api.deepseek.com에서 라이브; 모델 ID deepseek-v4-pro, deepseek-v4-flash
Hugging Face 가중치 V4-Pro, V4-Flash, 둘 다 MIT 라이선스
ModelScope 중국 사용자를 위한 미러링된 가중치
OpenRouter 및 애그리게이터 수일 내 예상; 일반적인 DeepSeek 출시 패턴
deepseek-chat / deepseek-reasoner 2026년 7월 24일 사용 중단 예정

사용 중단 공지는 주목할 만합니다. 프로덕션 환경에서 여전히 `deepseek-chat`을 호출하고 있다면, `deepseek-v4-pro` 또는 `deepseek-v4-flash`로 마이그레이션할 시간이 3개월 주어집니다.

GPT-5.5 및 Claude와 어떻게 비교되나요?

대부분의 팀이 실제로 관심을 가지는 세 가지 비교 사항:

무엇을 구축할 수 있나요?

네 가지 작업 부하가 V4의 강점과 깔끔하게 일치합니다:

  1. 에이전트 코딩 루프. SWE Verified 79.0 및 Codeforces 3206 수치는 다중 파일 디버깅, 리포지토리 인식 리팩토링, 자율 테스트 수정 기능을 직접적으로 보여줍니다. Apidog와 같은 좋은 API 클라이언트와 함께 사용하여 프롬프트를 조정하는 동안 모든 요청과 응답을 검사하세요.
  2. 긴 문서에 대한 추론. 1백만 토큰은 대부분의 모노레포, 대부분의 계약, 대부분의 연구 코퍼스에 충분합니다. Think High가 이에 적합한 모드입니다.
  3. 자체 호스팅 AI 제품. 규정 준수 요건으로 온프레미스 추론이 필요한 경우, V4-Flash는 품질 면에서 폐쇄형 프론티어 API와 경쟁하는 최초의 공개 가중치 모델입니다.
  4. 연구 및 미세 조정. 기본(Base) 체크포인트는 맞춤형 훈련을 위해 특별히 존재합니다. 이를 도메인 데이터셋과 결합하면 프로덕션 수준의 전문 모델을 얻을 수 있습니다.

적합하지 않은 경우: 대량 분류, 임베딩 검색 또는 짧은 프롬프트 채팅. V4-Flash는 여전히 이러한 용도에는 과도하며, 이전 DeepSeek 체크포인트가 비용이 더 적게 듭니다.

한 줄로 요약하는 가격 책정

작성 시점에는 DeepSeek이 최종 API 요금표를 게시하지 않았습니다. V3.2는 백만 입력 토큰당 약 0.28달러, 백만 출력 토큰당 0.42달러로 운영되었으며, 연구소는 V-시리즈 가격을 해당 최저치에 가깝게 유지해 온 실적이 있습니다. V4-Flash는 동일한 범위에서, V4-Pro는 약간의 프리미엄이 붙을 것으로 예상됩니다. 폐쇄형 경쟁사들은 백만 입력 토큰당 5~15달러로 가격을 책정하므로, V3.2에서 3배 인상된다 하더라도 DeepSeek은 프론티어 API 중간값보다 훨씬 낮을 것입니다. 실시간 수치는 DeepSeek 가격 페이지에서 확인하세요.

오늘 V4를 테스트하는 방법

세 가지 경로 (첫 토큰까지의 시간 순):

  1. 웹 채팅. chat.deepseek.com을 열고 로그인합니다. V4-Pro가 기본이며, UI에서 Think High로 전환할 수 있습니다. 무료이며, 카드 필요 없이 지금 작동합니다.
  2. API. 키를 발급받아 클라이언트를 https://api.deepseek.com으로 설정하고, "model": "deepseek-v4-pro"를 지정한 다음 시작합니다. 요청 형식은 OpenAI와 호환되므로, 기존 OpenAI 클라이언트도 기본 URL만 변경하면 작동합니다. 전체 가이드는 DeepSeek V4 API 가이드에서 확인할 수 있습니다.
  3. 로컬 가중치. Hugging Face 또는 ModelScope에서 다운로드합니다. V4-Flash는 2~4개의 H100에서 실행되며, V4-Pro는 상당한 클러스터가 필요합니다. 추론 코드는 모델 리포지토리의 /inference 폴더에 있습니다.

Apidog 기반 프롬프트 반복을 포함한 전체 가이드는 DeepSeek V4 사용 방법을 참조하세요. 비용을 들이지 않고 사용하려면 DeepSeek V4 무료 사용 방법을 참조하세요. Apidog를 다운로드하여 컬렉션을 미리 구축하세요. OpenAI 호환 형식은 DeepSeek, OpenAI 및 기타 모든 프론티어 API에서 하나의 요청으로 작동함을 의미합니다.

자주 묻는 질문

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요