DeepSeek V4 Là Gì?

DeepSeek đã phát hành V4 vào ngày 23 tháng 4 năm 2026, và đây không phải là một bản cập nhật nhỏ. Phòng thí nghiệm Hàng Châu đã phát hành bốn điểm kiểm tra cùng lúc, đứng đầu là DeepSeek-V4-Pro với tổng số 1,6 nghìn tỷ tham số, giấy phép MIT và cửa sổ ngữ cảnh 1 triệu token. Phiên bản nhỏ hơn, DeepSeek-V4-Flash, có 284 tỷ tham số với ngữ cảnh tương tự và các trọng số mở giống nhau. Các điểm chuẩn cho thấy biến thể Pro vượt trội Claude Opus 4.6 trên LiveCodeBench và Codeforces, và gần đạt đến GPT-5.4 xHigh trên MMLU-Pro.

Nếu bạn đang cân nhắc có nên thay thế Claude, GPT-5.5 hoặc Qwen bằng DeepSeek V4 hay không, hướng dẫn này sẽ trình bày về mô hình, những thay đổi so với V3.2, các lựa chọn kiến trúc thúc đẩy câu chuyện điểm chuẩn và nơi để chạy nó hôm nay.

Để xem các hướng dẫn dành cho nhà phát triển tương ứng, chúng tôi có hướng dẫn API DeepSeek V4, hướng dẫn truy cập miễn phí và hướng dẫn sử dụng DeepSeek V4 đầy đủ. Định dạng yêu cầu tương thích hoàn hảo với định dạng của OpenAI, vì vậy bạn có thể xây dựng trước bộ sưu tập trong Apidog trước khi có khóa API.

button

Tóm tắt

DeepSeek V4 là một họ mô hình Mixture-of-Experts được phát hành vào ngày 23 tháng 4 năm 2026 theo giấy phép MIT.
Bốn điểm kiểm tra được phát hành khi ra mắt: V4-Pro, V4-Pro-Base, V4-Flash và V4-Flash-Base.
V4-Pro có tổng cộng 1,6T tham số với 49B hoạt động; V4-Flash có tổng cộng 284B với 13B hoạt động.
Cả hai biến thể đều có cửa sổ ngữ cảnh 1M token và ba chế độ suy luận: Non-Think, Think High và Think Max.
Các điểm số nổi bật: LiveCodeBench 93.5, Codeforces 3206, MMLU-Pro 87.5 (biến thể Pro).
API đang hoạt động tại api.deepseek.com với các ID mô hình deepseek-v4-pro và deepseek-v4-flash; trọng số có sẵn trên Hugging Face và ModelScope.

DeepSeek V4 thực sự là gì

DeepSeek V4 là phiên bản kế nhiệm của các dòng V3 và V3.2 đã giúp phòng thí nghiệm trở nên nổi tiếng vào năm ngoái. Kiến trúc vẫn là Mixture-of-Experts, nhưng hình dạng của mô hình đã thay đổi. V4-Pro chỉ kích hoạt 49 tỷ trong số 1,6 nghìn tỷ tham số của nó cho mỗi token, vì vậy chi phí tính toán trên mỗi token gần giống với một mô hình dày đặc 50B hơn là một hệ thống biên với hàng nghìn tỷ tham số. Đọc báo cáo kỹ thuật đầy đủ trên thẻ mô hình DeepSeek V4.

Bốn điểm kiểm tra được phát hành khi ra mắt:

DeepSeek-V4-Pro — phiên bản chủ lực. Tổng cộng 1.6T, 49B hoạt động, ngữ cảnh 1M. Đây là phiên bản mà hầu hết các nhóm sẽ gọi qua API.
DeepSeek-V4-Pro-Base — cơ sở được huấn luyện trước mà không cần huấn luyện sau. Nhằm vào các nhà nghiên cứu và nhóm xây dựng các tùy chỉnh tinh chỉnh.
DeepSeek-V4-Flash — biến thể hiệu quả. Tổng cộng 284B, 13B hoạt động, ngữ cảnh 1M tương tự. Nhắm đến các tác vụ nhạy cảm với độ trễ và triển khai cục bộ trên hai hoặc ba H100.
DeepSeek-V4-Flash-Base — điểm kiểm tra cơ sở phù hợp cho Flash.

Cả bốn đều phát hành dưới giấy phép MIT, đây là một điểm đáng chú ý. GPT-5.5 là mô hình đóng và có giá 5 đô la cho mỗi triệu token đầu vào; Claude Opus 4.6 là mô hình đóng và có giá gần 15 đô la. DeepSeek V4-Pro có trọng số mở mà bạn có thể tải xuống, sao chép, tinh chỉnh và triển khai trên phần cứng của riêng mình mà không mất phí giấy phép.

Những thay đổi so với V3.2

V3 đã cạnh tranh tốt về khả năng suy luận và code. V4 viết lại kiến trúc attention và pipeline huấn luyện để đẩy mạnh ngữ cảnh dài và hiệu quả cùng lúc.

Khả năng	V3.2	V4-Pro
Tổng tham số	685B	1.6T
Tham số hoạt động	37B	49B
Cửa sổ ngữ cảnh	128K	1M
FLOPs suy luận (ngữ cảnh 1M)	Cơ sở	27% của V3.2
Bộ nhớ đệm KV (ngữ cảnh 1M)	Cơ sở	10% của V3.2
Độ chính xác	FP8	FP4 + FP8 hỗn hợp
Giấy phép	Giấy phép DeepSeek	MIT
Chế độ suy luận	Đơn lẻ	Ba

Ba yếu tố thúc đẩy bước nhảy vọt này. Thứ nhất, một kiến trúc attention lai mới kết hợp Compressed Sparse Attention với Heavily Compressed Attention; đây là nguồn gốc của con số 10% bộ nhớ đệm KV. Thứ hai, Manifold-Constrained Hyper-Connections giúp ổn định gradient ở độ sâu mà V4 yêu cầu. Thứ ba, việc chuyển sang trình tối ưu hóa Muon để hội tụ nhanh hơn. Tập dữ liệu huấn luyện cũng đã vượt quá 32 nghìn tỷ token, và quá trình huấn luyện sau sử dụng một pipeline hai giai đoạn: đầu tiên nuôi dưỡng các chuyên gia chuyên biệt theo lĩnh vực, sau đó củng cố chúng bằng phương pháp chắt lọc dựa trên chính sách.

Các điểm chuẩn quan trọng

Các số liệu được DeepSeek báo cáo đặt V4-Pro vào bảng xếp hạng hàng đầu về mã hóa và kiến thức, với một số khoảng trống về truy xuất ngữ cảnh dài.

Đối với V4-Flash, biến thể nhỏ hơn, DeepSeek báo cáo MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052 và SWE Verified 79.0. Đây là một vùng lãnh thổ tiên phong cho một mô hình 13B hoạt động, và đó là lý do tại sao Flash là điểm kiểm tra thú vị cho bất kỳ ai triển khai trên phần cứng của riêng họ. Xem thẻ DeepSeek V4-Flash để biết bảng đầy đủ.

Đánh giá thẳng thắn: V4-Pro chiến thắng về code, chiến thắng về khả năng nhớ lại sự thật mở, kém Gemini 3.1 Pro về kiến thức tổng quát và kém Claude Opus trong các điểm chuẩn truy xuất 1M token. Nếu khối lượng công việc của bạn là lập trình tự động (agentic coding) hoặc phân tích nặng về suy luận, V4-Pro rất đáng cân nhắc. Nếu đó là truy xuất "kim trong đống rơm" qua một triệu token, Claude vẫn có lợi thế.

Ba chế độ suy luận

Mỗi điểm kiểm tra V4 đều có ba cấp độ nỗ lực suy luận, và việc chọn đúng cấp độ là đòn bẩy chi phí lớn nhất.

Non-Think — đường dẫn nhanh. Tạo ra phản hồi trong một lần, không có chuỗi suy nghĩ, không có token suy luận bổ sung. Sử dụng cho phân loại, định tuyến, tóm tắt ngắn gọn và bất cứ điều gì mà độ trễ quan trọng hơn độ chính xác.
Think High — mặc định cho công việc khó. Mô hình viết các token suy luận trước câu trả lời, lập kế hoạch gọi công cụ và kiểm tra đầu ra của nó. Tương tự như điều GPT-5.5 gọi là “chế độ suy nghĩ” và Claude gọi là “suy nghĩ mở rộng”.
Think Max — giới hạn cao nhất. Dấu vết suy luận dài hơn, tự phê bình tích cực hơn và khuyến nghị cửa sổ ngữ cảnh tối thiểu 384K token. Đây là yếu tố tạo ra con số LiveCodeBench 93.5; hãy dự kiến một sự gia tăng tương ứng về chi phí token.

Chuyển đổi giữa chúng bằng một tham số thinking_mode duy nhất trong API hoặc một cờ trong tập lệnh suy luận cục bộ. Khuyến nghị lấy mẫu của DeepSeek là temperature=1.0, top_p=1.0 trên cả ba chế độ.

Kiến trúc theo cách đơn giản

Bài báo kiến trúc V4 rất phức tạp, nhưng ba lựa chọn giải thích câu chuyện về hiệu quả.

Attention lai. Hầu hết các lớp transformer sử dụng Compressed Sparse Attention, giữ một nhóm nhỏ các token giá trị cao được chú ý hoàn toàn và nén phần còn lại. Một số ít lớp sử dụng Heavily Compressed Attention, có chi phí gần như tuyến tính với độ dài chuỗi. Sự kết hợp này mang lại các con số 27% FLOPs và 10% KV-cache ở 1M token.
Siêu kết nối ràng buộc đa tạp (Manifold-Constrained Hyper-Connections). Thay vì các kết nối residual thông thường, V4 bọc các residual của mỗi lớp trong một ràng buộc giữ cho các kích hoạt trên một đa tạp ổn định. Hiệu ứng thực tế là bạn có thể xếp chồng nhiều lớp hơn mà không gây ra sự hỗn loạn gradient.
Trình tối ưu hóa Muon. Thay thế AdamW trong hầu hết quá trình huấn luyện. Muon hội tụ nhanh hơn và xử lý các chuẩn gradient lớn mà các mô hình MoE tạo ra tốt hơn AdamW.

Không có ý tưởng nào trong số này là hoàn toàn mới. Đóng góp của V4 là đưa cả ba làm việc cùng nhau ở quy mô nghìn tỷ tham số mà không làm hỏng quá trình huấn luyện.

Khả năng khả dụng hôm nay

DeepSeek đã ra mắt cả bốn điểm kiểm tra và API trong cùng một ngày. Dưới đây là ảnh chụp nhanh tính đến ngày 24 tháng 4 năm 2026.

Nền tảng	Truy cập
chat.deepseek.com	Trò chuyện web miễn phí, V4-Pro mặc định, yêu cầu đăng nhập
API DeepSeek	Hoạt động tại `api.deepseek.com`; ID mô hình `deepseek-v4-pro`, `deepseek-v4-flash`
Trọng số trên Hugging Face	V4-Pro, V4-Flash, cả hai đều có giấy phép MIT
ModelScope	Trọng số được sao chép cho người dùng ở Trung Quốc
OpenRouter và các công cụ tổng hợp	Dự kiến trong vài ngày tới; mô hình ra mắt điển hình của DeepSeek
`deepseek-chat` / `deepseek-reasoner`	Ngừng hỗ trợ vào ngày 24 tháng 7 năm 2026

Thông báo ngừng hỗ trợ đáng được lưu ý. Nếu bạn vẫn đang gọi deepseek-chat trong môi trường sản xuất, bạn có ba tháng để di chuyển sang deepseek-v4-pro hoặc deepseek-v4-flash.

So sánh với GPT-5.5 và Claude

So sánh ba bên mà hầu hết các nhóm thực sự quan tâm:

Chi phí. V4-Pro và V4-Flash có trọng số mở. GPT-5.5 và Claude Opus 4.6 thì không. Nếu bạn có thể tự lưu trữ, V4 chiến thắng về kinh tế đơn vị ở bất kỳ quy mô nghiêm túc nào.
Lập trình. V4-Pro đạt 93.5 trên LiveCodeBench và 3206 trên Codeforces, đánh bại cả GPT-5.5 và Claude Opus trên cùng các bộ điểm chuẩn.
Kiến thức tổng quát. Gemini 3.1 Pro vẫn dẫn đầu MMLU-Pro ở 91.0. GPT-5.5 và V4-Pro hòa nhau ở 87.5. Trên SimpleQA-Verified, V4 đánh bại GPT-5.5 và Claude với cách biệt hai chữ số.
Truy xuất ngữ cảnh dài. Claude Opus thắng MRCR 1M khoảng 9 điểm. Nếu khối lượng công việc của bạn là “tìm một câu trong một triệu token,” Claude vẫn là lựa chọn an toàn hơn.
Giấy phép. MIT có nghĩa là bạn có thể phân phối V4-Pro trong một sản phẩm mà không cần thỏa thuận sử dụng. Không có gì OpenAI hoặc Anthropic cung cấp có thể sánh được.

Nên xây dựng gì với nó

Bốn khối lượng công việc phù hợp rõ ràng với điểm mạnh của V4:

Vòng lặp lập trình tự động (Agentic coding loops). Các con số SWE Verified 79.0 và Codeforces 3206 chỉ thẳng đến việc gỡ lỗi đa tệp, tái cấu trúc nhận biết kho lưu trữ và sửa lỗi kiểm thử tự động. Kết hợp nó với một ứng dụng khách API tốt như Apidog để kiểm tra mọi yêu cầu và phản hồi khi bạn tinh chỉnh các prompt.
Suy luận trên tài liệu dài. 1M token là đủ cho hầu hết các monorepo, hầu hết các hợp đồng và hầu hết các tập dữ liệu nghiên cứu. Think High là chế độ phù hợp cho việc này.
Sản phẩm AI tự lưu trữ. Nếu yêu cầu tuân thủ của bạn cần suy luận tại chỗ, V4-Flash là mô hình có trọng số mở đầu tiên cạnh tranh về chất lượng với các API tiên phong đóng.
Nghiên cứu và tinh chỉnh. Các điểm kiểm tra Base được tạo ra đặc biệt cho việc huấn luyện tùy chỉnh. Kết hợp chúng với một tập dữ liệu miền và bạn sẽ có được các mô hình chuyên biệt cấp độ sản xuất.

Những trường hợp không phù hợp: phân loại khối lượng lớn, truy xuất embedding hoặc trò chuyện prompt ngắn. V4-Flash vẫn quá mức cần thiết cho những trường hợp đó, và các điểm kiểm tra DeepSeek cũ hơn có chi phí thấp hơn.

Giá cả tóm tắt

DeepSeek vẫn chưa công bố bảng giá API cuối cùng tại thời điểm viết bài. V3.2 có giá khoảng 0,28 đô la cho mỗi triệu token đầu vào và 0,42 đô la cho mỗi triệu token đầu ra, và phòng thí nghiệm có lịch sử giữ giá dòng V gần mức đó. Dự kiến V4-Flash sẽ có giá trong cùng phạm vi và V4-Pro sẽ có mức phí cao hơn một chút. Các đối thủ cạnh tranh đóng có giá từ 5 đến 15 đô la cho mỗi triệu token đầu vào, vì vậy ngay cả khi tăng giá gấp 3 lần so với V3.2, DeepSeek vẫn thấp hơn nhiều so với mức trung bình của các API tiên phong. Theo dõi các số liệu trực tiếp trên trang giá của DeepSeek.

Cách thử nghiệm V4 hôm nay

Ba cách, được xếp hạng theo thời gian để nhận token đầu tiên.

Trò chuyện web. Mở chat.deepseek.com và đăng nhập. V4-Pro là mặc định; chuyển sang Think High trong giao diện người dùng. Miễn phí, không cần thẻ, hoạt động ngay.
API. Lấy khóa, trỏ ứng dụng khách của bạn đến https://api.deepseek.com, đặt "model": "deepseek-v4-pro", và bắt đầu. Định dạng yêu cầu tương thích với OpenAI, vì vậy bất kỳ ứng dụng khách OpenAI hiện có nào cũng hoạt động chỉ với việc thay đổi URL cơ sở. Hướng dẫn đầy đủ trong hướng dẫn API DeepSeek V4.
Trọng số cục bộ. Tải từ Hugging Face hoặc ModelScope. V4-Flash chạy trên 2 đến 4 H100; V4-Pro cần một cụm thực sự. Mã suy luận nằm trong thư mục /inference của kho lưu trữ mô hình.

Để xem hướng dẫn đầy đủ bao gồm lặp prompt dựa trên Apidog, hãy xem cách sử dụng DeepSeek V4. Để giữ chi phí bằng 0, hãy xem cách sử dụng DeepSeek V4 miễn phí. Tải xuống Apidog và xây dựng trước bộ sưu tập của bạn; định dạng tương thích OpenAI có nghĩa là một yêu cầu có thể hoạt động trên DeepSeek, OpenAI và mọi API tiên phong khác.

Câu hỏi thường gặp

DeepSeek V4 có thực sự mã nguồn mở không?Có. Cả bốn điểm kiểm tra đều mang giấy phép MIT, cho phép sử dụng thương mại, sửa đổi và phân phối lại mà không cần thỏa thuận sử dụng riêng.

Tôi có cần một cụm GPU để chạy V4-Flash không?Bạn cần hai đến bốn H100 hoặc H200 cho V4-Flash ở độ chính xác đầy đủ, ít hơn nếu bạn lượng tử hóa. V4-Pro cần một cụm thực sự. Nếu bạn muốn thử V4 mà không có phần cứng, hãy sử dụng API hoặc chat.deepseek.com.

Khi nào V4 có mặt trên API DeepSeek?Nó đã hoạt động kể từ ngày 23 tháng 4 năm 2026. Các ID mô hình là deepseek-v4-pro và deepseek-v4-flash. Các ID cũ hơn deepseek-chat và deepseek-reasoner sẽ ngừng hỗ trợ vào ngày 24 tháng 7 năm 2026.

V4 so sánh với Kimi và Qwen như thế nào?V4-Pro đạt điểm LiveCodeBench và Codeforces cao hơn Kimi K2 và Qwen 3 Max trên các bảng báo cáo của DeepSeek. Cả ba đều là hệ thống MoE có trọng số mở với cấu hình triển khai tương tự. Hãy chọn dựa trên điểm chuẩn gần nhất với khối lượng công việc của bạn.

Tôi có thể tinh chỉnh V4 trên dữ liệu của riêng mình không?Có. Các điểm kiểm tra Base tồn tại cho mục đích đó; kết hợp chúng với dữ liệu miền của bạn và một pipeline SFT tiêu chuẩn. Giấy phép MIT bao gồm việc phân phối lại thương mại của mô hình kết quả.

V4 có hoạt động với các công cụ tương thích OpenAI hiện có của tôi không?Có. API chấp nhận cả định dạng tin nhắn OpenAI và Anthropic tại https://api.deepseek.com và https://api.deepseek.com/anthropic tương ứng. Hầu hết các ứng dụng khách OpenAI hiện có đều hoạt động chỉ với một thay đổi URL cơ sở. Xem hướng dẫn API GPT-5.5 tương ứng để biết mẫu song song.