DeepSeek V4 Là Gì?

Ashley Innocent

Ashley Innocent

24 tháng 4 2026

DeepSeek V4 Là Gì?

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

DeepSeek đã phát hành V4 vào ngày 23 tháng 4 năm 2026, và đây không phải là một bản cập nhật nhỏ. Phòng thí nghiệm Hàng Châu đã phát hành bốn điểm kiểm tra cùng lúc, đứng đầu là DeepSeek-V4-Pro với tổng số 1,6 nghìn tỷ tham số, giấy phép MIT và cửa sổ ngữ cảnh 1 triệu token. Phiên bản nhỏ hơn, DeepSeek-V4-Flash, có 284 tỷ tham số với ngữ cảnh tương tự và các trọng số mở giống nhau. Các điểm chuẩn cho thấy biến thể Pro vượt trội Claude Opus 4.6 trên LiveCodeBench và Codeforces, và gần đạt đến GPT-5.4 xHigh trên MMLU-Pro.

Nếu bạn đang cân nhắc có nên thay thế Claude, GPT-5.5 hoặc Qwen bằng DeepSeek V4 hay không, hướng dẫn này sẽ trình bày về mô hình, những thay đổi so với V3.2, các lựa chọn kiến trúc thúc đẩy câu chuyện điểm chuẩn và nơi để chạy nó hôm nay.

Để xem các hướng dẫn dành cho nhà phát triển tương ứng, chúng tôi có hướng dẫn API DeepSeek V4, hướng dẫn truy cập miễn phíhướng dẫn sử dụng DeepSeek V4 đầy đủ. Định dạng yêu cầu tương thích hoàn hảo với định dạng của OpenAI, vì vậy bạn có thể xây dựng trước bộ sưu tập trong Apidog trước khi có khóa API.

button

Tóm tắt

DeepSeek V4 thực sự là gì

DeepSeek V4 là phiên bản kế nhiệm của các dòng V3 và V3.2 đã giúp phòng thí nghiệm trở nên nổi tiếng vào năm ngoái. Kiến trúc vẫn là Mixture-of-Experts, nhưng hình dạng của mô hình đã thay đổi. V4-Pro chỉ kích hoạt 49 tỷ trong số 1,6 nghìn tỷ tham số của nó cho mỗi token, vì vậy chi phí tính toán trên mỗi token gần giống với một mô hình dày đặc 50B hơn là một hệ thống biên với hàng nghìn tỷ tham số. Đọc báo cáo kỹ thuật đầy đủ trên thẻ mô hình DeepSeek V4.

Bốn điểm kiểm tra được phát hành khi ra mắt:

Cả bốn đều phát hành dưới giấy phép MIT, đây là một điểm đáng chú ý. GPT-5.5 là mô hình đóng và có giá 5 đô la cho mỗi triệu token đầu vào; Claude Opus 4.6 là mô hình đóng và có giá gần 15 đô la. DeepSeek V4-Pro có trọng số mở mà bạn có thể tải xuống, sao chép, tinh chỉnh và triển khai trên phần cứng của riêng mình mà không mất phí giấy phép.

Những thay đổi so với V3.2

V3 đã cạnh tranh tốt về khả năng suy luận và code. V4 viết lại kiến trúc attention và pipeline huấn luyện để đẩy mạnh ngữ cảnh dài và hiệu quả cùng lúc.

Khả năng V3.2 V4-Pro
Tổng tham số 685B 1.6T
Tham số hoạt động 37B 49B
Cửa sổ ngữ cảnh 128K 1M
FLOPs suy luận (ngữ cảnh 1M) Cơ sở 27% của V3.2
Bộ nhớ đệm KV (ngữ cảnh 1M) Cơ sở 10% của V3.2
Độ chính xác FP8 FP4 + FP8 hỗn hợp
Giấy phép Giấy phép DeepSeek MIT
Chế độ suy luận Đơn lẻ Ba

Ba yếu tố thúc đẩy bước nhảy vọt này. Thứ nhất, một kiến trúc attention lai mới kết hợp Compressed Sparse Attention với Heavily Compressed Attention; đây là nguồn gốc của con số 10% bộ nhớ đệm KV. Thứ hai, Manifold-Constrained Hyper-Connections giúp ổn định gradient ở độ sâu mà V4 yêu cầu. Thứ ba, việc chuyển sang trình tối ưu hóa Muon để hội tụ nhanh hơn. Tập dữ liệu huấn luyện cũng đã vượt quá 32 nghìn tỷ token, và quá trình huấn luyện sau sử dụng một pipeline hai giai đoạn: đầu tiên nuôi dưỡng các chuyên gia chuyên biệt theo lĩnh vực, sau đó củng cố chúng bằng phương pháp chắt lọc dựa trên chính sách.

Các điểm chuẩn quan trọng

Các số liệu được DeepSeek báo cáo đặt V4-Pro vào bảng xếp hạng hàng đầu về mã hóa và kiến thức, với một số khoảng trống về truy xuất ngữ cảnh dài.

Đối với V4-Flash, biến thể nhỏ hơn, DeepSeek báo cáo MMLU-Pro 86.2, GPQA Diamond 88.1, LiveCodeBench 91.6, Codeforces 3052 và SWE Verified 79.0. Đây là một vùng lãnh thổ tiên phong cho một mô hình 13B hoạt động, và đó là lý do tại sao Flash là điểm kiểm tra thú vị cho bất kỳ ai triển khai trên phần cứng của riêng họ. Xem thẻ DeepSeek V4-Flash để biết bảng đầy đủ.

Đánh giá thẳng thắn: V4-Pro chiến thắng về code, chiến thắng về khả năng nhớ lại sự thật mở, kém Gemini 3.1 Pro về kiến thức tổng quát và kém Claude Opus trong các điểm chuẩn truy xuất 1M token. Nếu khối lượng công việc của bạn là lập trình tự động (agentic coding) hoặc phân tích nặng về suy luận, V4-Pro rất đáng cân nhắc. Nếu đó là truy xuất "kim trong đống rơm" qua một triệu token, Claude vẫn có lợi thế.

Ba chế độ suy luận

Mỗi điểm kiểm tra V4 đều có ba cấp độ nỗ lực suy luận, và việc chọn đúng cấp độ là đòn bẩy chi phí lớn nhất.

Chuyển đổi giữa chúng bằng một tham số thinking_mode duy nhất trong API hoặc một cờ trong tập lệnh suy luận cục bộ. Khuyến nghị lấy mẫu của DeepSeek là temperature=1.0, top_p=1.0 trên cả ba chế độ.

Kiến trúc theo cách đơn giản

Bài báo kiến trúc V4 rất phức tạp, nhưng ba lựa chọn giải thích câu chuyện về hiệu quả.

  1. Attention lai. Hầu hết các lớp transformer sử dụng Compressed Sparse Attention, giữ một nhóm nhỏ các token giá trị cao được chú ý hoàn toàn và nén phần còn lại. Một số ít lớp sử dụng Heavily Compressed Attention, có chi phí gần như tuyến tính với độ dài chuỗi. Sự kết hợp này mang lại các con số 27% FLOPs và 10% KV-cache ở 1M token.
  2. Siêu kết nối ràng buộc đa tạp (Manifold-Constrained Hyper-Connections). Thay vì các kết nối residual thông thường, V4 bọc các residual của mỗi lớp trong một ràng buộc giữ cho các kích hoạt trên một đa tạp ổn định. Hiệu ứng thực tế là bạn có thể xếp chồng nhiều lớp hơn mà không gây ra sự hỗn loạn gradient.
  3. Trình tối ưu hóa Muon. Thay thế AdamW trong hầu hết quá trình huấn luyện. Muon hội tụ nhanh hơn và xử lý các chuẩn gradient lớn mà các mô hình MoE tạo ra tốt hơn AdamW.

Không có ý tưởng nào trong số này là hoàn toàn mới. Đóng góp của V4 là đưa cả ba làm việc cùng nhau ở quy mô nghìn tỷ tham số mà không làm hỏng quá trình huấn luyện.

Khả năng khả dụng hôm nay

DeepSeek đã ra mắt cả bốn điểm kiểm tra và API trong cùng một ngày. Dưới đây là ảnh chụp nhanh tính đến ngày 24 tháng 4 năm 2026.

Nền tảng Truy cập
chat.deepseek.com Trò chuyện web miễn phí, V4-Pro mặc định, yêu cầu đăng nhập
API DeepSeek Hoạt động tại api.deepseek.com; ID mô hình deepseek-v4-pro, deepseek-v4-flash
Trọng số trên Hugging Face V4-Pro, V4-Flash, cả hai đều có giấy phép MIT
ModelScope Trọng số được sao chép cho người dùng ở Trung Quốc
OpenRouter và các công cụ tổng hợp Dự kiến trong vài ngày tới; mô hình ra mắt điển hình của DeepSeek
deepseek-chat / deepseek-reasoner Ngừng hỗ trợ vào ngày 24 tháng 7 năm 2026

Thông báo ngừng hỗ trợ đáng được lưu ý. Nếu bạn vẫn đang gọi deepseek-chat trong môi trường sản xuất, bạn có ba tháng để di chuyển sang deepseek-v4-pro hoặc deepseek-v4-flash.

So sánh với GPT-5.5 và Claude

So sánh ba bên mà hầu hết các nhóm thực sự quan tâm:

Nên xây dựng gì với nó

Bốn khối lượng công việc phù hợp rõ ràng với điểm mạnh của V4:

  1. Vòng lặp lập trình tự động (Agentic coding loops). Các con số SWE Verified 79.0 và Codeforces 3206 chỉ thẳng đến việc gỡ lỗi đa tệp, tái cấu trúc nhận biết kho lưu trữ và sửa lỗi kiểm thử tự động. Kết hợp nó với một ứng dụng khách API tốt như Apidog để kiểm tra mọi yêu cầu và phản hồi khi bạn tinh chỉnh các prompt.
  2. Suy luận trên tài liệu dài. 1M token là đủ cho hầu hết các monorepo, hầu hết các hợp đồng và hầu hết các tập dữ liệu nghiên cứu. Think High là chế độ phù hợp cho việc này.
  3. Sản phẩm AI tự lưu trữ. Nếu yêu cầu tuân thủ của bạn cần suy luận tại chỗ, V4-Flash là mô hình có trọng số mở đầu tiên cạnh tranh về chất lượng với các API tiên phong đóng.
  4. Nghiên cứu và tinh chỉnh. Các điểm kiểm tra Base được tạo ra đặc biệt cho việc huấn luyện tùy chỉnh. Kết hợp chúng với một tập dữ liệu miền và bạn sẽ có được các mô hình chuyên biệt cấp độ sản xuất.

Những trường hợp không phù hợp: phân loại khối lượng lớn, truy xuất embedding hoặc trò chuyện prompt ngắn. V4-Flash vẫn quá mức cần thiết cho những trường hợp đó, và các điểm kiểm tra DeepSeek cũ hơn có chi phí thấp hơn.

Giá cả tóm tắt

DeepSeek vẫn chưa công bố bảng giá API cuối cùng tại thời điểm viết bài. V3.2 có giá khoảng 0,28 đô la cho mỗi triệu token đầu vào và 0,42 đô la cho mỗi triệu token đầu ra, và phòng thí nghiệm có lịch sử giữ giá dòng V gần mức đó. Dự kiến V4-Flash sẽ có giá trong cùng phạm vi và V4-Pro sẽ có mức phí cao hơn một chút. Các đối thủ cạnh tranh đóng có giá từ 5 đến 15 đô la cho mỗi triệu token đầu vào, vì vậy ngay cả khi tăng giá gấp 3 lần so với V3.2, DeepSeek vẫn thấp hơn nhiều so với mức trung bình của các API tiên phong. Theo dõi các số liệu trực tiếp trên trang giá của DeepSeek.

Cách thử nghiệm V4 hôm nay

Ba cách, được xếp hạng theo thời gian để nhận token đầu tiên.

  1. Trò chuyện web. Mở chat.deepseek.com và đăng nhập. V4-Pro là mặc định; chuyển sang Think High trong giao diện người dùng. Miễn phí, không cần thẻ, hoạt động ngay.
  2. API. Lấy khóa, trỏ ứng dụng khách của bạn đến https://api.deepseek.com, đặt "model": "deepseek-v4-pro", và bắt đầu. Định dạng yêu cầu tương thích với OpenAI, vì vậy bất kỳ ứng dụng khách OpenAI hiện có nào cũng hoạt động chỉ với việc thay đổi URL cơ sở. Hướng dẫn đầy đủ trong hướng dẫn API DeepSeek V4.
  3. Trọng số cục bộ. Tải từ Hugging Face hoặc ModelScope. V4-Flash chạy trên 2 đến 4 H100; V4-Pro cần một cụm thực sự. Mã suy luận nằm trong thư mục /inference của kho lưu trữ mô hình.

Để xem hướng dẫn đầy đủ bao gồm lặp prompt dựa trên Apidog, hãy xem cách sử dụng DeepSeek V4. Để giữ chi phí bằng 0, hãy xem cách sử dụng DeepSeek V4 miễn phí. Tải xuống Apidog và xây dựng trước bộ sưu tập của bạn; định dạng tương thích OpenAI có nghĩa là một yêu cầu có thể hoạt động trên DeepSeek, OpenAI và mọi API tiên phong khác.

Câu hỏi thường gặp

DeepSeek V4 có thực sự mã nguồn mở không?Có. Cả bốn điểm kiểm tra đều mang giấy phép MIT, cho phép sử dụng thương mại, sửa đổi và phân phối lại mà không cần thỏa thuận sử dụng riêng.

Tôi có cần một cụm GPU để chạy V4-Flash không?Bạn cần hai đến bốn H100 hoặc H200 cho V4-Flash ở độ chính xác đầy đủ, ít hơn nếu bạn lượng tử hóa. V4-Pro cần một cụm thực sự. Nếu bạn muốn thử V4 mà không có phần cứng, hãy sử dụng API hoặc chat.deepseek.com.

Khi nào V4 có mặt trên API DeepSeek?Nó đã hoạt động kể từ ngày 23 tháng 4 năm 2026. Các ID mô hình là deepseek-v4-prodeepseek-v4-flash. Các ID cũ hơn deepseek-chatdeepseek-reasoner sẽ ngừng hỗ trợ vào ngày 24 tháng 7 năm 2026.

V4 so sánh với Kimi và Qwen như thế nào?V4-Pro đạt điểm LiveCodeBench và Codeforces cao hơn Kimi K2 và Qwen 3 Max trên các bảng báo cáo của DeepSeek. Cả ba đều là hệ thống MoE có trọng số mở với cấu hình triển khai tương tự. Hãy chọn dựa trên điểm chuẩn gần nhất với khối lượng công việc của bạn.

Tôi có thể tinh chỉnh V4 trên dữ liệu của riêng mình không?Có. Các điểm kiểm tra Base tồn tại cho mục đích đó; kết hợp chúng với dữ liệu miền của bạn và một pipeline SFT tiêu chuẩn. Giấy phép MIT bao gồm việc phân phối lại thương mại của mô hình kết quả.

V4 có hoạt động với các công cụ tương thích OpenAI hiện có của tôi không?Có. API chấp nhận cả định dạng tin nhắn OpenAI và Anthropic tại https://api.deepseek.comhttps://api.deepseek.com/anthropic tương ứng. Hầu hết các ứng dụng khách OpenAI hiện có đều hoạt động chỉ với một thay đổi URL cơ sở. Xem hướng dẫn API GPT-5.5 tương ứng để biết mẫu song song.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API