DeepSeek đã biến mức giảm giá tạm thời mạnh mẽ nhất trong bảng giá LLM năm 2026 thành mức bình thường mới. Vào ngày 22 tháng 5, nhóm DeepSeek thông báo rằng ưu đãi giảm giá 75% cho DeepSeek-V4-Pro, ban đầu dự kiến hết hạn vào ngày 31 tháng 5 năm 2026 lúc 15:59 UTC, sẽ không bị thu hồi. Mức giá khuyến mãi sẽ trở thành giá niêm yết vĩnh viễn. Giá input giảm xuống còn 0,435 USD mỗi triệu token, output còn 0,87 USD và cache hit còn 0,003625 USD. Dưới đây, chúng tôi sẽ phân tích những gì đã thay đổi, những gì vẫn giữ nguyên và những gì mọi nhà phát triển API nên xem xét lại trong tuần này.
TÓM TẮT
- Giá API DeepSeek-V4-Pro hiện là vĩnh viễn ở mức 1/4 giá niêm yết ban đầu: 0,435 USD/MTok input, 0,87 USD/MTok output, 0,003625 USD/MTok cache hit.
- Mức giảm giá khuyến mãi 75% dự kiến kết thúc vào ngày 31 tháng 5 năm 2026 giờ đây là mức giá thông thường. Không thu hồi. Không hết hạn bất ngờ.
- V4-Pro hiện rẻ hơn khoảng 34 lần so với GPT-5.5 về output, trong khi vẫn đạt khoảng 95% hiệu suất của GPT-5.5 trên hầu hết các điểm chuẩn về lập trình và suy luận.
- Giá cache-hit 0,003625 USD/MTok, mức giảm 90% so với mức giảm chính, là một chi tiết bị đánh giá thấp. Các system prompt dài giờ đây gần như miễn phí ở phần prefix.
- Nếu quý trước bạn định giá các tính năng AI của mình dựa trên GPT-5.5 hoặc Claude Opus 4.7, thì tính toán chi phí đã thay đổi trong tuần này.
Tại sao điều này lại quan trọng ngay bây giờ
Giá LLM thường chỉ di chuyển theo một hướng: giảm dần, từ từ, với những ghi chú nhỏ. DeepSeek đã bỏ qua những ghi chú đó. Đội ngũ đã thực hiện một chương trình khuyến mãi mạnh mẽ trong suốt tháng 5, quan sát lưu lượng truy cập của nhà phát triển tăng vọt và quyết định giữ nguyên mức giá thay vì để nó quay trở lại. Đó là một tín hiệu mang tính cấu trúc về hướng phát triển kinh tế của các mô hình tiên tiến của Trung Quốc, chứ không phải là một chiêu trò nhất thời.
Nếu bạn đang cung cấp bất kỳ sản phẩm nào sử dụng LLM trong các tác vụ quan trọng (tự động hoàn thành, trò chuyện tăng cường truy xuất, đánh giá mã, vòng lặp tác nhân), sự khác biệt giữa 3,48 USD và 0,87 USD cho mỗi triệu token output sẽ thể hiện rõ trên hóa đơn của bạn trong tháng này. Nếu xử lý 50 triệu token output mỗi ngày, một mức tải thực tế cho bất kỳ tác nhân nào có lượng người dùng đáng kể, thì mức giá mới sẽ giúp giảm hóa đơn LLM hàng tháng của bạn từ khoảng 5.200 USD xuống còn 1.300 USD. Đó là chi phí cho một nhân viên kinh doanh, hoặc một năm tín dụng GPU.
Bạn đang xây dựng trên DeepSeek? Apidog cho phép bạn tạo, kiểm thử và giám sát các lệnh gọi API V4-Pro trong một không gian làm việc duy nhất, bao gồm streaming, tool calls và xác thực JSON schema. Tải Apidog và bạn có thể sao chép các yêu cầu trong bài viết này chỉ trong vòng chưa đầy một phút.
Trong phần còn lại của bài viết này, bạn sẽ thấy bảng giá mới đầy đủ, so sánh trực tiếp với GPT-5.5 và Claude Opus 4.7, cách tính toán cache-hit mà hầu hết các bài viết bỏ qua, ba kịch bản hóa đơn thực tế và một khung quyết định gồm năm bước về việc có nên di chuyển ngay hôm nay hay không.
Có gì thay đổi: giải mã thông báo
Thông báo giá chính thức của DeepSeek khá ngắn gọn, nhưng mỗi dòng đều có ý nghĩa quan trọng. Ba điểm đáng chú ý:
- Giảm giá 75% là vĩnh viễn. Chương trình khuyến mãi kéo dài đến ngày 31 tháng 5 năm 2026 lúc 15:59 UTC lẽ ra sẽ quay trở lại giá niêm yết ban đầu vào ngày 1 tháng 6. Nhưng sẽ không. Mức giá khuyến mãi là mức giá niêm yết mới, có hiệu lực trở lại từ khi ra mắt và kéo dài vô thời hạn.
- Mức giảm giá chỉ áp dụng cho V4-Pro. DeepSeek-V4-Flash, với giá 0,14 USD / 0,28 USD mỗi triệu token, vốn đã rẻ. V4-Pro, mô hình cấp cao nhất, mới là mô hình được giảm giá. Xem DeepSeek V4 là gì để biết sự khác biệt giữa Flash và Pro.
- Giá cache-hit đã giảm xuống còn 1/10 so với ban đầu, có hiệu lực từ ngày 26 tháng 4 năm 2026 lúc 12:15 UTC. Đây là một thay đổi riêng biệt so với mức giảm 75% chính, và cả hai đều được áp dụng. Kết quả: giá cache hit là 0,003625 USD/MTok, mức giá cache của mô hình tiên tiến thuộc bên thứ nhất thấp nhất trên thị trường vào năm 2026.
Tổng hợp lại, thông báo cho thấy: DeepSeek sẵn sàng chấp nhận giảm lợi nhuận gộp trên mô hình chủ lực để giữ chân cộng đồng nhà phát triển. Động thái về cache-hit cho thấy: họ muốn bạn xây dựng các tác nhân (agents) và công cụ ngữ cảnh dài trên V4-Pro một cách cụ thể. Cả hai động thái này đều chỉ ra cùng một chiến lược. Giành lấy khối lượng công việc suy luận ngay bây giờ, kiếm tiền từ nền tảng sau này.
Bảng giá vĩnh viễn mới
Giá mỗi 1 triệu token, USD, có hiệu lực ngay lập tức và vĩnh viễn:
| Loại Token | Giá cũ | Giá vĩnh viễn mới | Mức giảm |
|---|---|---|---|
| Input (không có cache hit) | $1.74 | $0.435 | 75% |
| Input (có cache hit) | $0.0145 | $0.003625 | 75% |
| Output | $3.48 | $0.87 | 75% |
Một vài điểm rút ra mà bảng trên đã ẩn đi:
- Việc giảm giá output là điều ảnh hưởng mạnh nhất đến hóa đơn của bạn, bởi vì token output chiếm ưu thế trong bất kỳ vòng lặp tác nhân nào mà mô hình thực hiện suy luận hoặc viết mã.
- Dòng cache-hit trông rất nhỏ vì các con số tuyệt đối nhỏ. Tỷ lệ mới là nơi tiết kiệm chi phí. Tỷ lệ input miss so với input hit là khoảng 120:1. Một system prompt được thiết kế tốt mà có tỷ lệ cache hit 90% sẽ gần như không phải trả tiền cho input, đây là yếu tố then chốt cho bất kỳ tác nhân nào có cấu trúc ổn định.
- Các mức giá này chỉ áp dụng cho API. Trò chuyện web của DeepSeek vẫn miễn phí cho cá nhân.
Để có thêm ngữ cảnh lịch sử về các bậc giá V4 và sự đánh đổi giữa Flash và Pro, hãy xem tài liệu tham khảo Giá API DeepSeek V4 của chúng tôi.
Cách V4-Pro hiện so sánh với GPT-5.5, Claude Opus 4.7 và Gemini 3.5 Flash
Sự so sánh thú vị không phải là với chính V4-Pro cũ. Mà là với phần còn lại của các mô hình tiên tiến.
| Mô hình | Input (USD/MTok) | Output (USD/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (mới) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
Hai con số cần nhớ. Về token output, hạng mục làm tăng hóa đơn của bạn, DeepSeek-V4-Pro rẻ hơn 34 lần so với GPT-5.5 và rẻ hơn 17 lần so với Claude Opus 4.7. Về các điểm chuẩn, V4-Pro đạt hiệu suất trong khoảng 3 đến 7 điểm phần trăm so với GPT-5.5 trên hầu hết các đánh giá mã hóa và suy luận công khai, theo so sánh của DataCamp.
Nếu khối lượng công việc của bạn có thể chịu được độ trễ và chất lượng chấp nhận được trong phạm vi nhỏ đó, thì việc di chuyển là một bài toán với một câu trả lời. Đối với các khối lượng công việc mà 5 điểm cuối cùng của điểm chuẩn quan trọng (độ tin cậy của công cụ tác nhân, lập kế hoạch dài hạn, toán học phức tạp), V4-Pro vẫn rẻ hơn khi sử dụng làm mô hình nháp đằng sau mô hình giải mã suy đoán hoặc mô hình phê bình.
Để có các đánh giá so sánh chi tiết hơn, hãy xem DeepSeek V4 vs Claude Opus 4.5 cho lập trình và GLM-5 vs DeepSeek V3 vs GPT-5: tốc độ, chi phí và so sánh thực tế dành cho nhà phát triển.
Góc nhìn về cache-hit mà hầu hết các bài viết bỏ qua
Mọi người đều trích dẫn con số 0,87 USD cho output. Ít ai giải thích giá input cache-hit 0,003625 USD ảnh hưởng như thế nào đến thiết kế hệ thống.
Cache prompt của DeepSeek hoạt động khi tiền tố (prefix) của yêu cầu bạn giống hệt từng byte với một yêu cầu trước đó gần đây, trong khoảng thời gian 30 phút. Đối với các tác nhân trò chuyện và quy trình truy xuất, tiền tố thường là system prompt của bạn cộng với định nghĩa công cụ và cấu trúc hướng dẫn. Đó thường là 4.000 đến 10.000 token không thay đổi giữa các lượt.
Ví dụ cụ thể. Giả sử trợ lý của bạn sử dụng một system prompt 6.000 token và xử lý 100.000 lượt trò chuyện mỗi ngày, với tin nhắn người dùng trung bình là 200 token input và phản hồi trung bình là 800 token output.
- Không có cache hit: 100.000 lượt × 6.200 token input × 0,435 USD / 1.000.000 = 269,70 USD mỗi ngày chỉ riêng cho input.
- Với 90% số token system-prompt đó được cache hit: cùng 100.000 lượt sẽ phải trả 200 × 0,435 USD cộng với 6.000 × (0,9 × 0,003625 USD + 0,1 × 0,435 USD) trên mỗi triệu token. Con số đó tương đương **khoảng 32 USD mỗi ngày**. Giảm 88% chi phí input.
Đó không phải là lỗi làm tròn. Đó là sự khác biệt giữa việc mô hình là một hạng mục bền vững và một hạng mục xa xỉ. Để biết thêm về cách thức hoạt động của caching tiền tố giữa các nhà cung cấp, bài viết chuyên sâu về prompt caching của chúng tôi sẽ giải thích cơ chế.
Ba mô hình để đạt được cache hit trong các tác nhân thực tế:
- Ghim tiền tố. Giữ system prompt, schema công cụ và các ví dụ few-shot trong một khối duy nhất ở đầu mỗi yêu cầu. Không xen lẫn văn bản cụ thể của phiên vào tiền tố.
- Sắp xếp hoặc băm ngữ cảnh động. Nếu bạn thêm các đoạn truy xuất, hãy sắp xếp chúng ổn định hoặc băm yêu cầu và định tuyến các băm giống hệt nhau đến cùng một nút. Những thay đổi nhỏ về dấu vân tay sẽ làm hỏng cache.
- Chạy một lệnh gọi khởi động. Khi tác nhân khởi động, hãy gửi một yêu cầu với tiền tố đầy đủ để đưa nó vào cache của nhà cung cấp trước khi lưu lượng truy cập của người dùng bắt đầu.
Bạn nên làm gì trong tuần này
Quyết định di chuyển không phải là một lựa chọn nhị phân. Nó phụ thuộc vào loại khối lượng công việc LLM bạn đang chạy. Một khung gồm năm bước:
- Đo lường tỷ lệ output:input hiện tại của bạn. Nếu bạn đang chi 80% ngân sách token của mình cho output (bất kỳ tác nhân, trình tạo mã hoặc công cụ nội dung nào), thì khoản tiết kiệm từ V4-Pro là rất lớn. Nếu bạn đang chi 80% cho input (RAG trên tài liệu dài), thì khoản tiết kiệm sẽ nhỏ hơn nhưng vẫn đáng kể khi cache hit hoạt động.
- Chạy đánh giá 100 mẫu trên khối lượng công việc thực tế của bạn. Đừng tin vào các điểm chuẩn công khai. Lấy 100 dấu vết từ lưu lượng truy cập sản phẩm của bạn, chạy chúng đối với V4-Pro và mô hình hiện tại của bạn với các prompt giống hệt nhau, và chấm điểm bằng đánh giá của riêng bạn. Hầu hết các nhóm nhận thấy V4-Pro là "đủ tốt" cho 70% đến 85% lưu lượng truy cập của họ.
- Đối sánh theo tuyến đường. Định tuyến 70% đến 85% lưu lượng đến V4-Pro và giữ mô hình cao cấp của bạn cho phần khó. Thay đổi duy nhất này mang lại hơn 70% khoản tiết kiệm chi phí với sự suy giảm chất lượng gần như bằng không.
- Khóa các tiền tố cache. Kiểm tra lại các system prompt của bạn. Bất kỳ thứ gì thay đổi theo yêu cầu (dấu thời gian, ID người dùng, ID phiên) đều thuộc về tin nhắn người dùng, không phải system prompt. Hãy di chuyển nó.
- Thiết lập các bài kiểm tra hồi quy trước khi triển khai. Đây là nơi Apidog phát huy giá trị. Ghi lại các phản hồi "vàng" từ mô hình hiện tại của bạn, sau đó phát lại các yêu cầu tương tự đối với V4-Pro và so sánh các output. Tính năng xác thực JSON schema của Apidog sẽ phát hiện sự thay đổi trong cấu trúc tool-call trước khi chúng đến môi trường sản phẩm. Tải Apidog, nhập bộ sưu tập tương thích OpenAI của bạn, thay đổi URL cơ sở thành
https://api.deepseek.com, và bạn có thể chạy một thử nghiệm nhanh song song trong vòng chưa đầy mười phút.
Để có hướng dẫn chi tiết về cấu trúc endpoint V4-Pro, hãy xem Cách sử dụng API DeepSeek V4.
V4-Pro so với các đợt giảm giá khác năm 2026 như thế nào
DeepSeek không phải là phòng thí nghiệm duy nhất giảm giá. Thị trường LLM năm 2026 đang trong giai đoạn siết chặt biên lợi nhuận rõ rệt:
- OpenAI O3 giảm 80% đầu năm nay. Xem phân tích giá O3 của chúng tôi để biết chi tiết.
- Kimi K2 định giá lại mạnh mẽ để cạnh tranh với DeepSeek cấp V3. Bảng giá API Kimi K2 cung cấp thông tin chi tiết.
- Anthropic Claude giữ nguyên giá Opus nhưng giới thiệu các cấp Haiku và Sonnet rẻ hơn. Phân tích chi phí API Claude đầy đủ sẽ chỉ ra vị trí của từng cấp.
Mức giảm giá của V4-Pro là mạnh mẽ nhất trong năm vì nó nhắm vào phân khúc khả năng tiên tiến, chứ không phải phân khúc giá rẻ. Đó là lý do tại sao thông báo này đã thiết lập lại thị trường mà các thông báo khác thì không.
Các tính toán xây dựng đã thay đổi
DeepSeek không chỉ giảm giá. Họ đã vẽ lại đường cong. Khả năng tiên tiến với giá output dưới một đô la giờ đây là tiêu chuẩn, không phải là ngoại lệ, và phần còn lại của thị trường sẽ phản ứng. Nếu bạn đã trì hoãn một tính năng LLM vì lý do chi phí, thì ngân sách năm 2026 mà bạn đã tính toán vào quý trước có thể đã phóng đại nhu cầu của bạn lên gấp 4 lần.
Ba bước tiếp theo:
- Kiểm tra ba khối lượng công việc LLM hàng đầu của bạn dựa trên khung đã nêu và chọn một để di chuyển trong tuần này.
- Khóa các tiền tố cache của bạn. Đó là một chiến thắng dễ dàng bất kể bạn sử dụng mô hình nào.
- Thiết lập bộ kiểm tra hồi quy Apidog để đợt giảm giá tiếp theo, và chắc chắn sẽ có, chỉ mất vài giờ để đánh giá thay vì vài tuần.
Cờ khuyến mãi đã biến mất. Nhưng mức giảm giá thì không.
