Trong hầu hết hai năm qua, câu hỏi “mô hình lập trình tốt nhất là gì?” thường có một câu trả lời từ phương Tây. Bạn chọn GPT, Claude, hoặc Gemini, trả phí theo từng token, và chấp nhận rằng các trọng số (weights) được khóa trong trung tâm dữ liệu của người khác. Đó không còn là con đường duy nhất nữa. Một loạt các phòng thí nghiệm của Trung Quốc hiện đang phát hành các mô hình sánh ngang tầm tiên phong về lập trình, với việc công bố trọng số hoặc định giá API rất thấp, làm thay đổi tính toán cho mọi tác nhân mà bạn vận hành.
MiniMax M3 ra mắt vào ngày 1 tháng 6 năm 2026, và đây là tín hiệu rõ ràng nhất cho đến nay. Nó có trọng số mở (open-weight), được xây dựng cho công việc lập trình và tác nhân (agentic work), mang cửa sổ ngữ cảnh 1.000.000 token, và bổ sung khả năng đa phương thức gốc (native multimodality). Đây là đối thủ cạnh tranh trọng số mở nghiêm túc thứ ba xuất hiện trong vài tuần, cùng với dòng V4 của DeepSeek và Qwen 3.7 của Alibaba. Nếu bạn muốn trọng số mở, chi phí thấp và không bị khóa nhà cung cấp, giờ đây bạn có một danh sách rút gọn thực sự thay vì chỉ một lựa chọn.
Ba đối thủ cạnh tranh
MiniMax M3 là tân binh. MiniMax định vị nó là một mô hình lập trình tiên phong với cửa sổ ngữ cảnh 1M token và khả năng đa phương thức gốc, nghĩa là nó xử lý đầu vào hình ảnh và video, đồng thời có thể thực hiện các tác vụ sử dụng máy tính, chứ không chỉ riêng văn bản. Nó chạy trên kiến trúc MSA mới. MiniMax cho biết trọng số mở và báo cáo kỹ thuật sẽ được công bố trong khoảng mười ngày kể từ khi ra mắt, và họ chưa tiết lộ số lượng tham số. Chi tiết đầy đủ có trong MiniMax M3 là gì.
DeepSeek V4-Pro là con ngựa chiến về suy luận và lập trình. Đây là một mô hình suy nghĩ: nó trả về một chuỗi tư duy reasoning_content trước câu trả lời cuối cùng, giúp nắm bắt các phụ thuộc đa tệp mà các mô hình hoàn thành phẳng (flat-completion) bỏ sót. DeepSeek có lịch sử lâu đời và được ghi nhận về việc công bố trọng số mở trên các dòng R1 và V3 của mình, và nó kết hợp V4-Pro với một biến thể V4-Flash rẻ hơn, không có khả năng suy nghĩ. Điểm nổi bật là giá cả, chúng ta sẽ đề cập đến sau. DeepSeek vận hành trang web và API chính thức tại deepseek.com.
Qwen 3.7 là sản phẩm chủ lực của Alibaba, dẫn đầu bởi Qwen3.7-Max-Preview. Đây là một mô hình suy luận với cửa sổ ngữ cảnh 1M token, được định hướng mạnh mẽ cho công việc tác nhân (agent work) dài hạn. Một lưu ý chân thành nằm ở trung tâm của sự so sánh này: kể từ khi ra mắt vào giữa tháng 5 năm 2026, sản phẩm chủ lực Qwen3.7-Max là độc quyền và có trọng số đóng (closed-weight). Alibaba có thành tích tốt trong việc mã nguồn mở cấp thấp hơn sản phẩm chủ lực của mình, vì vậy các trọng số mở 3.7 có thể sẽ có sau này, nhưng chưa có cái nào được phát hành. Chi tiết đầy đủ có trong Qwen 3.7 là gì. Kho lưu trữ mã nguồn mở của Alibaba có tại github.com/QwenLM.
Bảng thông số kỹ thuật
| Thông số | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| Nhà cung cấp | MiniMax | DeepSeek | Alibaba (Qwen) |
| Ra mắt | 1 tháng 6, 2026 | 2026 | Tháng 5 2026 (bản xem trước) |
| Trọng số mở | Có (trọng số trong ~10 ngày) | Có (thành tích của DeepSeek trên R1/V3) | Chưa (sản phẩm chủ lực có trọng số đóng) |
| Cửa sổ ngữ cảnh | 1.000.000 token | Không nêu ở đây | 1.000.000 token |
| Đa phương thức | Có (hình ảnh + video, sử dụng máy tính) | Không (văn bản + suy luận) | Suy luận tập trung vào văn bản |
| Chế độ suy luận / tư duy | Có | Có (reasoning_content) |
Có (suy nghĩ mở rộng) |
| Số lượng tham số | Chưa tiết lộ | Không nêu ở đây | Không nêu ở đây |
| Kiến trúc | MSA | Không nêu ở đây | Không nêu ở đây |
Một lưu ý về hàng “trọng số mở” đó, bởi vì nó là xương sống của sự so sánh này. M3 cam kết công bố trọng số và báo cáo kỹ thuật trong khoảng mười ngày kể từ khi ra mắt. DeepSeek đã nhiều lần phát hành trọng số mở. Sản phẩm chủ lực của Qwen 3.7 hiện đang đóng. Nếu trọng số mở là một yêu cầu bắt buộc ngay bây giờ, điều đó sẽ thu hẹp lựa chọn của bạn trước khi bạn đọc bất kỳ điểm chuẩn nào.
Sức mạnh lập trình và tác nhân
Đây là nơi dữ liệu trở nên không đồng đều, vì vậy chúng ta sẽ bắt đầu với những gì đã được xác minh và giữ nguyên tính chất định tính ở những nơi chưa được xác minh.
MiniMax M3 ra mắt với một bộ đầy đủ các điểm chuẩn về lập trình và tác nhân do nhà cung cấp báo cáo. Đây là số liệu riêng của MiniMax, vì vậy hãy coi chúng là tuyên bố của nhà cung cấp vào ngày ra mắt cho đến khi các bên thứ ba tái tạo chúng:
| Điểm chuẩn (do nhà cung cấp báo cáo, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal-Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
| PostTrainBench | 0.37 |
| SVG-Bench | Báo cáo cao hơn Opus 4.7 |
| OmniDocBench | Báo cáo cao hơn Gemini 3.1 Pro |
| Claw-Eval | Báo cáo cao nhất trong bộ của nó |
SWE-Bench Pro và Terminal-Bench đo lường các tác vụ kỹ thuật phần mềm thực tế: giải quyết các vấn đề trên GitHub, làm việc trong terminal. MCP Atlas đo lường việc sử dụng công cụ và điều phối tác nhân. Cùng với nhau, chúng mô tả một mô hình được xây dựng để thực hiện công việc lập trình tác nhân, chứ không chỉ tự động hoàn thành. Bạn có thể kiểm tra trường SWE-Bench trên bảng xếp hạng SWE-Bench.
Đối với DeepSeek V4-Pro và Qwen 3.7, các con số về lập trình tác nhân có thể so sánh được không được công bố ở cùng một định dạng, vì vậy việc so khớp trực tiếp từng ô sẽ là bịa đặt, và chúng tôi sẽ không làm điều đó. Những gì được ghi nhận:
- DeepSeek V4-Pro đạt khả năng lập trình trong vài điểm chuẩn gần với GPT-5.5 theo các so sánh của bên thứ ba, trong khi chi phí chỉ bằng một phần nhỏ. Chuỗi suy luận của nó là lợi thế thực tế: trên các tác vụ tái cấu trúc, đổi tên và thay đổi chữ ký phức tạp với nhiều tệp, bước suy nghĩ nắm bắt các phụ thuộc chỉ trong một lần mà các mô hình phẳng cần ba lượt để xử lý. Chi tiết cài đặt và tính toán chi phí có trong cách sử dụng DeepSeek V4-Pro với Cursor.
- Qwen 3.7 đạt 57 điểm trên Chỉ số Trí tuệ Phân tích Nhân tạo (Artificial Analysis Intelligence Index), một chỉ số tổng hợp kết hợp suy luận, kiến thức, toán học và lập trình, được báo cáo là kết quả số 1 trên bảng xếp hạng đó khi ra mắt, cộng với khoảng 1.475 Elo trên LM Arena với vị trí trong top 10 ở hạng mục lập trình. Mục tiêu của Alibaba là công việc tác nhân dài hạn: các hoạt động tự động bền vững và sử dụng công cụ nặng nề qua nhiều bước.
Đánh giá thẳng thắn: M3 được phát hành với bằng chứng lập trình tác nhân minh bạch nhất hiện nay vì nó đã công bố các con số ở cấp độ tác vụ. Sức mạnh của DeepSeek là chất lượng mã được thúc đẩy bởi suy luận với giá thấp. Sức mạnh của Qwen là trí tuệ tổng hợp và khả năng bền bỉ trên các chuỗi tác nhân dài. Cho đến khi DeepSeek và Qwen báo cáo về cùng các tác vụ SWE-Bench Pro và Terminal-Bench, hãy chạy khối lượng công việc của riêng bạn qua cả ba, điều mà chúng tôi sẽ đề cập ở cuối. Một so sánh tiên phong rộng hơn cho Qwen có trong Qwen 3.7 so với GPT-5.5 so với Opus 4.7.
Cửa sổ ngữ cảnh và chi phí ngữ cảnh dài
Hai trong ba mô hình quảng cáo cửa sổ ngữ cảnh 1.000.000 token: MiniMax M3 và Qwen3.7-Max. Ngữ cảnh của DeepSeek V4-Pro không được tái tạo ở đây, vì vậy chúng tôi sẽ không nêu con số cho nó.
Một triệu token tương đương khoảng 700.000 đến 750.000 từ. Điều đó đủ để chứa một kho lưu trữ kích thước trung bình, một chồng PDF dài, hoặc nhiều tháng hội thoại trong một yêu cầu, mà không cần phân đoạn thủ công và không cần lớp truy xuất để duy trì. Đối với suy luận toàn bộ kho lưu trữ, nó loại bỏ rất nhiều công đoạn phức tạp.
Hai lưu ý giúp giữ điều này trung thực. Thứ nhất, một cửa sổ lớn là giới hạn tối đa, không phải là sự đảm bảo. Các mô hình thường truy xuất và suy luận kém tin cậy hơn khi cửa sổ đầy, và việc kiểm thử ngữ cảnh dài độc lập cho các bản phát hành hoàn toàn mới này vẫn còn ít. Thứ hai, ngữ cảnh lớn tốn tiền. Mọi token bạn gửi đều được tính phí, vì vậy một lời nhắc (prompt) một triệu token là một lời nhắc đắt tiền.
Đây là nơi kiến trúc MSA của M3 được cho là quan trọng. MiniMax giới thiệu nó được xây dựng để đạt hiệu quả ngữ cảnh dài, với mức giá API tiêu chuẩn lên đến 512K token đầu vào và một mức giá ngữ cảnh dài riêng biệt trên ngưỡng đó. Sự phân chia này cho bạn thấy rõ thực tế kinh tế: ngữ cảnh dài là một cấp độ cao cấp, trên mọi mô hình có nó. Biện pháp thực tế là như nhau bất kể bạn chọn mô hình nào. Chỉ sử dụng toàn bộ cửa sổ khi tác vụ cần đến, và cắt giảm mạnh mẽ khi không cần. Các chiến thuật cụ thể để giữ ngữ cảnh tác nhân tinh gọn có trong cách giảm chi phí token tác nhân.
Giá cả và khả năng tiếp cận
Giá cả là lý do tồn tại sự so sánh này. Cùng một khối lượng công việc tốn rất nhiều tiền trên một sản phẩm chủ lực phương Tây thì ở đây chỉ tốn một phần nhỏ, và khoảng cách đó là động lực đằng sau cuộc chiến giá LLM Trung Quốc 2026.
DeepSeek V4-Pro công bố các con số chi phí trên mỗi token rõ ràng nhất trong ba mô hình. Mức giá tiêu chuẩn, vĩnh viễn kể từ tháng 5 năm 2026:
| Loại token | Tỷ lệ DeepSeek V4-Pro trên 1M token |
|---|---|
| Đầu vào (cache miss) | $0.435 |
| Đầu vào (cache hit) | $0.003625 |
| Đầu ra | $0.87 |
Tỷ lệ đầu ra đó xấp xỉ bằng 1/34 chi phí đầu ra của GPT-5.5. Biến thể V4-Flash không có khả năng suy nghĩ còn rẻ hơn nữa ở mức 0.14 / 0.28 đô la cho mỗi triệu token đầu vào/đầu ra. Một ngày sử dụng trợ lý lập trình nhiều có chi phí khoảng 1 đô la. Đó là con số khiến DeepSeek khó bỏ qua đối với lưu lượng tác nhân khối lượng lớn.
MiniMax M3 bán các gói token thay vì một mức giá trên mỗi token được công bố duy nhất: Plus với 20 đô la, Max với 50 đô la và Ultra với 120 đô la. API của nó sử dụng mức giá tiêu chuẩn cho đầu vào lên đến 512K token và mức giá ngữ cảnh dài trên ngưỡng đó. MiniMax chưa công bố con số chính xác trên mỗi token, vì vậy chúng tôi sẽ không trích dẫn. Cấu trúc gói phù hợp với các nhóm muốn chi tiêu hàng tháng có thể dự đoán được hơn là thanh toán theo lưu lượng. Chi tiết kết nối có trong cách sử dụng API MiniMax M3.
Qwen 3.7 được tính phí theo token thông qua Alibaba Cloud, nơi bản xem trước Max đã ra mắt vào tháng 5 năm 2026. Alibaba đã định giá các bản phát hành Qwen gần đây một cách mạnh mẽ như một phần của cuộc chiến giá tương tự, nhưng mức giá chính xác của một mô hình xem trước có thể thay đổi, vì vậy hãy kiểm tra tài liệu mô hình hiện tại của Alibaba Cloud để biết con số thực tế.
Về khả năng tiếp cận, khía cạnh trọng số mở thay đổi hoàn toàn trần chi phí. Các trọng số được công bố của M3 và các bản phát hành mở của DeepSeek có nghĩa là bạn có thể tự lưu trữ (self-host) và chỉ trả tiền cho phần cứng, không có bất kỳ đồng hồ tính phí theo token nào. Qwen3.7-Max không thể tự lưu trữ hôm nay vì các trọng số chủ lực của nó không được công bố, vì vậy mọi cách tiếp cận nó đều thông qua API của Alibaba. Nếu mục tiêu là tránh bị khóa nhà cung cấp, đó là một yếu tố khác biệt thực sự.Chọn cái nào
Mô hình phù hợp phụ thuộc vào điều bạn đang tối ưu hóa. Hãy so khớp ưu tiên của bạn với cột.
| Ưu tiên của bạn | Phù hợp nhất | Lý do |
|---|---|---|
| Lập trình tác nhân với các điểm chuẩn được công bố | MiniMax M3 | Các con số SWE-Bench Pro / Terminal-Bench / MCP Atlas minh bạch khi ra mắt (do nhà cung cấp báo cáo) |
| Đầu vào đa phương thức (hình ảnh, video, sử dụng máy tính) | MiniMax M3 | Là một trong ba mô hình duy nhất có khả năng đa phương thức gốc |
| Chi phí thấp nhất cho lưu lượng API lớn | DeepSeek V4-Pro | ~$0.87/1M đầu ra, với biến thể Flash rẻ hơn và giá cho lượt truy cập cache |
| Chất lượng mã được thúc đẩy bởi suy luận trong các tác vụ tái cấu trúc khó | DeepSeek V4-Pro | Chuỗi suy nghĩ nắm bắt các phụ thuộc đa tệp chỉ trong một lần |
| Điểm số trí tuệ tổng hợp cao nhất trên bảng xếp hạng công khai | Qwen3.7-Max | Chỉ số Trí tuệ Phân tích Nhân tạo 57, được báo cáo #1 khi ra mắt |
| Các hoạt động tác nhân tự động dài hạn | Qwen3.7-Max hoặc MiniMax M3 | Cả hai đều nhấn mạnh độ bền và việc sử dụng công cụ nặng; M3 cũng công bố MCP Atlas |
| Tự lưu trữ / không bị khóa nhà cung cấp hôm nay | MiniMax M3 hoặc DeepSeek V4-Pro | Cả hai đều công bố trọng số mở; sản phẩm chủ lực của Qwen là đóng |
Một vài đánh giá đơn giản. Nếu trọng số mở và bằng chứng lập trình tác nhân là hai ưu tiên hàng đầu của bạn, M3 là lựa chọn rõ ràng nhất hiện tại, với lưu ý rằng các trọng số và báo cáo kỹ thuật của nó vẫn còn vài ngày nữa mới ra mắt và các điểm chuẩn của nó là do nhà cung cấp báo cáo. Nếu bạn đang chạy khối lượng API lớn và muốn hóa đơn thấp nhất, giá của DeepSeek V4-Pro là điểm nhấn. Nếu bạn muốn điểm số tổng hợp công khai cao nhất và bạn chấp nhận ở lại trên một API được lưu trữ, Qwen3.7-Max phù hợp, miễn là bạn không cần tự lưu trữ.
Tự mình kiểm tra
Một bảng xếp hạng cho bạn biết một mô hình hoạt động như thế nào trên các tác vụ của người khác. Nó không cho bạn biết nó hoạt động như thế nào trên tác vụ của bạn. Cả ba mô hình này đều cung cấp API, và cách nhanh nhất để đưa ra lựa chọn là chạy các lời nhắc (prompt) giống hệt nhau đối với từng mô hình và so sánh các phản hồi cạnh nhau.
Đó là công việc dành cho Apidog. Thiết lập một dự án Apidog với ba môi trường, mỗi môi trường cho một API mô hình, và nhập lược đồ Chat Completion tương thích OpenAI mà mỗi mô hình sử dụng. Sau đó bạn có thể:
- Gửi cùng một loạt lời nhắc đến M3, V4-Pro và Qwen3.7-Max và so sánh sự khác biệt của các đầu ra tại một nơi.
- Ghi lại các phản hồi mẫu (golden responses) và phát lại chúng mỗi khi lời nhắc thay đổi để phát hiện sai lệch.
- Xác thực hình dạng của
tool_callsvàreasoning_contentbằng các xác nhận JSON Schema, để một chỉnh sửa lời nhắc hệ thống (system-prompt) tồi không làm hỏng tác nhân của bạn một cách thầm lặng.
Tải xuống Apidog, trỏ ba môi trường vào ba điểm cuối mô hình, và bạn sẽ có một công cụ so sánh hoạt động chỉ trong vài phút. Chi tiết thiết lập API cho mô hình mới nhất có trong cách sử dụng API MiniMax M3.
Các câu hỏi thường gặp
Mô hình lập trình trọng số mở nào tốt nhất hiện nay trong năm 2026?
Để có bằng chứng lập trình tác nhân có thể kiểm chứng được khi ra mắt, MiniMax M3 dẫn đầu, vì nó đã công bố các điểm chuẩn ở cấp độ tác vụ như SWE-Bench Pro 59.0% và Terminal-Bench 2.1 66.0% (do nhà cung cấp báo cáo). DeepSeek V4-Pro là lựa chọn đáng giá: lập trình trong phạm vi vài điểm so với GPT-5.5 với chi phí đầu ra chỉ bằng khoảng 1/34. Qwen3.7-Max đứng đầu bảng xếp hạng tổng hợp nhưng chưa phải là trọng số mở. Câu trả lời chân thật là các con số lập trình đối đầu không thể so sánh trực tiếp giữa cả ba, vì vậy hãy chạy khối lượng công việc của riêng bạn trước khi cam kết.
Cả ba có thực sự là trọng số mở không?
Chưa phải. MiniMax M3 là trọng số mở, với các trọng số và báo cáo kỹ thuật dự kiến sẽ có trong khoảng mười ngày kể từ khi ra mắt vào ngày 1 tháng 6 năm 2026. DeepSeek có thành tích lâu dài trong việc công bố trọng số mở trên các dòng R1 và V3 của mình. Qwen3.7-Max-Preview, sản phẩm chủ lực mà hầu hết mọi người gọi là “Qwen 3.7,” là độc quyền và có trọng số đóng tính đến giữa tháng 5 năm 2026. Alibaba có thể sẽ mã nguồn mở một cấp thấp hơn sau này, nhưng hãy coi đó là điều có thể xảy ra, không phải đã xác nhận. Chi tiết có trong Qwen 3.7 là gì.
Cái nào có cửa sổ ngữ cảnh lớn nhất?
MiniMax M3 và Qwen3.7-Max đều quảng cáo cửa sổ 1.000.000 token, xấp xỉ 700.000 đến 750.000 từ. Ngữ cảnh của DeepSeek V4-Pro không được nêu ở đây. Hãy nhớ rằng một cửa sổ lớn là giới hạn tối đa, không phải lời hứa về khả năng nhớ lại hoàn hảo, và mọi token trong đó đều được tính phí.
Cái nào rẻ nhất để chạy?
Về mức giá trên mỗi token được công bố, DeepSeek V4-Pro là người dẫn đầu rõ ràng: khoảng 0.87 đô la cho mỗi triệu token đầu ra, với biến thể V4-Flash không có khả năng suy nghĩ rẻ hơn ở mức 0.14 / 0.28 đô la. MiniMax M3 bán các gói token hàng tháng (20 đô la / 50 đô la / 120 đô la) thay vì một mức giá trên mỗi token được công bố. Qwen3.7-Max tính phí theo token trên Alibaba Cloud. Nếu bạn có thể tự lưu trữ, các mô hình trọng số mở sẽ giảm chi phí cận biên của bạn xuống chỉ còn phần cứng. Bức tranh giá cả rộng hơn có trong cuộc chiến giá LLM Trung Quốc 2026.
MiniMax M3 có thực sự tốt hơn DeepSeek V4-Pro về lập trình không?
Các con số điểm chuẩn vẫn chưa thể so sánh trực tiếp. M3 đã công bố kết quả SWE-Bench Pro và Terminal-Bench khi ra mắt; DeepSeek chưa báo cáo về cùng các tác vụ đó theo cùng định dạng. Lợi thế của M3 ngày nay là bằng chứng đã công bố cộng với khả năng đa phương thức. Lợi thế của DeepSeek là giá cả và một chuỗi suy luận mạnh mẽ trong các tác vụ tái cấu trúc nhiều tệp. Cả ba đều sử dụng API tương thích OpenAI, vì vậy bài kiểm tra công bằng là chạy các lời nhắc giống hệt nhau đối với từng mô hình trên kho lưu trữ của riêng bạn trước khi quyết định.
Phiên bản tóm tắt
Ba đối thủ trọng số mở hiện đã đạt đến tầm tiên phong trong lập trình, và lựa chọn phụ thuộc vào điều bạn đang tối ưu hóa. Hãy chọn MiniMax M3 nếu bạn muốn các điểm chuẩn lập trình tác nhân đã công bố, ngữ cảnh 1M và khả năng đa phương thức, và bạn có thể chờ vài ngày để trọng số của nó được phát hành. Chọn DeepSeek V4-Pro nếu chi phí thấp và chất lượng mã được thúc đẩy bởi suy luận là quan trọng nhất, vì giá trên mỗi token của nó thấp nhất trong ba và trọng số của nó đã có sẵn. Hãy cân nhắc Qwen3.7-Max nếu bạn muốn điểm số tổng hợp công khai cao nhất và bạn thoải mái với một API được lưu trữ, biết rằng sản phẩm chủ lực của nó hiện không phải là trọng số mở.
Các con số điểm chuẩn sẽ tiếp tục thay đổi, và một số của M3 vẫn do nhà cung cấp báo cáo. Lời khuyên bền vững không thay đổi: chạy cùng các lời nhắc (prompt) đối với cả ba API trong một dự án Apidog, theo dõi đầu ra và hóa đơn, và để khối lượng công việc của riêng bạn chọn ra người chiến thắng.
