MiniMax M3 đưa ra một tuyên bố có thể khiến mọi nhà cung cấp mô hình đóng phải xem xét lại. Họ cho biết một mô hình mã nguồn mở hiện đã vượt qua GPT-5.5 và Gemini 3.1 Pro trên một bài kiểm tra mã hóa khó, và tiệm cận với Claude Opus 4.7. Nếu điều đó đúng, cách tính toán để xây dựng các công cụ mã hóa có khả năng tự chủ sẽ thay đổi hoàn toàn. Bạn sẽ có được kết quả đẳng cấp tiên phong từ các trọng số mà bạn có thể tải xuống, chạy và định giá tùy ý.
Đây là phiên bản trung thực ngay từ đầu. Hầu hết các con số đằng sau tuyên bố đó đều do chính MiniMax cung cấp. Chúng được báo cáo bởi nhà cung cấp và xác nhận độc lập trên bảng xếp hạng vẫn đang chờ xử lý. Vì vậy, đây không phải là một sự tôn vinh. Đây là một cái nhìn về những gì M3 tuyên bố có thể làm, cách nó so sánh với hai mô hình tiên phong đóng, và cách quyết định mô hình nào phù hợp với hệ thống của bạn. Để biết thông tin chi tiết về mô hình, hãy xem MiniMax M3 là gì, và các số liệu nguồn có trong thông báo MiniMax M3.
Các đối thủ cạnh tranh sơ lược
Ba mô hình, ba lựa chọn khác nhau. M3 hướng tới nguồn mở và giá rẻ. Opus 4.7 tập trung vào độ tin cậy và hệ sinh thái. GPT-5.5 hướng tới vị trí nền tảng mặc định trong hệ thống OpenAI.
| Thuộc tính | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| Trọng số | Mở (dự kiến phát hành ~10 ngày) | Đóng | Đóng |
| Cửa sổ ngữ cảnh | 1.000.000 token | Lớn (xem tài liệu Anthropic) | Lớn (xem tài liệu OpenAI) |
| Đa phương thức | Nguyên bản: hình ảnh, video, sử dụng máy tính | Hình ảnh + văn bản | Hình ảnh + văn bản |
| Kiến trúc | MSA (tính toán mỗi token ~1/20 so với thế hệ trước) | Chưa công bố | Chưa công bố |
| Mô hình định giá | Các gói $20 / $50 / $120 + API tính phí theo mức sử dụng | Theo token, giá Anthropic | Theo token, giá OpenAI |
| Số lượng tham số | Chưa công bố | Chưa công bố | Chưa công bố |
Sự phân chia giữa mở và đóng là điểm nhấn chính. Bạn không thể tự host Opus 4.7 hoặc GPT-5.5. Với M3, MiniMax cho biết trọng số và báo cáo kỹ thuật sẽ được phát hành trong khoảng mười ngày, điều này đưa việc triển khai tại chỗ và kiểm soát giá hoàn toàn trở lại khả thi.
Các điểm chuẩn mã hóa: M3 dẫn đầu ở đâu và không dẫn đầu ở đâu
Mã hóa là lĩnh vực mà M3 đặt ra tuyên bố lớn nhất của mình. Nổi bật là SWE-Bench Pro, một bài kiểm tra các tác vụ kỹ thuật phần mềm thực tế. Dưới đây là các số liệu do MiniMax báo cáo.
| Điểm chuẩn (do MiniMax báo cáo) | MiniMax M3 | Vị trí MiniMax tuyên bố |
|---|---|---|
| SWE-Bench Pro | 59,0% | Vượt GPT-5.5, vượt Gemini 3.1 Pro, tiệm cận Opus 4.7 |
| Terminal-Bench 2.1 | 66,0% | Điểm hiệu suất tác nhân mạnh mẽ |
| SWE-fficiency | 34,8% | Hiệu quả trong việc giải quyết vấn đề |
| KernelBench Hard | 28,8% | Tạo nhân cấp thấp |
| PostTrainBench | 0,37 | Thua Opus 4.7 (0,42) và GPT-5.5 (0,39) |
Hãy đọc kỹ bảng đó, vì nó có thể được diễn giải theo cả hai cách. Trên SWE-Bench Pro, 59,0% của M3 là con số cho phép một mô hình mã nguồn mở sánh vai với các công nghệ tiên phong. Bạn có thể kiểm tra bảng xếp hạng SWE-Bench công khai để xem điều đó khớp như thế nào khi các bên thứ ba xác minh. Nhưng trên PostTrainBench, M3 lại bị bỏ lại phía sau. Opus 4.7 dẫn đầu với 0,42, GPT-5.5 theo sau với 0,39, và M3 đạt 0,37. MiniMax kém hơn ở điểm này, và giả vờ ngược lại sẽ không có lợi cho bạn.
Vì vậy, bức tranh không phải là "M3 thắng trong mã hóa." Mà là "M3 đạt đến tầm tiên phong trên điểm chuẩn mã hóa hàng đầu, trong khi vẫn còn kém hơn ở các điểm khác." Đó là một bước tiến có ý nghĩa đối với một mô hình mã nguồn mở. Nó không phải là một chiến thắng hoàn toàn. Chúng ta đã thấy mô hình này trước đây với các bản phát hành mở mạnh mẽ. Nếu bạn theo dõi so sánh Qwen 3.7 so với GPT-5.5 so với Opus 4.7, hình dạng này đã quen thuộc: các mô hình mã nguồn mở thu hẹp khoảng cách trên các tác vụ cụ thể nhanh hơn là thu hẹp khoảng cách ở mọi nơi.
Một lưu ý nữa đáng được nhắc lại. Đây là những kết quả do chính MiniMax thực hiện. Các bộ công cụ điểm chuẩn, khung sườn và cài đặt lời nhắc khác nhau giữa các nhà cung cấp, và những lựa chọn phương pháp luận nhỏ có thể làm thay đổi điểm số. Hãy xem so sánh này như một hướng dẫn cho đến khi các bảng xếp hạng độc lập báo cáo số liệu của riêng họ.
Khả năng tự chủ (Agentic) và sử dụng công cụ: đặt cược vào tầm nhìn dài hạn
Nếu mã hóa là tiêu điểm chính, thì hành vi tác nhân (agentic behavior) là nơi kiến trúc của M3 chứng tỏ giá trị của mình. Mô hình đạt 74,2% trên MCP Atlas, một bài kiểm tra khả năng phối hợp công cụ thông qua Giao thức Ngữ cảnh Mô hình, và MiniMax báo cáo điểm số cao nhất trong lĩnh vực này trên Claw-Eval, một đánh giá tác nhân.
Các bản demo là phần thu hút sự chú ý. MiniMax trình diễn M3 chạy một tác vụ tối ưu hóa nhân CUDA kéo dài 24 giờ, đạt được tốc độ tăng 9,4 lần, và một bản tái tạo bài báo tự động tạo ra 18 commit và 23 hình ảnh mà không cần sự can thiệp của con người. Công việc tác nhân dài hạn như vậy chính là nơi mà hầu hết các mô hình thường lạc đề, mất ngữ cảnh hoặc lãng phí token vào những bế tắc.
Độ tin cậy của một tác nhân phụ thuộc vào khung làm việc xung quanh mô hình cũng như chính bản thân mô hình. Cách bạn cấu trúc các lệnh gọi công cụ, ngữ cảnh và vòng lặp phục hồi sẽ quyết định liệu một quá trình chạy 24 giờ có hoàn thành hay thất bại. Phân tích của chúng tôi về kiến trúc khung tác nhân Claude Code bao gồm chi tiết về khung sườn đó, và các nguyên tắc tương tự áp dụng cho bất kỳ mô hình nào nằm ở trung tâm. Một điểm số tác nhân mạnh mẽ trên điểm chuẩn của nhà cung cấp là đầy hứa hẹn. Tuy nhiên, việc theo dõi nó duy trì hiệu suất trong các quy trình làm việc nhiều bước của riêng bạn mới là thử thách thực sự.
Đa phương thức và hiểu tài liệu
M3 hỗ trợ đa phương thức nguyên bản ngay khi xuất xưởng: hình ảnh, video và sử dụng máy tính. Đó là một bề mặt đầu vào rộng hơn so với các thiết lập hình ảnh cộng văn bản trên Opus 4.7 và GPT-5.5.
Hai điểm chuẩn hỗ trợ cho tuyên bố này. Trên SVG-Bench, kiểm tra việc tạo đồ họa có cấu trúc, MiniMax báo cáo M3 vượt trội so với Opus 4.7. Trên OmniDocBench, một bài kiểm tra hiểu tài liệu, nó báo cáo M3 vượt trội so với Gemini 3.1 Pro. Kết hợp điều đó với việc sử dụng máy tính, M3 định vị mình cho các quy trình làm việc đọc tài liệu, phân tích màn hình và thực hiện hành động, chứ không chỉ trò chuyện. Như thường lệ, những điều này nằm trong cột báo cáo của nhà cung cấp cho đến khi có người khác chạy thử.
Cửa sổ ngữ cảnh và chi phí ngữ cảnh dài
M3 có cửa sổ ngữ cảnh 1.000.000 token, và cách nó đạt được điều đó quan trọng hơn con số. Mô hình sử dụng kiến trúc mà MiniMax gọi là MSA, mà họ cho biết giúp giảm chi phí tính toán mỗi token xuống khoảng 1/20 so với thế hệ trước, với tốc độ điền trước nhanh hơn 9 lần và tốc độ giải mã nhanh hơn 15 lần.
Tốc độ tăng đó là tiêu điểm thầm lặng. Ngữ cảnh dài thì dễ quảng cáo nhưng tốn kém khi thực sự sử dụng. Mỗi token bạn đưa vào một lời nhắc đều tốn chi phí tính toán ở mỗi bước của vòng lặp tác nhân, đó là lý do tại sao các tác nhân chạy lâu lại trở nên chậm và đắt đỏ nhanh chóng. Nếu chi phí mỗi token của M3 thực sự chỉ là một phần nhỏ so với các mô hình trước, việc cấp cho nó một cơ sở mã lớn hoặc một chuỗi tài liệu dài sẽ ít tốn kém hơn nhiều.
Vấn đề kinh tế đó áp dụng cho cả ba mô hình. Trước khi bạn cho rằng một cửa sổ 1M là miễn phí để điền, hãy đọc cách giảm chi phí token tác nhân trong CLI. Token rẻ nhất là token bạn không bao giờ gửi, bất kể bạn chọn mô hình nào.
Thực tế về giá cả
Đây là nơi mà mô hình mở và đóng khác biệt rõ rệt nhất. M3 có các gói token với giá $20 (Plus), $50 (Max) và $120 (Ultra), cùng với một API với mức giá tiêu chuẩn cho đầu vào lên đến 512K token và mức giá ngữ cảnh dài hơn cho các gói cao hơn, áp dụng cho cả bậc tiêu chuẩn và ưu tiên. MiniMax chưa công bố giá chính xác cho mỗi token, vì vậy hãy xem các bậc gói là tín hiệu cụ thể hiện tại.
Opus 4.7 và GPT-5.5 tính giá theo token, và bạn nên lấy các con số hiện tại trực tiếp từ nguồn: trang giá của Anthropic và trang giá của OpenAI. Giá cả thay đổi, và việc mã hóa cứng chúng ở đây sẽ chỉ gây hiểu lầm cho bạn sau này.
Sự đánh đổi về cấu trúc là điểm cốt lõi bền vững. Với trọng số mở của M3, bạn có thể tự host và biến chi phí API thành chi phí cơ sở hạ tầng, điều này sẽ có lợi khi khối lượng lớn nếu bạn có đủ năng lực vận hành. Với Opus 4.7 và GPT-5.5, bạn thuê suy luận với mức giá mỗi token đã biết và hoàn toàn bỏ qua cơ sở hạ tầng. Áp lực về giá từ các mô hình mã nguồn mở này là một phần của sự thay đổi lớn hơn; cuộc chiến giá LLM của Trung Quốc năm 2026 cho thấy các bản phát hành mở mạnh mẽ đang kéo giảm chi phí tiên phong trên toàn bộ.
Bạn nên chọn mô hình nào
Hãy chọn mô hình phù hợp với ràng buộc của bạn, chứ không phải theo bảng xếp hạng.
| Tình huống của bạn | Chọn | Lý do |
|---|---|---|
| Nhạy cảm về chi phí hoặc cần tự host | MiniMax M3 | Trọng số mở, gói cước rẻ, kiểm soát hoàn toàn giá và triển khai |
| Độ tin cậy tối đa và hệ sinh thái trưởng thành | Claude Opus 4.7 | Công cụ đã được chứng minh, dẫn đầu PostTrainBench, hỗ trợ tích hợp sâu |
| Đã tiêu chuẩn hóa trên OpenAI | GPT-5.5 | Giữ nguyên trong hệ thống, công cụ và thanh toán hiện có của bạn |
| Chạy tác nhân dài hạn với ngân sách hạn chế | MiniMax M3 | Ngữ cảnh 1M cộng với hiệu quả MSA cắt giảm chi phí dài hạn |
| Yêu cầu về lưu trú dữ liệu hoặc mạng tách biệt | MiniMax M3 | Lựa chọn duy nhất bạn có thể chạy trên phần cứng của riêng mình |
Nếu bạn ngại rủi ro và đang triển khai sản phẩm ngay hôm nay, lưu ý về việc nhà cung cấp báo cáo rất quan trọng, và hồ sơ theo dõi của Opus 4.7 có trọng lượng. Nếu bạn quan tâm đến chi phí, xây dựng với số lượng lớn, hoặc cần kiểm soát nơi mô hình chạy, thì trọng số mở của M3 khó có thể bỏ qua khi chúng được phát hành. Không có một người thắng cuộc duy nhất ở đây, chỉ có sự phù hợp nhất với các ràng buộc của bạn.
Cách tự kiểm định chúng
Số liệu của nhà cung cấp cho bạn biết điều gì là có thể. Lời nhắc của riêng bạn cho bạn biết điều gì là đúng với khối lượng công việc của bạn. Cách nhanh nhất để giải quyết vấn đề là chạy các lời nhắc giống hệt nhau với API của cả ba mô hình và so sánh đầu ra thực tế, độ trễ và mức sử dụng token một cách song song.
Bạn có thể thiết lập điều này trong một dự án Apidog. Tạo một yêu cầu cho điểm cuối trò chuyện của mỗi nhà cung cấp, nhập cùng một lời nhắc và tham số, lưu chúng dưới dạng một kịch bản kiểm tra, và chạy hàng loạt. Apidog hiển thị thời gian phản hồi và đầu ra đầy đủ cho mỗi yêu cầu, vì vậy bạn có thể so sánh M3, Opus 4.7 và GPT-5.5 trên cùng một tác vụ trong một cửa sổ thay vì phải xử lý ba môi trường khác nhau. Thêm một vài xác nhận và bạn thậm chí có thể kiểm tra xem mỗi mô hình có trả về JSON hợp lệ hoặc đạt được cấu trúc mà ứng dụng của bạn mong đợi hay không. Tải Apidog để làm theo, và sử dụng biến môi trường để hoán đổi khóa API một cách gọn gàng giữa ba mô hình.
Khi bạn sẵn sàng tích hợp M3 một cách cụ thể, hướng dẫn của chúng tôi về cách sử dụng API MiniMax M3 sẽ hướng dẫn bạn qua xác thực và cấu trúc yêu cầu. Từ đó, việc chạy bộ kiểm tra tương tự với Opus 4.7 và GPT-5.5 trong Apidog chỉ là một thao tác sao chép và dán.
Câu hỏi thường gặp
MiniMax M3 có thực sự tốt hơn GPT-5.5 không? Trên SWE-Bench Pro, MiniMax báo cáo M3 đạt 59,0%, cao hơn GPT-5.5. Trên PostTrainBench, GPT-5.5 dẫn đầu với 0,39 so với 0,37 của M3. Vì vậy, điều đó phụ thuộc vào tác vụ, và đây là những số liệu do nhà cung cấp báo cáo đang chờ xác nhận độc lập. M3 không phải lúc nào cũng vượt trội.
MiniMax M3 có phải là mã nguồn mở không? M3 là mô hình trọng số mở, với các trọng số và báo cáo kỹ thuật dự kiến sẽ có trong khoảng mười ngày kể từ thông báo. Bạn sẽ có thể tải xuống và chạy mô hình. MiniMax chưa công bố số lượng tham số, và trọng số mở không phải lúc nào cũng giống như giấy phép mã nguồn mở hoàn toàn, vì vậy hãy đọc các điều khoản phát hành khi chúng được công bố.
M3 có thể thay thế Opus 4.7 cho mã hóa tác nhân không? Có thể, đối với các thiết lập nhạy cảm về chi phí hoặc tự host. M3 đạt được các con số tác nhân mạnh mẽ (66,0% trên Terminal-Bench 2.1, 74,2% trên MCP Atlas) và các bản demo tầm nhìn dài hạn. Nhưng Opus 4.7 dẫn đầu PostTrainBench và có một hồ sơ theo dõi sản xuất đã được chứng minh hơn. Hãy kiểm tra cả hai trên quy trình làm việc của riêng bạn, lý tưởng nhất là với một khung làm việc vững chắc, trước khi bạn chuyển đổi.
Các số liệu điểm chuẩn này có độc lập không? Hầu như không. Các số liệu ở đây chủ yếu là kết quả tự báo cáo của MiniMax. Các bảng xếp hạng công khai như SWE-Bench sẽ cho phép bạn kiểm tra chéo tuyên bố về mã hóa hàng đầu khi các bên thứ ba chạy M3. Cho đến lúc đó, hãy xem so sánh này như một hướng dẫn.
Điểm hạn chế của ngữ cảnh 1M token của M3 là gì? Cửa sổ là thật, và kiến trúc MSA được xây dựng để việc điền vào đó rẻ hơn, với tốc độ điền trước nhanh hơn 9 lần và tốc độ giải mã nhanh hơn 15 lần. Nhưng ngữ cảnh dài vẫn tốn chi phí tính toán ở mỗi bước tác nhân trên bất kỳ mô hình nào, vì vậy việc kiểm soát lời nhắc vẫn rất quan trọng.
Làm thế nào để so sánh cả ba mà không cần cam kết với một mô hình nào? Chạy cùng một lời nhắc với mỗi API và đo lường đầu ra, độ trễ và chi phí. Một dự án Apidog duy nhất với một yêu cầu cho mỗi nhà cung cấp sẽ cung cấp cho bạn cái nhìn so sánh song song mà không cần viết các tập lệnh dùng một lần.
Tổng kết
MiniMax M3 là thách thức trọng số mở nghiêm túc nhất đối với công nghệ tiên phong mà chúng ta từng thấy, và tuyên bố về SWE-Bench Pro của nó sẽ đặt lại kỳ vọng nếu các bảng xếp hạng độc lập xác nhận điều đó. Nhưng dữ liệu chủ yếu là của MiniMax, và PostTrainBench cho thấy Opus 4.7 và GPT-5.5 vẫn dẫn đầu. Chọn M3 nếu chi phí, khả năng tự host hoặc kiểm soát là yếu tố quyết định của bạn. Chọn Opus 4.7 nếu bạn cần độ tin cậy đã được chứng minh, hoặc GPT-5.5 nếu bạn đang sử dụng hệ thống của OpenAI. Sau đó, hãy chạy cả ba mô hình với các lời nhắc của riêng bạn trước khi cam kết, bởi vì khối lượng công việc của bạn là điểm chuẩn duy nhất thực sự quan trọng.
