MiniMax M3 Là Gì? Mô Hình Mã Nguồn Mở Tiên Phong

MiniMax M3 là gì? Hướng dẫn rõ ràng về mô hình không giới hạn trọng số của MiniMax: ngữ cảnh 1 triệu token, đa phương thức gốc, SWE-Bench Pro 59% và cách truy cập nó.

Ashley Innocent

Ashley Innocent

1 tháng 6 2026

MiniMax M3 Là Gì? Mô Hình Mã Nguồn Mở Tiên Phong

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

MiniMax M3 là một mô hình AI mã nguồn mở (open-weight) được MiniMax phát hành vào ngày 1 tháng 6 năm 2026. Đây là mô hình mã nguồn mở đầu tiên kết hợp ba yếu tố trong một hệ thống: khả năng lập trình cấp độ tiên tiến, cửa sổ ngữ cảnh lên đến 1.000.000 token, và tính đa phương tiện gốc có thể xử lý đầu vào hình ảnh và video, thậm chí có thể vận hành máy tính để bàn.

Sự kết hợp đó là điểm nhấn chính. Rất nhiều mô hình làm tốt một hoặc hai trong số các yếu tố này. M3 là mô hình đầu tiên bạn có thể chạy trên bộ trọng số của riêng mình với mục tiêu thực hiện cả ba cùng lúc. MiniMax cũng đã hứa sẽ công bố bộ trọng số mở và báo cáo kỹ thuật đầy đủ trong vòng khoảng 10 ngày kể từ khi ra mắt, vì vậy mô hình bạn đọc hôm nay sẽ sớm trở thành thứ bạn có thể tự lưu trữ. Nếu bạn đã theo dõi cuộc đua mã nguồn mở thông qua các bản phát hành như Qwen 3.7, M3 là một bước tiến lớn tiếp theo, và các chi tiết ra mắt được lấy trực tiếp từ thông báo MiniMax M3.

Bài viết này sẽ đi sâu vào M3 là gì, các điểm chuẩn MiniMax đã báo cáo, cách kiến trúc của nó giảm chi phí ngữ cảnh dài, những gì bạn có thể xây dựng với nó và cách truy cập.

💡
Nếu bạn đang có kế hoạch tích hợp M3 vào một ứng dụng, bạn sẽ cần một cách để kiểm tra phản hồi API và các lệnh gọi công cụ của nó; các công cụ như Apidog giúp bước này trở nên đơn giản, và chúng ta sẽ quay lại vấn đề này.
Tải ứng dụng

Điều gì làm M3 khác biệt

Hầu hết các mô hình tiên tiến đều buộc phải đánh đổi. Bạn có thể có khả năng lập trình mạnh mẽ, hoặc một cửa sổ ngữ cảnh khổng lồ, hoặc đầu vào đa phương tiện, nhưng hiếm khi có cả ba trong một mô hình mở duy nhất. Điểm nhấn của M3 là bạn không còn phải lựa chọn nữa.

Đây là sự hợp nhất ba yếu tố được giải thích một cách đơn giản:

Khía cạnh mã nguồn mở là điều kết nối tất cả lại với nhau. Khi bộ trọng số được công khai, bạn có thể tự lưu trữ cho công việc nhạy cảm về dữ liệu, tinh chỉnh trên miền của riêng mình và tránh bị khóa nhà cung cấp theo từng lần gọi. Kết hợp sự tự do đó với khả năng lập trình tiên tiến và cửa sổ ngữ cảnh một triệu token là điều chưa từng tồn tại trong một gói trước đây. Để hiểu rõ hơn về cách lĩnh vực rộng lớn đang đi theo hướng này, cuộc chiến giá LLM của Trung Quốc năm 2026 đã đề cập đến áp lực cạnh tranh thúc đẩy các mô hình như thế này trở nên mã nguồn mở.

Các con số quan trọng

MiniMax đã công bố một bộ kết quả điểm chuẩn khi ra mắt. Đây là các số liệu do nhà cung cấp báo cáo, vì vậy hãy coi chúng là các phép đo của riêng MiniMax chứ không phải điểm số của bên thứ ba độc lập. Với lưu ý đó, đây là cách M3 xếp hạng.

Kết quả đáng chú ý là SWE-Bench Pro ở mức 59,0%. SWE-Bench Pro là một bộ các nhiệm vụ kỹ thuật phần mềm thực tế khó, chống nhiễm bẩn; bạn có thể đọc thêm về phương pháp luận tại trang web dự án SWE-Bench. MiniMax báo cáo rằng M3 vượt qua cả GPT-5.5 và Gemini 3.1 Pro trên đó và gần đạt đến Claude Opus 4.7. Đối với một mô hình mã nguồn mở, đó là một tuyên bố mạnh mẽ.

M3 không dẫn đầu ở mọi nơi. Trên PostTrainBench, nó đạt 0,37 điểm, thấp hơn một chút so với Opus 4.7 (0,42) và GPT-5.5 (0,39). Một khoảng cách trung thực trên bảng điểm được coi là đáng tin cậy hơn là một chiến thắng tuyệt đối.

Một chi tiết mà MiniMax chưa tiết lộ: số lượng tham số và số lượng tham số hoạt động. Những con số đó được kỳ vọng sẽ có trong báo cáo kỹ thuật, vì vậy hiện tại bạn không thể tính toán so sánh chi phí trên mỗi tham số một cách chính xác. Nếu bạn muốn phân tích đối đầu với các mô hình tiên tiến đóng, hãy xem MiniMax M3 vs Opus 4.7 vs GPT-5.5.

Kiến trúc MSA được giải thích đơn giản

Hiệu quả của M3 đến từ MSA, viết tắt của MiniMax Sparse Attention. Cơ chế attention tiêu chuẩn so sánh mọi token với mọi token khác, do đó chi phí tăng nhanh khi ngữ cảnh của bạn dài hơn. Đó là điều làm cho các cửa sổ ngữ cảnh triệu token trở nên đắt đỏ trên các kiến trúc thông thường.

Cơ chế sparse attention thay đổi cách tính toán. Thay vì chú ý đến mọi thứ, mỗi token chỉ chú ý đến một tập hợp con được chọn của chuỗi. MiniMax báo cáo rằng điều này cắt giảm chi phí tính toán trên mỗi token xuống khoảng 1/20 so với mô hình thế hệ trước của họ. Lợi ích thực tế thể hiện ở hai giai đoạn suy luận:

Điều đó quan trọng với bạn như thế nào? Công việc ngữ cảnh dài thường chậm và tốn kém, điều này thúc đẩy các nhóm hướng tới việc chia nhỏ và các giải pháp truy xuất. Khi chi phí trên mỗi token giảm đi một bậc độ lớn, việc đưa toàn bộ kho lưu trữ hoặc một chồng tài liệu dài trực tiếp vào mô hình trở nên khả thi thay vì là một vấn đề ngân sách. Tốc độ tăng cường cũng có nghĩa là độ trễ thấp hơn trên các vòng lặp tác tử, nơi mô hình đọc, hành động và đọc lại nhiều lần.

Những gì bạn thực sự có thể xây dựng

M3 được xây dựng cho công việc tác tử dài hạn, loại công việc mà mô hình chạy trong một khoảng thời gian dài và tạo ra thứ gì đó cụ thể. MiniMax đã đưa ra một vài bản trình diễn cho thấy phạm vi khả năng:

Gói sản phẩm cho điều này là MiniMax Code, bổ sung Agent Team có: quy trình làm việc đa giai đoạn, đồng thời và có thể điều chỉnh linh hoạt. Một mô hình đáng chú ý là vòng lặp đối kháng “Người tạo cộng Người xác minh” (Producer plus Verifier), trong đó một tác tử tạo ra công việc và một tác tử khác kiểm tra trước khi được chấp nhận. Thiết kế có người kiểm tra trong vòng lặp đó có xu hướng giảm thiểu các lỗi âm thầm thường gặp ở các tác tử chỉ chạy một lần.

Nếu bạn đang xây dựng các tác tử trên M3, phần khó khăn hiếm khi là mô hình; đó là việc kết nối giữa mô hình và các công cụ của bạn. Các lược đồ gọi công cụ bị thay đổi, các đối số trả về bị lỗi định dạng và một phản hồi không tốt có thể làm đình trệ toàn bộ quy trình làm việc. Đây là lúc kiểm thử API phát huy tác dụng. Bạn có thể ghi lại các phản hồi gọi công cụ của M3 và xác thực cấu trúc của chúng trong Apidog, để bạn có thể phát hiện lỗi gọi hàm trước khi nó đi vào sản xuất. Đối với khía cạnh thiết kế của công việc đó, kết nối công cụ quy trình làm việc tác tử: các mẫu và cạm bẫy bao gồm các lỗi thường gặp.

Cách truy cập M3

Hiện tại, MiniMax có hai cách: gói token thuê bao và API.

Các gói thuê bao bao gồm một hạn mức token hàng tháng

Để truy cập chương trình, API sử dụng giao diện hoàn thành cuộc trò chuyện theo phong cách OpenAI. URL cơ sở là https://api.minimax.io/v1, bạn gọi POST /chat/completions, và ID mô hình là MiniMax-M3. Xác thực là một bearer token trong tiêu đề:

POST https://api.minimax.io/v1/chat/completions
Authorization: Bearer $API_KEY
Content-Type: application/json

Bạn có thể gọi nó qua HTTP thuần túy, thông qua Anthropic SDK (tuyến đường được MiniMax khuyến nghị) hoặc thông qua OpenAI SDK. Tài liệu tham khảo API chính thức của MiniMax có lược đồ đầy đủ.

Hai chi tiết về giá cần biết. Các cuộc gọi API được tính phí theo mức tiêu chuẩn khi đầu vào của bạn là 512K token trở xuống, và theo mức phí ngữ cảnh dài cao hơn khi vượt quá 512K, do đó các lời nhắc rất lớn sẽ tốn nhiều chi phí hơn cho mỗi lần gọi. Cũng có hai cấp dịch vụ: tiêu chuẩn (mặc định) và ưu tiên. MiniMax chưa công bố giá chính xác trên mỗi token, vì vậy hãy xác nhận tỷ lệ hiện tại trong tài liệu trước khi bạn lập ngân sách.

Để thiết lập từng bước với các yêu cầu hoạt động, hãy xem cách sử dụng API MiniMax M3. Nếu bạn muốn dùng thử mà không phải trả phí, cách sử dụng MiniMax M3 miễn phí đề cập đến các tùy chọn không tốn phí hiện có. Sau khi có khóa, Tải Apidog để gửi yêu cầu đầu tiên của bạn và kiểm tra cấu trúc phản hồi trước khi bạn viết bất kỳ mã ứng dụng nào.

M3 so sánh như thế nào với các mô hình mã nguồn mở khác

M3 xuất hiện trong một lĩnh vực đông đúc các mô hình mã nguồn mở, nhiều trong số đó đến từ các phòng thí nghiệm Trung Quốc đang đẩy mạnh về giá cả và khả năng. Các đối thủ hiện tại bao gồm DeepSeek V4-pro, Qwen 3.7, Kimi k2.6 và GLM-5.1. Mỗi mô hình đều có điểm mạnh riêng về lập trình, suy luận và làm việc đa ngôn ngữ.

Điểm khác biệt của M3 không phải là bất kỳ điểm số đơn lẻ nào; đó là gói tổng hợp. Rất ít mô hình mã nguồn mở nào kết hợp khả năng lập trình tiên tiến với cửa sổ ngữ cảnh 1 triệu token thực sự và khả năng sử dụng máy tính gốc trong cùng một mô hình. Các so sánh gần nhất thường thắng ở một khía cạnh trong khi M3 trải rộng ưu thế của mình trên cả ba. Tuy nhiên, báo cáo kỹ thuật và bộ trọng số mở vẫn chưa được công bố, vì vậy các điểm chuẩn độc lập sẽ là bài kiểm tra thực sự. Nếu bạn đang sử dụng một mô hình mở khác, tổng quan về Qwen 3.7 là một điểm tham chiếu hữu ích để biết M3 đang cạnh tranh với những gì.

Câu hỏi thường gặp

MiniMax M3 có phải là mã nguồn mở không? Nó là mã nguồn mở (open-weight). MiniMax đã hứa sẽ công bố bộ trọng số của mô hình và một báo cáo kỹ thuật trong vòng khoảng 10 ngày kể từ khi ra mắt vào ngày 1 tháng 6 năm 2026. Tính đến thời điểm viết bài, những bộ trọng số đó vẫn chưa được phát hành, vì vậy bạn chưa thể tải xuống và tự lưu trữ hôm nay. Một khi MiniMax công khai bộ trọng số, bạn sẽ có thể chạy M3 trên cơ sở hạ tầng của riêng mình.

Cửa sổ ngữ cảnh là gì? Lên đến 1.000.000 token. Kiến trúc MSA là điều làm cho một cửa sổ lớn như vậy trở nên hợp lý về chi phí, vì nó cắt giảm chi phí tính toán trên mỗi token xuống khoảng 1/20 so với mô hình thế hệ trước.

MiniMax M3 có miễn phí không? Không trực tiếp. MiniMax bán các gói token thuê bao bắt đầu từ 20 USD/tháng (Plus) và quyền truy cập API được tính phí theo token. Không có gói miễn phí nào được MiniMax công bố, mặc dù bài viết cách sử dụng MiniMax M3 miễn phí hướng dẫn các phương pháp không tốn phí hiện có.

M3 so sánh như thế nào với Claude Opus 4.7? Theo các điểm chuẩn được MiniMax báo cáo, M3 tiệm cận Opus 4.7 trên SWE-Bench Pro (59,0%) và đánh bại nó trên SVG-Bench, trong khi xếp sau trên PostTrainBench (0,37 so với 0,42). Đây là các số liệu của nhà cung cấp, vì vậy hãy đợi các thử nghiệm độc lập trước khi coi bất kỳ con số nào là đã được xác định.

Khi nào bộ trọng số được phát hành? MiniMax cam kết phát hành cả bộ trọng số mở và báo cáo kỹ thuật trong khoảng 10 ngày kể từ khi ra mắt vào ngày 1 tháng 6 năm 2026. Báo cáo kỹ thuật cũng sẽ bổ sung số lượng tham số, điều mà MiniMax chưa tiết lộ.

M3 có thể xử lý hình ảnh và video không? Có. M3 là mô hình đa phương tiện gốc và chấp nhận cả đầu vào hình ảnh và video. Nó cũng tiến xa hơn với khả năng sử dụng máy tính, vận hành trực tiếp các ứng dụng máy tính để bàn thay vì chỉ mô tả những gì trên màn hình.

Phiên bản tóm tắt

MiniMax M3 là mô hình mã nguồn mở đầu tiên kết hợp khả năng lập trình tiên tiến, cửa sổ ngữ cảnh 1 triệu token và tính đa phương tiện gốc vào một nơi. Kiến trúc MSA giúp giảm chi phí ngữ cảnh dài, điểm SWE-Bench Pro được báo cáo đặt nó gần với các mô hình tiên tiến đóng, và bộ trọng số mở dự kiến sẽ được phát hành trong vài ngày kể từ khi ra mắt. Những khoảng trống trung thực, số lượng tham số chưa được tiết lộ và một vài điểm chuẩn mà nó xếp sau, đáng để theo dõi khi có kết quả độc lập. Nếu bạn đã sẵn sàng xây dựng dựa trên nó, hãy lấy khóa API, kiểm tra các lệnh gọi và phản hồi công cụ đầu tiên của bạn trong Apidog, và bắt đầu với quy mô nhỏ trước khi mở rộng.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API