Tóm tắt
MiniMax M2.5 là một mô hình AI tiên tiến ra mắt vào ngày 12 tháng 2 năm 2026, đạt hiệu suất hàng đầu trong lĩnh vực lập trình (80.2% trên SWE-Bench Verified), sử dụng công cụ tự động (agentic tool use) và các tác vụ năng suất văn phòng. Với mức giá chỉ 0.30 đô la mỗi giờ cho thông lượng 50 token/giây, nó có giá bằng một phần mười đến một phần hai mươi so với các đối thủ như Claude Opus 4.6 và GPT-5, biến nó thành mô hình tiên tiến đầu tiên có "trí tuệ quá rẻ để đong đếm". Mô hình này hoàn thành các tác vụ lập trình phức tạp nhanh hơn 37% so với phiên bản tiền nhiệm, sánh ngang tốc độ của Claude Opus 4.6 trong khi chi phí cho mỗi tác vụ lại thấp hơn 90%.
Giới thiệu
MiniMax vừa giới thiệu M2.5, một mô hình tiên tiến thách thức mọi điều chúng ta từng biết về sự đánh đổi giữa chi phí và hiệu suất trong các mô hình ngôn ngữ lớn. Thông báo chính thức cung cấp đầy đủ chi tiết kỹ thuật. Với điểm số 80.2% trên SWE-Bench Verified – tiêu chuẩn vàng cho khả năng lập trình – M2.5 không chỉ cạnh tranh với các mô hình hàng đầu như Claude Opus 4.6 và GPT-5. Về nhiều tiêu chí, nó còn vượt trội hơn.
Nhưng điều làm cho thông báo này thực sự đột phá chính là: mức giá. Với 0.30 đô la mỗi giờ để chạy liên tục ở tốc độ 50 token mỗi giây, hoặc chỉ 1 đô la mỗi giờ ở tốc độ 100 token mỗi giây, MiniMax tuyên bố M2.5 mang lại "trí tuệ quá rẻ để đong đếm". Đối với các nhà phát triển và doanh nghiệp, rào cản triển khai các tác nhân AI tinh vi đã sụp đổ.
MiniMax M2.5 là gì?
MiniMax M2.5 là mô hình chủ lực mới nhất từ công ty AI Trung Quốc MiniMax, đại diện cho phiên bản thứ ba trong chuỗi M2 của công ty được phát hành chỉ trong vòng ba tháng rưỡi (M2 vào cuối tháng 10, M2.1 vào cuối năm 2025 và M2.5 vào tháng 2 năm 2026).

Điều làm M2.5 nổi bật là sự tập trung vào hiệu suất thực tế thay vì chỉ hiệu suất trên các điểm chuẩn. Được đào tạo rộng rãi bằng học tăng cường trên hàng trăm nghìn môi trường thực tế phức tạp, M2.5 được thiết kế để xử lý các tác vụ có giá trị kinh tế mà các nhà phát triển và nhân viên tri thức phải đối mặt hàng ngày.

Mô hình có hai biến thể:
- M2.5: Thông lượng 50 token mỗi giây, chi phí bằng một nửa so với Lightning
- M2.5-Lightning: 100 token mỗi giây, tối ưu hóa cho tốc độ
Cả hai phiên bản đều hỗ trợ bộ nhớ đệm ngữ cảnh và có khả năng hoạt động giống hệt nhau, chỉ khác biệt về tốc độ và giá cả.
Thông số kỹ thuật chính trong nháy mắt
| Thông số kỹ thuật | Giá trị |
|---|---|
| Ngày phát hành | 12 tháng 2 năm 2026 |
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
| Thông lượng (Tiêu chuẩn) | 50 TPS |
| Thông lượng (Lightning) | 100 TPS |
| Giá đầu vào | 0.30 đô la mỗi triệu token |
| Giá đầu ra | 2.40 đô la mỗi triệu token |
Khả năng lập trình
Nếu có một lĩnh vực mà MiniMax M2.5 thể hiện sức mạnh vượt trội nhất, đó chính là lập trình. Mô hình đạt 80.2% trên SWE-Bench Verified – một điểm chuẩn kiểm tra khả năng giải quyết các vấn đề GitHub trong thế giới thực – một con số đưa nó vững chắc vào nhóm công nghệ tiên tiến nhất.

Nhưng điểm số điểm chuẩn thô không nói lên toàn bộ câu chuyện. Điều làm M2.5 đặc biệt thú vị đối với các nhà phát triển là khả năng **tư duy kiến trúc** của nó. Trong quá trình đào tạo, mô hình đã phát triển cái mà MiniMax mô tả là "khuynh hướng viết đặc tả" – trước khi viết bất kỳ đoạn mã nào, M2.5 chủ động phân tách và lên kế hoạch các tính năng, cấu trúc và thiết kế giao diện người dùng từ góc độ của một kiến trúc sư phần mềm có kinh nghiệm.
Lập trình đa ngôn ngữ xuất sắc
M2.5 được đào tạo trên hơn **10 ngôn ngữ lập trình** trong hơn 200,000 môi trường thực tế:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart và Ruby
Đây không chỉ là về việc sửa lỗi. Mô hình xử lý toàn bộ vòng đời phát triển:
- 0-to-1: Thiết kế hệ thống và thiết lập môi trường
- 1-to-10: Phát triển hệ thống
- 10-to-90: Lặp lại tính năng
- 90-to-100: Đánh giá mã toàn diện và kiểm thử hệ thống
Phát triển Full-Stack đa nền tảng
Không giống như nhiều trợ lý lập trình chủ yếu tập trung vào các bản demo frontend, M2.5 xử lý các **dự án full-stack trên nhiều nền tảng**: Web, Android, iOS và Windows. Nó xử lý các API phía máy chủ, logic nghiệp vụ, cơ sở dữ liệu và kiến trúc hệ thống phức tạp – không chỉ các thành phần trang web.
Hiệu suất điểm chuẩn so với đối thủ cạnh tranh
| Giàn giáo | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79.7% | 78.9% |
| OpenCode | 76.1% | 75.9% |
M2.5 vượt qua Claude Opus 4.6 trên cả hai giàn giáo tác nhân phổ biến, cho thấy khả năng tổng quát hóa mạnh mẽ.
Khi xây dựng các ứng dụng được hỗ trợ bởi AI với M2.5, bạn sẽ cần kiểm tra các API kết nối ứng dụng của mình với mô hình. Apidog cho phép bạn tạo các kịch bản kiểm thử để xác thực việc xử lý yêu cầu/phản hồi, luồng xác thực và xử lý lỗi – những điều cần thiết cho các ứng dụng AI sản xuất.
Sử dụng công cụ tự động và tìm kiếm
AI hiện đại không chỉ là về trả lời câu hỏi – nó còn là về việc hành động. M2.5 thể hiện khả năng tác nhân mạnh mẽ, đặc biệt trong việc gọi công cụ và tìm kiếm tự động.
BrowseComp và Wide Search
Trên các điểm chuẩn như BrowseComp và Wide Search, M2.5 đạt hiệu suất dẫn đầu ngành. Nhưng quan trọng hơn, MiniMax đã xây dựng **RISE (Đánh giá tìm kiếm tương tác thực tế)** để kiểm tra các tác vụ tìm kiếm chuyên nghiệp trong thế giới thực – loại tác vụ đòi hỏi khám phá sâu rộng trên các trang web chứa nhiều thông tin, chứ không chỉ là các truy vấn tìm kiếm đơn giản.
Ra quyết định hiệu quả
Có lẽ khía cạnh ấn tượng nhất về khả năng tác nhân của M2.5 là hiệu quả của nó. Trên nhiều tác vụ tác nhân bao gồm BrowseComp, Wide Search và RISE, M2.5 đạt được **kết quả tốt hơn với số vòng suy luận ít hơn khoảng 20%** so với M2.1. Điều này cho thấy mô hình không chỉ đưa ra câu trả lời đúng – nó còn tìm ra những con đường hiệu quả để đạt được điều đó.
Điều này có ý nghĩa thực tiễn: ít cuộc gọi API hơn, chi phí thấp hơn và hoàn thành tác vụ nhanh hơn khi triển khai M2.5 như một tác nhân tự động.
Các tính năng năng suất văn phòng
Lập trình không phải là lĩnh vực duy nhất mà M2.5 vượt trội. MiniMax đã thiết kế mô hình này đặc biệt cho **năng suất văn phòng trong thế giới thực**, hợp tác với các chuyên gia cấp cao trong lĩnh vực tài chính, luật pháp và khoa học xã hội để đào tạo mô hình tạo ra các kết quả thực sự có thể sử dụng được.
Làm chủ Word, PowerPoint và Excel
M2.5 thể hiện sự cải thiện đáng kể về khả năng trong các kịch bản không gian làm việc có giá trị cao:
- Word: Tạo tài liệu, định dạng và viết chuyên nghiệp
- PowerPoint: Thiết kế bài thuyết trình và tạo slide
- Excel: Mô hình tài chính và các thao tác bảng tính phức tạp
MiniMax đã xây dựng một khuôn khổ đánh giá nội bộ có tên **GDPval-MM** để đánh giá cả chất lượng đầu ra và tính chuyên nghiệp của toàn bộ quy trình làm việc của tác nhân. Trong các so sánh trực tiếp với các mô hình phổ biến khác, M2.5 đạt **tỷ lệ thắng trung bình 59.0%**.
Chuyên môn hóa mô hình tài chính
Mô hình được đào tạo đặc biệt về các bài toán mô hình tài chính do các chuyên gia trong ngành xây dựng. Chúng bao gồm các tác vụ nghiên cứu và phân tích đầu cuối được thực hiện thông qua các công cụ Excel, được chấm điểm bằng các tiêu chí do chuyên gia thiết kế. Đối với các chuyên gia tài chính, điều này có thể đại diện cho một bước nhảy vọt đáng kể về năng suất.
Hiệu suất và tốc độ
Tốc độ rất quan trọng trong các triển khai thực tế. Một mô hình thông minh hơn nhưng chậm hơn thường mang lại trải nghiệm người dùng tệ hơn so với một lựa chọn thay thế kém hơn một chút nhưng nhanh hơn.
Tốc độ tạo token
M2.5 được cung cấp nguyên bản ở tốc độ **100 token mỗi giây** cho biến thể Lightning – gần **nhanh gấp đôi** so với các mô hình tiên tiến khác. Lợi thế thông lượng nguyên bản này tăng lên đáng kể khi xử lý các tác vụ tác nhân chạy dài.
So sánh thời gian chạy trên SWE-Bench
| Chỉ số | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| Token trung bình/tác vụ | 3.72M | 3.52M | - |
| Thời gian chạy trung bình | 31.3 phút | 22.8 phút | 22.9 phút |
| Cải thiện tốc độ | - | -37% | - |

M2.5 hoàn thành đánh giá SWE-Bench Verified **nhanh hơn 37% so với M2.1**, sánh ngang thời gian chạy của Claude Opus 4.6 trong khi chỉ sử dụng 3.52 triệu token mỗi tác vụ (so với 3.72 triệu của M2.1).
Giá cả và hiệu quả chi phí
Đây là điểm mà M2.5 thực sự mang tính đột phá. MiniMax đã định vị mô hình này là AI tiên tiến đầu tiên mà người dùng "không cần phải lo lắng về chi phí".
Cấu trúc giá
| Mô hình | Thông lượng | Giá đầu vào | Giá đầu ra |
|---|---|---|---|
| M2.5 | 50 TPS | 0.30 đô la/triệu token | 2.40 đô la/triệu token |
| M2.5-Lightning | 100 TPS | 0.60 đô la/triệu token | 4.80 đô la/triệu token |
So sánh chi phí
Ở thông lượng đầu ra tối đa:
- 1 đô la mỗi giờ ở 100 TPS (Lightning)
- 0.30 đô la mỗi giờ ở 50 TPS (tiêu chuẩn)
Điều này tương đương với khoảng **một phần mười đến một phần hai mươi chi phí** của Opus, Gemini 3 Pro và GPT-5 dựa trên giá đầu ra.
Ví dụ chi phí thực tế
Chạy M2.5 liên tục trong một giờ chỉ tốn 1 đô la ở tốc độ tối đa. Ở 50 TPS, con số đó giảm xuống còn 0.30 đô la. Để dễ hình dung, bạn có thể chạy **bốn phiên bản M2.5 liên tục trong cả một năm với 10,000 đô la**.
Đối với các doanh nghiệp triển khai tác nhân AI ở quy mô lớn, mức giá này thay đổi cơ bản nền kinh tế. Các tác vụ từng quá đắt đỏ nay trở nên khả thi. Các dự án thử nghiệm từng vượt quá giới hạn ngân sách nay trở thành những khám phá hợp túi tiền.
Kiến trúc kỹ thuật
Học tăng cường ở quy mô lớn
Một yếu tố then chốt thúc đẩy khả năng của M2.5 là việc mở rộng quy mô học tăng cường. MiniMax đã chuyển đổi hầu hết các tác vụ và không gian làm việc của công ty thành môi trường đào tạo – hàng trăm nghìn kịch bản trong thế giới thực nơi mô hình học hỏi thông qua thử và sai.
Forge: Khung RL dành riêng cho tác nhân
MiniMax đã phát triển **Forge**, một khuôn khổ RL (học tăng cường) dành riêng cho tác nhân nội bộ, giới thiệu một lớp trung gian hoàn toàn tách rời công cụ đào tạo-suy luận cơ bản khỏi tác nhân. Điều này hỗ trợ tích hợp các tác nhân tùy ý và cho phép tối ưu hóa trên các giàn giáo và công cụ tác nhân khác nhau.

Các tối ưu hóa chính bao gồm:
- Các chiến lược lập lịch bất đồng bộ cân bằng thông lượng với tính ngoài chính sách của mẫu
- Chiến lược hợp nhất theo cấu trúc cây cho các mẫu đào tạo
- Đạt được **tốc độ đào tạo nhanh hơn khoảng 40 lần**
Thuật toán CISPO
Để đảm bảo ổn định thuật toán trong quá trình đào tạo MoE (Hỗn hợp chuyên gia) quy mô lớn, M2.5 tiếp tục sử dụng **thuật toán CISPO** mà MiniMax đã đề xuất vào đầu năm 2025. Để giải quyết các thách thức phân bổ tín dụng trong các ngữ cảnh dài, họ đã giới thiệu một **cơ chế phần thưởng quy trình** để giám sát chất lượng tạo ra từ đầu đến cuối.
Quy mô môi trường đào tạo
Theo số liệu:
- Hàng trăm nghìn môi trường đào tạo trong thế giới thực
- Hơn 10 ngôn ngữ lập trình
- Hơn 200,000 môi trường mã
- Các tác vụ bao gồm phát triển web, Android, iOS và Windows
Tích hợp tác nhân MiniMax
M2.5 không chỉ là một API – nó đã và đang cung cấp sức mạnh cho các sản phẩm của chính MiniMax.
Tích hợp kỹ năng văn phòng
MiniMax đã chắt lọc các khả năng xử lý thông tin cốt lõi thành **Kỹ năng Văn phòng tiêu chuẩn** được tích hợp sâu rộng trong MiniMax Agent. Trong chế độ MAX, khi xử lý định dạng Word, chỉnh sửa PowerPoint và tính toán Excel, Agent tự động tải các Kỹ năng Văn phòng tương ứng dựa trên loại tệp.
Tạo chuyên gia
Người dùng có thể kết hợp Kỹ năng Văn phòng với kiến thức chuyên môn ngành cụ thể để tạo ra các **Chuyên gia** có thể tái sử dụng cho các kịch bản tác vụ cụ thể. Ví dụ:
- Nghiên cứu ngành: Kết hợp quy trình SOP khung nghiên cứu với Kỹ năng Word để tự động tìm nạp dữ liệu, tổ chức logic và xuất báo cáo được định dạng
- Mô hình tài chính: Kết hợp các tiêu chuẩn mô hình độc quyền với Kỹ năng Excel để tuân theo logic kiểm soát rủi ro và tiêu chuẩn tính toán cụ thể
Số liệu chấp nhận
- Hơn **10,000 Chuyên gia** đã được tạo trên MiniMax Agent
- 30% tổng số tác vụ của MiniMax được M2.5 hoàn thành một cách tự động
- **80% mã mới được cam kết** tại MiniMax được M2.5 tạo ra
Đây không phải là khả năng lý thuyết – đây là công nghệ đã được tôi luyện trong sản xuất.
M2.5 so sánh như thế nào với các đối thủ cạnh tranh
so với Claude Opus 4.6
| Chỉ số | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80.2% | ~77% |
| Giàn giáo Droid | 79.7% | 78.9% |
| Giàn giáo OpenCode | 76.1% | 75.9% |
| Thời gian chạy trên SWE-Bench | 22.8 phút | 22.9 phút |
| Chi phí/tác vụ | ~1.50 đô la | ~15+ đô la |
M2.5 sánh ngang hoặc vượt trội Opus 4.6 trên các điểm chuẩn lập trình trong khi chi phí chỉ khoảng **10% mỗi tác vụ**.
so với GPT-5
- Chi phí thấp hơn đáng kể (bằng 1/10 đến 1/20 giá)
- Điểm chuẩn lập trình cạnh tranh
- Các tính năng năng suất văn phòng gốc
- Tốc độ suy luận nhanh hơn (100 TPS so với 30-50 TPS thông thường)
so với Gemini 3 Pro
- Giá thấp hơn nhiều
- Điểm SWE-Bench cao hơn
- Tích hợp năng suất văn phòng tốt hơn
- Cách tiếp cận mở rộng quy mô RL mạnh mẽ hơn
Kết luận
MiniMax M2.5 đại diện cho một sự thay đổi mô hình thực sự trong bối cảnh AI. Lần đầu tiên, chúng ta có một mô hình tiên tiến kết hợp khả năng hàng đầu với mức giá cho phép triển khai không giới hạn.
Những điểm chính cần lưu ý:
- Hiệu suất lập trình hàng đầu (80.2% SWE-Bench, vượt trội Opus 4.6 trên nhiều giàn giáo)
- Hiệu quả tác nhân (ít hơn 20% vòng suy luận, nhanh hơn 37% so với M2.1)
- Năng suất văn phòng (tỷ lệ thắng 59% so với các đối thủ trong các tác vụ văn phòng thực tế)
- Mức giá không thể đánh bại (0.30-1 đô la/giờ, bằng 1/10 đến 1/20 so với các đối thủ)
- Sẵn sàng sản xuất (đã cung cấp sức mạnh cho các sản phẩm của MiniMax, tạo ra 80% mã nguồn của công ty)
Câu hỏi không phải là liệu M2.5 có đáng thử hay không – mà là liệu bạn có thể không thử nó không.
Bạn đã sẵn sàng xây dựng và kiểm thử các API được hỗ trợ bởi AI? Tải xuống Apidog miễn phí và tạo các bộ kiểm thử toàn diện cho các tích hợp MiniMax của bạn. Nhập các bộ sưu tập Postman hiện có của bạn chỉ với một cú nhấp chuột và bắt đầu kiểm thử trong vài phút.
Câu hỏi thường gặp
MiniMax M2.5 là gì?
MiniMax M2.5 là một mô hình AI tiên tiến ra mắt vào tháng 2 năm 2026, đạt hiệu suất hàng đầu trong lĩnh vực lập trình, các tác vụ tác nhân và năng suất văn phòng. Nó nổi bật nhờ sự kết hợp giữa các điểm chuẩn hàng đầu và mức giá cực kỳ thấp.
MiniMax M2.5 so sánh như thế nào với Claude Opus 4.6?
M2.5 sánh ngang hoặc vượt trội Claude Opus 4.6 trên hầu hết các điểm chuẩn lập trình (80.2% so với ~77% trên SWE-Bench Verified) trong khi chi phí thấp hơn khoảng 90% cho mỗi tác vụ. Nó sánh ngang tốc độ chạy của Opus 4.6 (22.8 so với 22.9 phút trên SWE-Bench).
Giá của MiniMax M2.5 là bao nhiêu?
M2.5 có giá 0.30 đô la cho mỗi triệu token đầu vào và 2.40 đô la cho mỗi triệu token đầu ra (ở 50 TPS). Ở thông lượng tối đa, chạy M2.5 liên tục trong một giờ chỉ tốn 0.30-1.00 đô la, tùy thuộc vào biến thể.
M2.5 hỗ trợ những ngôn ngữ lập trình nào?
M2.5 được đào tạo trên hơn 10 ngôn ngữ bao gồm Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart và Ruby trong hơn 200,000 môi trường thực tế.
MiniMax M2.5 có tốt cho công việc văn phòng không?
Có. M2.5 được đào tạo đặc biệt cho các tác vụ năng suất văn phòng bao gồm Word, PowerPoint và mô hình tài chính Excel. Nó đạt tỷ lệ thắng 59% so với các mô hình phổ biến khác trong các tác vụ văn phòng trong các đánh giá nội bộ của MiniMax.
Tôi có thể sử dụng MiniMax M2.5 qua API không?
Có. MiniMax cung cấp quyền truy cập API thông qua nền tảng của họ tại minimax.io. API hỗ trợ cả biến thể M2.5 tiêu chuẩn (50 TPS) và M2.5-Lightning (100 TPS).
Điều gì làm MiniMax M2.5 đặc biệt?
M2.5 là "mô hình tiên tiến" đầu tiên có chi phí đủ thấp để người dùng không cần phải lo lắng về nó – công ty tuyên bố đó là "trí tuệ quá rẻ để đong đếm". Kết hợp với các điểm chuẩn lập trình hàng đầu và khả năng tác nhân, điều này làm cho nó khả thi cho việc triển khai tác nhân quy mô lớn.
MiniMax M2.5 nhanh đến mức nào?
M2.5-Lightning tạo ra 100 token mỗi giây – nhanh gần gấp đôi so với các mô hình tiên tiến khác. Ngay cả M2.5 tiêu chuẩn cũng chạy ở 50 TPS. Trên các tác vụ SWE-Bench, nó hoàn thành đánh giá nhanh hơn 37% so với M2.1.
