TL;DR
MiniMax M2.5는 2026년 2월 12일에 출시된 최첨단 AI 모델로, 코딩(SWE-Bench Verified 80.2%), 에이전트 도구 사용 및 사무 생산성 작업에서 최고 수준의 성능을 달성했습니다. 초당 50토큰 처리량 기준 시간당 0.30달러에 불과한 가격으로, Claude Opus 4.6 및 GPT-5와 같은 경쟁 모델의 10분의 1에서 20분의 1 수준이며, 최초의 "측정할 필요가 없을 정도로 저렴한 지능"을 가진 최첨단 모델입니다. 이 모델은 이전 모델보다 복잡한 코딩 작업을 37% 더 빠르게 완료하며, Claude Opus 4.6의 속도와 동일하면서도 작업당 비용은 90% 더 저렴합니다.
소개
MiniMax는 대규모 언어 모델의 비용-성능 트레이드오프에 대해 우리가 알고 있던 모든 것에 도전하는 최첨단 모델인 M2.5를 방금 공개했습니다. 공식 발표에서 모든 기술적 세부 사항을 확인할 수 있습니다. 코딩 능력의 황금 표준인 SWE-Bench Verified에서 80.2%의 점수를 기록한 M2.5는 Claude Opus 4.6 및 GPT-5와 같은 최고 수준의 모델들과 경쟁할 뿐만 아니라, 여러 지표에서 이들을 능가합니다.
그러나 이 발표를 진정으로 혁신적으로 만드는 것은 가격입니다. 초당 50토큰으로 연속 실행 시 시간당 0.30달러, 또는 초당 100토큰으로 시간당 1달러에 불과한 가격으로 MiniMax는 M2.5가 "측정할 필요가 없을 정도로 저렴한 지능"을 제공한다고 주장합니다. 개발자와 기업에게 정교한 AI 에이전트를 배포하는 장벽이 무너진 것입니다.
MiniMax M2.5란 무엇입니까?
MiniMax M2.5는 중국 AI 기업 MiniMax의 최신 주력 모델로, 불과 3개월 반 만에 출시된 M2 시리즈의 세 번째 반복 모델입니다 (M2는 10월 말, M2.1은 2025년 말, M2.5는 2026년 2월).

M2.5가 차별화되는 점은 벤치마크 성능을 넘어 **실제 생산성**에 초점을 맞춘다는 것입니다. 수십만 개의 복잡한 실제 환경에서 강화 학습을 통해 광범위하게 훈련된 M2.5는 개발자와 지식 근로자가 매일 직면하는 경제적으로 가치 있는 작업을 처리하도록 설계되었습니다.

이 모델은 두 가지 변형으로 제공됩니다:
- **M2.5**: 초당 50토큰 처리량, Lightning 버전의 절반 가격
- **M2.5-Lightning**: 초당 100토큰, 속도에 최적화됨
두 버전 모두 컨텍스트 캐싱을 지원하며 기능적으로는 동일하며, 속도와 가격만 다릅니다.
주요 사양 요약
| 사양 | 값 |
|---|---|
| 출시일 | 2026년 2월 12일 |
| SWE-Bench Verified | 80.2% |
| Multi-SWE-Bench | 51.3% |
| BrowseComp | 76.3% |
| 처리량 (표준) | 50 TPS |
| 처리량 (Lightning) | 100 TPS |
| 입력 가격 | 백만 토큰당 $0.30 |
| 출력 가격 | 백만 토큰당 $2.40 |
코딩 능력
MiniMax M2.5가 가장 극적으로 능력을 발휘하는 영역이 있다면, 그것은 바로 코딩입니다. 이 모델은 실제 GitHub 문제를 해결하는 능력을 테스트하는 벤치마크인 SWE-Bench Verified에서 80.2%를 달성하여, 최고 수준의 기술 영역에 확고히 자리매김했습니다.

그러나 단순한 벤치마크 점수가 전부는 아닙니다. M2.5를 개발자에게 특히 흥미롭게 만드는 것은 바로 **아키텍처적 사고** 능력입니다. 훈련 과정에서 이 모델은 MiniMax가 "사양 작성 경향"이라고 설명하는 것을 개발했습니다. M2.5는 어떤 코드를 작성하기 전에 숙련된 소프트웨어 아키텍트의 관점에서 기능, 구조 및 UI 디자인을 능동적으로 분해하고 계획합니다.
다국어 프로그래밍 우수성
M2.5는 20만 개 이상의 실제 환경에서 **10개 이상의 프로그래밍 언어**로 훈련되었습니다:
- Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby
이것은 단순히 버그 수정에 관한 것이 아닙니다. 이 모델은 전체 개발 수명 주기를 처리합니다:
- **0에서 1까지**: 시스템 설계 및 환경 설정
- **1에서 10까지**: 시스템 개발
- **10에서 90까지**: 기능 반복
- **90에서 100까지**: 포괄적인 코드 검토 및 시스템 테스트
크로스 플랫폼 풀스택 개발
주로 프런트엔드 데모에 초점을 맞추는 많은 코딩 도우미와 달리, M2.5는 웹, Android, iOS, Windows 등 **다중 플랫폼에 걸쳐 풀스택 프로젝트**를 처리합니다. 웹 페이지 구성 요소뿐만 아니라 서버 측 API, 비즈니스 로직, 데이터베이스 및 복잡한 시스템 아키텍처를 다룹니다.
경쟁 모델 대비 벤치마크 성능
MiniMax는 분포 외 환경에 대한 일반화 능력을 평가하기 위해 다양한 코딩 에이전트 하네스에서 M2.5를 테스트했습니다:
| 스캐폴드 | M2.5 | Opus 4.6 |
|---|---|---|
| Droid | 79.7% | 78.9% |
| OpenCode | 76.1% | 75.9% |
M2.5는 인기 있는 두 에이전트 스캐폴드 모두에서 Claude Opus 4.6을 근소하게 앞서며, 강력한 일반화 능력을 시사합니다.
M2.5로 AI 기반 애플리케이션을 구축할 때, 앱을 모델에 연결하는 API를 테스트해야 합니다. Apidog를 사용하면 요청/응답 처리, 인증 흐름 및 오류 처리를 검증하는 테스트 시나리오를 생성할 수 있으며, 이는 프로덕션 AI 애플리케이션에 필수적입니다.
에이전트 도구 사용 및 검색
현대 AI는 단순히 질문에 답하는 것을 넘어 행동하는 것입니다. M2.5는 특히 도구 호출 및 자율 검색에서 강력한 에이전트 능력을 보여줍니다.
BrowseComp 및 Wide Search
BrowseComp 및 Wide Search와 같은 벤치마크에서 M2.5는 업계 선도적인 성능을 달성합니다. 그러나 더 중요한 것은 MiniMax가 단순한 검색 쿼리가 아닌 정보가 밀집된 웹페이지 전반에 걸친 심층 탐색을 요구하는 실제 전문 검색 작업을 테스트하기 위해 **RISE (Realistic Interactive Search Evaluation)**를 구축했다는 점입니다.
효율적인 의사 결정
M2.5의 에이전트 능력 중 가장 인상적인 측면은 아마도 효율성일 것입니다. BrowseComp, Wide Search, RISE를 포함한 여러 에이전트 작업에서 M2.5는 M2.1에 비해 **약 20% 더 적은 추론 라운드로 더 나은 결과**를 달성했습니다. 이는 모델이 정답을 찾는 것을 넘어 그곳에 도달하는 효율적인 경로를 찾는다는 것을 나타냅니다.
이는 M2.5를 자율 에이전트로 배포할 때 더 적은 API 호출, 더 낮은 비용, 더 빠른 작업 완료라는 실질적인 의미를 가집니다.
사무 생산성 기능
M2.5가 뛰어난 분야는 코딩만이 아닙니다. MiniMax는 금융, 법률, 사회 과학 분야의 고위 전문가들과 협력하여 진정으로 실행 가능한 결과물을 생성하도록 모델을 훈련시켜 **실제 사무실 생산성**을 위해 특별히 설계했습니다.
Word, PowerPoint, Excel 숙달
M2.5는 고가치 업무 시나리오에서 상당한 기능 개선을 보여줍니다:
- **Word**: 문서 작성, 서식 지정 및 전문적인 글쓰기
- **PowerPoint**: 프레젠테이션 디자인 및 슬라이드 생성
- **Excel**: 재무 모델링 및 복잡한 스프레드시트 작업
MiniMax는 출력 품질과 에이전트의 전체 워크플로우 궤적의 전문성을 모두 평가하는 **GDPval-MM**이라는 내부 평가 프레임워크를 구축했습니다. 다른 주류 모델과의 직접 비교에서 M2.5는 **평균 59.0%의 승률**을 달성했습니다.
재무 모델링 전문화
이 모델은 업계 전문가들이 구성한 재무 모델링 문제에 대해 특별히 훈련되었습니다. 이는 Excel 도구를 통해 수행되는 엔드투엔드 연구 및 분석 작업을 포함하며, 전문가가 설계한 루브릭을 사용하여 점수가 매겨집니다. 금융 전문가들에게 이는 상당한 생산성 도약을 의미할 수 있습니다.
성능 및 속도
실제 배포에서는 속도가 중요합니다. 더 똑똑하지만 느린 모델은 약간 덜 유능하지만 더 빠른 대안보다 종종 더 나쁜 사용자 경험을 제공합니다.
토큰 생성 속도
M2.5는 Lightning 변형의 경우 **초당 100토큰**으로 기본 제공되며, 이는 다른 최첨단 모델보다 **거의 두 배 빠릅니다**. 이러한 기본 처리량 이점은 장기 실행 에이전트 작업을 처리할 때 크게 증폭됩니다.
SWE-Bench 실행 시간 비교
| 지표 | M2.1 | M2.5 | Opus 4.6 |
|---|---|---|---|
| 작업당 평균 토큰 수 | 3.72M | 3.52M | - |
| 평균 실행 시간 | 31.3분 | 22.8분 | 22.9분 |
| 속도 개선 | - | -37% | - |

M2.5는 SWE-Bench Verified 평가를 **M2.1보다 37% 더 빠르게** 완료하며, Claude Opus 4.6의 실행 시간과 동일하면서도 작업당 352만 토큰만 사용합니다 (M2.1의 372만 토큰과 비교).
가격 및 비용 효율성
바로 이 지점에서 M2.5는 진정으로 혁신적입니다. MiniMax는 이 모델을 사용자가 "비용에 대해 걱정할 필요가 없는" 최초의 최첨단 AI로 포지셔닝했습니다.
가격 구조
| 모델 | 처리량 | 입력 가격 | 출력 가격 |
|---|---|---|---|
| M2.5 | 50 TPS | 백만 토큰당 $0.30 | 백만 토큰당 $2.40 |
| M2.5-Lightning | 100 TPS | 백만 토큰당 $0.60 | 백만 토큰당 $4.80 |
비용 비교
최대 출력 처리량 기준:
- 100 TPS (Lightning) 기준 **시간당 $1**
- 50 TPS (표준) 기준 **시간당 $0.30**
이는 출력 가격을 기준으로 Opus, Gemini 3 Pro, GPT-5 비용의 약 **10분의 1에서 20분의 1**에 해당합니다.
실제 비용 예시
M2.5를 최대 속도로 한 시간 동안 계속 실행하는 데는 1달러밖에 들지 않습니다. 50 TPS에서는 0.30달러로 떨어집니다. 예를 들어, **4개의 M2.5 인스턴스를 1만 달러로 1년 내내 계속 실행**할 수 있습니다.
대규모로 AI 에이전트를 배포하는 기업에게 이 가격 책정은 경제학을 근본적으로 바꿉니다. 엄청나게 비쌌던 작업이 실현 가능해지고, 예산 제약으로 인해 소진되었을 실험적인 프로젝트가 감당할 수 있는 탐색이 됩니다.
기술 아키텍처
대규모 강화 학습
M2.5 능력의 핵심 동력은 강화 학습의 확장입니다. MiniMax는 대부분의 회사 작업과 작업 공간을 훈련 환경으로 전환하여, 모델이 시행착오를 통해 학습하는 수십만 개의 실제 시나리오를 만들었습니다.
Forge: 에이전트 네이티브 RL 프레임워크
MiniMax는 기본 훈련-추론 엔진을 에이전트와 완전히 분리하는 중간 계층을 도입하는 사내 에이전트 네이티브 RL 프레임워크인 **Forge**를 개발했습니다. 이는 임의의 에이전트 통합을 지원하고 다양한 에이전트 스캐폴드 및 도구 전반에 걸쳐 최적화를 가능하게 합니다.

주요 최적화는 다음과 같습니다:
- 처리량과 샘플의 오프-폴리시성 간의 균형을 맞추는 비동기 스케줄링 전략
- 훈련 샘플을 위한 트리 구조 병합 전략
- 약 **40배의 훈련 속도 향상** 달성
CISPO 알고리즘
대규모 MoE(Mixture of Experts) 훈련 중 알고리즘 안정성을 위해 M2.5는 MiniMax가 2025년 초에 제안한 **CISPO 알고리즘**을 계속 사용합니다. 긴 컨텍스트에서 신용 할당 문제를 해결하기 위해, 생성 품질의 엔드투엔드 모니터링을 위한 **프로세스 보상 메커니즘**을 도입했습니다.
훈련 환경 규모
수치로 살펴보면:
- 수십만 개의 실제 훈련 환경
- 10개 이상의 프로그래밍 언어
- 20만 개 이상의 코드 환경
- 웹, Android, iOS, Windows 개발을 아우르는 작업
MiniMax 에이전트 통합
M2.5는 단순한 API가 아닙니다. 이미 MiniMax 자체 제품에 적용되어 있습니다.
사무 기술 통합
MiniMax는 핵심 정보 처리 능력을 MiniMax Agent 내부에 깊이 통합된 **표준화된 Office Skills**로 추출했습니다. MAX 모드에서 Word 서식 지정, PowerPoint 편집, Excel 계산을 처리할 때 에이전트는 파일 유형에 따라 해당 Office Skills를 자동으로 로드합니다.
전문가 생성
사용자는 Office Skills를 도메인별 산업 전문 지식과 결합하여 특정 작업 시나리오에 맞는 재사용 가능한 **전문가(Experts)**를 생성할 수 있습니다. 예를 들어:
- **산업 연구**: 연구 프레임워크 SOP를 Word Skills와 병합하여 데이터를 자동으로 가져오고, 논리를 정리하며, 서식 지정된 보고서를 출력합니다.
- **재무 모델링**: 독점 모델링 표준을 Excel Skills와 결합하여 특정 위험 제어 로직 및 계산 표준을 따릅니다.
도입 지표
- MiniMax Agent에서 생성된 **1만 개 이상의 전문가(Experts)**
- MiniMax 전체 작업의 30%를 M2.5가 자율적으로 완료
- MiniMax에서 **새로 커밋된 코드의 80%**가 M2.5에 의해 생성
이는 이론적인 능력이 아니라, 프로덕션 환경에서 검증된 기술입니다.
M2.5가 경쟁 모델과 비교되는 방법
Claude Opus 4.6 대비
| 지표 | M2.5 | Opus 4.6 |
|---|---|---|
| SWE-Bench Verified | 80.2% | ~77% |
| Droid 스캐폴드 | 79.7% | 78.9% |
| OpenCode 스캐폴드 | 76.1% | 75.9% |
| SWE-Bench 실행 시간 | 22.8분 | 22.9분 |
| 작업당 비용 | ~$1.50 | ~$15 이상 |
M2.5는 코딩 벤치마크에서 Opus 4.6과 동일하거나 능가하면서도 **작업당 약 10%의 비용**이 듭니다.
GPT-5 대비
- 훨씬 낮은 비용 (가격의 10분의 1에서 20분의 1)
- 경쟁력 있는 코딩 벤치마크
- 기본 사무 생산성 기능
- 더 빠른 추론 속도 (100 TPS 대 일반적인 30-50 TPS)
Gemini 3 Pro 대비
- 훨씬 더 낮은 가격
- 더 높은 SWE-Bench 점수
- 더 나은 사무 생산성 통합
- 더 적극적인 RL 확장 접근 방식
결론
MiniMax M2.5는 AI 환경에서 진정한 패러다임 전환을 나타냅니다. 사상 처음으로, 우리는 최첨단 능력과 무제한 배포를 가능하게 하는 가격을 결합한 최첨단 모델을 갖게 되었습니다.
주요 시사점:
- **최고 수준의 코딩 성능** (SWE-Bench 80.2%, 여러 스캐폴드에서 Opus 4.6 능가)
- **에이전트 효율성** (추론 라운드 20% 감소, M2.1보다 37% 빠름)
- **사무 생산성** (실제 사무 작업에서 경쟁 모델 대비 59% 승률)
- **탁월한 가격** (시간당 $0.30-$1, 경쟁 모델의 10분의 1에서 20분의 1)
- **생산 준비 완료** (이미 MiniMax 자체 제품에 사용 중, 회사 코드의 80% 생성)
문제는 M2.5를 사용해 볼 가치가 있느냐가 아니라, 사용하지 않을 여유가 있느냐입니다.
AI 기반 API를 구축하고 테스트할 준비가 되셨습니까? Apidog를 무료로 다운로드하고 MiniMax 통합을 위한 포괄적인 테스트 스위트를 만드세요. 기존 Postman 컬렉션을 한 번의 클릭으로 가져와 몇 분 안에 테스트를 시작하세요.
FAQ
MiniMax M2.5란 무엇입니까?
MiniMax M2.5는 2026년 2월에 출시된 최첨단 AI 모델로, 코딩, 에이전트 작업 및 사무 생산성에서 최고 수준의 성능을 달성합니다. 최고 수준의 벤치마크와 매우 낮은 가격의 조합으로 주목받고 있습니다.
MiniMax M2.5는 Claude Opus 4.6과 어떻게 비교됩니까?
M2.5는 대부분의 코딩 벤치마크(SWE-Bench Verified에서 80.2% 대 ~77%)에서 Claude Opus 4.6과 동일하거나 능가하며, 작업당 비용은 약 90% 더 저렴합니다. SWE-Bench에서 Opus 4.6의 실행 속도(22.8분 대 22.9분)와 동일합니다.
MiniMax M2.5의 가격은 어떻게 됩니까?
M2.5는 백만 입력 토큰당 $0.30, 백만 출력 토큰당 $2.40(50 TPS 기준)입니다. 최대 처리량으로 M2.5를 한 시간 동안 계속 실행하는 데는 변형에 따라 $0.30~$1.00에 불과합니다.
M2.5는 어떤 프로그래밍 언어를 지원합니까?
M2.5는 20만 개 이상의 실제 환경에서 Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby를 포함한 10개 이상의 언어로 훈련되었습니다.
MiniMax M2.5는 사무 작업에 적합합니까?
네. M2.5는 Word, PowerPoint, Excel 재무 모델링을 포함한 사무 생산성 작업을 위해 특별히 훈련되었습니다. MiniMax의 내부 평가에서 사무 작업에서 다른 주류 모델 대비 59%의 승률을 달성했습니다.
MiniMax M2.5를 API를 통해 사용할 수 있습니까?
네. MiniMax는 minimax.io 플랫폼을 통해 API 접근을 제공합니다. 이 API는 표준 M2.5 (50 TPS)와 M2.5-Lightning (100 TPS) 변형을 모두 지원합니다.
MiniMax M2.5의 특별한 점은 무엇입니까?
M2.5는 사용자들이 비용에 대해 걱정할 필요가 없을 정도로 비용이 저렴한 최초의 "최첨단 모델"입니다. 이 회사는 이를 "측정할 필요가 없을 정도로 저렴한 지능"이라고 주장합니다. 최고 수준의 코딩 벤치마크 및 에이전트 능력과 결합되어 대규모 에이전트 배포에 적합합니다.
MiniMax M2.5는 얼마나 빠릅니까?
M2.5-Lightning은 초당 100토큰을 생성하여 다른 최첨단 모델보다 거의 두 배 빠릅니다. 표준 M2.5도 50 TPS로 작동합니다. SWE-Bench 작업에서는 M2.1보다 37% 더 빠르게 평가를 완료합니다.
