지난 2년 대부분 동안 "최고의 코딩 모델은 무엇인가?"라는 질문에는 서구적인 답변이 있었습니다. GPT, Claude 또는 Gemini를 선택하고 토큰당 요금을 지불했으며, 가중치가 다른 사람의 데이터 센터에 잠겨 있다는 것을 받아들였습니다. 더 이상 유일한 경로가 아닙니다. 이제 중국 연구소들이 가중치를 공개하거나 API 가격을 매우 낮게 책정하여 실행하는 모든 에이전트의 계산 방식을 바꾸는 방식으로 코딩 분야에서 최첨단에 필적하는 모델들을 출시하고 있습니다.
MiniMax M3가 2026년 6월 1일에 출시되었으며, 이는 지금까지 가장 확실한 신호입니다. 이는 오픈 가중치 모델로, 코딩 및 에이전트 작업을 위해 구축되었고, 1,000,000 토큰 컨텍스트 창을 지원하며, 기본 멀티모달 기능을 추가했습니다. 이는 DeepSeek의 V4 제품군 및 Alibaba의 Qwen 3.7과 함께 몇 주 안에 출시된 세 번째 진지한 오픈 가중치 경쟁자입니다. 오픈 가중치, 저렴한 비용, 그리고 공급업체 종속을 원하지 않는다면, 이제 단 하나의 옵션이 아닌 실제 선택지가 생겼습니다.
세 가지 경쟁자
MiniMax M3는 새로 출시된 모델입니다. MiniMax는 이를 1M-토큰 컨텍스트 창과 네이티브 멀티모달 기능을 갖춘 최첨단 코딩 모델로 포지셔닝합니다. 즉, 텍스트뿐만 아니라 이미지 및 비디오 입력을 처리하고 컴퓨터 사용 작업을 구동할 수 있습니다. 이는 새로운 MSA 아키텍처를 기반으로 실행됩니다. MiniMax는 출시 후 약 10일 이내에 오픈 가중치와 기술 보고서가 공개될 것이라고 밝혔으며, 매개변수 수는 아직 공개하지 않았습니다. 전체 분석은 MiniMax M3는 무엇인가에서 확인할 수 있습니다.
DeepSeek V4-Pro는 추론 및 코딩 분야의 일꾼입니다. 이는 사고 모델입니다. 최종 답변 전에 reasoning_content 사고 체인을 반환하여, 평면적인 완성 모델이 놓치는 다중 파일 종속성을 포착합니다. DeepSeek은 R1 및 V3 라인에 걸쳐 오픈 가중치를 공개한 길고 문서화된 역사를 가지고 있으며, V4-Pro와 더 저렴한 비사고형 V4-Flash 변형을 함께 제공합니다. 가장 눈에 띄는 것은 가격이며, 이에 대해서는 나중에 설명하겠습니다. DeepSeek은 deepseek.com에서 공식 사이트 및 API를 운영합니다.
Qwen 3.7은 Qwen3.7-Max-Preview가 주도하는 Alibaba의 주력 모델입니다. 이는 1M-토큰 컨텍스트 창을 가진 추론 모델로, 장기적인 에이전트 작업에 집중하고 있습니다. 이 비교의 중심에는 한 가지 솔직한 경고가 있습니다. 2026년 5월 중순 출시 시점을 기준으로 Qwen3.7-Max 주력 모델은 독점적이며 폐쇄형 가중치입니다. Alibaba는 주력 모델 아래 등급을 오픈 소스화한 강력한 실적을 가지고 있으므로, 3.7의 오픈 가중치는 나중에 나올 수 있지만 아직 출시된 것은 없습니다. 전체 세부 정보는 Qwen 3.7은 무엇인가에서 확인할 수 있습니다. Alibaba의 오픈 소스 저장소는 github.com/QwenLM에 있습니다.
사양표
| 사양 | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| 제공업체 | MiniMax | DeepSeek | Alibaba (Qwen) |
| 출시일 | 2026년 6월 1일 | 2026년 | 2026년 5월 (미리 보기) |
| 오픈 가중치 | 예 (~10일 내 가중치 공개) | 예 (DeepSeek의 R1/V3 실적) | 아직 아님 (주력 모델은 폐쇄형 가중치) |
| 컨텍스트 창 | 1,000,000 토큰 | 여기에 명시되지 않음 | 1,000,000 토큰 |
| 멀티모달 | 예 (이미지 + 비디오, 컴퓨터 사용) | 아니요 (텍스트 + 추론) | 텍스트 중심 추론 |
| 추론 / 사고 모드 | 예 | 예 (reasoning_content) |
예 (확장된 사고) |
| 매개변수 수 | 미공개 | 여기에 명시되지 않음 | 여기에 명시되지 않음 |
| 아키텍처 | MSA | 여기에 명시되지 않음 | 여기에 명시되지 않음 |
이 비교의 핵심이 되는 "오픈 가중치" 행에 대한 참고 사항입니다. M3는 출시 후 약 10일 이내에 가중치와 기술 보고서를 공개할 것을 약속합니다. DeepSeek은 반복적으로 오픈 가중치를 출시했습니다. Qwen 3.7의 주력 모델은 현재 폐쇄형입니다. 지금 당장 오픈 가중치가 필수 요구 사항이라면, 단 하나의 벤치마크를 읽기 전에 선택의 폭이 좁아집니다.
코딩 및 에이전트 능력
여기서 데이터가 불균일해지므로, 검증된 내용을 먼저 다루고 그렇지 않은 부분은 정성적으로 설명하겠습니다.
MiniMax M3는 공급업체에서 보고한 코딩 및 에이전트 벤치마크 전체를 가지고 출시되었습니다. 이는 MiniMax 자체의 수치이므로, 제3자가 이를 재현하기 전까지는 출시 당일 공급업체 주장으로 취급하십시오.
| 벤치마크 (공급업체 보고, MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal-Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
| PostTrainBench | 0.37 |
| SVG-Bench | Opus 4.7보다 높게 보고됨 |
| OmniDocBench | Gemini 3.1 Pro보다 높게 보고됨 |
| Claw-Eval | 자체 세트에서 가장 높게 보고됨 |
SWE-Bench Pro와 Terminal-Bench는 실제 소프트웨어 엔지니어링 작업, 즉 GitHub 이슈 해결, 터미널 작업 등을 측정합니다. MCP Atlas는 도구 사용 및 에이전트 오케스트레이션을 측정합니다. 이들은 단순히 자동 완성 기능이 아닌, 에이전트 코딩 작업을 수행하도록 구축된 모델을 설명합니다. SWE-Bench 리더보드에서 SWE-Bench 분야를 상식적으로 확인할 수 있습니다.
DeepSeek V4-Pro와 Qwen 3.7의 경우, 비교 가능한 에이전트 코딩 수치가 같은 형식으로 게시되지 않았으므로, 직접적인 셀 단위 매칭은 임의의 것이 될 것이며, 우리는 그렇게 하지 않을 것입니다. 문서화된 내용은 다음과 같습니다.
- DeepSeek V4-Pro는 제3자 비교에 따르면 GPT-5.5의 몇 벤치마크 포인트 이내에서 코딩 능력을 발휘하며, 비용은 훨씬 저렴합니다. 그 추론 체인은 실용적인 강점입니다. 복잡한 다중 파일 리팩터링, 이름 변경, 서명 변경 시, 사고 과정이 평면 모델이 세 번의 라운드가 필요한 종속성을 한 번에 포착합니다. 설정 세부 정보 및 비용 계산은 DeepSeek V4-Pro를 Cursor와 함께 사용하는 방법에 있습니다.
- Qwen 3.7은 추론, 지식, 수학, 코딩을 결합한 종합 지표인 Artificial Analysis Intelligence Index에서 57점을 기록하여 출시 당시 해당 리더보드에서 1위를 차지했으며, LM Arena에서 약 1,475 Elo를 기록하여 코딩 부문에서 상위 10위 안에 들었습니다. Alibaba의 주장은 장기적인 에이전트 작업, 즉 여러 단계에 걸친 지속적인 자율 실행 및 강력한 도구 사용입니다.
솔직한 평가: M3는 작업 수준의 수치를 공개했기 때문에 오늘날 가장 투명한 에이전트 코딩 증거를 제공합니다. DeepSeek의 강점은 저렴한 가격에 추론 기반의 코드 품질입니다. Qwen의 강점은 복합 지능과 긴 에이전트 체인에서의 지구력입니다. DeepSeek과 Qwen이 동일한 SWE-Bench Pro 및 Terminal-Bench 작업에 대해 보고할 때까지, 세 가지 모델 모두에 대해 자신의 워크로드를 실행해 보십시오. 이에 대해서는 마지막에 다룹니다. Qwen에 대한 더 넓은 최첨단 비교는 Qwen 3.7 vs GPT-5.5 vs Opus 4.7에 있습니다.
컨텍스트 창 및 장문 컨텍스트 비용
세 모델 중 두 모델(MiniMax M3와 Qwen3.7-Max)은 1,000,000 토큰 컨텍스트 창을 광고합니다. DeepSeek V4-Pro의 컨텍스트는 여기에 재현되지 않았으므로, 우리는 그 수치를 명시하지 않을 것입니다.
100만 토큰은 대략 70만에서 75만 단어에 해당합니다. 이는 중간 규모의 저장소, 긴 PDF 스택, 또는 몇 달간의 대화를 한 번의 요청으로 담기에 충분하며, 수동 청킹이나 검색 계층을 유지할 필요가 없습니다. 전체 저장소 추론의 경우, 많은 배관 작업을 제거합니다.
두 가지 주의사항이 이 평가를 솔직하게 만듭니다. 첫째, 큰 창은 한계치일 뿐, 보장을 의미하지는 않습니다. 창이 채워질수록 모델은 덜 안정적으로 검색하고 추론하는 경향이 있으며, 이러한 새로운 릴리스에 대한 독립적인 장문 컨텍스트 테스트는 아직 부족합니다. 둘째, 큰 컨텍스트는 비용이 듭니다. 보내는 모든 토큰에 요금이 청구되므로, 100만 토큰 프롬프트는 비싼 프롬프트입니다.
이것이 M3의 MSA 아키텍처가 중요하다고 여겨지는 부분입니다. MiniMax는 이를 장문 컨텍스트 효율성을 위해 구축된 것으로 내세우며, 512K 입력 토큰까지는 표준 API 요율을 적용하고, 그 임계값을 초과하면 별도의 장문 컨텍스트 요율을 적용합니다. 이 분리는 경제적 현실을 명확히 보여줍니다. 장문 컨텍스트는 모든 모델에서 프리미엄 계층입니다. 어떤 모델을 선택하든 실제적인 방어책은 동일합니다. 작업이 필요할 때만 전체 창을 사용하고, 그렇지 않을 때는 적극적으로 잘라내십시오. 에이전트 컨텍스트를 간결하게 유지하기 위한 구체적인 전략은 에이전트 토큰 비용을 줄이는 방법에 있습니다.
가격 및 접근성
가격이 이 비교가 존재하는 이유입니다. 서구 주력 모델에서 상당한 비용이 드는 동일한 워크로드가 여기에서는 훨씬 저렴하며, 이러한 격차는 2026년 중국 LLM 가격 전쟁의 원동력입니다.
DeepSeek V4-Pro는 세 모델 중 가장 명확한 토큰당 가격을 공개합니다. 2026년 5월 현재 영구적인 표준 요율은 다음과 같습니다.
| 토큰 유형 | DeepSeek V4-Pro 100만 토큰당 요율 |
|---|---|
| 입력 (캐시 미스) | $0.435 |
| 입력 (캐시 히트) | $0.003625 |
| 출력 | $0.87 |
이 출력 요율은 GPT-5.5 출력 비용의 대략 1/34입니다. 비사고형 V4-Flash 변형은 백만 입력/출력당 $0.14 / $0.28로 훨씬 저렴합니다. 코딩 도우미를 많이 사용하는 날에는 약 $1 정도의 비용이 듭니다. 이 수치 때문에 DeepSeek은 대량 에이전트 트래픽에 대해 무시하기 어렵습니다.
MiniMax M3는 단일 토큰당 가격을 공개하는 대신 토큰 플랜을 판매합니다. Plus는 $20, Max는 $50, Ultra는 $120입니다. API는 512K 토큰까지의 입력에 표준 요율을 사용하고, 그 임계값을 초과하면 장문 컨텍스트 요율을 사용합니다. MiniMax는 정확한 토큰당 수치를 공개하지 않았으므로, 우리는 이를 인용하지 않을 것입니다. 이 플랜 구조는 종량제 청구보다 예측 가능한 월별 지출을 원하는 팀에 적합합니다. 연결 세부 정보는 MiniMax M3 API 사용 방법에 있습니다.
Qwen 3.7은 Alibaba Cloud를 통해 토큰당 요금이 청구되며, Max 미리 보기는 2026년 5월에 출시되었습니다. Alibaba는 최근 Qwen 릴리스에 대해 동일한 가격 전쟁의 일환으로 공격적인 가격을 책정했지만, 미리 보기 모델의 정확한 요율은 변동될 수 있으므로, 최신 수치는 Alibaba Cloud의 현재 모델 문서를 확인하십시오.
접근성 측면에서, 오픈 가중치라는 요소는 비용 상한선을 완전히 바꿉니다. M3의 공개된 가중치와 DeepSeek의 오픈 릴리스는 하드웨어 비용만 지불하고 자체 호스팅할 수 있음을 의미하며, 토큰당 미터링이 전혀 없습니다. Qwen3.7-Max는 주력 가중치가 공개되지 않았기 때문에 오늘날 자체 호스팅할 수 없으며, 따라서 모든 경로는 Alibaba의 API를 통해 이루어집니다. 공급업체 종속을 피하는 것이 목표라면, 이는 진정한 차별화 요소입니다.
어떤 모델을 선택해야 할까
올바른 모델은 무엇을 최적화하느냐에 따라 달라집니다. 귀하의 우선순위를 열에 맞춰보십시오.
| 귀하의 우선순위 | 최적의 선택 | 이유 |
|---|---|---|
| 공개 벤치마크가 있는 에이전트 코딩 | MiniMax M3 | 출시 시 SWE-Bench Pro / Terminal-Bench / MCP Atlas 수치 투명하게 공개 (공급업체 보고) |
| 멀티모달 입력 (이미지, 비디오, 컴퓨터 사용) | MiniMax M3 | 세 모델 중 유일하게 네이티브 멀티모달 기능 제공 |
| 고용량 API 트래픽에서 가장 낮은 비용 | DeepSeek V4-Pro | 출력 토큰당 약 $0.87, 더 저렴한 Flash 변형 및 캐시 히트 가격 책정 제공 |
| 어려운 리팩터링에서 추론 기반 코드 품질 | DeepSeek V4-Pro | 사고 체인이 다중 파일 종속성을 한 번에 포착 |
| 공개 보드에서 최고 종합 지능 점수 | Qwen3.7-Max | AA Intelligence Index 57점, 출시 시 1위로 보고됨 |
| 장기적인 자율 에이전트 실행 | Qwen3.7-Max 또는 MiniMax M3 | 둘 다 지구력과 강력한 도구 사용을 강조; M3는 MCP Atlas도 공개 |
| 자체 호스팅 / 현재 공급업체 종속 없음 | MiniMax M3 또는 DeepSeek V4-Pro | 둘 다 오픈 가중치 공개; Qwen의 주력 모델은 폐쇄형 |
몇 가지 간단한 해석입니다. 오픈 가중치와 에이전트 코딩 증거가 가장 중요한 두 가지 기준이라면, M3가 현재 가장 깔끔한 선택입니다. 단, 가중치와 기술 보고서는 출시 후 며칠이 지나야 공개되고 벤치마크는 공급업체 보고라는 점을 유의하십시오. 대량 API 트래픽을 운영하며 가장 낮은 비용을 원한다면, DeepSeek V4-Pro의 가격이 주요 장점입니다. 최고의 공개 종합 점수를 원하고 호스팅된 API에 머무르는 것에 괜찮다면, 자체 호스팅이 필요하지 않는 한 Qwen3.7-Max가 적합합니다.
직접 테스트해보세요
리더보드는 다른 사람의 작업에서 모델이 어떻게 수행되는지를 알려줍니다. 하지만 귀하의 작업에서는 어떻게 수행되는지는 알려주지 않습니다. 이 세 가지 모델 모두 API를 노출하며, 선택을 결정하는 가장 빠른 방법은 각각에 동일한 프롬프트를 실행하고 응답을 나란히 비교하는 것입니다.
그것이 Apidog의 역할입니다. 각 모델 API당 하나씩 세 개의 환경을 가진 Apidog 프로젝트를 설정하고, 각 모델이 사용하는 OpenAI 호환 채팅 완성 스키마를 가져오세요. 그런 다음 다음을 수행할 수 있습니다.
- M3, V4-Pro, Qwen3.7-Max에 동일한 프롬프트 배치를 보내고 한 곳에서 출력을 비교하세요.
- 황금 응답을 기록하고 모든 프롬프트 변경 시 재생하여 드리프트를 감지하세요.
- JSON 스키마 어설션을 사용하여
tool_calls및reasoning_content형태를 검증하여, 잘못된 시스템 프롬프트 편집으로 인해 에이전트가 조용히 고장 나지 않도록 하세요.
Apidog를 다운로드하고, 세 개의 환경을 세 가지 모델 엔드포인트에 연결하면 몇 분 안에 작동하는 비교 벤치를 갖게 됩니다. 최신 모델의 API 설정 세부 정보는 MiniMax M3 API 사용 방법에 있습니다.
자주 묻는 질문
2026년 현재 최고의 오픈 가중치 코딩 모델은 무엇입니까?
출시 시 검증 가능한 에이전트 코딩 증거 측면에서는 MiniMax M3가 선두를 달립니다. SWE-Bench Pro 59.0%, Terminal-Bench 2.1 66.0%와 같은 작업 수준 벤치마크를 공개했기 때문입니다(공급업체 보고). DeepSeek V4-Pro는 가치 있는 선택입니다. GPT-5.5와 몇 점 차이 없는 코딩 성능을 GPT-5.5 출력 가격의 약 1/34 비용으로 제공합니다. Qwen3.7-Max는 종합 리더보드에서 1위를 차지했지만 아직 오픈 가중치가 아닙니다. 솔직히 말하면, 세 모델의 일대일 코딩 수치는 직접 비교할 수 없으므로, 결정하기 전에 자신의 워크로드를 실행해 보십시오.
세 모델 모두 진정으로 오픈 가중치입니까?
아직 아닙니다. MiniMax M3는 2026년 6월 1일 출시 후 약 10일 이내에 가중치와 기술 보고서가 공개될 예정인 오픈 가중치 모델입니다. DeepSeek은 R1 및 V3 제품군에 걸쳐 오픈 가중치를 공개한 오랜 기록을 가지고 있습니다. Qwen3.7-Max-Preview(대부분의 사람들이 "Qwen 3.7"이라고 부르는 주력 모델)는 2026년 5월 중순 현재 독점적이며 폐쇄형 가중치입니다. Alibaba는 나중에 그 아래 등급을 오픈 소스화할 수 있지만, 이는 그럴듯한 것이지 확정된 것은 아닙니다. 자세한 내용은 Qwen 3.7은 무엇인가에서 확인할 수 있습니다.
가장 큰 컨텍스트 창을 가진 모델은 무엇입니까?
MiniMax M3와 Qwen3.7-Max는 모두 1,000,000 토큰 창(대략 70만~75만 단어)을 광고합니다. DeepSeek V4-Pro의 컨텍스트는 여기에 명시되지 않았습니다. 큰 창은 한계치일 뿐 완벽한 기억력을 약속하는 것이 아니며, 그 안에 있는 모든 토큰에 요금이 청구된다는 점을 기억하십시오.
실행 비용이 가장 저렴한 모델은 무엇입니까?
공개된 토큰당 요율 기준으로 DeepSeek V4-Pro가 확실한 선두입니다. 100만 출력 토큰당 약 $0.87이며, 더 저렴한 비사고형 V4-Flash 변형은 $0.14 / $0.28입니다. MiniMax M3는 공개된 토큰당 가격 대신 월별 토큰 플랜($20 / $50 / $120)을 판매합니다. Qwen3.7-Max는 Alibaba Cloud에서 토큰당 요금이 청구됩니다. 자체 호스팅이 가능하다면, 오픈 가중치 모델은 하드웨어 비용만으로 한계 비용을 낮춥니다. 더 넓은 가격 책정 그림은 2026년 중국 LLM 가격 전쟁에 있습니다.
MiniMax M3가 DeepSeek V4-Pro보다 코딩에서 실제로 더 좋습니까?
벤치마크 수치는 아직 직접 비교할 수 없습니다. M3는 출시 시 SWE-Bench Pro 및 Terminal-Bench 결과를 공개했지만, DeepSeek은 동일한 작업을 동일한 형식으로 보고하지 않았습니다. 오늘날 M3의 장점은 공개된 증거와 멀티모달 기능입니다. DeepSeek의 장점은 가격과 다중 파일 리팩터링에 강한 추론 체인입니다. 세 모델 모두 OpenAI 호환 API를 지원하므로, 결정하기 전에 자신의 저장소에서 각 모델에 동일한 프롬프트를 실행해 보는 것이 공정한 테스트입니다.
요약
이제 세 가지 오픈 가중치 경쟁자가 코딩 분야의 최첨단에 도달했으며, 선택은 무엇을 최적화하느냐에 따라 달라집니다. 공개된 에이전트 코딩 벤치마크, 1M 컨텍스트, 멀티모달 기능을 원하고 가중치가 공개될 때까지 며칠 기다릴 수 있다면 MiniMax M3를 선택하세요. 낮은 비용과 추론 기반 코드 품질이 가장 중요하다면 DeepSeek V4-Pro를 선택하세요. 세 모델 중 토큰당 가격이 가장 저렴하고 가중치를 사용할 수 있기 때문입니다. 최고의 공개 종합 점수를 원하고 호스팅된 API 사용에 불편함이 없다면, 현재 주력 모델이 오픈 가중치가 아니라는 점을 알고 Qwen3.7-Max를 고려하세요.
벤치마크 수치는 계속 변동할 것이며, M3의 여러 수치는 여전히 공급업체 보고입니다. 변함없는 조언은 이렇습니다. 하나의 Apidog 프로젝트에서 세 가지 API 모두에 동일한 프롬프트를 실행하고, 출력과 비용을 확인한 다음, 자신의 워크로드가 승자를 선택하게 하세요.
