GLM-5.2 벤치마크 & 스펙: SWE-bench Pro, Terminal-Bench 결과 및 분석

Z.ai (Zhipu AI)의 GLM-5.2는 수많은 벤치마크 점수와 함께 출시되었으며, 그 중 일부는 진정으로 주목할 만합니다. 헤드라인은 SWE-bench Pro에서 62.1점으로 GPT-5.5를 약간 앞섰다는 것입니다. 더 큰 이야기는 한 줄 아래에 숨겨져 있습니다. Terminal-Bench는 단 한 세대 만에 62.0에서 81.0으로 급상승했습니다. 이 게시물은 각 GLM-5.2 벤치마크 점수를 살펴보고, 테스트가 실제로 측정하는 내용을 설명하며, 선두가 실제인지 아니면 반올림 오류인지 지적합니다.

여기에 제시된 모든 출시 수치는 달리 명시되지 않는 한 Z.ai의 공개 결과입니다. 모델이 자체 성적표에서 다른 모델들을 능가한다고 주장할 때는 의심의 눈초리로 보게 됩니다. 따라서 각 벤치마크가 무엇을 증명하고 무엇을 증명하지 않는지에 대해 구체적으로 설명하겠습니다.

💡

이러한 모델을 평가하면서 API를 구축하거나 테스트하는 경우, Apidog는 이러한 모델이 호출하는 엔드포인트를 설계, 디버그, 모의 및 문서화하는 데 사용하는 올인원 플랫폼입니다. 이에 대해서는 나중에 자세히 설명하겠지만, 이는 중요한 관련이 있습니다. GLM-5.2의 많은 발전은 에이전트 및 도구 사용 작업에서 나타나는데, 이는 정확히 API 영역에 해당합니다.

버튼

요약: GLM-5.2 벤치마크 점수 한눈에 보기

다음은 GLM-5.2 벤치마크 전체 표이며, 이해를 돕기 위해 가장 가까운 경쟁 모델들을 포함했습니다. 비교 열은 독립적인 재실험이 아닌, Z.ai가 해당 모델들에 대해 보고한 수치로 간주하십시오.

벤치마크	측정 항목	GLM-5.2	GLM-5.1	GPT-5.5	Claude Opus 4.8
SWE-bench Pro	실제 리포지토리 버그 수정	62.1	58.4	58.6	n/a
Terminal-Bench 2.1	다단계 셸/에이전트 작업	81.0	62.0	n/a	n/a
MCP-Atlas	MCP 서버를 통한 도구 사용	77.0	n/a	75.3	77.8
인류 최후의 시험 (도구 사용)	어려운 전문가 추론	54.7	n/a	52.2	n/a
AIME 2026	경시 수학	99.2	n/a	n/a	n/a
GPQA-Diamond	대학원 수준 과학	91.2	n/a	n/a	n/a

Z.ai는 또한 GLM-5.2가 FrontierSWE, PostTrainBench, SWE-Marathon에서 가장 높은 점수를 받은 오픈 소스 모델이라고 보고합니다. 이 수식어("오픈 소스")가 의미하는 바에 대해서는 나중에 다루겠습니다.

이 모델이 무엇인지에 대한 쉬운 설명은 GLM-5.2 개요를 참조하십시오. 독점 모델들과의 정면 대결에 대해서는 GLM-5.2 대 GPT-5.5, Opus, Gemini 분석을 참조하십시오.

SWE-bench Pro: 62.1점과 그것이 실제로 알려주는 것

SWE-bench Pro는 오리지널 SWE-bench의 더 어렵고 선별된 사촌입니다. 모델에게 실제 GitHub 이슈와 전체 저장소를 제공하고, 프로젝트의 숨겨진 테스트 스위트를 통과시키는 패치를 생성하도록 요청합니다. 객관식이나 간단한 함수는 없습니다. 실제 파일에 걸쳐 버그를 수정하거나 수정하지 못하거나 둘 중 하나입니다.

Z.ai에 따르면 GLM-5.2는 62.1점을 기록했습니다. GPT-5.5는 58.6점, GLM-5.1은 58.4점입니다. 따라서 두 가지 솔직한 결론은 다음과 같습니다.

GPT-5.5에 대한 3.5점 차이의 리드는 의미 있지만, 압도적인 격차는 아닙니다. 이처럼 변동성이 큰 벤치마크에서는 테스트 환경 세부 사항, 재시도 예산, 프롬프트 스캐폴딩에 따라 몇 점 차이가 발생할 수 있습니다. 이를 "최상위권에서 경쟁력 있는" 수준이지 "지배적인" 수준은 아닙니다.
GLM-5.1에 비해 3.7점 증가한 것은 더 신뢰할 수 있는 신호입니다. 동일한 연구소에서 자체 모델 두 개를 동일한 방식으로 측정했기 때문입니다. 세대별 변화폭은 가장 명확한 정보입니다.

SWE-bench Pro가 왜 중요할까요? 이 벤치마크가 "이 모델이 내 실제 업무를 수행할 수 있는가"에 대한 가장 가까운 공개 지표이기 때문입니다. 방대한 코드베이스에서 버그를 수정하려면 익숙하지 않은 코드를 읽고, 올바른 파일을 찾아내고, 다른 세 가지를 망가뜨리지 않으면서 편집해야 합니다. 이것이 소프트웨어 작업의 일상적인 현실이며, 코딩 우선 모델이 가장 먼저 이 벤치마크로 평가받는 이유입니다.

Terminal-Bench 2.1: 81.0은 영웅적인 수치입니다

표에서 단 한 줄을 읽는다면, 이 줄을 읽으십시오. Terminal-Bench는 실제 셸에서 모델을 에이전트처럼 평가합니다. 종속성 설치, 명령 실행, 출력 구문 분석, 오류 복구, 그리고 다단계 작업을 처음부터 끝까지 완료하는 능력을 측정합니다. 이는 단발적인 영리함이 아니라 끈기와 도구 사용의 규율에 보상을 줍니다.

GLM-5.1은 62.0점을 기록했습니다. GLM-5.2는 81.0점을 기록했습니다. 이는 한 세대 만에 19점 상승한 것이며, GLM-5.2의 뛰어난 성능 통계인 이유가 있습니다. "10개 작업 중 약 4개를 실패하는" 것에서 "5개 중 약 4개를 완료하는" 것으로 바뀌는 것은 당신이 돌봐야 하는 모델과 당신이 터미널을 맡길 수 있는 모델의 차이입니다.

이것은 또한 아키텍처 스토리가 벤치마크 스토리에 연결되는 지점입니다. Z.ai는 GLM-5.2의 "IndexShare" 희소 어텐션(sparse attention) 덕분이라고 말합니다. 이는 4개의 희소 어텐션 레이어마다 하나의 인덱서를 재사용하여 긴 컨텍스트에서 어텐션 비용을 낮춥니다. 장기 에이전트 작업은 수십 차례에 걸쳐 명령, 출력, 명령, 출력과 같은 긴 기록을 생성합니다. 이러한 컨텍스트를 저렴하고 정확하게 유지하는 모델은 빌드 도중에 흐름을 잃지 않는 모델입니다. Terminal-Bench의 비약적인 발전은 이러한 설계의 실질적인 성과입니다. 전체 세대별 비교는 GLM-5.2 대 GLM-5.1을 참조하십시오.

솔직한 주의사항: Terminal-Bench는 Z.ai에서 보고한 수치이며, 에이전트 벤치마크는 모델 주변의 스캐폴딩(시간 초과 제한, 허용되는 재시도 횟수, 하니스 프롬프트)에 민감합니다. 점프 폭이 매우 크기 때문에 스캐폴딩만으로는 설명하기 어려울 수 있지만, 파이프라인을 구축하기 전에 자체 워크로드에서 검증해 보십시오.

MCP-Atlas: 77.0점, 그리고 솔직히 최상위권 동률

MCP-Atlas는 모델이 외부 도구와 서버를 호출하는 표준 방식인 모델 컨텍스트 프로토콜을 통해 도구 사용 능력을 측정합니다. 이는 에이전트 및 API 작업과 가장 직접적으로 연결되는 벤치마크입니다. 모델이 올바른 도구를 선택하고, 호출을 정확하게 형식화하며, 결과를 읽고, 계속 진행할 수 있는지를 평가합니다.

Z.ai에 따르면 GLM-5.2는 77.0점을 기록했습니다. GPT-5.5는 75.3점, Claude Opus 4.8은 77.8점입니다. 이 부분에서는 승자를 선언하려는 충동을 억제해야 합니다. GLM-5.2는 GPT-5.5를 1.7점 차이로 이기고 Opus 4.8에 0.8점 뒤처집니다. 이들은 반올림 오차 범위에 불과합니다. 공정한 진술은 MCP 스타일의 도구 사용에서 세 모델이 동률이며, GLM-5.2가 그 그룹에 속할 자격이 있다는 것입니다.

이는 중요합니다. 도구 사용은 코딩 모델이 당신의 스택과 만나는 지점이기 때문입니다. 모든 MCP 호출은 기능적으로 API 상호작용과 같습니다. 즉, 구조화된 요청, 파싱할 응답, 처리할 오류를 포함합니다. 모델을 실제 서비스에 연결하는 경우, 다른 통합과 동일한 위생을 적용하고 싶을 것입니다. Apidog가 바로 여기에 적합합니다. 에이전트가 호출할 엔드포인트를 정의하고 모의한 다음, 모델이 생성하는 실제 요청 및 응답 페이로드를 디버깅할 수 있습니다. 그런 다음 프로덕션에 배포할 수 있습니다. 다른 API를 테스트하는 것과 동일한 방식으로 이러한 도구 호출을 테스트하려면 Apidog를 다운로드하십시오.

추론 및 수학: HLE 54.7, AIME 99.2, GPQA-Diamond 91.2

코딩이 전부는 아닙니다. GLM-5.2는 또한 강력한 추론 점수를 기록했습니다.

인류 최후의 시험(도구 사용): 54.7. HLE는 쉽게 포화되지 않도록 설계된, 여러 분야에 걸친 전문가 수준의 질문으로 구성된 의도적으로 어려운 시험입니다. "도구 사용" 설정은 모델이 즉답하는 대신 검색하고 계산할 수 있게 합니다. Z.ai에 따르면 GLM-5.2의 54.7점은 GPT-5.5의 52.2점을 약간 앞섭니다. 이렇게 어려운 벤치마크에서 50점대는 심각한 결과입니다.
AIME 2026: 99.2. AIME는 뛰어난 고등학생들을 위한 경시 수학입니다. 99.2점은 사실상 최고 점수이며, 이는 이 테스트가 더 이상 최첨단 모델들을 구별하지 못한다는 것을 주로 알려줍니다. 이는 차별점이라기보다는 "여기에는 약점이 없다"는 신호에 가깝습니다.
GPQA-Diamond: 91.2. GPQA-Diamond는 웹 접근으로도 비전문가가 무작위로 해결할 수 없도록 필터링된, 대학원 수준 과학 질의응답 세트 중 가장 어려운 부분입니다. 91.2점은 GLM-5.2가 기술 추론 분야에서 확실히 최첨단 영역에 있음을 보여줍니다.

이 모든 것에서 나타나는 패턴: GLM-5.2는 수학이나 과학에서는 무너지는 좁은 코딩 전문 모델이 아닙니다. 두 가지 사고 노력 수준(High와 Max, 코딩에는 Max 권장)은 더 어려운 문제에 대해 지연 시간을 깊이와 바꿀 수 있게 합니다. 코딩과 함께 더 깊은 수학 및 추론 관점을 원한다면, GLM-5.2 벤치마크 대 경쟁 모델 기사에서 해당 비교를 더 자세히 다룹니다.

"최고의 오픈 소스" 주장, 해부

Z.ai는 GLM-5.2가 FrontierSWE, PostTrainBench, SWE-Marathon에서 최고의 오픈 소스 모델이라고 보고합니다. 이 수식어를 주의 깊게 읽어야 합니다. 실제 의미가 있기 때문입니다.

"최고의 오픈 소스"라는 주장은 "단순히 최고"라는 주장보다 더 좁은 의미를 가집니다. 여기서 관련된 프레임은 오픈 웨이트 분야입니다. GLM-5.2는 MIT 라이선스 하에 오픈 웨이트로 제공되며 지역 제한이 없어, 임대하는 폐쇄형 API 모델과는 다른 제안입니다. 다른 오픈 웨이트 모델들과 비교하여 FrontierSWE(최첨단 난이도 소프트웨어 작업), PostTrainBench(후훈련 능력), SWE-Marathon(장기 지속 소프트웨어 작업)에서 최고라는 것은 강력한 주장이며, 만약 당신의 제약 조건이 "자체 호스팅 가능해야 한다"라면 중요한 주장입니다.

이는 해당 테스트에서 모든 독점 모델보다 점수가 높다는 것과는 다릅니다. GLM-5.2가 실제로 GPT-5.5를 능가하는 SWE-bench Pro 및 HLE와 같은 경우, Z.ai는 오픈 소스라는 단서를 붙이지 않고 직접적으로 그렇게 말합니다. 따라서 정신적인 모델은 다음과 같습니다. 전반적으로 최첨단에 있거나 그 근처에 있으며, 직접 다운로드하여 실행할 수 있는 모델 중에서는 단연 1위라는 것입니다. VentureBeat는 그 가치를 직설적으로 표현하며 GLM-5.2가 "장기 코딩에서 GPT-5.5를 약 6분의 1의 비용으로 능가한다"고 보도했습니다. 이는 VentureBeat의 특성 묘사이며, 측정된 사실로 단정하기보다는 인용할 가치가 있습니다.

GLM-5.2 사양 한눈에 보기

벤치마크는 하드웨어 및 라이선스 현실과 관련해서만 의미가 있습니다. 다음은 GLM-5.2 사양으로, 점수가 귀하의 설정에 어떻게 적용되는지를 결정합니다.

사양	값
파라미터	~753B 전체, 전문가 혼합(MoE)
정밀도	BF16
어텐션	IndexShare 희소 어텐션 (4개의 희소 레이어당 하나의 인덱서 공유)
컨텍스트 윈도우	1M 토큰 (1,048,576)
최대 출력	z.ai 문서 기준 최대 128K (실시간 확인; OpenRouter는 수치를 명시하지 않음)
모달리티	텍스트 입력, 텍스트 출력 (확인된 비전 변형 없음)
사고 노력	High 및 Max; 비활성화 가능
라이선스	MIT, 오픈 웨이트, 지역 제한 없음
모델 ID	HF `zai-org/GLM-5.2`, API `glm-5.2`, Ollama `glm-5.2`, OpenRouter `z-ai/glm-5.2`

이 사이드바를 읽는 데 몇 가지 주의할 점이 있습니다. ~753B 파라미터 수는 총 MoE 크기이지, 토큰당 활성 파라미터 수가 아니므로 "정방향 통과당 753B 상당의 밀집 연산이 필요하다"고 해석하지 마십시오. 그것이 MoE의 요점입니다. 1M 토큰 컨텍스트는 Terminal-Bench 결과를 신뢰할 수 있게 만드는 사양입니다. 긴 에이전트 실행에는 모든 기록을 저장할 공간이 필요합니다. 최대 출력에 대해서는 주의하십시오. Z.ai 문서에는 최대 128K(2026년 6월 기준, Z.ai에서 현재 한도 확인)로 명시되어 있지만, 제공업체마다 일관되게 나열되어 있지 않으므로 보장된 한도라기보다는 문서화된 상한선으로 간주하십시오. 그리고 GLM-5.2 비전 모델은 없습니다. 만약 어딘가에서 "GLM-5.2V"를 본다면, Z.ai에서 확인된 것이 아닙니다.

가격은 오픈 웨이트 논리를 따릅니다. OpenRouter는 1M 입력 토큰당 $1.40, 1M 출력 토큰당 $4.40를 책정하며, 캐시된 입력은 1M당 약 $0.26(VentureBeat 수치)입니다. 이러한 비용 프로필이 "6분의 1 비용"이라는 주장의 근간입니다. GLM 코딩 플랜 티어를 포함한 전체 비용 분석은 GLM-5.2 가격 페이지를 참조하고, 토큰당 비용을 지불하지 않고 실행하려면 GLM-5.2 무료 사용법에서 자체 호스팅 방법을 다룹니다.

이러한 벤치마크를 직접 확인하는 방법

판매자 성적표는 시작점일 뿐 최종 판결이 아닙니다. 실제 결정을 위해 이러한 숫자들을 신뢰하기 전에 다음 세 가지를 수행하십시오.

1차 자료를 읽으십시오. Z.ai GLM-5.2 블로그 및 Z.ai 문서는 공식 방법론을 담고 있습니다. 아키텍처를 직접 검사하고 싶다면 Hugging Face 모델 카드에 웨이트와 구성 정보가 있습니다.
타사 목록을 확인하십시오. OpenRouter 페이지는 가격 및 모델 ID를 확인시켜 주며, Ollama 라이브러리 항목은 로컬 실행 경로를 확인시켜 줍니다. VentureBeat의 보도는 비용 이야기에 대한 외부 프레임을 추가합니다.
자신만의 평가를 실행하십시오. 완벽하게 중요한 유일한 벤치마크는 당신의 워크로드입니다. GLM-5.2를 실제 작업, 이상적으로는 도구 호출을 포함하는 에이전트 작업에 연결하고, 여러 차례에 걸쳐 어떻게 작동하는지 지켜보십시오. 이 정확한 연습에 대한 이전 세대의 맥락은 GLM-5.1 설명과 GLM-5 대 DeepSeek 대 GPT-5 속도 및 비용 비교가 유용한 기준선입니다.

자체 워크로드 평가를 실행할 때, 모델이 조용히 무너지는 지점은 도구 호출, 잘못된 형식의 JSON, 잘못된 도구 선택, 누락된 오류 처리 등입니다. Apidog에서 이러한 엔드포인트를 모의하면 라이브 서비스를 공격하지 않고도 모델의 실제 요청 및 응답을 확인할 수 있으며, 이는 벤치마크의 영웅과 당신의 스택에서 실제로 작동하는 모델을 구별하는 가장 빠른 방법입니다.

핵심 요약

GLM-5.2의 벤치마크 성적표는 대부분의 출시 성적표보다 정밀한 검토에 잘 견딥니다. Terminal-Bench가 62.0점에서 81.0점으로 도약한 것은 진정으로 큰 숫자이며, SWE-bench Pro에서 GPT-5.5를 앞선 것은 겸손하지만 실제이며, MCP-Atlas 결과는 최상위권에서 솔직한 3파전입니다. 이러한 점수와 오픈 웨이트, MIT 라이선스, 1M 토큰 컨텍스트, 그리고 약 6분의 1 비용 경제성을 결합하면, 단순히 훑어보는 것이 아니라 진지하게 평가받을 만한 모델이 탄생합니다.

벤치마크는 올바른 모델을 가리킵니다. 당신 자신의 워크로드가 그것을 확인시켜 줄 것입니다. 해당 테스트를 실행하고 실제 API 및 도구 호출이 포함될 때, 모델이 정확히 무엇을 보내고 받는지 확인할 수 있도록 Apidog에서 엔드포인트를 설정한 다음, 다른 사람의 점수가 아니라 당신의 스택에서 모델이 어떻게 작동하는지에 따라 결정하십시오.