Qwen3.6-Plus API: 터미널 벤치마크에서 Claude 능가

Ashley Innocent

Ashley Innocent

2 April 2026

Qwen3.6-Plus API: 터미널 벤치마크에서 Claude 능가

요약

Qwen3.6-Plus가 공식 출시되었습니다. SWE-bench Verified에서 78.8%, Terminal-Bench 2.0에서 61.6%를 기록하여 Claude Opus 4.5를 능가합니다. 1M 토큰 컨텍스트 윈도우, 에이전트 루프를 위한 새로운 preserve_thinking 매개변수를 갖추고 있으며, OpenAI 호환 API를 통해 Claude Code, OpenClaw, Qwen Code와 직접 작동합니다.

미리보기에서 정식 출시까지

OpenRouter의 Qwen 3.6 Plus 미리보기에 대한 이전 가이드를 보셨다면, 이 모델의 성능을 이미 알고 계실 겁니다. 미리보기는 3월 30일에 대기 명단 없이 OpenRouter를 통해 무료로 조용히 출시되었습니다. 처음 이틀 동안 약 40만 건의 요청에 걸쳐 4억 개 이상의 완성 토큰을 처리했습니다.

정식 출시는 완전한 프로덕션 버전을 제공합니다. 더 이상 미리보기 전용이 아닙니다. 이 모델은 이제 Alibaba Cloud Model Studio를 통해 안정적인 API, SLA 기반 가동 시간, 그리고 다단계 에이전트 작업에 훨씬 더 강력한 성능을 제공하는 새로운 API 매개변수와 함께 사용할 수 있습니다.

이 가이드에서는 변경된 내용, API를 올바르게 호출하는 방법, 그리고 배포 전에 Apidog로 통합을 테스트하는 방법을 다룹니다.

button

Qwen3.6-Plus란 무엇인가

Qwen3.6-Plus는 Alibaba의 Qwen 팀이 호스팅하는 Mixture-of-Experts 모델입니다. Qwen3.5 시리즈와 마찬가지로 희소 활성화(sparse activation)를 사용하여 토큰당 일부 매개변수만 작동합니다. 그 결과 유사한 성능의 밀집 모델보다 낮은 컴퓨팅 비용으로 강력한 성능을 제공합니다.

출시 시 주요 사양:

며칠 내로 오픈 소스 소형 변형 모델이 출시될 예정입니다. 자체 호스팅을 위한 가중치가 필요하다면 곧 출시될 것입니다.

벤치마크 결과

코딩 에이전트

Qwen3.6-Plus는 대부분의 SWE-bench 작업에서 Claude Opus 4.5에 근소하게 뒤처지지만, 터미널 작업에서는 비교 대상의 모든 모델을 능가합니다.

Terminal-Bench 2.0은 32개의 CPU 코어와 48GB RAM을 사용하여 3시간 타임아웃 내에서 실제 셸 작업(파일 관리, 프로세스 제어, 다단계 터미널 워크플로우)을 테스트합니다. Qwen3.6-Plus가 61.6%를 기록하고 Claude Opus 4.5가 59.3%를 기록한 것은 개발자가 실행하는 바로 그 종류의 작업에서 의미 있는 차이입니다.

일반 에이전트 및 도구 사용

벤치마크 Claude Opus 4.5 Qwen3.6-Plus
TAU3-Bench 70.2% 70.7%
DeepPlanning 33.9% 41.5%
MCPMark 42.3% 48.2%
MCP-Atlas 71.8% 74.1%
WideSearch 76.4% 74.3%

MCPMark는 GitHub MCP v0.30.3 도구 호출을 테스트하며, Playwright 응답은 32K 토큰으로 잘라냅니다. 48.2%의 선두는 MCP 기반 툴링을 구축하는 모든 사람에게 중요합니다. DeepPlanning에서 Claude가 33.9%인 반면 41.5%를 기록한 것은 장기적인 계획 작업에서 상당한 격차를 보여줍니다.

추론 및 지식

벤치마크 Claude Opus 4.5 Qwen3.6-Plus
GPQA 87.0% 90.4%
LiveCodeBench v6 84.8% 87.1%
IFEval strict 90.9% 94.3%
MMLU-Pro 89.5% 88.5%

GPQA는 대학원 수준의 과학 추론 벤치마크입니다. IFEval strict는 모델이 정확한 형식 및 제약 조건을 얼마나 잘 따르는지 측정합니다. Qwen3.6-Plus는 이 두 벤치마크 모두에서 선두를 차지했으며, 이는 모델이 복잡한 지침을 벗어나지 않고 따라야 하는 구조화된 출력 및 에이전트 작업에 중요합니다.

멀티모달

Qwen3.6-Plus는 네이티브 멀티모달 모델입니다. 여러 문서, 공간 및 객체 감지 벤치마크에서 선두를 달리고 있습니다.

벤치마크 Qwen3.6-Plus 참고
OmniDocBench 1.5 91.2% 표에서 1위
RefCOCO avg 93.5% 표에서 1위
We-Math 89.0% 표에서 1위
CountBench 97.6% 표에서 1위
OSWorld-Verified 62.5% Claude(66.3%)에 뒤짐

데스크톱 컴퓨터 사용 벤치마크인 OSWorld-Verified에서는 Claude Opus 4.5가 66.3%로 Qwen3.6-Plus의 62.5%를 앞서고 있습니다. 문서 이해 및 공간 기반 작업에서는 Qwen3.6-Plus가 선두를 달립니다.

API 호출 방법

Qwen3.6-Plus는 Alibaba Cloud Model Studio에서 사용할 수 있습니다. API 키는 modelstudio.alibabacloud.com에서 얻을 수 있습니다.

세 가지 지역별 기본 URL:

스트리밍을 사용한 기본 호출

from openai import OpenAI
import os

client = OpenAI(
 api_key=os.environ["DASHSCOPE_API_KEY"],
 base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
 extra_body={"enable_thinking": True},
 stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
 if not chunk.choices:
 continue
 delta = chunk.choices[0].delta
 if hasattr(delta, "reasoning_content") and delta.reasoning_content:
 if not is_answering:
 reasoning += delta.reasoning_content
 if delta.content:
 if not is_answering:
 is_answering = True
 answer += delta.content
 print(delta.content, end="", flush=True)

preserve_thinking 매개변수

미리보기 버전은 현재 턴의 추론만 유지했습니다. 정식 출시 버전에는 preserve_thinking이 추가되었습니다.

preserve_thinking: true로 설정하면, 모델은 대화의 모든 이전 턴으로부터 연쇄 사고 추론을 유지합니다. Alibaba는 특히 에이전트 시나리오에 이 기능을 권장합니다. 그 이유는 다단계 작업을 수행하는 에이전트가 자신의 이전 사고를 확인함으로써 이점을 얻기 때문입니다. 2단계에서 내린 선택의 이유를 알 수 있을 때 5단계에서 더 나은 결정을 내릴 수 있습니다.

토큰 사용량 제어를 위해 기본적으로 비활성화되어 있습니다. 에이전트 루프에 대해서는 이 기능을 켜십시오.

completion = client.chat.completions.create(
 model="qwen3.6-plus",
 messages=conversation_history,
 extra_body={
 "enable_thinking": True,
 "preserve_thinking": True, # keep reasoning across all turns
 },
 stream=True
)

Qwen3.6-Plus를 Claude Code와 함께 사용

Qwen API는 Anthropic 프로토콜을 지원합니다. 환경 변수 외에 Claude Code 구성을 변경하지 않고도 Qwen3.6-Plus에 대해 Claude Code를 실행할 수 있습니다.

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

Qwen3.6-Plus를 OpenClaw와 함께 사용

OpenClaw (이전 Moltbot / Clawdbot)는 오픈 소스 자체 호스팅 코딩 에이전트입니다. 이를 설치하고 Model Studio를 가리키도록 설정합니다:

# Install (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

~/.openclaw/openclaw.json을 편집하고 다음 필드를 병합합니다 (전체 파일을 덮어쓰지 마십시오):

{
 "models": {
 "providers": [{
 "name": "alibaba-coding-plan",
 "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
 "apiKey": "${DASHSCOPE_API_KEY}",
 "models": [{"id": "qwen3.6-plus", "reasoning": true}]
 }]
 },
 "agents": {
 "defaults": {"models": ["qwen3.6-plus"]}
 }
}

Qwen3.6-Plus를 Qwen Code와 함께 사용

Qwen Code는 Qwen 시리즈를 위해 특별히 제작된 Alibaba 자체의 오픈 소스 터미널 에이전트입니다. Qwen Code OAuth로 로그인하면 하루 1,000건의 무료 API 호출을 제공합니다.

npm install -g @qwen-code/qwen-code@latest
qwen
# Type /auth to sign in and activate free tier

preserve_thinking이 에이전트 동작을 변경하는 이유

대부분의 LLM API는 각 턴을 독립적으로 처리합니다. 모델은 답변을 생성하고, 추론은 버려지며, 다음 턴은 새롭게 시작됩니다. 단순한 Q&A에는 문제가 없지만, 10-20단계 작업을 수행하는 에이전트의 경우 문제가 발생합니다. 모델이 이전에 내린 결정의 이유를 알 수 없으므로, 표류하게 됩니다.

preserve_thinking 매개변수는 다음 응답을 생성할 때 이전 모든 턴의 전체 추론 체인을 볼 수 있도록 유지합니다. 실제적인 효과는 8단계에서 복잡한 리포지토리 수준 작업을 수행하는 에이전트가 2, 4, 6단계의 분석을 볼 수 있다는 것입니다. 이는 더 일관된 결정을 내리고 모순을 줄입니다.

Alibaba의 벤치마크는 이것이 중복 추론도 줄인다는 것을 보여줍니다. 모델이 이미 확립된 컨텍스트를 다시 도출할 필요가 없을 때, 복잡한 다단계 워크플로우에서 턴당 평균적으로 더 적은 토큰을 사용합니다.

에이전트 루프에 이 패턴을 사용하세요:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# Example: multi-step code review agent
result = agent_step("Analyze the auth module for security issues.")
result = agent_step("Now suggest fixes for the top 3 issues you found.")
result = agent_step("Write tests that validate each fix.")

preserve_thinking이 없으면 3단계의 모델은 1단계에서 어떤 3가지 문제를 식별했는지 알지 못합니다. 이 기능이 있으면 추론 체인이 온전히 유지됩니다.

무엇에 가장 적합한가

리포지토리 수준 버그 수정. SWE-bench Verified에서 78.8%, SWE-bench Pro에서 56.6%를 기록하여 오늘날 사용 가능한 어떤 모델과도 경쟁할 수 있습니다. 자동화된 코드 수정 또는 검토 파이프라인을 실행하는 경우, Qwen3.6-Plus를 현재 설정과 벤치마킹할 가치가 있습니다.

터미널 자동화. Terminal-Bench 2.0에서의 선두는 셸 위주의 워크플로우에 가장 강력한 모델임을 보여줍니다. 다단계 파일 작업, 프로세스 관리, 빌드 파이프라인.

MCP 도구 호출. MCPMark에서 48.2% (최고 결과)를 기록하여 MCP 기반 도구 통합을 위한 현재 최고의 선택입니다.

장문 컨텍스트 문서 분석. 강력한 LongBench v2 점수를 가진 1M 토큰 윈도우는 단일 호출로 전체 코드베이스 검토, 대규모 사양 문서 및 다중 파일 분석을 처리합니다.

프론트엔드 코드 생성. Qwen 팀의 내부 QwenWebBench (Elo 등급, 7개 카테고리: 웹 디자인, 웹 앱, 게임, SVG, 데이터 시각화, 애니메이션, 3D)는 Qwen3.6-Plus에 1501.7점, Claude Opus 4.5에 1517.9점을 부여했습니다. 프론트엔드 생성 품질 면에서 사실상 동률입니다.

다국어. WMT24++에서 84.3% (최고), 23개 언어 설정에서 MAXIFE 88.2%. 비영어권 사용 사례에서 강력합니다.

Apidog로 Qwen3.6-Plus API 호출 테스트하기

엔드포인트는 OpenAI와 호환되므로 Apidog로 직접 가져와 다른 API처럼 테스트할 수 있습니다.

https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions로 POST 요청을 설정하세요. 환경 변수로 API 키를 추가합니다: Authorization: Bearer {{DASHSCOPE_API_KEY}}.

구조 및 콘텐츠를 검증하기 위해 응답 어설션(assertion)을 작성합니다:

pm.test("Response contains choices", () => {
 const body = pm.response.json();
 pm.expect(body).to.have.property("choices");
 pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
 const choice = pm.response.json().choices[0];
 if (choice.message.reasoning_content !== undefined) {
 pm.expect(choice.message.reasoning_content).to.not.be.empty;
 }
});

개발 중에는 Apidog의 Smart Mock을 사용하여 테스트 응답을 생성하세요. 이는 에이전트 오케스트레이션 코드를 매번 라이브 API를 호출하지 않고도 테스트할 수 있음을 의미하며, 토큰을 절약하고 테스트 주기를 빠르게 유지합니다.

다단계 에이전트를 구축하는 경우, Apidog에서 여러 요청을 연결하는 테스트 시나리오를 만드세요. 프로덕션에서 전체 루프를 실행하기 전에 각 단계의 응답 구조를 확인하여 preserve_thinking이 턴을 거쳐 추론을 유지하는지 검증하세요.

Apidog를 무료로 다운로드하여 이 테스트를 설정하세요.

다음은 무엇인가

Qwen 팀은 며칠 내로 더 작은 오픈 소스 변형 모델이 출시될 것이라고 확인했습니다. 이 모델들은 Qwen3.5 패턴을 따를 것입니다: Apache 2.0 가중치를 가진 희소 MoE 모델입니다.

로드맵에는 다음이 포함됩니다:

Qwen3.5 오픈 소스 변형 모델은 출시 몇 주 내에 가장 많이 배포된 자체 호스팅 모델 중 일부가 되었습니다. Qwen3.6도 동일한 패턴을 따른다면, 더 작은 변형 모델들은 출시 직후 자체 호스팅 코딩 에이전트의 기본 선택지가 될 가능성이 높습니다.

결론

Qwen3.6-Plus는 코딩 작업에서 Claude Opus 4.5와의 격차를 좁히고, 터미널 작업, MCP 도구 호출 및 장기 계획에서 확실한 선두를 차지합니다. 1M 토큰 컨텍스트, Anthropic 프로토콜 호환성, 에이전트 루프를 위한 preserve_thinking 기능은 현재 프로덕션 에이전트 시스템을 위한 실용적인 선택으로 만듭니다.

OpenRouter에서의 무료 미리보기 기간은 모델을 평가하는 데 유용한 방법이었습니다. 공식 API는 안정성, SLA 보장, 그리고 다단계 워크플로우를 더 안정적으로 만드는 새로운 에이전트 중심 매개변수를 제공합니다.

Apidog는 테스트 측면을 담당합니다: OpenAI 호환 엔드포인트를 가져오고, 응답 어설션을 작성하고, 개발 중에 모의(mock)하고, 모델을 업데이트하거나 API 버전을 올릴 때마다 회귀 테스트를 실행합니다.

button

자주 묻는 질문

Qwen3.6-Plus와 미리보기 버전의 차이점은 무엇인가요?미리보기 버전(qwen/qwen3.6-plus-preview)은 2026년 3월 30일에 OpenRouter에서 출시되었습니다. 정식 출시는 preserve_thinking 매개변수, SLA 기반 가동 시간, 그리고 완전한 Model Studio 지원을 추가합니다. 더 작은 오픈 소스 변형 모델도 출시될 예정입니다.

preserve_thinking은 무엇이며 언제 사용해야 하나요?기본적으로 현재 턴의 추론만 유지됩니다. preserve_thinking: true로 설정하면 모델은 이전 대화 턴의 모든 연쇄 사고 추론을 유지합니다. 모델의 과거 추론이 다음 행동에 영향을 미쳐야 하는 다단계 에이전트 루프에 이 기능을 사용하세요.

Qwen3.6-Plus는 Claude Opus 4.5와 어떻게 비교되나요?Claude Opus 4.5는 SWE-bench Verified(80.9% 대 78.8%)와 OSWorld-Verified(66.3% 대 62.5%)에서 앞서 있습니다. Qwen3.6-Plus는 Terminal-Bench 2.0(61.6% 대 59.3%), MCPMark(48.2% 대 42.3%), DeepPlanning(41.5% 대 33.9%), GPQA(90.4% 대 87.0%)에서 앞서 있습니다.

Qwen3.6-Plus를 Claude Code와 함께 사용할 수 있나요?네, 가능합니다. ANTHROPIC_BASE_URL을 Dashscope Anthropic 호환 엔드포인트로, ANTHROPIC_MODELqwen3.6-plus로, ANTHROPIC_AUTH_TOKEN을 Dashscope API 키로 설정하세요.

Qwen3.6-Plus는 오픈 소스인가요?호스팅된 API 모델은 오픈 웨이트가 아닙니다. 공개 가중치를 가진 더 작은 변형 모델들이 며칠 내로 출시될 것이라고 확인되었습니다.

무료 액세스는 어떻게 받을 수 있나요?Qwen Code를 설치하고(`npm install -g @qwen-code/qwen-code@latest`), `qwen`을 실행한 다음 `/auth`를 입력하세요. Qwen Code OAuth로 로그인하면 Qwen3.6-Plus에 대해 하루 1,000건의 무료 API 호출을 받을 수 있습니다.

어떤 컨텍스트 윈도우를 지원하나요?기본적으로 1백만 토큰입니다. 공식 보고서의 일부 벤치마크는 표준화된 비교를 위해 256K를 사용했지만, API 기본값은 1M입니다.

배포 전에 API 통합을 어떻게 테스트하나요?엔드포인트를 Apidog로 가져오고, 환경 변수로 API 키를 추가하고, 응답 어설션을 작성하고, 오프라인 개발을 위해 Smart Mock을 사용하세요. 여러 요청을 테스트 시나리오로 연결하여 다단계 에이전트 동작을 엔드 투 엔드로 검증하세요.

Apidog에서 API 설계-첫 번째 연습

API를 더 쉽게 구축하고 사용하는 방법을 발견하세요