Qwen 3.7 Plus: 알리바바 멀티모달 에이전트 모델 벤치마크 및 가격

알리바바는 Qwen3.7-Max 출시 불과 며칠 만에 Qwen 3.7 Plus를 출시했습니다. 간단히 말해, Plus는 시각 능력이 추가된 Max입니다. 동일한 1백만 토큰 컨텍스트와 에이전트 핵심을 유지하면서 이미지 및 비디오 입력을 추가했으며, 가격은 Max의 약 6분의 1 수준입니다. 이 제품군을 계속 지켜봐 오셨다면, Qwen 3.7이란 무엇인가에 대한 저희 가이드에서 텍스트 주력 모델을 다루고 있습니다. 이 게시물은 새로운 Plus 변형이 추가하는 내용에 대한 것입니다.

누가 이 모델에 관심을 가져야 하는지 달라지므로, 미리 한 가지를 짚고 넘어가겠습니다: Qwen 3.7 Plus는 API 전용이며 독점 모델입니다. 오픈 웨이트가 제공되지 않아 Qwen의 오픈 소스 관례에서 벗어납니다. 그것이 무엇을 의미하는지는 아래에서 설명합니다. Plus는 API로만 제공되므로, 이를 호출하고 디버깅하는 데 시간을 할애하게 될 것입니다. 이 부분에서 Apidog가 유용하며, 이 내용은 마지막에 다룹니다.

버튼

간단한 답변

Qwen 3.7 Plus는 Qwen3.7-Max의 멀티모달 저가형 모델입니다. 스크린샷, 디자인 목업 또는 비디오를 제공하면, 이 모델은 이를 최고 수준의 입력으로 간주하여 추론합니다. 그래픽 인터페이스를 구동하는 에이전트를 위해 구축되었습니다. 앱 스크린샷을 보고 클릭할 정확한 픽셀 좌표를 반환할 수 있습니다.

순수 텍스트에서는 Max가 여전히 약간 우위에 있습니다. 시각적 신호가 있는 모든 것에서는 Plus가 적합하며, 어떤 경우에도 Max 가격의 일부에 불과합니다. 유일한 단점은 비공개(closed) 웨이트입니다.

Qwen 3.7 Max 대비 새로운 점

세 가지 중요한 변화가 있습니다.

시각 능력을 갖춥니다. Max는 텍스트 전용입니다. Plus는 텍스트, 이미지, 비디오를 허용합니다. 이를 통해 단일 모델로 스크린샷 인식, 문서 및 PDF 읽기, 비디오 이해가 가능해집니다.

GUI를 지원합니다. Plus는 브라우저 자동화, GUI 탐색, 하이브리드 GUI-CLI 워크플로우를 처리하는 멀티모달 대화형 에이전트로 포지셔닝됩니다. 이는 "클릭 (x=487, y=232)"과 같은 구조화된 실행 계획을 생성하며, 이것이 컴퓨터 사용 에이전트가 실제로 작동하도록 만듭니다.

저렴합니다. Plus는 Max보다 훨씬 낮은 저가형 가격으로 제공됩니다.

	Qwen 3.7 Plus	Qwen 3.7 Max
입력 모달리티	텍스트, 이미지, 비디오	텍스트 전용
컨텍스트 윈도우	1백만 토큰 (시각과 공유)	1백만 토큰
1백만당 입력 / 출력	$0.40 / $1.60	$2.50 / $7.50
1백만당 캐시된 입력	$0.08	$0.25
GUI 이해 (ScreenSpot Pro)	79.0	없음
터미널-벤치(Terminal-Bench)	70.3	69.7
자율 실행 한계	35시간	35시간

벤치마크

초기 실습 리뷰에서 뒷받침되는 출시 수치는 일관된 이야기를 들려줍니다. Plus는 텍스트에서 Max와 비슷하거나 약간 뒤처지지만, 시각 능력이 개입하는 순간 앞서 나갑니다.

ScreenSpot Pro: 79.0. 이는 GUI 이해 테스트로, 스크린샷을 보고 정확한 픽셀 좌표를 생성하는 모델의 능력입니다. 79.0은 최전선 수준이며, Max는 이 기능을 전혀 수행할 수 없습니다.
터미널-벤치(Terminal-Bench): 70.3. 시각 매개변수가 추가되었음에도 Max의 69.7보다 약간 앞섭니다.
SWE-벤치 프로(SWE-Bench Pro): 약 60%, Max의 60.6%와 거의 동일한 수준입니다.
MCP-아틀라스(MCP-Atlas): 76.4, 도구 사용 오케스트레이션에서 Max와 동률입니다.
LM 아레나(LM Arena): Plus는 텍스트(#15 vs #13) 및 코딩(#12 vs #10)에서 Max보다 약간 뒤처집니다. 순수 텍스트 작업에서는 Max가 약간 우위에 있습니다.

패턴은 명확합니다. 스크린샷, 목업, 차트 등 시각적 신호가 포함된 작업을 수행할 때는 Plus를 선택하세요. 텍스트 측면에서 직접 비교를 원하시면, Qwen 3.7 대 GPT-5.5 대 Opus 4.7 비교에서 이 제품군이 서구의 주력 모델들과 어떻게 비교되는지 다룹니다. 늘 그렇듯이, 벤치마크 수치는 공급업체와 초기 리뷰어로부터 나오므로, 절대적인 진리보다는 방향성으로 이해해야 합니다.

가격: 저가형 멀티모달 등급

여기서 Plus가 흥미로워집니다. 백만 토큰당 입력 $0.40, 출력 $1.60으로, Max보다 입력은 약 6배, 출력은 거의 5배 저렴합니다. 캐시된 입력은 $0.08로 떨어집니다. 대부분의 텍스트 전용 모델보다 저렴한 가격으로 시각 능력과 1백만 컨텍스트를 얻을 수 있습니다.

비용 모델에 포함해야 할 한 가지 주의사항은 이미지와 비디오가 1백만 토큰 예산을 공유한다는 것입니다. 고해상도 스크린샷은 수천 개의 토큰을 소모할 수 있고, 비디오 프레임은 빠르게 누적되므로 시각적 페이로드가 증가함에 따라 유효 텍스트 여유 공간이 줄어듭니다. 이를 고려하여 예산을 책정하세요. 중국 연구소들이 왜 가격을 계속 인하하는지에 대한 더 넓은 맥락을 보려면, 2026년 중국 LLM 가격 전쟁 분석을 참조하세요.

단점: 독점적이며 API 전용

Qwen은 오픈 웨이트를 기반으로 기업 고객을 확보했습니다. 초기 Qwen 제품군은 대부분 Apache 2.0 또는 공개 사용 라이선스 하에 출시되어, 팀들이 에어갭 데이터 센터 내에서 모델을 다운로드하고 미세 조정하며 실행할 수 있었습니다. Qwen 3.7 Plus는 그렇지 않습니다.

Plus는 알리바바 클라우드 모델 스튜디오(Alibaba Cloud Model Studio)를 통해 관리형 상업용 API로만 제공됩니다. 웨이트를 다운로드하거나 자체 호스팅할 수 없으며, 오프라인으로 실행할 수도 없습니다. 규제 환경이나 에어갭 환경에서는 이는 결정적인 단점입니다. 2026년 3분기에 오픈 웨이트 Plus 변형이 검토되고 있지만 확정된 것은 아니며, 독점 계층은 계속 비공개로 유지될 수 있습니다. 오픈 웨이트가 필수 요건이라면, 이 모델은 현재로서는 당신의 선택이 아닙니다. Step 3.7 Flash와 같은 경쟁 모델은 Apache 2.0으로 출시되며 가격도 더 저렴합니다.

Qwen 3.7 Plus 접근 방법

두 가지 방법:

API: Alibaba Cloud Model Studio를 통해 호출합니다. 엔드포인트는 OpenAI와 호환되므로, 기본 모델의 요청 패턴이 그대로 적용됩니다. Qwen 3.7 API 사용 방법 가이드는 인증 및 첫 번째 호출에 대해 설명하며, 멀티모달 요청을 위해 메시지 페이로드에 이미지 또는 비디오 부분을 추가합니다.
채팅: 코드를 작성하기 전에 chat.qwen.ai에서 브라우저를 통해 시도해보세요. 비용 없이 이 제품군을 테스트하고 싶다면, 무료 Qwen 3.7 가이드에서 무료 경로를 보여줍니다.

최소한의 멀티모달 호출은 텍스트와 함께 이미지 부분을 추가하여 표준 OpenAI 메시지 형식을 사용합니다.

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which button submits this form? Give pixel coordinates."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}},
        ],
    }],
)
print(resp.choices[0].message.content)

모델 식별자와 지역별 기본 URL은 국제 및 중국 엔드포인트 간에 다르므로, 정확한 정보는 모델 스튜디오 문서를 확인하세요.

누가 사용해야 하는가

다음과 같은 작업에 Qwen 3.7 Plus를 활용하세요:

스크린샷을 통해 실제 인터페이스를 클릭하는 **컴퓨터 사용 및 GUI 에이전트**.
모델이 디자인을 읽고 프런트엔드를 작성하는 **스크린샷-투-코드 및 목업-투-UI**.
토큰당 비용이 낮은 **문서, PDF 및 비디오 이해**.
수천 번의 연속 도구 호출과 함께 35시간 한도까지 가능한 **장기 에이전트 실행**.

순수하게 SWE-Bench Pro 텍스트 점수를 최적화하거나 가장 빠른 텍스트 전용 지연 시간을 필요로 한다면 Max를 고수하십시오. Max는 콜드 경로에서 약간 더 빠릅니다. 대부분의 혼합 워크로드에서는 더 저렴한 멀티모달 옵션이 합리적인 기본 선택입니다. Plus를 다른 오픈 소스 및 저가 모델과 비교하고 있다면, MiniMax M3 대 DeepSeek V4 대 Qwen 3.7 비교가 유용한 참고 자료가 될 것입니다.

Apidog로 Qwen 3.7 Plus 테스트하기

Plus는 API 전용이므로, API를 통해 작업하게 됩니다. 멀티모달 요청은 까다롭습니다. 이미지를 인코딩하고, 비디오를 첨부하며, 종종 몇 분 또는 몇 시간 동안 실행되는 도구 호출 루프 내에서 구조화된 실행 계획을 다시 읽어야 합니다. 각 요청이 무엇을 보내고 무엇을 반환하는지 정확히 확인해야 합니다.

Apidog는 이를 위해 만들어졌습니다. 이미지 및 비디오 페이로드를 사용하여 Qwen 3.7 Plus 요청을 보내고, 원시 응답을 검사하고, 여러 환경에서 모델 스튜디오 키를 관리하며, 프롬프트를 조정하는 동안 앱을 계속 빌드할 수 있도록 엔드포인트를 모의할 수 있습니다. Plus가 GUI-CLI 워크플로우 전반에 걸쳐 도구 호출을 연결하는 에이전트 측면에서는 Apidog의 AI 에이전트 디버거가 전체 호출 시퀀스를 보여주어 실행 오류 지점을 찾을 수 있도록 돕습니다.

Qwen 3.7 Plus API를 프로덕션에 배포하기 전에 테스트, 디버그 및 모의하려면 Apidog를 다운로드하십시오.

자주 묻는 질문

Qwen 3.7 Plus는 오픈 소스인가요? 아니요. 독점 모델이며 알리바바 클라우드 모델 스튜디오(Alibaba Cloud Model Studio)를 통해 관리형 API로만 제공됩니다. 웨이트를 다운로드하거나 자체 호스팅할 수 없습니다. 2026년 3분기에 오픈 웨이트 변형이 제안되었지만 확정된 것은 아닙니다.
Qwen 3.7 Plus와 Max 중 어떤 것을 사용해야 하나요? 시각 능력(스크린샷, PDF, 비디오)이 필요하거나 더 저렴한 가격을 원한다면 Plus를 사용하세요. 이는 대부분의 워크로드를 처리합니다. 순수 텍스트 SWE-Bench Pro 점수에 최적화하거나 가장 빠른 텍스트 전용 지연 시간을 필요로 한다면 Max를 사용하세요.
Qwen 3.7 Plus의 비용은 얼마인가요? 백만 입력 토큰당 $0.40, 백만 출력 토큰당 $1.60, 캐시된 입력은 $0.08입니다. 이는 Qwen3.7-Max보다 약 6배 저렴합니다.
Qwen 3.7 Plus는 비디오를 처리할 수 있나요? 예. 텍스트, 이미지, 비디오를 입력으로 받습니다. 시각 토큰이 1백만 토큰 컨텍스트 예산을 공유하므로, 큰 미디어 페이로드는 텍스트 여유 공간을 줄인다는 점을 기억하세요.
컨텍스트 윈도우는 얼마인가요? Max의 핵심에서 상속된 1백만 토큰이며, 텍스트, 이미지, 비디오 토큰에 걸쳐 공유됩니다.
Qwen 3.7 Plus에는 어떻게 접근하나요? 알리바바 클라우드 모델 스튜디오 API를 통해 접근하거나, chat.qwen.ai에서 브라우저를 통해 시도해보세요.

결론

Qwen 3.7 Plus는 알리바바의 에이전트 주력 모델에 시각 능력을 더하고 가격을 저가형으로 낮춘 모델입니다. 컴퓨터 사용 에이전트, 스크린샷 기반 코딩 또는 비디오 이해 기능을 구축하는 개발자에게는 가장 저렴한 최전선 멀티모달 옵션 중 하나입니다. 수용해야 할 단점은 비공개(closed) 웨이트와 알리바바 클라우드에 대한 강력한 의존성입니다.

이러한 단점을 감수할 수 있다면, 다음 단계는 API 자체를 사용하는 것입니다. Apidog에서 이를 테스트하고, 멀티모달 호출을 디버깅하며, 응답을 모의하여 실제 트래픽 하에서도 여러분이 출시하는 제품이 잘 작동하도록 하십시오.

버튼