핵심 요약 (TL;DR)
Alibaba는 2026년 3월 30일 Qwen3.5-Omni를 출시했습니다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리하고 텍스트 및 실시간 음성 출력을 제공합니다. 일반 오디오 이해 및 추론 벤치마크에서 Gemini 3.1 Pro를 능가하며, 음성 인식에 113개 언어를 지원하고 음성 복제 기능을 포함합니다. Plus, Flash, Light 세 가지 변형이 제공됩니다.
모든 것을 위한 하나의 모델
오늘날 대부분의 AI 워크플로우는 음성-텍스트 변환용, 시각 처리용, 텍스트 생성용, 텍스트-음성 변환용 등 개별 모델을 연결하여 사용합니다. 각 과정은 지연 시간, 비용 및 오류 발생 지점을 증가시킵니다.
Qwen3.5-Omni는 이러한 복잡한 구조를 단일화합니다. 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 단일 모델 추론 호출 내에서 텍스트 또는 음성을 출력합니다. 컨텍스트 창은 256,000 토큰을 저장할 수 있으며, 이는 10시간 이상의 오디오 또는 약 400초 분량의 오디오가 포함된 720p 비디오에 해당합니다.
Alibaba는 1억 시간 이상의 원본 시청각 데이터를 사용하여 모델을 훈련했습니다. 그 결과는 단순히 여러 모달리티를 처리하는 것을 넘어, 동시에 이들을 통합적으로 추론하는 모델입니다.
음성, 비디오, 이미지, 텍스트의 어떤 조합이든 포함하는 앱을 구축하고 있다면, 이 모델은 API 수준에서 가능한 것들을 변화시킬 것입니다.
Qwen3-Omni에서 변경된 점
이전 세대인 Qwen3-Omni Flash는 2025년 12월에 234ms의 응답 지연 시간으로 출시되었습니다. Qwen3.5-Omni 는 다음 정식 버전입니다. 변경된 내용은 다음과 같습니다.

언어 지원이 크게 확장됨
Qwen3-Omni의 음성 인식은 19개 언어를 지원했습니다. Qwen3.5-Omni는 113개 언어 및 방언을 지원합니다. 음성 생성은 10개 언어에서 36개 언어로 늘어났습니다. 이는 단순한 개선이 아니라, 서구 시장에만 작동하는 모델과 전 세계적으로 작동하는 모델의 차이입니다.
음성 복제 기능 내장
음성 샘플을 업로드하면 모델이 해당 음성으로 응답하게 할 수 있습니다. 이전 세대에서는 이 기능을 사용할 수 없었습니다. Qwen3.5-Omni Plus 및 Flash에서는 API를 통해 음성 복제 기능을 사용할 수 있습니다. 이 모델은 긴 대화에서도 일관된 음성 페르소나를 유지할 수 있을 정도로 화자의 정체성을 잘 일치시킵니다.
ARIA 기술로 오디오 뭉개짐 현상 제거
숫자 및 특이한 단어(제품명, 기술 용어, 고유 명사)는 신경망 TTS 시스템에서 종종 뭉개지는 경향이 있었습니다. Qwen의 동적 텍스트-음성 동기화 계층인 ARIA는 이 문제를 특별히 해결합니다. 텍스트 버퍼를 미리 읽고 오디오를 출력하기 전에 음소 생성을 조정하여 "IPv6", "$249.99", "Qwen3.5-Omni"와 같은 모든 단어가 올바르게 발음되도록 합니다.
사람의 기대에 부응하는 의미론적 중단
음성 응답 중에 "응"이라고 말하면 모델이 계속 말하기를 원합니다. "잠깐, 멈춰"라고 말하면 모델이 멈추기를 원합니다. 이전 음성 AI 시스템은 모든 오디오 입력을 중단 명령으로 처리했습니다. Qwen3.5-Omni는 백채널(인정)과 실제 중단을 구별하여 음성 대화가 더 자연스럽게 느껴지도록 합니다.
실시간 웹 검색 통합
이 모델은 추론 중에 웹을 쿼리하고 실시간 결과를 응답에 통합할 수 있습니다. 컨텍스트를 미리 가져와 프롬프트에 삽입할 필요 없이, 필요할 때 모델 자체가 검색을 처리합니다.
시청각 바이브 코딩
이제 화면 녹화가 코딩 입력으로 작동합니다. 화면을 녹화하여 모델에 비디오를 전달하고, 모델이 보고 있는 것을 복제하거나 개선하도록 요청할 수 있습니다. 시각적 컨텍스트에서 작동하는 코드를 생성합니다. 이것은 Cursor의 컨텍스트 인식 코드 생성에 해당하는 다중 모달 기능이지만, 입력이 비디오라는 점이 다릅니다.
벤치마크 결과
36개의 오디오 및 시청각 벤치마크에서:
- Qwen3.5-Omni는 36개 중 32개에서 최고 성능을 달성했습니다.
- 이 36개 중 22개에서 새로운 최고 성능을 기록했습니다.
- 일반 오디오 이해, 추론 및 번역에서 Gemini 3.1 Pro를 능가합니다.
- 시청각 이해 부문에서는 Gemini 3.1 Pro와 동등한 성능을 보입니다.
특히 음성 생성 품질에 있어서는 20개 언어에 걸쳐 다국어 음성 안정성에서 ElevenLabs, GPT-Audio, Minimax를 능가합니다. 이는 의미 있는 비교입니다. ElevenLabs는 이 문제에 수년간 집중해 온 전용 음성 AI 회사입니다.
모델 변형
Alibaba는 세 가지 버전을 제공합니다:
| 변형 | 최적 용도 |
|---|---|
| Qwen3.5-Omni Plus | 최고 품질; 시청각 추론, 음성 복제, 긴 컨텍스트 작업 |
| Qwen3.5-Omni Flash | 균형 잡힌 속도 및 품질; 실시간 음성 채팅, 프로덕션 API |
| Qwen3.5-Omni Light | 저지연 작업; 모바일 및 엣지 시나리오 |
세 모델 모두 전체 입력 모달리티 스택(텍스트, 이미지, 오디오, 비디오)을 처리합니다. 차이점은 출력 품질, 지연 시간 및 비용에 있습니다. Plus는 벤치마크 선두 주자이며, Flash는 대부분의 프로덕션 애플리케이션에서 시작해야 할 모델입니다.
256K 토큰 컨텍스트 창
256K 토큰은 입력 상한입니다. 이것이 실제로는 무엇을 의미할까요?
- 오디오: 10시간 이상의 연속 음성
- 비디오: 오디오가 포함된 약 400초 분량의 720p 비디오
- 텍스트: 약 190,000단어, 또는 소설 길이의 문서
대부분의 다중 모달 사용 사례에서 256K는 입력을 분할할 필요가 없을 정도로 충분합니다. 30분짜리 회의 녹화, 전체 제품 데모 비디오 또는 긴 고객 지원 통화가 모두 단일 요청에 들어갑니다.
이를 GPT-4o의 128K 컨텍스트 또는 Gemini 2.5 Pro의 1M 컨텍스트와 비교해 보십시오. Qwen3.5-Omni는 Gemini의 상한보다 작지만, 벤치마크에서의 시청각 성능은 대부분의 실제 작업에서 이러한 차이를 상쇄합니다.
113개 언어 음성 인식
음성 인식에서 19개에서 113개 언어로의 확장은 단순한 마케팅 수치가 아닙니다. 다음 세 가지 유형의 애플리케이션에 중요합니다.
글로벌 제품을 위한 고객 지원. 사용자가 태국어, 벵골어, 스와힐리어 또는 핀란드어를 사용하는 경우, 이제 별도의 ASR 파이프라인을 거치지 않고도 음성 입력을 처리할 수 있는 단일 모델을 갖게 됩니다.
다국어 콘텐츠 처리. 비영어권 팟캐스트, 비디오 및 인터뷰를 단일 호출로 전사(transcript), 번역 및 요약할 수 있습니다.
대화 중 언어 전환. 이중 언어 사용자는 종종 문장 중간에 언어를 전환합니다. Qwen3.5-Omni는 이를 기본적으로 처리합니다. 영어와 스페인어를 오가는 대화는 모델을 혼란스럽게 하거나 인식 정확도를 떨어뜨리지 않습니다.
아키텍처: MoE를 사용한 Thinker-Talker
이 모델은 Thinker-Talker 아키텍처를 사용합니다. Thinker 구성 요소는 다중 모달 입력을 처리하고 추론 토큰을 생성합니다. Talker 구성 요소는 다중 코드북 접근 방식을 사용하여 지연 시간을 최소화하면서 이 토큰들을 실시간으로 자연스러운 음성으로 변환합니다.

내부적으로 Plus 변형은 MoE(Mixture of Experts)를 사용하는데, 이는 토큰당 모델 매개변수의 일부만 활성화된다는 의미입니다. 이를 통해 동일한 품질의 밀집 모델에 비해 추론 속도가 빠르고 메모리 효율적입니다.
로컬 배포의 경우, vLLM은 MoE 라우팅을 처리하는 방식 때문에 권장되는 추론 서버입니다. HuggingFace Transformers도 작동하지만, MoE 아키텍처에서는 더 느립니다.
Apidog의 역할
Qwen3.5-Omni API를 기반으로 구축할지 여부를 평가한다면, base64 인코딩된 오디오, 이미지 URL, 비디오 참조, 텍스트가 모두 혼합된 JSON 본문으로 다중 모달 요청을 보낼 것입니다.

적절한 API 클라이언트 없이 이러한 요청을 디버깅하는 것은 빠르게 고통스러워집니다. Apidog는 이를 잘 처리합니다. Qwen3.5-Omni 요청 템플릿을 구축하고 저장하며, API 키에 대한 환경 변수를 설정하고, 응답 구조와 내용을 검증하는 자동화된 테스트를 작성할 수 있습니다.
세 가지 모델 변형을 평가하는 팀의 경우, Apidog를 사용하면 Plus, Flash, Light에 대해 동일한 요청을 실행하고 지연 시간 및 출력 품질을 나란히 비교하기가 쉽습니다.
다중 모달 API 요청 테스트를 시작하려면 Apidog를 무료로 다운로드하세요.
이 모델이 적합한 대상
다음을 구축하고 있다면 Qwen3.5-Omni를 평가하는 것이 좋습니다.
음성 비서. 대화 기억 및 웹 검색 기능을 갖춘 실시간 음성 입력 및 음성 출력. 의미론적 중단 및 ARIA 기능은 음성 UX에서 가장 어려운 두 가지 문제를 해결합니다.
비디오 분석 도구. 자동 비디오 요약, 회의록 전사, 화면 녹화로부터 튜토리얼 생성. 256K 컨텍스트 창은 긴 녹화물을 분할 없이 전달할 수 있음을 의미합니다.
다국어 고객 제품. 113개 언어 ASR 및 36개 언어 TTS를 단일 모델로 제공. 각 언어 계층별로 별도의 공급업체가 필요 없습니다.
접근성 도구. 이미지에 대한 대체 텍스트 생성, 비디오 콘텐츠에 대한 오디오 설명, 자원 부족 언어에 대한 언어 지원을 포함한 실시간 자막 생성.
개발자 생산성 도구. 시청각 바이브 코딩은 화면 녹화를 작동하는 코드로 변환합니다. 이는 코드 비서를 위한 새로운 입력 모달리티입니다.
액세스
Qwen3.5-Omni는 다음을 통해 이용할 수 있습니다.
- Alibaba Cloud DashScope API (프로덕션 API 액세스)
- qwen.ai (테스트용 웹 인터페이스)
- HuggingFace Hub (로컬 배포용 모델 가중치)
- ModelScope (중국 본토 사용자에게 권장)
API는 Alibaba Cloud의 표준 인증 모델을 따릅니다. DashScope API 키가 필요합니다. 엔드포인트 세부 정보 및 모달리티별 가격은 DashScope 문서를 참조하십시오.
주목할 점
Qwen3.5-Omni는 오디오 벤치마크에서 강점을 보입니다. 이러한 벤치마크상의 이점이 특정 사용 사례에서 실제 품질로 이어지는지는 직접 테스트해 볼 가치가 있습니다. 벤치마크는 선별된 테스트 세트 전반의 집계 성능을 측정하며, 모델이 특정 도메인의 어휘, 사용자의 억양 또는 비디오 형식을 어떻게 처리할지는 예측하지 않습니다.
음성 복제 기능은 현재 API 전용입니다. qwen.ai 웹 인터페이스에서는 아직 노출되지 않았습니다.
로컬 배포에는 상당한 GPU 메모리가 필요합니다. Plus 변형(30B MoE)은 편안한 추론을 위해 최소 40GB의 VRAM이 필요합니다. Flash 및 Light 변형은 접근성이 더 좋습니다.
자주 묻는 질문
Qwen3.5-Omni는 Qwen2.5-Omni와 어떻게 다른가요?
Qwen2.5-Omni는 7B 및 3B 밀집 모델 크기를 지원했으며 음성에 19개 언어를 지원했습니다. Qwen3.5-Omni는 MoE 아키텍처를 사용하고 음성 인식을 113개 언어로 확장하며, 음성 복제 기능을 추가하고 더 나은 오디오 품질을 위해 ARIA를 도입했습니다. 벤치마크 성능과 컨텍스트 창도 크게 증가했습니다.
Qwen3.5-Omni를 로컬에서 실행할 수 있나요?
예, HuggingFace Transformers 또는 vLLM을 통해 가능합니다. Plus 변형은 40GB 이상의 VRAM이 필요합니다. Flash 및 Light 변형은 더 작은 GPU에서 실행됩니다. vLLM은 MoE 최적화로 인해 프로덕션 로컬 배포에 더 나은 선택입니다.
무료 티어가 있나요?
qwen.ai 웹 인터페이스는 무료로 사용할 수 있습니다. DashScope를 통한 API 액세스는 유료입니다. 모달리티별 가격(오디오 토큰, 비디오 프레임, 텍스트 토큰)은 DashScope 가격 책정 문서에서 확인할 수 있습니다.
실시간 스트리밍을 지원하나요?
예. Thinker-Talker 아키텍처는 스트리밍 청크 방식으로 오디오를 출력하므로, 전체 응답이 생성되기 전에 첫 번째 오디오 바이트가 도착합니다. 이것이 실시간 음성 대화를 자연스럽게 느끼게 하는 요소입니다.
Plus, Flash, Light의 차이점은 무엇인가요?
Plus는 최고 품질로, 속도보다 정확성이 중요한 작업에 가장 적합합니다. Flash는 대부분의 프로덕션 API를 위한 균형 잡힌 옵션입니다. Light는 가장 빠르며, 모바일 또는 엣지 추론과 같은 지연 시간에 민감한 애플리케이션을 위한 것입니다.
API로 내 목소리를 사용할 수 있나요?
예, API의 음성 복제 기능을 통해 가능합니다. 대상 음성의 오디오 샘플을 업로드하면 모델이 이를 음성 출력에 사용합니다. 이 기능은 아직 웹 인터페이스를 통해 사용할 수 없습니다.
음성 생성 면에서 ElevenLabs와 어떻게 비교되나요?
Alibaba의 20개 언어 벤치마크에서 Qwen3.5-Omni Plus는 다국어 음성 안정성에서 ElevenLabs를 능가합니다. ElevenLabs는 더 긴 실적과 제품 내에서 더 많은 음성 맞춤화 옵션을 제공합니다. 음성 전용 기능이 필요하다면 ElevenLabs와 비교해 볼 가치가 여전히 있습니다. 통합 다중 모달 모델이 필요하다면 Qwen3.5-Omni가 더 깔끔한 선택입니다.
민감한 오디오 또는 비디오 데이터를 API를 통해 전송하는 것이 안전한가요?
민감한 콘텐츠를 전송하기 전에 Alibaba Cloud의 데이터 처리 계약을 검토하십시오. 다른 클라우드 API와 마찬가지로, 계약에서 명시적으로 다른 것을 보장하지 않는 한 데이터가 기록될 수 있다고 가정하십시오.
