Qwen3.5-Omni Ra Mắt: AI Đa Phương Thức của Alibaba Vượt Mặt Gemini về Âm Thanh

Ashley Innocent

Ashley Innocent

31 tháng 3 2026

Qwen3.5-Omni Ra Mắt: AI Đa Phương Thức của Alibaba Vượt Mặt Gemini về Âm Thanh

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

Tóm tắt

Alibaba đã phát hành Qwen3.5-Omni vào ngày 30 tháng 3 năm 2026. Mô hình này xử lý văn bản, hình ảnh, âm thanh và video trong một mô hình duy nhất và xuất ra cả văn bản lẫn lời nói theo thời gian thực. Nó vượt trội hơn Gemini 3.1 Pro trong các điểm kiểm chuẩn hiểu và suy luận âm thanh tổng quát, hỗ trợ 113 ngôn ngữ cho nhận dạng giọng nói, và bao gồm tính năng nhân bản giọng nói. Ba biến thể có sẵn: Plus, Flash và Light.

Một mô hình cho mọi thứ

Hầu hết các quy trình làm việc AI ngày nay đều liên quan đến việc ghép nối các mô hình riêng biệt: một mô hình cho chuyển giọng nói thành văn bản, một mô hình khác cho thị giác, một mô hình khác cho tạo văn bản và một mô hình khác cho chuyển văn bản thành giọng nói. Mỗi lần chuyển giao đều làm tăng độ trễ, chi phí và các điểm lỗi.

Qwen3.5-Omni gộp tất cả lại. Nó nhận văn bản, hình ảnh, âm thanh và video làm đầu vào và trả về văn bản hoặc lời nói làm đầu ra, tất cả chỉ trong một lần gọi suy luận mô hình duy nhất. Cửa sổ ngữ cảnh giữ 256.000 token, bao gồm hơn 10 giờ âm thanh hoặc khoảng 400 giây video 720p có âm thanh.

Alibaba đã đào tạo mô hình này trên hơn 100 triệu giờ dữ liệu âm thanh-hình ảnh gốc. Kết quả là một mô hình không chỉ xử lý nhiều phương thức mà còn suy luận trên chúng cùng một lúc.

Nếu bạn đang xây dựng các ứng dụng liên quan đến bất kỳ sự kết hợp nào của giọng nói, video, hình ảnh và văn bản, điều này sẽ thay đổi những gì có thể thực hiện ở cấp độ API.

Có gì khác biệt so với Qwen3-Omni

Thế hệ trước, Qwen3-Omni Flash, ra mắt vào tháng 12 năm 2025 với độ trễ phản hồi 234ms. Qwen3.5-Omni là bản phát hành đầy đủ tiếp theo. Dưới đây là những thay đổi:

Phạm vi ngôn ngữ được mở rộng đáng kể

Nhận dạng giọng nói trong Qwen3-Omni bao gồm 19 ngôn ngữ. Qwen3.5-Omni bao gồm 113 ngôn ngữ và phương ngữ. Tạo giọng nói tăng từ 10 lên 36 ngôn ngữ. Đây không phải là một sự gia tăng nhỏ; đó là sự khác biệt giữa một mô hình hoạt động cho thị trường phương Tây và một mô hình hoạt động trên toàn cầu.

Tính năng nhân bản giọng nói nay đã được tích hợp

Bạn có thể tải lên một mẫu giọng nói và mô hình sẽ phản hồi bằng giọng nói đó. Ở thế hệ trước, tính năng này không có sẵn. Trong Qwen3.5-Omni Plus và Flash, tính năng nhân bản giọng nói có thể truy cập qua API. Mô hình khớp với nhận dạng người nói đủ tốt để duy trì một giọng nói nhất quán trong các cuộc trò chuyện dài.

Công nghệ ARIA loại bỏ hiện tượng méo tiếng

Các con số và từ ngữ bất thường (tên sản phẩm, thuật ngữ kỹ thuật, danh từ riêng) theo lịch sử thường bị méo tiếng trong các hệ thống TTS thần kinh. ARIA, lớp đồng bộ hóa văn bản-giọng nói động của Qwen, giải quyết cụ thể vấn đề này. Nó đọc trước bộ đệm văn bản và điều chỉnh việc tạo âm vị trước khi xuất âm thanh, vì vậy "IPv6", "$249.99" và "Qwen3.5-Omni" đều được phát âm chính xác.

Ngắt lời ngữ nghĩa hoạt động theo cách con người mong đợi

Khi bạn nói "ừm" trong lúc phản hồi bằng giọng nói, bạn muốn mô hình tiếp tục nói. Khi bạn nói "đợi đã, dừng lại," bạn muốn nó dừng. Các hệ thống AI giọng nói trước đây coi bất kỳ đầu vào âm thanh nào là lệnh ngắt lời. Qwen3.5-Omni phân biệt giữa các kênh phản hồi (xác nhận) và các ngắt lời thực sự, làm cho các cuộc trò chuyện bằng giọng nói trở nên tự nhiên hơn.

Tìm kiếm web theo thời gian thực được tích hợp

Mô hình có thể truy vấn web trong quá trình suy luận và tích hợp kết quả trực tiếp vào phản hồi của nó. Bạn không cần phải tìm nạp ngữ cảnh trước và chèn vào lời nhắc; mô hình tự xử lý việc truy xuất khi cần.

Mã hóa cảm nhận qua âm thanh-hình ảnh

Ghi lại màn hình giờ đây có chức năng như một đầu vào mã hóa. Ghi lại màn hình của bạn, chuyển video cho mô hình và yêu cầu nó sao chép hoặc cải thiện những gì nó thấy. Nó tạo ra mã hoạt động từ ngữ cảnh hình ảnh. Đây là tính năng đa phương thức tương đương với tính năng tạo mã theo ngữ cảnh của Cursor, ngoại trừ đầu vào là video.

Kết quả kiểm chuẩn

Trên 36 điểm kiểm chuẩn âm thanh và âm thanh-hình ảnh:

Cụ thể về chất lượng tạo giọng nói, nó đánh bại ElevenLabs, GPT-Audio và Minimax về độ ổn định giọng nói đa ngôn ngữ trên 20 ngôn ngữ. Đó là một so sánh có ý nghĩa: ElevenLabs là một công ty AI giọng nói chuyên dụng với nhiều năm tập trung vào vấn đề này.


Các biến thể mô hình

Alibaba cung cấp ba phiên bản:

Biến thể Tốt nhất cho
Qwen3.5-Omni Plus Chất lượng tối đa; suy luận âm thanh-hình ảnh, nhân bản giọng nói, các tác vụ ngữ cảnh dài
Qwen3.5-Omni Flash Cân bằng tốc độ và chất lượng; trò chuyện thoại thời gian thực, API sản xuất
Qwen3.5-Omni Light Các tác vụ độ trễ thấp; kịch bản di động và biên

Cả ba đều xử lý toàn bộ chồng phương thức đầu vào (văn bản, hình ảnh, âm thanh, video). Sự khác biệt nằm ở chất lượng đầu ra, độ trễ và chi phí. Plus là mô hình dẫn đầu về kiểm chuẩn; Flash là lựa chọn mà hầu hết các ứng dụng sản xuất nên bắt đầu.

Cửa sổ ngữ cảnh 256K token

256K token là giới hạn đầu vào. Điều đó có nghĩa là gì trong thực tế?

Đối với hầu hết các trường hợp sử dụng đa phương thức, 256K là đủ để bạn không cần phải chia nhỏ đầu vào. Một bản ghi cuộc họp dài 30 phút, một video trình diễn sản phẩm đầy đủ hoặc một cuộc gọi hỗ trợ khách hàng dài đều phù hợp trong một yêu cầu duy nhất.

So sánh điều này với ngữ cảnh 128K của GPT-4o hoặc ngữ cảnh 1M của Gemini 2.5 Pro. Qwen3.5-Omni nhỏ hơn giới hạn của Gemini, nhưng hiệu suất âm thanh-hình ảnh của nó trên các kiểm chuẩn bù đ đắp cho sự khác biệt đó trong hầu hết các tác vụ thực tế.


Nhận dạng giọng nói 113 ngôn ngữ

Sự nhảy vọt từ 19 lên 113 ngôn ngữ trong nhận dạng giọng nói không chỉ là một con số tiếp thị. Nó có ý nghĩa đối với ba loại ứng dụng:

Hỗ trợ khách hàng cho các sản phẩm toàn cầu. Nếu người dùng của bạn nói tiếng Thái, tiếng Bengali, tiếng Swahili hoặc tiếng Phần Lan, giờ đây bạn có một mô hình duy nhất có thể xử lý đầu vào giọng nói của họ mà không cần phải thông qua một đường dẫn ASR riêng biệt.

Xử lý nội dung đa ngôn ngữ. Podcast, video và phỏng vấn bằng các ngôn ngữ không phải tiếng Anh có thể được phiên âm, dịch và tóm tắt trong một cuộc gọi.

Chuyển đổi ngôn ngữ giữa cuộc trò chuyện. Người nói song ngữ thường chuyển đổi ngôn ngữ giữa câu. Qwen3.5-Omni xử lý điều này một cách tự nhiên. Một cuộc trò chuyện chuyển đổi giữa tiếng Anh và tiếng Tây Ban Nha không làm rối mô hình hoặc làm giảm độ chính xác nhận dạng.

Kiến trúc: Thinker-Talker với MoE

Mô hình sử dụng kiến trúc Thinker-Talker. Thành phần Thinker xử lý đầu vào đa phương thức và tạo ra các token suy luận. Thành phần Talker chuyển đổi các token đó thành lời nói tự nhiên theo thời gian thực bằng cách sử dụng phương pháp đa codebook giúp giảm thiểu độ trễ.

Bên dưới, biến thể Plus sử dụng Mixture of Experts (MoE), có nghĩa là chỉ một tập hợp con các tham số mô hình được kích hoạt cho mỗi token. Điều này giúp suy luận nhanh và hiệu quả bộ nhớ so với một mô hình dày đặc có chất lượng tương đương.

Để triển khai cục bộ, vLLM là máy chủ suy luận được khuyến nghị vì cách nó xử lý định tuyến MoE. HuggingFace Transformers hoạt động nhưng chậm hơn trên các kiến trúc MoE.

Vai trò của Apidog

Nếu bạn đang đánh giá xem có nên xây dựng trên API của Qwen3.5-Omni hay không, bạn sẽ gửi các yêu cầu đa phương thức: các thân JSON với âm thanh được mã hóa base64, URL hình ảnh, tham chiếu video và văn bản đều trộn lẫn với nhau.

Việc gỡ lỗi các yêu cầu đó mà không có một máy khách API phù hợp sẽ trở nên khó khăn nhanh chóng. Apidog xử lý tốt điều này. Bạn có thể xây dựng và lưu các mẫu yêu cầu Qwen3.5-Omni của mình, đặt các biến môi trường cho khóa API của bạn và viết các bài kiểm tra tự động xác minh cấu trúc và nội dung phản hồi.

Đối với các nhóm đánh giá ba biến thể mô hình, Apidog giúp dễ dàng chạy cùng một yêu cầu đối với Plus, Flash và Light và so sánh độ trễ và chất lượng đầu ra song song.

Tải Apidog miễn phí để bắt đầu kiểm tra các yêu cầu API đa phương thức.

button

Đối tượng sử dụng

Qwen3.5-Omni rất đáng để đánh giá nếu bạn đang xây dựng:

Trợ lý giọng nói. Đầu vào giọng nói thời gian thực, đầu ra giọng nói, với bộ nhớ cuộc trò chuyện và truy xuất web. Các tính năng ngắt lời ngữ nghĩa và ARIA giải quyết hai trong số những vấn đề khó khăn nhất trong trải nghiệm người dùng giọng nói.

Công cụ phân tích video. Tóm tắt video tự động, phiên âm cuộc họp, tạo hướng dẫn từ các bản ghi màn hình. Cửa sổ ngữ cảnh 256K có nghĩa là bạn có thể đưa vào các bản ghi dài mà không cần chia nhỏ.

Sản phẩm khách hàng đa ngôn ngữ. ASR 113 ngôn ngữ và TTS 36 ngôn ngữ trong một mô hình. Không cần nhà cung cấp riêng cho mỗi cấp độ ngôn ngữ.

Công cụ hỗ trợ tiếp cận. Tạo văn bản thay thế cho hình ảnh, mô tả âm thanh cho nội dung video, tạo phụ đề thời gian thực với hỗ trợ ngôn ngữ cho các ngôn ngữ ít được hỗ trợ.

Công cụ năng suất dành cho nhà phát triển. Mã hóa cảm nhận âm thanh-hình ảnh biến bản ghi màn hình thành mã hoạt động. Đó là một phương thức đầu vào mới cho các trợ lý mã.

Truy cập

Qwen3.5-Omni có sẵn thông qua:

API tuân theo mô hình xác thực tiêu chuẩn của Alibaba Cloud. Bạn sẽ cần một khóa API DashScope. Xem tài liệu DashScope để biết chi tiết điểm cuối và giá cả cho từng phương thức.

Những điều cần lưu ý

Qwen3.5-Omni mạnh về kiểm chuẩn âm thanh. Việc những cải thiện kiểm chuẩn đó có chuyển thành chất lượng thực tế trong trường hợp sử dụng cụ thể của bạn hay không rất đáng để kiểm tra trực tiếp. Kiểm chuẩn đo lường hiệu suất tổng hợp trên các bộ thử nghiệm được tuyển chọn; chúng không dự đoán cách mô hình xử lý từ vựng miền của bạn, giọng điệu của người dùng hoặc định dạng video của bạn.

Tính năng nhân bản giọng nói hiện chỉ có sẵn qua API. Giao diện web qwen.ai vẫn chưa công khai tính năng này.

Triển khai cục bộ yêu cầu bộ nhớ GPU đáng kể. Biến thể Plus (30B MoE) cần ít nhất 40GB VRAM để suy luận thoải mái. Các biến thể Flash và Light dễ tiếp cận hơn.

Câu hỏi thường gặp

Qwen3.5-Omni khác gì so với Qwen2.5-Omni?

Qwen2.5-Omni hỗ trợ các kích thước mô hình dày đặc 7B và 3B với 19 ngôn ngữ cho giọng nói. Qwen3.5-Omni sử dụng kiến trúc MoE, mở rộng nhận dạng giọng nói lên 113 ngôn ngữ, bổ sung tính năng nhân bản giọng nói và giới thiệu ARIA để có chất lượng âm thanh tốt hơn. Hiệu suất kiểm chuẩn và cửa sổ ngữ cảnh cũng tăng đáng kể.

Tôi có thể chạy Qwen3.5-Omni cục bộ không?

Có, thông qua HuggingFace Transformers hoặc vLLM. Biến thể Plus cần 40GB+ VRAM. Các biến thể Flash và Light chạy trên các GPU nhỏ hơn. vLLM là lựa chọn tốt hơn để triển khai cục bộ trong sản xuất vì tối ưu hóa MoE.

Có gói miễn phí không?

Giao diện web qwen.ai miễn phí sử dụng. Truy cập API qua DashScope là có trả phí. Giá cho mỗi phương thức (token âm thanh, khung video, token văn bản) có sẵn trong tài liệu giá DashScope.

Nó có hỗ trợ phát trực tuyến theo thời gian thực không?

Có. Kiến trúc Thinker-Talker xuất âm thanh theo cách truyền từng khối (chunked) theo thời gian thực, vì vậy các byte âm thanh đầu tiên đến trước khi toàn bộ phản hồi được tạo. Đây là điều làm cho cuộc trò chuyện thoại trực tiếp trở nên tự nhiên.

Sự khác biệt giữa Plus, Flash và Light là gì?

Plus có chất lượng cao nhất, tốt nhất cho các tác vụ mà độ chính xác quan trọng hơn tốc độ. Flash là lựa chọn cân bằng cho hầu hết các API sản xuất. Light là nhanh nhất, dành cho các ứng dụng nhạy cảm về độ trễ như suy luận di động hoặc biên.

Tôi có thể sử dụng giọng nói của mình với API không?

Có, thông qua tính năng nhân bản giọng nói trên API. Bạn tải lên một mẫu âm thanh của giọng nói mục tiêu, và mô hình sẽ sử dụng nó để xuất giọng nói. Tính năng này vẫn chưa có sẵn qua giao diện web.

Nó so sánh thế nào với ElevenLabs về tạo giọng nói?

Trên các kiểm chuẩn của Alibaba trên 20 ngôn ngữ, Qwen3.5-Omni Plus vượt trội hơn ElevenLabs về độ ổn định giọng nói đa ngôn ngữ. ElevenLabs có lịch sử lâu hơn và nhiều tùy chọn tùy chỉnh giọng nói hơn trong sản phẩm của mình. Nếu bạn chỉ cần khả năng liên quan đến giọng nói, ElevenLabs vẫn đáng để so sánh. Nếu bạn cần một mô hình đa phương thức tích hợp, Qwen3.5-Omni là lựa chọn rõ ràng hơn.

Có an toàn khi gửi dữ liệu âm thanh hoặc video nhạy cảm qua API không?

Xem lại thỏa thuận xử lý dữ liệu của Alibaba Cloud trước khi gửi nội dung nhạy cảm. Như với bất kỳ API đám mây nào, hãy giả định rằng dữ liệu có thể được ghi lại trừ khi thỏa thuận đảm bảo rõ ràng điều ngược lại.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API