สรุป
Alibaba ได้เปิดตัว Qwen3.5-Omni เมื่อวันที่ 30 มีนาคม 2026 โดยประมวลผลข้อความ, รูปภาพ, เสียง และวิดีโอในโมเดลเดียว และส่งออกทั้งข้อความและเสียงแบบเรียลไทม์ โมเดลนี้มีประสิทธิภาพเหนือกว่า Gemini 3.1 Pro ในการทำความเข้าใจเสียงทั่วไปและการให้เหตุผลตามเกณฑ์มาตรฐาน รองรับ 113 ภาษาสำหรับการรู้จำเสียงพูด และมีฟังก์ชันการโคลนเสียง มีให้เลือกสามรุ่น ได้แก่ Plus, Flash และ Light
โมเดลเดียวสำหรับทุกสิ่ง
เวิร์กโฟลว์ AI ส่วนใหญ่ในปัจจุบันเกี่ยวข้องกับการนำโมเดลแยกกันมาเชื่อมต่อกัน: โมเดลหนึ่งสำหรับแปลงเสียงเป็นข้อความ, อีกโมเดลสำหรับวิสัยทัศน์, อีกโมเดลสำหรับสร้างข้อความ และอีกโมเดลสำหรับแปลงข้อความเป็นเสียง การส่งผ่านข้อมูลแต่ละครั้งจะเพิ่มความหน่วง, ค่าใช้จ่าย และจุดที่อาจเกิดข้อผิดพลาด
Qwen3.5-Omni รวมระบบเหล่านั้นเข้าด้วยกัน โดยรับข้อความ, รูปภาพ, เสียง และวิดีโอเป็นข้อมูลนำเข้า และส่งออกเป็นข้อความหรือเสียง ทั้งหมดนี้อยู่ภายในการเรียกใช้โมเดลเพียงครั้งเดียว หน้าต่างบริบท (context window) รองรับ 256,000 โทเค็น ซึ่งครอบคลุมเสียงได้นานกว่า 10 ชั่วโมง หรือวิดีโอ 720p พร้อมเสียงประมาณ 400 วินาที
อาลีบาบาฝึกฝนโมเดลนี้ด้วยข้อมูลภาพและเสียงธรรมชาติกว่า 100 ล้านชั่วโมง ผลลัพธ์ที่ได้คือโมเดลที่ไม่เพียงจัดการข้อมูลหลายรูปแบบ (multimodal) ได้เท่านั้น แต่ยังสามารถใช้เหตุผลข้ามรูปแบบข้อมูลเหล่านั้นได้พร้อมกันอีกด้วย
หากคุณกำลังสร้างแอปที่เกี่ยวข้องกับการผสมผสานระหว่างเสียง, วิดีโอ, รูปภาพ และข้อความ โมเดลนี้จะเปลี่ยนความเป็นไปได้ในระดับ API
สิ่งที่เปลี่ยนไปจาก Qwen3-Omni
รุ่นก่อนหน้า Qwen3-Omni Flash เปิดตัวในเดือนธันวาคม 2025 โดยมีความหน่วงในการตอบสนอง 234 มิลลิวินาที Qwen3.5-Omni เป็นเวอร์ชันเต็มถัดไป นี่คือสิ่งที่เปลี่ยนไป:

การรองรับภาษาขยายตัวอย่างมีนัยสำคัญ
การรู้จำเสียงพูดใน Qwen3-Omni รองรับ 19 ภาษา Qwen3.5-Omni รองรับ 113 ภาษาและภาษาถิ่น การสร้างเสียงพูดเพิ่มขึ้นจาก 10 ภาษาเป็น 36 ภาษา นี่ไม่ใช่การเพิ่มขึ้นเล็กน้อย แต่เป็นความแตกต่างระหว่างโมเดลที่ใช้งานได้ในตลาดตะวันตกกับโมเดลที่ใช้งานได้ทั่วโลก
การโคลนเสียงถูกรวมเข้าเป็นคุณสมบัติหลักแล้ว
คุณสามารถอัปโหลดตัวอย่างเสียง และให้โมเดลตอบกลับด้วยเสียงนั้นได้ ในรุ่นก่อนหน้านี้ ฟังก์ชันนี้ยังไม่มี ใน Qwen3.5-Omni Plus และ Flash การโคลนเสียงสามารถเข้าถึงได้ผ่าน API โมเดลสามารถจับคู่เอกลักษณ์ของเสียงผู้พูดได้ดีพอที่จะคงบุคลิกเสียงที่สอดคล้องกันตลอดการสนทนาที่ยาวนาน
เทคโนโลยี ARIA ช่วยขจัดปัญหาเสียงผิดเพี้ยน
ตัวเลขและคำที่ไม่ปกติ (ชื่อผลิตภัณฑ์, ศัพท์เทคนิค, คำนามเฉพาะ) มักจะมีการออกเสียงที่ผิดเพี้ยนในระบบ TTS แบบโครงข่ายประสาทเทียม ARIA ซึ่งเป็นเลเยอร์การซิงโครไนซ์ข้อความเป็นเสียงแบบไดนามิกของ Qwen ได้รับการออกแบบมาเพื่อแก้ไขปัญหานี้โดยเฉพาะ โดยจะอ่านข้อมูลล่วงหน้าในบัฟเฟอร์ข้อความและปรับการสร้างหน่วยเสียงก่อนที่จะส่งออกเสียง ทำให้ "IPv6," "$249.99" และ "Qwen3.5-Omni" ถูกเปล่งออกมาอย่างถูกต้อง
การขัดจังหวะเชิงความหมายทำงานได้ตามที่มนุษย์คาดหวัง
เมื่อคุณพูดว่า "อืม" ระหว่างการตอบกลับด้วยเสียง คุณต้องการให้โมเดลพูดต่อไป เมื่อคุณพูดว่า "เดี๋ยว, หยุด" คุณต้องการให้มันหยุด ระบบ AI เสียงรุ่นก่อนหน้านี้ถือว่าการป้อนข้อมูลเสียงใดๆ เป็นคำสั่งขัดจังหวะ Qwen3.5-Omni แยกแยะระหว่าง Backchannels (การตอบรับ) และการขัดจังหวะจริง ทำให้การสนทนาด้วยเสียงเป็นธรรมชาติมากขึ้น
การค้นหาข้อมูลบนเว็บแบบเรียลไทม์ถูกรวมเข้าด้วยกันแล้ว
โมเดลสามารถสอบถามข้อมูลจากเว็บในระหว่างการอนุมาน (inference) และนำผลลัพธ์แบบเรียลไทม์มารวมไว้ในการตอบสนอง คุณไม่จำเป็นต้องดึงบริบทมาก่อนแล้วฉีดเข้าไปในพร้อมต์ โมเดลจะจัดการการเรียกค้นข้อมูลเองเมื่อจำเป็น
การเขียนโค้ดจากภาพและเสียง (Audio-Visual Vibe Coding)
การบันทึกหน้าจอสามารถใช้เป็นข้อมูลนำเข้าสำหรับการเขียนโค้ดได้แล้ว บันทึกหน้าจอของคุณ ส่งวิดีโอให้โมเดล และขอให้มันทำซ้ำหรือปรับปรุงสิ่งที่เห็น มันสร้างโค้ดที่ใช้งานได้จากบริบททางภาพ นี่คือการสร้างโค้ดที่คำนึงถึงบริบทแบบหลายรูปแบบ (multimodal) ที่เทียบเท่ากับ Cursor แต่ข้อมูลนำเข้าเป็นวิดีโอ
ผลลัพธ์การทดสอบประสิทธิภาพ
จากการทดสอบประสิทธิภาพด้านเสียงและภาพ-เสียง 36 รายการ:
- Qwen3.5-Omni มีประสิทธิภาพเทียบเท่าระดับสูงสุด (state-of-the-art) ใน 32 จาก 36 รายการ
- สร้างสถิติใหม่ใน 22 จาก 36 รายการ
- มีประสิทธิภาพเหนือกว่า Gemini 3.1 Pro ในการทำความเข้าใจเสียงทั่วไป, การให้เหตุผล และการแปล
- มีประสิทธิภาพเทียบเท่า Gemini 3.1 Pro ในการทำความเข้าใจภาพ-เสียง
โดยเฉพาะอย่างยิ่งสำหรับคุณภาพการสร้างเสียงพูด โมเดลนี้เอาชนะ ElevenLabs, GPT-Audio และ Minimax ในด้านความเสถียรของเสียงพูดหลายภาษาใน 20 ภาษา นี่เป็นการเปรียบเทียบที่มีความหมาย: ElevenLabs เป็นบริษัท AI ด้านเสียงโดยเฉพาะที่มุ่งเน้นปัญหานี้มานานหลายปี
รุ่นของโมเดล
อาลีบาบานำเสนอสามเวอร์ชัน:
| รุ่น | เหมาะที่สุดสำหรับ |
|---|---|
| Qwen3.5-Omni Plus | คุณภาพสูงสุด; การให้เหตุผลด้านภาพและเสียง, การโคลนเสียง, งานที่ต้องใช้บริบทขนาดยาว |
| Qwen3.5-Omni Flash | ความเร็วและคุณภาพที่สมดุล; การสนทนาด้วยเสียงแบบเรียลไทม์, API สำหรับการใช้งานจริง |
| Qwen3.5-Omni Light | งานที่ต้องการความหน่วงต่ำ; สถานการณ์บนมือถือและ Edge |
ทั้งสามรุ่นสามารถจัดการข้อมูลนำเข้าหลายรูปแบบได้อย่างเต็มที่ (ข้อความ, รูปภาพ, เสียง, วิดีโอ) ความแตกต่างอยู่ที่คุณภาพของผลลัพธ์, ความหน่วง และค่าใช้จ่าย Plus เป็นผู้นำด้านประสิทธิภาพตามเกณฑ์มาตรฐาน ส่วน Flash เป็นรุ่นที่แอปพลิเคชันเชิงพาณิชย์ส่วนใหญ่ควรเริ่มต้นใช้งาน
หน้าต่างบริบท 256,000 โทเค็น
256,000 โทเค็นคือขีดจำกัดของข้อมูลนำเข้า ในทางปฏิบัติแล้ว นั่นหมายถึงอะไร?
- เสียง: เสียงพูดต่อเนื่องนานกว่า 10 ชั่วโมง
- วิดีโอ: วิดีโอ 720p พร้อมเสียงประมาณ 400 วินาที
- ข้อความ: ประมาณ 190,000 คำ หรือเอกสารความยาวเท่าหนังสือนิยาย
สำหรับกรณีการใช้งานแบบหลายรูปแบบส่วนใหญ่ 256K ก็เพียงพอแล้วที่คุณไม่จำเป็นต้องแบ่งข้อมูลนำเข้าเป็นส่วนย่อยๆ การบันทึกการประชุม 30 นาที, วิดีโอสาธิตผลิตภัณฑ์เต็มรูปแบบ หรือการโทรสนับสนุนลูกค้าที่ยาวนาน ล้วนสามารถใส่ลงในการร้องขอเดียวได้
เปรียบเทียบกับบริบท 128K ของ GPT-4o หรือบริบท 1M ของ Gemini 2.5 Pro Qwen3.5-Omni มีขนาดเล็กกว่าขีดจำกัดของ Gemini แต่ประสิทธิภาพด้านภาพและเสียงในการทดสอบมาตรฐานช่วยชดเชยความแตกต่างนั้นในงานจริงส่วนใหญ่
การรู้จำเสียงพูด 113 ภาษา
การเพิ่มขึ้นของการรู้จำเสียงพูดจาก 19 เป็น 113 ภาษาไม่ใช่แค่ตัวเลขทางการตลาด แต่มันมีความสำคัญต่อแอปพลิเคชันสามประเภท:
การสนับสนุนลูกค้าสำหรับผลิตภัณฑ์ระดับโลก หากผู้ใช้ของคุณพูดภาษาไทย, เบงกาลี, สวาฮีลี หรือฟินแลนด์ ตอนนี้คุณมีโมเดลเดียวที่สามารถจัดการข้อมูลเสียงของพวกเขาได้โดยไม่ต้องผ่านไปป์ไลน์ ASR แยกต่างหาก
การประมวลผลเนื้อหาหลายภาษา พอดแคสต์, วิดีโอ และบทสัมภาษณ์ในภาษาที่ไม่ใช่ภาษาอังกฤษสามารถถอดความ, แปล และสรุปได้ในการเรียกใช้ครั้งเดียว
การสลับภาษากลางบทสนทนา ผู้พูดสองภาษามักจะสลับภาษากลางประโยค Qwen3.5-Omni จัดการสิ่งนี้ได้ในตัว การสนทนาที่สลับไปมาระหว่างภาษาอังกฤษและสเปนจะไม่ทำให้โมเดลสับสนหรือลดความแม่นยำในการรู้จำ
สถาปัตยกรรม: Thinker-Talker พร้อม MoE
โมเดลนี้ใช้สถาปัตยกรรมแบบ Thinker-Talker ส่วนประกอบ Thinker ประมวลผลข้อมูลนำเข้าหลายรูปแบบและสร้างโทเค็นสำหรับการให้เหตุผล ส่วนประกอบ Talker แปลงโทเค็นเหล่านั้นให้เป็นเสียงพูดธรรมชาติแบบเรียลไทม์ โดยใช้วิธีการแบบ multi-codebook ที่ช่วยลดความหน่วง

ภายใต้พื้นผิว รุ่น Plus ใช้เทคโนโลยี Mixture of Experts (MoE) ซึ่งหมายความว่ามีเพียงส่วนย่อยของพารามิเตอร์โมเดลเท่านั้นที่ทำงานต่อโทเค็น สิ่งนี้ช่วยให้การอนุมานรวดเร็วและใช้หน่วยความจำได้อย่างมีประสิทธิภาพเมื่อเทียบกับโมเดลแบบหนาแน่นที่มีคุณภาพเทียบเท่ากัน
สำหรับการปรับใช้ในเครื่อง vLLM เป็นเซิร์ฟเวอร์อนุมานที่แนะนำเนื่องจากวิธีการจัดการการกำหนดเส้นทาง MoE HuggingFace Transformers ใช้งานได้แต่จะช้ากว่าในสถาปัตยกรรม MoE
Apidog เข้ามามีบทบาทอย่างไร
หากคุณกำลังประเมินว่าจะพัฒนาต่อยอดบน API ของ Qwen3.5-Omni หรือไม่ คุณจะต้องส่งคำขอแบบหลายรูปแบบ: เนื้อหา JSON ที่มีเสียงที่เข้ารหัสแบบ base64, URL รูปภาพ, การอ้างอิงวิดีโอ และข้อความผสมกันทั้งหมด

การแก้ไขข้อผิดพลาดของคำขอเหล่านั้นโดยไม่มีไคลเอ็นต์ API ที่เหมาะสมจะกลายเป็นเรื่องยุ่งยากอย่างรวดเร็ว Apidog จัดการสิ่งนี้ได้ดี คุณสามารถสร้างและบันทึกเทมเพลตคำขอ Qwen3.5-Omni, ตั้งค่าตัวแปรสภาพแวดล้อมสำหรับ API keys ของคุณ และเขียนการทดสอบอัตโนมัติที่ตรวจสอบโครงสร้างและเนื้อหาของการตอบสนอง
สำหรับทีมที่กำลังประเมินโมเดลสามรุ่น Apidog ช่วยให้การเรียกใช้คำขอเดียวกันกับ Plus, Flash และ Light ทำได้ง่าย และเปรียบเทียบความหน่วงและคุณภาพผลลัพธ์ได้อย่างชัดเจน
ดาวน์โหลด Apidog ฟรีเพื่อเริ่มทดสอบคำขอ API แบบหลายรูปแบบ
เหมาะสำหรับใคร
Qwen3.5-Omni เหมาะสมที่จะพิจารณาหากคุณกำลังสร้าง:
ผู้ช่วยเสียง รับเสียงเข้า, ส่งเสียงออก แบบเรียลไทม์ พร้อมหน่วยความจำการสนทนาและการเรียกค้นข้อมูลจากเว็บ คุณสมบัติการขัดจังหวะเชิงความหมายและ ARIA ช่วยแก้ปัญหายากที่สุดสองประการในประสบการณ์ผู้ใช้ด้านเสียง
เครื่องมือวิเคราะห์วิดีโอ การสรุปวิดีโออัตโนมัติ, การถอดเสียงการประชุม, การสร้างบทช่วยสอนจากการบันทึกหน้าจอ หน้าต่างบริบท 256K หมายความว่าคุณสามารถส่งการบันทึกที่ยาวนานได้โดยไม่ต้องแบ่งเป็นส่วนย่อย
ผลิตภัณฑ์ลูกค้าหลายภาษา ASR 113 ภาษาและ TTS 36 ภาษาในโมเดลเดียว ไม่ต้องใช้ผู้ให้บริการแยกสำหรับแต่ละระดับภาษา
เครื่องมืออำนวยความสะดวกในการเข้าถึง การสร้างข้อความ Alt สำหรับรูปภาพ, คำอธิบายเสียงสำหรับเนื้อหาวิดีโอ, การสร้างคำบรรยายภาพแบบเรียลไทม์พร้อมการรองรับภาษาสำหรับภาษาที่เข้าถึงทรัพยากรยาก
เครื่องมือเพิ่มประสิทธิภาพสำหรับนักพัฒนา การเขียนโค้ดจากภาพและเสียง (Audio-Visual Vibe Coding) เปลี่ยนการบันทึกหน้าจอให้เป็นโค้ดที่ใช้งานได้ นั่นคือรูปแบบการป้อนข้อมูลใหม่สำหรับผู้ช่วยเขียนโค้ด
การเข้าถึง
Qwen3.5-Omni สามารถเข้าถึงได้ผ่าน:
- Alibaba Cloud DashScope API (การเข้าถึง API สำหรับการใช้งานจริง)
- qwen.ai (เว็บอินเทอร์เฟซสำหรับการทดสอบ)
- HuggingFace Hub (น้ำหนักโมเดลสำหรับการปรับใช้ในเครื่อง)
- ModelScope (แนะนำสำหรับผู้ใช้ในจีนแผ่นดินใหญ่)
API นี้ใช้โมเดลการยืนยันตัวตนมาตรฐานของ Alibaba Cloud คุณจะต้องมี DashScope API key ดู เอกสาร DashScope สำหรับรายละเอียดของ Endpoint และราคาต่อรูปแบบข้อมูล
สิ่งที่ควรพิจารณา
Qwen3.5-Omni มีประสิทธิภาพโดดเด่นในการทดสอบมาตรฐานด้านเสียง การที่ประสิทธิภาพที่เพิ่มขึ้นจากการทดสอบมาตรฐานเหล่านั้นจะแปลงเป็นคุณภาพจริงในการใช้งานเฉพาะของคุณหรือไม่นั้น ควรทดสอบโดยตรง การทดสอบมาตรฐานวัดประสิทธิภาพโดยรวมจากชุดข้อมูลทดสอบที่คัดสรรมาแล้ว แต่ไม่ได้คาดการณ์ว่าโมเดลจะจัดการกับคำศัพท์เฉพาะทาง, สำเนียงของผู้ใช้ หรือรูปแบบวิดีโอของคุณได้อย่างไร
คุณสมบัติการโคลนเสียงยังคงใช้งานได้ผ่าน API เท่านั้นในตอนนี้ เว็บอินเทอร์เฟซ qwen.ai ยังไม่ได้เปิดเผยฟังก์ชันนี้
การปรับใช้ในเครื่องต้องใช้หน่วยความจำ GPU จำนวนมาก รุ่น Plus (30B MoE) ต้องการ VRAM อย่างน้อย 40GB สำหรับการอนุมานที่ราบรื่น รุ่น Flash และ Light สามารถเข้าถึงได้ง่ายกว่า
คำถามที่พบบ่อย
Qwen3.5-Omni แตกต่างจาก Qwen2.5-Omni อย่างไร?
Qwen2.5-Omni รองรับโมเดลขนาด 7B และ 3B แบบหนาแน่น พร้อมการรองรับเสียง 19 ภาษา Qwen3.5-Omni ใช้สถาปัตยกรรม MoE ขยายการรู้จำเสียงพูดเป็น 113 ภาษา เพิ่มการโคลนเสียง และแนะนำ ARIA เพื่อคุณภาพเสียงที่ดีขึ้น ประสิทธิภาพการทดสอบมาตรฐานและหน้าต่างบริบทก็เพิ่มขึ้นอย่างมีนัยสำคัญ
ฉันสามารถรัน Qwen3.5-Omni ในเครื่องได้หรือไม่?
ได้ ผ่าน HuggingFace Transformers หรือ vLLM รุ่น Plus ต้องการ VRAM มากกว่า 40GB รุ่น Flash และ Light สามารถทำงานบน GPU ขนาดเล็กกว่าได้ vLLM เป็นทางเลือกที่ดีกว่าสำหรับการปรับใช้ในเครื่องสำหรับการใช้งานจริงเนื่องจากการปรับแต่ง MoE
มีแพ็กเกจฟรีหรือไม่?
เว็บอินเทอร์เฟซ qwen.ai ใช้งานได้ฟรี การเข้าถึง API ผ่าน DashScope มีค่าใช้จ่าย ราคาต่อรูปแบบข้อมูล (โทเค็นเสียง, เฟรมวิดีโอ, โทเค็นข้อความ) มีอยู่ในเอกสารราคาของ DashScope
รองรับการสตรีมแบบเรียลไทม์หรือไม่?
ใช่ สถาปัตยกรรม Thinker-Talker ส่งออกเสียงในลักษณะการสตรีมแบบแบ่งส่วน ทำให้ไบต์เสียงแรกมาถึงก่อนที่จะมีการสร้างการตอบสนองทั้งหมด นี่คือสิ่งที่ทำให้การสนทนาด้วยเสียงแบบสดเป็นธรรมชาติ
ความแตกต่างระหว่าง Plus, Flash และ Light คืออะไร?
Plus มีคุณภาพสูงสุด เหมาะที่สุดสำหรับงานที่ความแม่นยำมีความสำคัญมากกว่าความเร็ว Flash เป็นตัวเลือกที่สมดุลสำหรับ API สำหรับการใช้งานจริงส่วนใหญ่ Light เร็วที่สุด ออกแบบมาสำหรับแอปพลิเคชันที่ต้องการความหน่วงต่ำ เช่น การอนุมานบนมือถือหรือ Edge
ฉันสามารถใช้เสียงของฉันเองกับ API ได้หรือไม่?
ได้ ผ่านฟังก์ชันการโคลนเสียงบน API คุณอัปโหลดตัวอย่างเสียงที่ต้องการ แล้วโมเดลจะใช้เสียงนั้นในการสร้างเสียงพูด ฟังก์ชันนี้ยังไม่สามารถใช้งานได้ผ่านเว็บอินเทอร์เฟซ
มันเปรียบเทียบกับ ElevenLabs ในการสร้างเสียงพูดได้อย่างไร?
จากการทดสอบมาตรฐานของอาลีบาบาใน 20 ภาษา Qwen3.5-Omni Plus มีประสิทธิภาพเหนือกว่า ElevenLabs ในด้านความเสถียรของเสียงพูดหลายภาษา ElevenLabs มีประวัติการทำงานที่ยาวนานกว่าและมีตัวเลือกการปรับแต่งเสียงในผลิตภัณฑ์มากกว่า หากคุณต้องการเพียงความสามารถด้านเสียง ElevenLabs ก็ยังคงคุ้มค่าที่จะเปรียบเทียบ หากคุณต้องการโมเดลหลายรูปแบบ (multimodal) ที่รวมทุกอย่างเข้าด้วยกัน Qwen3.5-Omni เป็นทางเลือกที่ชัดเจนกว่า
การส่งข้อมูลเสียงหรือวิดีโอที่ละเอียดอ่อนผ่าน API ปลอดภัยหรือไม่?
ตรวจสอบข้อตกลงการประมวลผลข้อมูลของ Alibaba Cloud ก่อนส่งเนื้อหาที่ละเอียดอ่อน เช่นเดียวกับ API บนคลาวด์ทั่วไป ให้สันนิษฐานว่าข้อมูลอาจถูกบันทึกไว้ เว้นแต่ข้อตกลงจะรับประกันไว้อย่างชัดเจนเป็นอย่างอื่น
