Google ได้เปิดตัว Gemma 4 12B เมื่อวันที่ 3 มิถุนายน 2026 เป็นโมเดลแบบ open-weights ที่มีพารามิเตอร์ 11.95 พันล้านตัว ซึ่งสามารถอ่านข้อความ รูปภาพ เสียง และวิดีโอ และสามารถทำงานบนแล็ปท็อปที่มีหน่วยความจำ 16GB จุดเด่นคือ: เป็นโมเดลขนาดกลางรุ่นแรกที่รองรับอินพุตเสียงแบบเนทีฟ โดยไม่จำเป็นต้องใช้ตัวเข้ารหัสภาพหรือเสียงแยกต่างหาก
ส่วนสุดท้ายนี้คือสิ่งที่ทำให้มันแตกต่าง โมเดลหลายโมดอลส่วนใหญ่จะติดตั้งตัวเข้ารหัสภาพและตัวเข้ารหัสเสียงเข้ากับโมเดลภาษา แต่ Gemma 4 12B ตัดทั้งสองส่วนออกและป้อนแพตช์ภาพดิบและรูปแบบคลื่นเสียงเข้าสู่โมเดลโดยตรง คุณจะได้รับไฟล์ 12B ไฟล์เดียวที่จัดการอินพุตสี่ประเภท ทำงานแบบออฟไลน์ และมาพร้อมกับใบอนุญาต Apache 2.0 ที่คุณสามารถใช้ในเชิงพาณิชย์ได้
นี่คือสิ่งที่โมเดลนี้เป็น ตำแหน่งของมันในตระกูล Gemma 4 และสิ่งที่คุณสามารถสร้างได้ด้วยมัน หากคุณต้องการใช้งานวันนี้ ให้ไปที่คู่มือประกอบเกี่ยวกับ วิธีใช้ Gemma 4 12B ฟรี
Gemma 4 12B โดยสรุป
| รายละเอียด | ค่า |
|---|---|
| เปิดตัว | 3 มิถุนายน 2026 |
| พารามิเตอร์ | 11.95B (หนาแน่น) |
| อินพุต | ข้อความ, รูปภาพ, เสียง, วิดีโอ |
| เอาต์พุต | ข้อความ |
| Context window | 256K โทเค็น |
| สถาปัตยกรรม | มัลติโมดอลแบบรวมที่ไม่มีตัวเข้ารหัส |
| ใบอนุญาต | Apache 2.0 |
| ทำงานบน | 16GB VRAM หรือหน่วยความจำแบบรวม (ประมาณ 8GB ที่ 4-bit) |
| รุ่นย่อย | google/gemma-4-12B (พื้นฐาน), google/gemma-4-12B-it (ปรับแต่งคำสั่ง) |
คำตอบสั้นๆ
Gemma 4 12B เป็นโมเดลเปิดแบบหนาแน่นที่มีพารามิเตอร์ 12 พันล้านตัวจาก Google DeepMind ที่รับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุตและส่งคืนข้อความ ได้รับการปรับแต่งให้ทำงานในเครื่องบนฮาร์ดแวร์ของผู้บริโภค โดยมีหน้าต่างบริบท 256K โทเค็น การเรียกใช้เครื่องมือแบบเนทีฟ และโหมดการให้เหตุผลแบบทีละขั้นตอนที่เป็นทางเลือก

มันอยู่ตรงกลางของกลุ่มผลิตภัณฑ์ Gemma 4 Google อธิบายว่าเป็นสะพานเชื่อมระหว่างโมเดล E4B ที่เหมาะกับอุปกรณ์ปลายทาง และโมเดล Mixture-of-Experts ขนาดใหญ่ 26B โดยมีคุณภาพที่ใกล้เคียงกับ 26B ในหลายเกณฑ์มาตรฐาน แต่ใช้หน่วยความจำน้อยกว่าครึ่งหนึ่ง
12B มีตำแหน่งอย่างไรในตระกูล Gemma 4
Gemma 4 ไม่ได้เปิดตัวพร้อมกันทั้งหมด โมเดล E2B, E4B, 26B และ 31B เปิดตัวเมื่อวันที่ 31 มีนาคม 2026 ส่วน 12B เป็นสมาชิกใหม่ล่าสุดที่เพิ่มเข้ามาเมื่อวันที่ 3 มิถุนายน นี่คือกลุ่มผลิตภัณฑ์ทั้งหมด:
| โมเดล | ขนาด | บริบท | หมายเหตุ |
|---|---|---|---|
| Gemma 4 E2B | 2.3B ประสิทธิภาพ (5.1B ดิบ) | 128K | บนอุปกรณ์, อินพุตเสียง |
| Gemma 4 E4B | 4.5B ประสิทธิภาพ (8B ดิบ) | 128K | กะทัดรัด, อินพุตเสียง |
| Gemma 4 12B | 11.95B หนาแน่น | 256K | ไม่มีตัวเข้ารหัส, อินพุตเสียง |
| Gemma 4 26B A4B | 4B ใช้งาน / 26B ทั้งหมด (MoE) | 256K | Mixture-of-experts |
| Gemma 4 31B | 31B หนาแน่น | 256K | ประสิทธิภาพระดับแนวหน้า |
12B เป็นโมเดลเดียวในตระกูลที่สร้างขึ้นบนการออกแบบที่ไม่มีตัวเข้ารหัส (encoder-free) โมเดลอื่นๆ ยังคงใช้ตัวเข้ารหัสภาพแบบดั้งเดิม (และตัวเข้ารหัสเสียงแบบ conformer ในสองรุ่นที่เล็กกว่า) สิ่งนี้ทำให้ 12B เป็นตัวอย่างที่ชัดเจนที่สุดว่า Google กำลังนำ AI หลายโมดอลบนอุปกรณ์ไปในทิศทางใด
สำหรับบริบทว่าโมเดลเหล่านี้เทียบกับโมเดลเปิดอื่นๆ ได้อย่างไร โปรดดู การเปรียบเทียบ MiniMax M3, DeepSeek V4 และ Qwen 3.7 ของเรา และ สงครามราคาโมเดล open-weight ที่กว้างขึ้น
“Encoder-free” หมายถึงอะไร
โมเดลหลายโมดอลมาตรฐานทำงานในสองขั้นตอน ตัวเข้ารหัสภาพจะเปลี่ยนภาพให้เป็น embeddings ตัวเข้ารหัสเสียงจะเปลี่ยนเสียงให้เป็น embeddings จากนั้น projector จะแมปสิ่งเหล่านั้นเข้าสู่พื้นที่ของโมเดลภาษา ซึ่งหมายถึงสามส่วนที่ต้องโหลด ปรับแต่ง และเก็บไว้ในหน่วยความจำ
Gemma 4 12B ตัดตัวเข้ารหัสออก ตามเอกสารของ Google:
- ภาพ: โมดูลการฝังน้ำหนักเบา (การคูณเมทริกซ์เดียวพร้อมกับการฝังตำแหน่งและการทำให้เป็นปกติ) ฉายแพตช์ภาพดิบโดยตรงเข้าสู่พื้นที่การฝังของโมเดล
- เสียง: ตัวเข้ารหัสเสียงถูกตัดออก เสียงดิบจะถูกฉายเข้าสู่พื้นที่มิติเดียวกันกับโทเค็นข้อความ ดังนั้นเสียงและคำพูดจึงใช้เส้นทางเดียวกัน
อินพุตภาพและเสียงจะไหลตรงเข้าสู่แกนหลักของโมเดลภาษา โมเดลเดียว ชุดน้ำหนักเดียว ทุกโมดอลถูกจัดการเป็นโทเค็น
ทางเลือกทางสถาปัตยกรรมอีกสองประการช่วยให้มีประสิทธิภาพบนฮาร์ดแวร์ขนาดเล็ก:
- Per-layer embeddings (PLE): แต่ละเลเยอร์ของตัวถอดรหัสจะได้รับการฝังเฉพาะขนาดเล็กที่ผสมการค้นหาตัวระบุโทเค็นกับการฉายภาพที่รับรู้บริบท สิ่งนี้ช่วยลดต้นทุนพารามิเตอร์ในขณะที่ช่วยให้เลเยอร์เชี่ยวชาญเฉพาะทางได้
- Shared KV cache: เลเยอร์สุดท้ายหลายเลเยอร์จะใช้เทนเซอร์ key-value ซ้ำจากเลเยอร์ก่อนหน้าแทนที่จะคำนวณของตัวเอง ซึ่งช่วยลดหน่วยความจำระหว่างการทำงานแบบ long-context และบนอุปกรณ์ โดยสูญเสียคุณภาพเพียงเล็กน้อย
Google ยังมี Multi-Token Prediction (MTP) drafter สำหรับการถอดรหัสแบบคาดเดา ซึ่งสามารถเร่งการอนุมานแบบ end-to-end ได้สูงสุดประมาณ 3 เท่า โดยไม่เปลี่ยนแปลงคุณภาพของผลลัพธ์
เสียงเนทีฟและความสามารถหลายโมดอลเต็มรูปแบบ
โมเดลเปิดหลายโมเดลสามารถอ่านภาพได้ Gemma 4 12B เป็นโมเดลขนาดกลางรุ่นแรกที่รองรับเสียงแบบเนทีฟ ในโมเดลเดียวกับที่จัดการข้อความและภาพ สิ่งนี้เปิดโอกาสให้งานประเภทใหม่ๆ:
- การรู้จำเสียงพูดอัตโนมัติ และการถอดเสียง
- การระบุผู้พูด (ใครพูดเมื่อไหร่)
- การตอบคำถามด้วยเสียง เหนือเสียงที่ไม่ใช่คำพูด
- การทำความเข้าใจวิดีโอ พร้อมเสียง ไม่ใช่แค่เฟรม
- งานเกี่ยวกับภาพ: การใส่คำบรรยาย, การตรวจจับวัตถุและ UI, การให้เหตุผลด้วยภาพ
ลำดับของอินพุตมีความสำคัญเมื่อคุณผสมโมดอล เทมเพลตแชทคาดหวังเนื้อหารูปภาพก่อนข้อความพรอมต์และเสียงหลังจากนั้น โมเดลจะส่งคืนข้อความในทุกกรณี
ประสิทธิภาพของ Gemma 4 12B
นี่คือคะแนนที่เผยแพร่สำหรับ `gemma-4-12B-it` ที่ปรับแต่งด้วยคำสั่ง จาก model card ของ Hugging Face:
| เกณฑ์มาตรฐาน | Gemma 4 12B-it |
|---|---|
| MMLU Pro (การให้เหตุผล) | 77.2% |
| AIME 2026 (คณิตศาสตร์, ไม่มีเครื่องมือ) | 77.5% |
| GPQA Diamond (วิทยาศาสตร์) | 78.8% |
| LiveCodeBench v6 (การเขียนโค้ด) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (การมองเห็น) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle (บริบทที่ยาว) | 43.4% |
เพื่อให้เห็นภาพในบริบทของตระกูล นี่คือตำแหน่งของ 12B ระหว่างโมเดลข้างเคียงในการทดสอบสำคัญบางรายการ:
| เกณฑ์มาตรฐาน | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
รูปแบบที่เห็นได้ชัดคือ 12B มีประสิทธิภาพสูงกว่า E4B ระดับ 4B อย่างเห็นได้ชัด และใกล้เคียงกับ 26B MoE ซึ่งเป็นสิ่งที่ Google กำลังนำเสนอ: คุณภาพส่วนใหญ่ของโมเดลขนาดใหญ่กว่า บนเครื่องที่คุณมีอยู่แล้ว
มีอะไรใหม่เมื่อเทียบกับ Gemma 3
หากคุณเคยใช้ Gemma 3 มีสี่สิ่งที่โดดเด่น:
- เสียงเนทีฟ Gemma 3 เป็นข้อความและภาพ ส่วน 12B เพิ่มเสียงและวิดีโอพร้อมเสียงในโมเดลพื้นฐาน
- การออกแบบแบบไม่มีตัวเข้ารหัส (encoder-free) ไม่ต้องโหลดตัวเข้ารหัสภาพหรือเสียงเพิ่มเติม
- บริบท 256K เพิ่มพื้นที่สี่เท่าสำหรับเอกสารยาวๆ, บทถอดเสียง และโค้ดหลายไฟล์
- Apache 2.0 Gemma เวอร์ชันก่อนหน้านี้ใช้ใบอนุญาต Gemma แบบกำหนดเองที่มีข้อจำกัดการใช้งาน Gemma 4 เปลี่ยนมาใช้ Apache 2.0 มาตรฐาน ซึ่งใช้งานง่ายกว่าสำหรับการใช้งานเชิงพาณิชย์และการแจกจ่ายต่อ
คุณสามารถสร้างอะไรได้บ้างด้วยมัน
12B มุ่งเป้าไปที่งานที่ทำงานบนอุปกรณ์ ไม่ใช่บนคลาวด์:
- ผู้ช่วยออฟไลน์ ที่มองเห็นหน้าจอของคุณและได้ยินไมโครโฟนของคุณโดยไม่ต้องส่งข้อมูลออกไป
- เครื่องมือสำหรับการประชุมและการโทร ที่ถอดเสียง, ระบุผู้พูด และสรุปผลในเครื่อง
- ไปป์ไลน์เอกสารและสื่อ ที่ผสมผสานไฟล์ PDF, ภาพหน้าจอ และเสียงเข้าด้วยกันในพรอมต์เดียว
- เวิร์กโฟลว์แบบตัวแทน (Agentic workflows): รองรับการเรียกใช้ฟังก์ชันและการใช้เครื่องมือ จึงสามารถวางแผนและดำเนินการได้
- ตัวช่วยเขียนโค้ด ที่ระดับ LiveCodeBench 72.0% สามารถใช้สำหรับการเติมข้อความอัตโนมัติและการปรับโครงสร้างโค้ดในเครื่อง
เนื่องจากมันเปิดเผยอินเทอร์เฟซแชทมาตรฐานผ่านรันเนอร์เช่น Ollama และ llama.cpp คุณจึงสามารถใช้เครื่องมือที่มีอยู่แล้วได้ เมื่อคุณเชื่อมต่อโมเดลในเครื่องเข้ากับแอป คุณยังคงต้องการยืนยันรูปร่างของคำขอและการตอบกลับ เครื่องมืออย่าง Apidog ช่วยให้คุณบันทึก endpoint ในเครื่อง ส่งตัวอย่างพรอมต์ และตรวจสอบ JSON ก่อนที่คุณจะสร้างต่อยอดจากมันได้ คุณสามารถ ดาวน์โหลด Apidog ฟรีและกำหนดเป้าหมายไปยังเซิร์ฟเวอร์ในเครื่องได้ในเวลาไม่กี่นาที รายละเอียดเพิ่มเติมอยู่ใน คู่มือการใช้งานฟรี
ใบอนุญาตและสิ่งที่ Apache 2.0 มอบให้คุณ
Gemma 4 12B เปิดตัวภายใต้ Apache 2.0 โดยสรุปง่ายๆ คือ:
- คุณสามารถนำไปใช้ในเชิงพาณิชย์ได้
- คุณสามารถแก้ไข, ปรับแต่ง และแจกจ่ายต่อได้
- คุณสามารถใช้งานได้ในผลิตภัณฑ์แบบปิดซอร์ส
- คุณยังคงเป็นเจ้าของผลลัพธ์ที่คุณสร้าง
นี่เป็นการเปลี่ยนแปลงที่สำคัญจากใบอนุญาต Gemma ก่อนหน้านี้ ซึ่งมีเงื่อนไขการใช้งานตามนโยบายของ Google เอง Apache 2.0 เป็นใบอนุญาตที่อนุญาตแบบเดียวกันซึ่งอยู่เบื้องหลังโครงสร้างพื้นฐานแบบเปิดจำนวนมาก ดังนั้นการตรวจสอบทางกฎหมายจึงมักทำได้รวดเร็ว
ฮาร์ดแวร์ที่คุณต้องการ
เป้าหมายของ Google คือเครื่องที่มีหน่วยความจำ 16GB ไม่ว่าจะเป็น VRAM หรือหน่วยความจำแบบรวมสไตล์ Apple การทำ quantization ช่วยลดขนาดลงได้อีก:
- คุณภาพเต็มรูปแบบ: ประมาณ 16GB
- 8-bit: ประมาณ 14GB
- 4-bit (Q4_K_M): ประมาณ 8GB ซึ่งเป็นค่าเริ่มต้นใน Ollama
สิ่งนี้ทำให้ 12B สามารถใช้งานได้กับ GPU สำหรับเล่นเกมทั่วไป, MacBook 16GB หรือเวิร์กสเตชันระดับกลาง โมเดล E2B และ E4B ที่เล็กกว่านั้นยังต้องการหน่วยความจำน้อยลงไปอีกหากฮาร์ดแวร์ของคุณมีข้อจำกัด
ข้อจำกัดที่ควรทราบ
Google ระบุข้อดีข้อเสียอย่างตรงไปตรงมาใน model card:
- อาจสร้างข้อเท็จจริงที่ไม่ถูกต้องหรือไม่เป็นปัจจุบันได้ โปรดตรวจสอบข้อมูลสำคัญใดๆ
- อาจสะท้อนอคติที่มีอยู่ในข้อมูลการฝึกอบรม
- จัดการกับการประชดประชัน, ความแตกต่างเล็กน้อย และภาษาเชิงเปรียบเทียบได้ไม่สม่ำเสมอ
- การให้เหตุผลด้วยสามัญสำนึกมีข้อจำกัด เช่นเดียวกับโมเดลขนาดนี้
- คุณภาพของผลลัพธ์ขึ้นอยู่กับความชัดเจนของพรอมต์และบริบทที่คุณให้
สิ่งเหล่านี้เป็นข้อควรระวังปกติสำหรับโมเดลเปิดขนาด 12B มันจะไม่สามารถทดแทนโมเดลคลาวด์ระดับแนวหน้าสำหรับการให้เหตุผลที่ซับซ้อนที่สุดได้ แต่นั่นไม่ใช่ประเด็น ประเด็นคือ AI หลายโมดอลที่มีความสามารถซึ่งทำงานได้ในที่ที่ข้อมูลของคุณอยู่แล้ว
คำถามที่พบบ่อย
Gemma 4 12B ฟรีหรือไม่? ใช่ น้ำหนักโมเดลเป็นแบบเปิดภายใต้ Apache 2.0 และสามารถดาวน์โหลดได้ฟรีจาก Hugging Face และ Kaggle คุณจ่ายเฉพาะค่าฮาร์ดแวร์หรือคลาวด์ที่คุณรันโมเดลเท่านั้น ดู วิธีใช้ Gemma 4 12B ฟรี
Gemma 4 12B สามารถเข้าใจเสียงได้จริงหรือ? ใช่ มันรับเสียงดิบเป็นอินพุตและสามารถถอดเสียงพูด ระบุผู้พูด และตอบคำถามเกี่ยวกับเสียงได้ เป็นโมเดลขนาดกลางรุ่นแรกที่ทำสิ่งนี้ได้แบบเนทีฟ แทนที่จะผ่านโมเดลเสียงแยกต่างหาก
ความแตกต่างระหว่าง gemma-4-12B และ gemma-4-12B-it คืออะไร? โมเดลพื้นฐานได้รับการฝึกอบรมล่วงหน้าเท่านั้น ส่วนเวอร์ชัน `-it` ได้รับการปรับแต่งคำสั่งสำหรับแชท การใช้เครื่องมือ และการทำตามคำแนะนำ คนส่วนใหญ่ต้องการเวอร์ชัน `-it`
12B แตกต่างจาก 26B และ 31B อย่างไร? 12B เป็นโมเดลหนาแน่นและไม่มีตัวเข้ารหัส (encoder-free) ปรับแต่งมาสำหรับเครื่อง 16GB ส่วน 26B เป็นโมเดล Mixture-of-Experts (4B ทำงาน, 26B ทั้งหมด) และ 31B เป็นโมเดลหนาแน่นขนาดใหญ่กว่าเพื่อคุณภาพระดับแนวหน้า โมเดลที่ใหญ่กว่าทั้งสองรุ่นมีคะแนนสูงกว่าในเกณฑ์มาตรฐาน แต่ต้องการหน่วยความจำมากกว่า
Gemma 4 12B รองรับการเรียกใช้เครื่องมือหรือไม่? ใช่ มันรองรับการเรียกใช้ฟังก์ชันทั้งแบบข้อความและหลายโมดอล รวมถึงโหมดการคิดที่เป็นทางเลือกสำหรับการให้เหตุผลแบบทีละขั้นตอน ซึ่งทำให้สามารถใช้งานได้สำหรับเวิร์กโฟลว์แบบตัวแทน
มันเปรียบเทียบกับ Gemini 3.5 อย่างไร? งานที่แตกต่างกัน Gemini 3.5 เป็นโมเดลระดับแนวหน้าแบบโฮสต์ของ Google ดู Gemini 3.5 คืออะไร Gemma 4 12B เป็นโมเดลเปิดที่คุณรันเอง คุณแลกเปลี่ยนคุณภาพสูงสุดบางส่วนกับความเป็นส่วนตัว การใช้งานแบบออฟไลน์ และค่าใช้จ่ายต่อโทเค็นเป็นศูนย์
