Gemma 4 12B คืออะไร

Gemma 4 12B อธิบายว่า: โมเดลโอเพนซอร์สของ Google ที่จะเปิดตัวในเดือนมิถุนายน 2026 พร้อมรองรับเสียงในตัว, มีสถาปัตยกรรมมัลติโมดัลแบบไม่ต้องใช้ตัวเข้ารหัส, รองรับบริบทได้ถึง 256K, ใช้ไลเซนส์ Apache 2.0, และสามารถทำงานได้บนแล็ปท็อปที่มี RAM 16GB

Ashley Innocent

Ashley Innocent

4 June 2026

Gemma 4 12B คืออะไร

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Google ได้เปิดตัว Gemma 4 12B เมื่อวันที่ 3 มิถุนายน 2026 เป็นโมเดลแบบ open-weights ที่มีพารามิเตอร์ 11.95 พันล้านตัว ซึ่งสามารถอ่านข้อความ รูปภาพ เสียง และวิดีโอ และสามารถทำงานบนแล็ปท็อปที่มีหน่วยความจำ 16GB จุดเด่นคือ: เป็นโมเดลขนาดกลางรุ่นแรกที่รองรับอินพุตเสียงแบบเนทีฟ โดยไม่จำเป็นต้องใช้ตัวเข้ารหัสภาพหรือเสียงแยกต่างหาก

ส่วนสุดท้ายนี้คือสิ่งที่ทำให้มันแตกต่าง โมเดลหลายโมดอลส่วนใหญ่จะติดตั้งตัวเข้ารหัสภาพและตัวเข้ารหัสเสียงเข้ากับโมเดลภาษา แต่ Gemma 4 12B ตัดทั้งสองส่วนออกและป้อนแพตช์ภาพดิบและรูปแบบคลื่นเสียงเข้าสู่โมเดลโดยตรง คุณจะได้รับไฟล์ 12B ไฟล์เดียวที่จัดการอินพุตสี่ประเภท ทำงานแบบออฟไลน์ และมาพร้อมกับใบอนุญาต Apache 2.0 ที่คุณสามารถใช้ในเชิงพาณิชย์ได้

ปุ่ม

นี่คือสิ่งที่โมเดลนี้เป็น ตำแหน่งของมันในตระกูล Gemma 4 และสิ่งที่คุณสามารถสร้างได้ด้วยมัน หากคุณต้องการใช้งานวันนี้ ให้ไปที่คู่มือประกอบเกี่ยวกับ วิธีใช้ Gemma 4 12B ฟรี

Gemma 4 12B โดยสรุป

รายละเอียด ค่า
เปิดตัว 3 มิถุนายน 2026
พารามิเตอร์ 11.95B (หนาแน่น)
อินพุต ข้อความ, รูปภาพ, เสียง, วิดีโอ
เอาต์พุต ข้อความ
Context window 256K โทเค็น
สถาปัตยกรรม มัลติโมดอลแบบรวมที่ไม่มีตัวเข้ารหัส
ใบอนุญาต Apache 2.0
ทำงานบน 16GB VRAM หรือหน่วยความจำแบบรวม (ประมาณ 8GB ที่ 4-bit)
รุ่นย่อย google/gemma-4-12B (พื้นฐาน), google/gemma-4-12B-it (ปรับแต่งคำสั่ง)

คำตอบสั้นๆ

Gemma 4 12B เป็นโมเดลเปิดแบบหนาแน่นที่มีพารามิเตอร์ 12 พันล้านตัวจาก Google DeepMind ที่รับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุตและส่งคืนข้อความ ได้รับการปรับแต่งให้ทำงานในเครื่องบนฮาร์ดแวร์ของผู้บริโภค โดยมีหน้าต่างบริบท 256K โทเค็น การเรียกใช้เครื่องมือแบบเนทีฟ และโหมดการให้เหตุผลแบบทีละขั้นตอนที่เป็นทางเลือก

มันอยู่ตรงกลางของกลุ่มผลิตภัณฑ์ Gemma 4 Google อธิบายว่าเป็นสะพานเชื่อมระหว่างโมเดล E4B ที่เหมาะกับอุปกรณ์ปลายทาง และโมเดล Mixture-of-Experts ขนาดใหญ่ 26B โดยมีคุณภาพที่ใกล้เคียงกับ 26B ในหลายเกณฑ์มาตรฐาน แต่ใช้หน่วยความจำน้อยกว่าครึ่งหนึ่ง

12B มีตำแหน่งอย่างไรในตระกูล Gemma 4

Gemma 4 ไม่ได้เปิดตัวพร้อมกันทั้งหมด โมเดล E2B, E4B, 26B และ 31B เปิดตัวเมื่อวันที่ 31 มีนาคม 2026 ส่วน 12B เป็นสมาชิกใหม่ล่าสุดที่เพิ่มเข้ามาเมื่อวันที่ 3 มิถุนายน นี่คือกลุ่มผลิตภัณฑ์ทั้งหมด:

โมเดล ขนาด บริบท หมายเหตุ
Gemma 4 E2B 2.3B ประสิทธิภาพ (5.1B ดิบ) 128K บนอุปกรณ์, อินพุตเสียง
Gemma 4 E4B 4.5B ประสิทธิภาพ (8B ดิบ) 128K กะทัดรัด, อินพุตเสียง
Gemma 4 12B 11.95B หนาแน่น 256K ไม่มีตัวเข้ารหัส, อินพุตเสียง
Gemma 4 26B A4B 4B ใช้งาน / 26B ทั้งหมด (MoE) 256K Mixture-of-experts
Gemma 4 31B 31B หนาแน่น 256K ประสิทธิภาพระดับแนวหน้า

12B เป็นโมเดลเดียวในตระกูลที่สร้างขึ้นบนการออกแบบที่ไม่มีตัวเข้ารหัส (encoder-free) โมเดลอื่นๆ ยังคงใช้ตัวเข้ารหัสภาพแบบดั้งเดิม (และตัวเข้ารหัสเสียงแบบ conformer ในสองรุ่นที่เล็กกว่า) สิ่งนี้ทำให้ 12B เป็นตัวอย่างที่ชัดเจนที่สุดว่า Google กำลังนำ AI หลายโมดอลบนอุปกรณ์ไปในทิศทางใด

สำหรับบริบทว่าโมเดลเหล่านี้เทียบกับโมเดลเปิดอื่นๆ ได้อย่างไร โปรดดู การเปรียบเทียบ MiniMax M3, DeepSeek V4 และ Qwen 3.7 ของเรา และ สงครามราคาโมเดล open-weight ที่กว้างขึ้น

“Encoder-free” หมายถึงอะไร

โมเดลหลายโมดอลมาตรฐานทำงานในสองขั้นตอน ตัวเข้ารหัสภาพจะเปลี่ยนภาพให้เป็น embeddings ตัวเข้ารหัสเสียงจะเปลี่ยนเสียงให้เป็น embeddings จากนั้น projector จะแมปสิ่งเหล่านั้นเข้าสู่พื้นที่ของโมเดลภาษา ซึ่งหมายถึงสามส่วนที่ต้องโหลด ปรับแต่ง และเก็บไว้ในหน่วยความจำ

Gemma 4 12B ตัดตัวเข้ารหัสออก ตามเอกสารของ Google:

อินพุตภาพและเสียงจะไหลตรงเข้าสู่แกนหลักของโมเดลภาษา โมเดลเดียว ชุดน้ำหนักเดียว ทุกโมดอลถูกจัดการเป็นโทเค็น

ทางเลือกทางสถาปัตยกรรมอีกสองประการช่วยให้มีประสิทธิภาพบนฮาร์ดแวร์ขนาดเล็ก:

Google ยังมี Multi-Token Prediction (MTP) drafter สำหรับการถอดรหัสแบบคาดเดา ซึ่งสามารถเร่งการอนุมานแบบ end-to-end ได้สูงสุดประมาณ 3 เท่า โดยไม่เปลี่ยนแปลงคุณภาพของผลลัพธ์

เสียงเนทีฟและความสามารถหลายโมดอลเต็มรูปแบบ

โมเดลเปิดหลายโมเดลสามารถอ่านภาพได้ Gemma 4 12B เป็นโมเดลขนาดกลางรุ่นแรกที่รองรับเสียงแบบเนทีฟ ในโมเดลเดียวกับที่จัดการข้อความและภาพ สิ่งนี้เปิดโอกาสให้งานประเภทใหม่ๆ:

ลำดับของอินพุตมีความสำคัญเมื่อคุณผสมโมดอล เทมเพลตแชทคาดหวังเนื้อหารูปภาพก่อนข้อความพรอมต์และเสียงหลังจากนั้น โมเดลจะส่งคืนข้อความในทุกกรณี

ประสิทธิภาพของ Gemma 4 12B

นี่คือคะแนนที่เผยแพร่สำหรับ `gemma-4-12B-it` ที่ปรับแต่งด้วยคำสั่ง จาก model card ของ Hugging Face:

เกณฑ์มาตรฐาน Gemma 4 12B-it
MMLU Pro (การให้เหตุผล) 77.2%
AIME 2026 (คณิตศาสตร์, ไม่มีเครื่องมือ) 77.5%
GPQA Diamond (วิทยาศาสตร์) 78.8%
LiveCodeBench v6 (การเขียนโค้ด) 72.0%
Codeforces (ELO) 1659
MMMU Pro (การมองเห็น) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-needle (บริบทที่ยาว) 43.4%

เพื่อให้เห็นภาพในบริบทของตระกูล นี่คือตำแหน่งของ 12B ระหว่างโมเดลข้างเคียงในการทดสอบสำคัญบางรายการ:

เกณฑ์มาตรฐาน E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

รูปแบบที่เห็นได้ชัดคือ 12B มีประสิทธิภาพสูงกว่า E4B ระดับ 4B อย่างเห็นได้ชัด และใกล้เคียงกับ 26B MoE ซึ่งเป็นสิ่งที่ Google กำลังนำเสนอ: คุณภาพส่วนใหญ่ของโมเดลขนาดใหญ่กว่า บนเครื่องที่คุณมีอยู่แล้ว

มีอะไรใหม่เมื่อเทียบกับ Gemma 3

หากคุณเคยใช้ Gemma 3 มีสี่สิ่งที่โดดเด่น:

  1. เสียงเนทีฟ Gemma 3 เป็นข้อความและภาพ ส่วน 12B เพิ่มเสียงและวิดีโอพร้อมเสียงในโมเดลพื้นฐาน
  2. การออกแบบแบบไม่มีตัวเข้ารหัส (encoder-free) ไม่ต้องโหลดตัวเข้ารหัสภาพหรือเสียงเพิ่มเติม
  3. บริบท 256K เพิ่มพื้นที่สี่เท่าสำหรับเอกสารยาวๆ, บทถอดเสียง และโค้ดหลายไฟล์
  4. Apache 2.0 Gemma เวอร์ชันก่อนหน้านี้ใช้ใบอนุญาต Gemma แบบกำหนดเองที่มีข้อจำกัดการใช้งาน Gemma 4 เปลี่ยนมาใช้ Apache 2.0 มาตรฐาน ซึ่งใช้งานง่ายกว่าสำหรับการใช้งานเชิงพาณิชย์และการแจกจ่ายต่อ

คุณสามารถสร้างอะไรได้บ้างด้วยมัน

12B มุ่งเป้าไปที่งานที่ทำงานบนอุปกรณ์ ไม่ใช่บนคลาวด์:

เนื่องจากมันเปิดเผยอินเทอร์เฟซแชทมาตรฐานผ่านรันเนอร์เช่น Ollama และ llama.cpp คุณจึงสามารถใช้เครื่องมือที่มีอยู่แล้วได้ เมื่อคุณเชื่อมต่อโมเดลในเครื่องเข้ากับแอป คุณยังคงต้องการยืนยันรูปร่างของคำขอและการตอบกลับ เครื่องมืออย่าง Apidog ช่วยให้คุณบันทึก endpoint ในเครื่อง ส่งตัวอย่างพรอมต์ และตรวจสอบ JSON ก่อนที่คุณจะสร้างต่อยอดจากมันได้ คุณสามารถ ดาวน์โหลด Apidog ฟรีและกำหนดเป้าหมายไปยังเซิร์ฟเวอร์ในเครื่องได้ในเวลาไม่กี่นาที รายละเอียดเพิ่มเติมอยู่ใน คู่มือการใช้งานฟรี

ใบอนุญาตและสิ่งที่ Apache 2.0 มอบให้คุณ

Gemma 4 12B เปิดตัวภายใต้ Apache 2.0 โดยสรุปง่ายๆ คือ:

นี่เป็นการเปลี่ยนแปลงที่สำคัญจากใบอนุญาต Gemma ก่อนหน้านี้ ซึ่งมีเงื่อนไขการใช้งานตามนโยบายของ Google เอง Apache 2.0 เป็นใบอนุญาตที่อนุญาตแบบเดียวกันซึ่งอยู่เบื้องหลังโครงสร้างพื้นฐานแบบเปิดจำนวนมาก ดังนั้นการตรวจสอบทางกฎหมายจึงมักทำได้รวดเร็ว

ฮาร์ดแวร์ที่คุณต้องการ

เป้าหมายของ Google คือเครื่องที่มีหน่วยความจำ 16GB ไม่ว่าจะเป็น VRAM หรือหน่วยความจำแบบรวมสไตล์ Apple การทำ quantization ช่วยลดขนาดลงได้อีก:

สิ่งนี้ทำให้ 12B สามารถใช้งานได้กับ GPU สำหรับเล่นเกมทั่วไป, MacBook 16GB หรือเวิร์กสเตชันระดับกลาง โมเดล E2B และ E4B ที่เล็กกว่านั้นยังต้องการหน่วยความจำน้อยลงไปอีกหากฮาร์ดแวร์ของคุณมีข้อจำกัด

ข้อจำกัดที่ควรทราบ

Google ระบุข้อดีข้อเสียอย่างตรงไปตรงมาใน model card:

สิ่งเหล่านี้เป็นข้อควรระวังปกติสำหรับโมเดลเปิดขนาด 12B มันจะไม่สามารถทดแทนโมเดลคลาวด์ระดับแนวหน้าสำหรับการให้เหตุผลที่ซับซ้อนที่สุดได้ แต่นั่นไม่ใช่ประเด็น ประเด็นคือ AI หลายโมดอลที่มีความสามารถซึ่งทำงานได้ในที่ที่ข้อมูลของคุณอยู่แล้ว

คำถามที่พบบ่อย

Gemma 4 12B ฟรีหรือไม่? ใช่ น้ำหนักโมเดลเป็นแบบเปิดภายใต้ Apache 2.0 และสามารถดาวน์โหลดได้ฟรีจาก Hugging Face และ Kaggle คุณจ่ายเฉพาะค่าฮาร์ดแวร์หรือคลาวด์ที่คุณรันโมเดลเท่านั้น ดู วิธีใช้ Gemma 4 12B ฟรี

Gemma 4 12B สามารถเข้าใจเสียงได้จริงหรือ? ใช่ มันรับเสียงดิบเป็นอินพุตและสามารถถอดเสียงพูด ระบุผู้พูด และตอบคำถามเกี่ยวกับเสียงได้ เป็นโมเดลขนาดกลางรุ่นแรกที่ทำสิ่งนี้ได้แบบเนทีฟ แทนที่จะผ่านโมเดลเสียงแยกต่างหาก

ความแตกต่างระหว่าง gemma-4-12B และ gemma-4-12B-it คืออะไร? โมเดลพื้นฐานได้รับการฝึกอบรมล่วงหน้าเท่านั้น ส่วนเวอร์ชัน `-it` ได้รับการปรับแต่งคำสั่งสำหรับแชท การใช้เครื่องมือ และการทำตามคำแนะนำ คนส่วนใหญ่ต้องการเวอร์ชัน `-it`

12B แตกต่างจาก 26B และ 31B อย่างไร? 12B เป็นโมเดลหนาแน่นและไม่มีตัวเข้ารหัส (encoder-free) ปรับแต่งมาสำหรับเครื่อง 16GB ส่วน 26B เป็นโมเดล Mixture-of-Experts (4B ทำงาน, 26B ทั้งหมด) และ 31B เป็นโมเดลหนาแน่นขนาดใหญ่กว่าเพื่อคุณภาพระดับแนวหน้า โมเดลที่ใหญ่กว่าทั้งสองรุ่นมีคะแนนสูงกว่าในเกณฑ์มาตรฐาน แต่ต้องการหน่วยความจำมากกว่า

Gemma 4 12B รองรับการเรียกใช้เครื่องมือหรือไม่? ใช่ มันรองรับการเรียกใช้ฟังก์ชันทั้งแบบข้อความและหลายโมดอล รวมถึงโหมดการคิดที่เป็นทางเลือกสำหรับการให้เหตุผลแบบทีละขั้นตอน ซึ่งทำให้สามารถใช้งานได้สำหรับเวิร์กโฟลว์แบบตัวแทน

มันเปรียบเทียบกับ Gemini 3.5 อย่างไร? งานที่แตกต่างกัน Gemini 3.5 เป็นโมเดลระดับแนวหน้าแบบโฮสต์ของ Google ดู Gemini 3.5 คืออะไร Gemma 4 12B เป็นโมเดลเปิดที่คุณรันเอง คุณแลกเปลี่ยนคุณภาพสูงสุดบางส่วนกับความเป็นส่วนตัว การใช้งานแบบออฟไลน์ และค่าใช้จ่ายต่อโทเค็นเป็นศูนย์

ปุ่ม

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API