أطلقت جوجل نموذج Gemma 4 12B في 3 يونيو 2026. إنه نموذج مفتوح الأوزان بمعلمات تبلغ 11.95 مليار، يقرأ النصوص والصور والصوت والفيديو، ويتناسب مع جهاز كمبيوتر محمول بسعة ذاكرة 16 جيجابايت. التفصيل الرئيسي: إنه أول نموذج متوسط الحجم مزود بمدخل صوتي أصلي، ويقوم بذلك دون أي مشفر رؤية أو صوت منفصل.
هذا الجزء الأخير هو ما يجعله مختلفًا. معظم النماذج متعددة الوسائط تقوم بتثبيت مشفر رؤية ومشفر صوت على نموذج لغوي. يتخلص Gemma 4 12B من كليهما ويغذي الشرائح الخام للصور والموجات الصوتية مباشرة إلى النموذج. تحصل على ملف واحد بحجم 12 مليار بايت يتعامل مع أربعة أنواع من المدخلات، ويعمل دون اتصال بالإنترنت، ويتم شحنه بموجب ترخيص Apache 2.0 الذي يمكنك استخدامه تجاريًا.
إليك ما هو هذا النموذج، ومكانته في عائلة Gemma 4، وما يمكنك بناءه باستخدامه. إذا كنت ترغب في تشغيله اليوم، انتقل إلى الدليل المصاحب حول كيفية استخدام Gemma 4 12B مجانًا.
لمحة سريعة عن Gemma 4 12B
| المواصفات | القيمة |
|---|---|
| تاريخ الإصدار | 3 يونيو 2026 |
| المعلمات | 11.95 مليار (كثيفة) |
| المدخلات | نص، صورة، صوت، فيديو |
| المخرجات | نص |
| نافذة السياق | 256 ألف رمز (token) |
| المعمارية | متعددة الوسائط موحدة وخالية من المشفر |
| الترخيص | Apache 2.0 |
| يعمل على | 16 جيجابايت VRAM أو ذاكرة موحدة (حوالي 8 جيجابايت بـ 4 بت) |
| النماذج الفرعية | google/gemma-4-12B (أساسي)، google/gemma-4-12B-it (معدل للتعليمات) |
الإجابة المختصرة
Gemma 4 12B هو نموذج مفتوح كثيف بمعلمات تبلغ 12 مليار من Google DeepMind، يقبل النصوص والصور والصوت والفيديو كمدخلات ويعيد النصوص كمخرجات. تم ضبطه للتشغيل محليًا على أجهزة المستهلك، مع نافذة سياق بحجم 256 ألف رمز، ودعم أصلي لاستدعاء الأدوات، ووضع اختياري للتفكير خطوة بخطوة.

يقع في منتصف تشكيلة Gemma 4. تصفه جوجل بأنه الجسر بين نموذج E4B المناسب للأجهزة الطرفية ونموذج 26B Mixture-of-Experts الأكبر، مع جودة تقارب 26B في العديد من المعايير بأقل من نصف بصمة الذاكرة.
مكانة 12B في عائلة Gemma 4
لم يتم إطلاق Gemma 4 دفعة واحدة. وصلت نماذج E2B و E4B و 26B و 31B في 31 مارس 2026. يعتبر 12B أحدث عضو، وقد أضيف في 3 يونيو. إليك التشكيلة الكاملة:
| النموذج | الحجم | السياق | ملاحظات |
|---|---|---|---|
| Gemma 4 E2B | 2.3 مليار فعال (5.1 مليار خام) | 128 ألف | على الجهاز، مدخل صوتي |
| Gemma 4 E4B | 4.5 مليار فعال (8 مليار خام) | 128 ألف | مدمج، مدخل صوتي |
| Gemma 4 12B | 11.95 مليار كثيف | 256 ألف | خالي من المشفر، مدخل صوتي |
| Gemma 4 26B A4B | 4 مليار نشط / 26 مليار إجمالي (MoE) | 256 ألف | نموذج خليط الخبراء (Mixture-of-experts) |
| Gemma 4 31B | 31 مليار كثيف | 256 ألف | أداء رائد |
النموذج 12B هو النموذج الوحيد في العائلة المبني على تصميم خالي من المشفر. بينما تحتفظ النماذج الأخرى بمشفر رؤية تقليدي (ومشفر صوت متوافق في النموذجين الأصغر). وهذا يجعل 12B أوضح دليل على اتجاه جوجل في الذكاء الاصطناعي متعدد الوسائط على الأجهزة.
للحصول على سياق حول كيفية مقارنة هذه النماذج بالنماذج المفتوحة الأخرى، راجع مقارنتنا بين MiniMax M3 و DeepSeek V4 و Qwen 3.7 و حرب أسعار النماذج اللغوية الكبيرة (LLM) مفتوحة الأوزان الأوسع نطاقًا.
ماذا يعني "خالي من المشفر" حقًا
تعمل النماذج متعددة الوسائط القياسية على مرحلتين. يحول مشفر الرؤية الصورة إلى تضمينات، ويحول مشفر الصوت الصوت إلى تضمينات، ثم تقوم وحدة إسقاط بربط هذه التضمينات بمساحة النموذج اللغوي. هذه ثلاثة مكونات للتحميل والضبط والاحتفاظ بها في الذاكرة.
يزيل Gemma 4 12B المشفرات. وفقًا لوصف جوجل:
- الرؤية: وحدة تضمين خفيفة الوزن (ضرب مصفوفة واحدة بالإضافة إلى تضمينات موضعية وتطبيع) تعرض شرائح الصور الخام مباشرة في مساحة تضمين النموذج.
- الصوت: مشفر الصوت غير موجود. يتم عرض الصوت الخام في نفس المساحة الأبعادية لرموز النص، بحيث يتشارك الصوت والكلمات مسارًا واحدًا.
تتدفق مدخلات الرؤية والصوت مباشرة إلى العمود الفقري للنموذج اللغوي. نموذج واحد، مجموعة واحدة من الأوزان، كل وسائط تُعامل كرموز.
خياران معماريان آخران يحافظان على كفاءته على الأجهزة الصغيرة:
- التضمينات لكل طبقة (PLE): تحصل كل طبقة فك تشفير على تضمين مخصص صغير يمزج بين البحث عن هوية الرمز مع إسقاط يدرك السياق. وهذا يقلل تكلفة المعلمات بينما يسمح للطبقات بالتخصص.
- ذاكرة التخزين المؤقت المشتركة للقيم الأساسية (Shared KV cache): تعيد الطبقات القليلة الأخيرة استخدام موترات المفتاح والقيمة من الطبقات السابقة بدلاً من حساب موتراتها الخاصة. وهذا يقلل الذاكرة أثناء التشغيل في سياقات طويلة وعلى الأجهزة بتكلفة جودة ضئيلة.
تشحن جوجل أيضًا مسودة Multi-Token Prediction (MTP) لفك التشفير التخميني، والتي يمكن أن تسرع الاستدلال الشامل بنحو 3 أضعاف دون تغيير في جودة المخرجات.
الصوت الأصلي وتعدد الوسائط الكامل
العديد من النماذج المفتوحة تقرأ الصور. Gemma 4 12B هو أول نموذج متوسط الحجم يقبل الصوت بشكل أصلي، في نفس النموذج الذي يتعامل مع النص والرؤية. وهذا يفتح فئة مختلفة من العمل:
- التعرف التلقائي على الكلام والنسخ
- تحديد هوية المتحدث (من تحدث ومتى)
- الإجابة على الأسئلة الصوتية حول الأصوات غير الكلامية
- فهم الفيديو، مع الصوت، وليس فقط الإطارات
- مهام الصورة: التسميات التوضيحية، اكتشاف الكائنات وواجهة المستخدم، التفكير البصري
ترتيب الإدخال مهم عند خلط الوسائط. يتوقع قالب الدردشة محتوى الصورة قبل موجه النص والصوت بعده. يعيد النموذج النص في كل الحالات.
كيف يعمل Gemma 4 12B
هذه هي النتائج المنشورة لنموذج gemma-4-12B-it المُعدّل للتعليمات، من بطاقة نموذج Hugging Face:
| المعيار | Gemma 4 12B-it |
|---|---|
| MMLU Pro (تفكير) | 77.2% |
| AIME 2026 (رياضيات، بدون أدوات) | 77.5% |
| GPQA Diamond (علم) | 78.8% |
| LiveCodeBench v6 (برمجة) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (رؤية) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle (سياق طويل) | 43.4% |
لوضع ذلك في سياق العائلة، إليك كيف يقع 12B بين نظرائه في بعض الاختبارات الرئيسية:
| المعيار | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
النمط واضح. يقع 12B أعلى بكثير من E4B من فئة 4B وفي متناول 26B MoE، وهي الموازنة التي تقدمها جوجل: معظم جودة النموذج الأكبر، على جهاز تملكه بالفعل.
ما الجديد مقارنة بـ Gemma 3
إذا كنت قد استخدمت Gemma 3، فتبرز أربعة أشياء:
- الصوت الأصلي. كان Gemma 3 نصًا ورؤية. يضيف 12B الصوت والفيديو مع الصوت في النموذج الأساسي.
- التصميم الخالي من المشفر. لا يوجد مشفر رؤية أو صوت إضافي لتحميله.
- سياق 256 ألف رمز. أربعة أضعاف المساحة للوثائق الطويلة والنصوص البرمجية المتعددة الملفات.
- Apache 2.0. استخدمت إصدارات Gemma السابقة ترخيص Gemma مخصصًا مع قيود الاستخدام. تنتقل Gemma 4 إلى ترخيص Apache 2.0 القياسي، وهو أبسط للاستخدام التجاري وإعادة التوزيع.
ما يمكنك بناءه باستخدامه
يستهدف 12B الأعمال التي تعمل على الجهاز، وليس في السحابة:
- المساعدون غير المتصلون بالإنترنت الذين يرون شاشتك ويسمعون ميكروفونك دون إرسال البيانات للخارج
- أدوات الاجتماعات والمكالمات التي تقوم بنسخ النصوص وتحديد المتحدثين وتلخيصها محليًا
- خطوط أنابيب المستندات والوسائط التي تمزج ملفات PDF ولقطات الشاشة والصوت في موجه واحد
- سير العمل الوكيل (Agentic workflows): يدعم استدعاء الوظائف واستخدام الأدوات، بحيث يمكنه التخطيط والتصرف
- مساعدة البرمجة بمستوى 72.0% على LiveCodeBench، قابلة للاستخدام للإكمال التلقائي المحلي وإعادة الهيكلة
لأنه يعرض واجهة دردشة قياسية من خلال مشغلات مثل Ollama و llama.cpp، يمكنك توجيه الأدوات الموجودة إليه. عند ربط نموذج محلي بتطبيق، لا يزال يتعين عليك تأكيد شكل الطلب والاستجابة. تتيح لك أداة مثل Apidog حفظ نقطة النهاية المحلية، وإرسال عينات من الموجهات، والتحقق من JSON قبل البناء عليها. يمكنك تنزيل Apidog مجانًا وتوجيهه إلى الخادم المحلي في دقيقة واحدة. المزيد عن ذلك في دليل الاستخدام المجاني.
الترخيص وما يمنحك إياه Apache 2.0
يتم إصدار Gemma 4 12B بموجب ترخيص Apache 2.0. ببساطة:
- يمكنك استخدامه تجاريًا.
- يمكنك تعديله، ضبطه، وإعادة توزيعه.
- يمكنك تشغيله في منتجات مغلقة المصدر.
- تحتفظ بمخرجاتك.
يمثل هذا تحولًا حقيقيًا عن ترخيص Gemma السابق، الذي كان يحمل شروط سياسة الاستخدام الخاصة بجوجل. Apache 2.0 هو نفس الترخيص المتساهل الذي يقف وراء قائمة طويلة من البنى التحتية المفتوحة، لذا فإن المراجعة القانونية غالبًا ما تكون سريعة.
الأجهزة التي تحتاجها
هدف جوجل هو جهاز بسعة 16 جيجابايت، سواء VRAM أو ذاكرة موحدة من نوع Apple. يقلل التكميم هذا:
- الجودة الكاملة: حوالي 16 جيجابايت
- 8 بت: حوالي 14 جيجابايت
- 4 بت (Q4_K_M): حوالي 8 جيجابايت، وهو الإعداد الافتراضي في Ollama
يضع هذا النموذج 12B في متناول بطاقة رسوميات ألعاب سائدة، أو جهاز MacBook بسعة 16 جيجابايت، أو محطة عمل متوسطة المدى. يمكن لنماذج E2B و E4B الأصغر أن تعمل بذاكرة أقل إذا كانت أجهزتك محدودة.
قيود تستحق المعرفة
تتحدث جوجل بصراحة عن المفاضلات في بطاقة النموذج:
- يمكن أن تنتج حقائق غير صحيحة أو قديمة؛ تحقق من أي شيء مهم.
- يمكن أن تعكس التحيزات في بيانات تدريبها.
- تتعامل مع السخرية، والفروق الدقيقة، واللغة المجازية بشكل غير متساوٍ.
- للتفكير المنطقي العام قيود، مثل أي نموذج بهذا الحجم.
- تعتمد جودة المخرجات على وضوح الموجه والسياق الذي تقدمه له.
هذه هي التحذيرات العادية لنموذج مفتوح بحجم 12 مليار. لن يحل محل نموذج سحابي رائد لأصعب التفكير، لكن هذا ليس الهدف. الهدف هو ذكاء اصطناعي متعدد الوسائط قادر يعمل حيث توجد بياناتك بالفعل.
الأسئلة الشائعة
هل Gemma 4 12B مجاني؟ نعم. الأوزان مفتوحة بموجب ترخيص Apache 2.0 ومتاحة للتنزيل مجانًا من Hugging Face و Kaggle. أنت تدفع فقط مقابل الأجهزة أو السحابة التي تشغلها عليها. راجع كيفية استخدام Gemma 4 12B مجانًا.
هل يمكن لـ Gemma 4 12B فهم الصوت حقًا؟ نعم. يقبل الصوت الخام كمدخل ويمكنه نسخ الكلام، وتحديد المتحدثين، والإجابة على الأسئلة المتعلقة بالصوت. إنه أول نموذج متوسط الحجم يقوم بذلك بشكل أصلي بدلاً من استخدام نموذج كلام منفصل.
ما الفرق بين gemma-4-12B و gemma-4-12B-it؟ النموذج الأساسي مدرب مسبقًا فقط. الإصدار -it معدّل للتعليمات للدردشة واستخدام الأدوات واتباع التوجيهات. معظم الناس يفضلون بناء -it.
كيف يختلف 12B عن 26B و 31B؟ 12B كثيف وخالي من المشفر، تم ضبطه لأجهزة 16 جيجابايت. 26B هو نموذج خليط الخبراء (Mixture-of-Experts) (4 مليار نشط، 26 مليار إجمالي)، و 31B هو نموذج كثيف أكبر لجودة رائدة. كلا النموذجين الأكبر يسجلان أعلى في المعايير ولكنهما يحتاجان إلى المزيد من الذاكرة.
هل يدعم Gemma 4 12B استدعاء الأدوات؟ نعم. يدعم استدعاء الوظائف النصية ومتعددة الوسائط، بالإضافة إلى وضع تفكير اختياري للتفكير خطوة بخطوة، مما يجعله قابلًا للاستخدام في سير العمل الوكيل.
كيف يقارن بـ Gemini 3.5؟ مهام مختلفة. Gemini 3.5 هو نموذج جوجل الرائد المستضاف؛ راجع ما هو Gemini 3.5. Gemma 4 12B هو نموذج مفتوح تشغله بنفسك. أنت تتخلى عن بعض الجودة القصوى مقابل الخصوصية، والاستخدام دون اتصال بالإنترنت، وتكلفة صفرية للرموز.
