Google, Gemma 4 12B'yi 3 Haziran 2026'da piyasaya sürdü. Metin, görüntü, ses ve video okuyabilen, 11.95 milyar parametreli, açık ağırlıklı bir modeldir ve 16 GB belleğe sahip bir dizüstü bilgisayara sığar. Öne çıkan detay: doğal ses girişi olan ilk orta boyutlu modeldir ve bunu ayrı bir görsel veya ses kodlayıcısı olmadan yapar.
Farklı kılan son kısım bu. Çoğu çok modlu model, bir görsel kodlayıcıyı ve bir ses kodlayıcıyı bir dil modeline ekler. Gemma 4 12B, her ikisini de çıkarır ve ham görüntü yamalarını ve ses dalga biçimlerini doğrudan modele besler. Dört farklı giriş türünü işleyen, çevrimdışı çalışan ve ticari olarak kullanabileceğiniz bir Apache 2.0 lisansı altında sunulan tek bir 12B dosyası elde edersiniz.
İşte modelin ne olduğu, Gemma 4 ailesindeki yeri ve onunla neler inşa edebileceğiniz. Eğer bugün çalıştırmak isterseniz, Gemma 4 12B'yi ücretsiz nasıl kullanacağınız hakkındaki yardımcı rehbere atlayın.
Gemma 4 12B'ye bir bakış
| Özellik | Değer |
|---|---|
| Yayınlanma Tarihi | 3 Haziran 2026 |
| Parametreler | 11.95B (yoğun) |
| Girdiler | Metin, görüntü, ses, video |
| Çıktı | Metin |
| Bağlam penceresi | 256K belirteç |
| Mimari | Kodlayıcı içermeyen birleşik çok modlu |
| Lisans | Apache 2.0 |
| Çalıştığı Ortam | 16GB VRAM veya birleşik bellek (4-bit'te yaklaşık 8GB) |
| Varyantlar | google/gemma-4-12B (temel), google/gemma-4-12B-it (talimatlara göre ayarlanmış) |
Kısa Cevap
Gemma 4 12B, Google DeepMind'dan metin, görüntüler, ses ve videoyu girdi olarak alan ve metin döndüren, yoğun, 12 milyar parametreli açık bir modeldir. 256K belirteçli bir bağlam penceresi, doğal araç çağrısı ve isteğe bağlı adım adım akıl yürütme modu ile tüketici donanımında yerel olarak çalışacak şekilde ayarlanmıştır.

Gemma 4 serisinin ortasında yer alıyor. Google, onu uç cihaz dostu E4B modeli ile daha büyük 26B Uzman Karışımı modeli arasında bir köprü olarak tanımlıyor; 26B'nin bellek ayak izinin yarısından daha azıyla, birçok kıyaslamada 26B'ye yaklaşan bir kalite sunuyor.
12B, Gemma 4 ailesine nasıl uyuyor
Gemma 4'ün lansmanı tek seferde yapılmadı. E2B, E4B, 26B ve 31B modelleri 31 Mart 2026'da geldi. 12B, 3 Haziran'da eklenen en yeni üyedir. İşte tam seri:
| Model | Boyut | Bağlam | Notlar |
|---|---|---|---|
| Gemma 4 E2B | 2.3B etkili (5.1B ham) | 128K | Cihazda, ses girişi |
| Gemma 4 E4B | 4.5B etkili (8B ham) | 128K | Kompakt, ses girişi |
| Gemma 4 12B | 11.95B yoğun | 256K | Kodlayıcı içermeyen, ses girişi |
| Gemma 4 26B A4B | 4B aktif / 26B toplam (MoE) | 256K | Uzman Karışımı |
| Gemma 4 31B | 31B yoğun | 256K | Sınır performansı |
12B, ailedeki kodlayıcı içermeyen tasarıma sahip tek modeldir. Diğerleri geleneksel bir görsel kodlayıcı (ve daha küçük ikisinde uyumlu bir ses kodlayıcı) kullanır. Bu da 12B'yi, Google'ın cihaz içi çok modlu yapay zekayı nereye götürdüğünün en net göstergesi haline getirir.
Bu modellerin diğer açık modellerle nasıl karşılaştırıldığını görmek için, MiniMax M3, DeepSeek V4 ve Qwen 3.7 karşılaştırmamıza ve daha geniş açık ağırlıklı fiyat savaşına bakın.
"Kodlayıcı içermeyen" ne anlama geliyor
Standart çok modlu modeller iki aşamada çalışır. Bir görsel kodlayıcı, bir görüntüyü gömme vektörlerine dönüştürür; bir ses kodlayıcı, sesi gömme vektörlerine dönüştürür ve ardından bir projektör bunları dil modelinin alanına eşler. Bunlar, yüklenmesi, ayarlanması ve bellekte tutulması gereken üç bileşendir.
Gemma 4 12B, kodlayıcıları kaldırır. Google'ın yazısına göre:
- Görsel: hafif bir gömme modülü (tek bir matris çarpımı artı konumsal gömme vektörleri ve normalizasyon), ham görüntü yamalarını doğrudan modelin gömme alanına yansıtır.
- Ses: ses kodlayıcısı kaldırılmıştır. Ham ses, metin belirteçleriyle aynı boyutlu alana yansıtılır, böylece ses ve kelimeler tek bir yolu paylaşır.
Görsel ve ses girdileri doğrudan dil modeli omurgasına akar. Tek bir model, tek bir ağırlık kümesi, her modalite belirteç olarak işlenir.
İki mimari seçimi daha, küçük donanımlarda verimli çalışmasını sağlar:
- Katman Başına Gömme Vektörleri (PLE): her kod çözücü katmanı, belirteç kimliği araması ile bağlama duyarlı bir projeksiyonu karıştıran küçük, özel bir gömme vektörü alır. Bu, katmanların uzmanlaşmasına olanak tanırken parametre maliyetini düşürür.
- Paylaşılan KV önbelleği: son birkaç katman, kendi anahtar-değer tensörlerini hesaplamak yerine önceki katmanlardan anahtar-değer tensörlerini yeniden kullanır. Bu, uzun bağlamlı ve cihaz içi çalışmalarda kaliteden ödün vermeden belleği azaltır.
Google ayrıca, spekülatif kod çözme için bir Çoklu Belirteç Tahmin (MTP) taslağı sunar; bu, çıktı kalitesinde herhangi bir değişiklik olmaksızın uçtan uca çıkarımı yaklaşık 3 katına kadar hızlandırabilir.
Doğal ses ve tam çok modluluk
Birçok açık model görüntüleri okur. Gemma 4 12B, metin ve görüntüyü işleyen aynı modelde sesi doğal olarak alan ilk orta boyutlu modeldir. Bu, farklı bir çalışma sınıfının kapılarını açar:
- Otomatik konuşma tanıma ve transkripsiyon
- Konuşmacı diarizasyonu (kimin ne zaman konuştuğu)
- Konuşma dışı sesler üzerinde sesli soru yanıtlama
- Yalnızca karelerle değil, sesle birlikte video anlama
- Görüntü görevleri: başlıklandırma, nesne ve kullanıcı arayüzü tespiti, görsel akıl yürütme
Modları karıştırdığınızda giriş sırası önemlidir. Sohbet şablonu, metin isteminden önce görüntü içeriğini ve ardından sesi bekler. Model her durumda metin döndürür.
Gemma 4 12B nasıl performans gösteriyor
Bunlar, Hugging Face model kartından alınan, talimatlara göre ayarlanmış gemma-4-12B-it için yayınlanmış puanlardır:
| Kıyaslama | Gemma 4 12B-it |
|---|---|
| MMLU Pro (akıl yürütme) | 77.2% |
| AIME 2026 (matematik, araçsız) | 77.5% |
| GPQA Diamond (bilim) | 78.8% |
| LiveCodeBench v6 (kodlama) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (görsel) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-iğne (uzun bağlam) | 43.4% |
Bunu aile bağlamına oturtmak gerekirse, 12B'nin birkaç önemli testte komşuları arasında nasıl yer aldığını aşağıda görebilirsiniz:
| Kıyaslama | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Desen açık. 12B, 4B sınıfı E4B'nin oldukça üzerinde ve Google'ın sunduğu 26B Uzman Karışımı'na (MoE) ulaşabilir durumda: daha büyük modelin kalitesinin çoğunu, zaten sahip olduğunuz bir makinede.
Gemma 3'e göre yenilikler neler
Gemma 3 kullandıysanız, dört şey dikkat çekiyor:
- Doğal ses. Gemma 3 metin ve görseldi. 12B, temel modele ses ve sesli video ekler.
- Kodlayıcı içermeyen tasarım. Yüklenecek eklenti görsel veya ses kodlayıcısı yok.
- 256K bağlam. Uzun belgeler, transkriptler ve çok dosyalı kod için dört kat fazla alan.
- Apache 2.0. Önceki Gemma sürümleri, kullanım kısıtlamaları içeren özel bir Gemma lisansı kullanıyordu. Gemma 4, ticari ve yeniden dağıtım kullanımı için daha basit olan standart Apache 2.0'a geçiyor.
Onunla neler inşa edebilirsiniz
12B, bulutta değil, cihazda çalışan işlere yöneliktir:
- Ekranınızı gören ve mikrofonunuzu veri göndermeden duyan çevrimdışı asistanlar
- Toplantıları ve aramaları yerel olarak deşifre eden, konuşmacıları ayıran ve özetleyen toplantı ve arama araçları
- PDF'leri, ekran görüntülerini ve sesi tek bir istemde birleştiren belge ve medya işlem hatları
- Ajan tabanlı iş akışları: fonksiyon çağrısını ve araç kullanımını destekler, böylece planlayabilir ve hareket edebilir
- %72.0 LiveCodeBench düzeyinde kodlama yardımı, yerel otomatik tamamlama ve yeniden düzenlemeler için kullanılabilir
Ollama ve llama.cpp gibi çalıştırıcılar aracılığıyla standart bir sohbet arayüzü sunduğu için, mevcut araçları ona yönlendirebilirsiniz. Yerel bir modeli bir uygulamaya entegre ettiğinizde, yine de istek ve yanıt yapısını doğrulamanız gerekir. Apidog gibi bir araç, yerel uç noktayı kaydetmenize, örnek istemler göndermenize ve üzerine inşa etmeden önce JSON'ı kontrol etmenize olanak tanır. Apidog'u ücretsiz indirebilir ve bir dakika içinde yerel sunucuya yönlendirebilirsiniz. Bununla ilgili daha fazla bilgiyi ücretsiz kullanım rehberinde bulabilirsiniz.
Lisans ve Apache 2.0'ın size sağladıkları
Gemma 4 12B, Apache 2.0 altında yayınlanmıştır. Basit bir ifadeyle:
- Ticari olarak kullanabilirsiniz.
- Değiştirebilir, ince ayar yapabilir ve yeniden dağıtabilirsiniz.
- Kapalı kaynaklı ürünlerde çalıştırabilirsiniz.
- Çıktılarınız size aittir.
Bu, Google'ın kendi kullanım politikası şartlarını taşıyan önceki Gemma lisansından gerçek bir farktır. Apache 2.0, uzun bir açık altyapı listesinin arkasındaki aynı izin verici lisanstır, bu nedenle yasal inceleme genellikle hızlıdır.
İhtiyacınız olan donanım
Google'ın hedefi, 16 GB'lık bir makine, VRAM veya Apple tarzı birleşik bellek. Kuantizasyon bunu düşürüyor:
- Tam kalite: yaklaşık 16 GB
- 8-bit: yaklaşık 14 GB
- 4-bit (Q4_K_M): yaklaşık 8 GB, Ollama'da varsayılan
Bu, 12B'yi ana akım bir oyun GPU'su, 16 GB'lık bir MacBook veya orta sınıf bir iş istasyonunun erişimine sokar. Donanımınız kısıtlıysa, daha küçük E2B ve E4B modelleri daha da düşük gereksinimlere sahiptir.
Bilmeye değer sınırlamalar
Google, model kartındaki ödünleşimler konusunda doğrudan:
- Yanlış veya güncel olmayan bilgiler üretebilir; önemli olan her şeyi doğrulayın.
- Eğitim verilerindeki önyargıları yansıtabilir.
- Alaycılık, nüans ve mecazi dili düzensiz bir şekilde ele alır.
- Sağduyulu akıl yürütme, bu boyuttaki her model gibi sınırlamalara sahiptir.
- Çıktı kalitesi, istemin netliğine ve verdiğiniz bağlama bağlıdır.
Bunlar, 12B açık bir model için normal uyarılar. En zor akıl yürütme için bir sınır bulut modelinin yerini almayacaktır, ancak asıl mesele bu değil. Asıl mesele, verilerinizin zaten bulunduğu yerde çalışan yetenekli çok modlu yapay zekadır.
SSS
Gemma 4 12B ücretsiz mi? Evet. Ağırlıklar Apache 2.0 altında açıktır ve Hugging Face ile Kaggle'dan ücretsiz olarak indirilebilir. Yalnızca üzerinde çalıştırdığınız donanım veya bulut için ödeme yaparsınız. Gemma 4 12B'yi ücretsiz nasıl kullanacağınızı görün.
Gemma 4 12B gerçekten ses anlayabilir mi? Evet. Ham sesi girdi olarak alır ve konuşmayı deşifre edebilir, konuşmacıları tanımlayabilir ve ses hakkında soruları yanıtlayabilir. Bunu ayrı bir konuşma modeli aracılığıyla değil, doğal olarak yapan ilk orta boyutlu modeldir.
gemma-4-12B ile gemma-4-12B-it arasındaki fark nedir? Temel model yalnızca önceden eğitilmiştir. -it sürümü sohbet, araç kullanımı ve yönergeleri takip etmek için talimatlara göre ayarlanmıştır. Çoğu kişi -it yapısını ister.
12B, 26B ve 31B'den nasıl farklıdır? 12B yoğun ve kodlayıcı içermez, 16 GB makineler için ayarlanmıştır. 26B bir Uzman Karışımı (Mixture-of-Experts) modelidir (4B aktif, toplam 26B) ve 31B, sınır kalitesi için daha büyük yoğun bir modeldir. Her iki büyük model de kıyaslamalarda daha yüksek puan alır ancak daha fazla belleğe ihtiyaç duyar.
Gemma 4 12B araç çağırmayı destekliyor mu? Evet. Metin ve çok modlu fonksiyon çağrısını ve adım adım akıl yürütme için isteğe bağlı bir düşünme modunu destekler, bu da onu ajan tabanlı iş akışları için kullanılabilir hale getirir.
Gemini 3.5 ile nasıl karşılaştırılır? Farklı işler. Gemini 3.5, Google'ın barındırılan sınır modelidir; Gemini 3.5 nedir bölümüne bakın. Gemma 4 12B, kendi kendinize çalıştırdığınız açık bir modeldir. Gizlilik, çevrimdışı kullanım ve sıfır belirteç başına maliyet için biraz en yüksek kaliteden ödün verirsiniz.
