Google merilis Gemma 4 12B pada 3 Juni 2026. Ini adalah model bobot terbuka dengan 11,95 miliar parameter yang dapat membaca teks, gambar, audio, dan video, serta dapat dijalankan di laptop dengan memori 16GB. Detail utamanya: ini adalah model ukuran menengah pertama dengan input audio asli, dan model ini melakukannya tanpa encoder visual atau audio terpisah.
Bagian terakhir itulah yang membuatnya berbeda. Sebagian besar model multimodal menanamkan encoder visual dan encoder audio ke dalam model bahasa. Gemma 4 12B menghilangkan keduanya dan memasukkan potongan gambar mentah serta bentuk gelombang audio langsung ke dalam model. Anda mendapatkan satu file 12B yang menangani empat jenis input, berjalan secara offline, dan didistribusikan di bawah lisensi Apache 2.0 yang dapat Anda gunakan secara komersial.
Berikut adalah apa itu model ini, posisinya dalam keluarga Gemma 4, dan apa yang bisa Anda bangun dengannya. Jika Anda ingin menjalankannya hari ini, lompat ke panduan pendamping tentang cara menggunakan Gemma 4 12B secara gratis.
Gemma 4 12B sekilas
| Spesifikasi | Nilai |
|---|---|
| Dirilis | 3 Juni 2026 |
| Parameter | 11.95B (padat) |
| Input | Teks, gambar, audio, video |
| Output | Teks |
| Jendela konteks | 256K token |
| Arsitektur | Multimodal terpadu tanpa encoder |
| Lisensi | Apache 2.0 |
| Berjalan di | VRAM 16GB atau memori terpadu (sekitar 8GB pada 4-bit) |
| Varian | google/gemma-4-12B (dasar), google/gemma-4-12B-it (disetel instruksi) |
Jawaban singkat
Gemma 4 12B adalah model terbuka padat berparameter 12 miliar dari Google DeepMind yang menerima teks, gambar, audio, dan video sebagai input dan mengembalikan teks. Model ini disetel untuk berjalan secara lokal pada perangkat keras konsumen, dengan jendela konteks 256K token, panggilan alat asli, dan mode penalaran langkah demi langkah opsional.

Model ini berada di tengah jajaran Gemma 4. Google menggambarkannya sebagai jembatan antara model E4B yang ramah perangkat tepi dan model Mixture-of-Experts 26B yang lebih besar, dengan kualitas yang mendekati 26B pada beberapa tolok ukur dengan jejak memori kurang dari separuh.
Posisi 12B dalam keluarga Gemma 4
Gemma 4 tidak diluncurkan sekaligus. Model E2B, E4B, 26B, dan 31B tiba pada 31 Maret 2026. Model 12B adalah anggota terbaru, ditambahkan pada 3 Juni. Berikut adalah jajaran lengkapnya:
| Model | Ukuran | Konteks | Catatan |
|---|---|---|---|
| Gemma 4 E2B | 2.3B efektif (5.1B mentah) | 128K | Di perangkat, input audio |
| Gemma 4 E4B | 4.5B efektif (8B mentah) | 128K | Ringkas, input audio |
| Gemma 4 12B | 11.95B padat | 256K | Tanpa encoder, input audio |
| Gemma 4 26B A4B | 4B aktif / 26B total (MoE) | 256K | Mixture-of-experts |
| Gemma 4 31B | 31B padat | 256K | Performa terdepan |
Model 12B adalah satu-satunya model dalam keluarga yang dibangun berdasarkan desain tanpa encoder. Model lainnya mempertahankan encoder visual tradisional (dan encoder audio konformer pada dua model yang lebih kecil). Hal ini menjadikan 12B sebagai demonstrasi paling jelas tentang arah pengembangan AI multimodal di perangkat oleh Google.
Untuk konteks bagaimana model-model ini dibandingkan dengan model terbuka lainnya, lihat perbandingan kami antara MiniMax M3, DeepSeek V4, dan Qwen 3.7 serta perang harga bobot terbuka yang lebih luas.
Apa sebenarnya arti “tanpa encoder”
Model multimodal standar bekerja dalam dua tahap. Encoder visual mengubah gambar menjadi embedding, encoder audio mengubah suara menjadi embedding, dan kemudian proyektor memetakan embedding tersebut ke dalam ruang model bahasa. Itu berarti tiga komponen yang harus dimuat, disetel, dan disimpan dalam memori.
Gemma 4 12B menghilangkan encoder. Menurut laporan Google:
- Visual: modul embedding ringan (satu perkalian matriks ditambah embedding posisi dan normalisasi) memproyeksikan potongan gambar mentah langsung ke ruang embedding model.
- Audio: encoder audio dihilangkan. Audio mentah diproyeksikan ke ruang dimensional yang sama dengan token teks, sehingga suara dan kata-kata berbagi satu jalur.
Input visual dan audio mengalir langsung ke inti model bahasa. Satu model, satu set bobot, setiap modalitas diperlakukan sebagai token.
Dua pilihan arsitektur lainnya menjaganya tetap efisien pada perangkat keras kecil:
- Embedding per lapisan (PLE): setiap lapisan dekoder mendapatkan embedding khusus kecil yang mencampur pencarian identitas token dengan proyeksi yang sadar konteks. Ini mengurangi biaya parameter sambil memungkinkan lapisan untuk berspesialisasi.
- Cache KV Bersama: beberapa lapisan terakhir menggunakan kembali tensor key-value dari lapisan sebelumnya alih-alih menghitungnya sendiri. Ini mengurangi memori selama berjalan dengan konteks panjang dan di perangkat dengan sedikit biaya kualitas.
Google juga menyertakan perancang Multi-Token Prediction (MTP) untuk speculative decoding, yang dapat mempercepat inferensi end-to-end hingga sekitar 3x tanpa mengubah kualitas output.
Audio asli dan multimodalitas penuh
Banyak model terbuka yang dapat membaca gambar. Gemma 4 12B adalah yang pertama berukuran menengah yang menerima audio secara asli, dalam model yang sama yang menangani teks dan visual. Ini membuka kelas pekerjaan yang berbeda:
- Pengenalan dan transkripsi suara otomatis
- Diarisasi pembicara (siapa bicara kapan)
- Penjawab pertanyaan audio atas suara non-ucapan
- Pemahaman video, dengan audio, bukan hanya frame
- Tugas gambar: pembuatan keterangan, deteksi objek dan UI, penalaran visual
Urutan input penting saat Anda mencampur modalitas. Template obrolan mengharapkan konten gambar sebelum prompt teks dan audio setelahnya. Model mengembalikan teks dalam setiap kasus.
Bagaimana performa Gemma 4 12B
Berikut adalah skor yang dipublikasikan untuk gemma-4-12B-it yang disetel instruksi, dari kartu model Hugging Face:
| Tolok Ukur | Gemma 4 12B-it |
|---|---|
| MMLU Pro (penalaran) | 77.2% |
| AIME 2026 (matematika, tanpa alat) | 77.5% |
| GPQA Diamond (sains) | 78.8% |
| LiveCodeBench v6 (pengkodean) | 72.0% |
| Codeforces (ELO) | 1659 |
| MMMU Pro (visual) | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle (konteks panjang) | 43.4% |
Untuk menempatkannya dalam konteks keluarga, berikut adalah posisi 12B di antara tetangganya pada beberapa tes utama:
| Tolok Ukur | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Polanya jelas. Model 12B berada jauh di atas E4B kelas 4B dan dalam jangkauan 26B MoE, yang merupakan tawaran Google: sebagian besar kualitas model yang lebih besar, pada mesin yang sudah Anda miliki.
Apa yang baru dibandingkan Gemma 3
Jika Anda pernah menggunakan Gemma 3, empat hal ini menonjol:
- Audio asli. Gemma 3 adalah teks dan visual. 12B menambahkan suara dan video-dengan-audio dalam model dasar.
- Desain tanpa encoder. Tidak ada encoder visual atau audio tambahan untuk dimuat.
- Konteks 256K. Empat kali lebih banyak ruang untuk dokumen panjang, transkrip, dan kode multi-file.
- Apache 2.0. Rilis Gemma sebelumnya menggunakan lisensi Gemma kustom dengan batasan penggunaan. Gemma 4 beralih ke Apache 2.0 standar, yang lebih sederhana untuk penggunaan komersial dan redistribusi.
Apa yang bisa Anda bangun dengannya
Model 12B ditujukan untuk pekerjaan yang berjalan di perangkat, bukan di cloud:
- Asisten offline yang melihat layar Anda dan mendengar mikrofon Anda tanpa mengirim data keluar
- Alat rapat dan panggilan yang mentranskripsi, diarisasi, dan meringkas secara lokal
- Pipeline dokumen dan media yang mencampur PDF, tangkapan layar, dan audio dalam satu prompt
- Alur kerja agen: mendukung pemanggilan fungsi dan penggunaan alat, sehingga dapat merencanakan dan bertindak
- Bantuan pengkodean pada level LiveCodeBench 72.0%, dapat digunakan untuk pelengkapan otomatis lokal dan refaktor
Karena ia mengekspos antarmuka obrolan standar melalui runner seperti Ollama dan llama.cpp, Anda dapat mengarahkan alat yang ada kepadanya. Saat Anda menghubungkan model lokal ke aplikasi, Anda tetap ingin mengkonfirmasi bentuk permintaan dan respons. Alat seperti Apidog memungkinkan Anda menyimpan titik akhir lokal, mengirim contoh prompt, dan memeriksa JSON sebelum Anda membangun di atasnya. Anda dapat mengunduh Apidog secara gratis dan mengarahkannya ke server lokal dalam satu menit. Lebih lanjut tentang itu di panduan penggunaan gratis.
Lisensi dan apa yang diberikan Apache 2.0 kepada Anda
Gemma 4 12B dirilis di bawah Apache 2.0. Dalam istilah sederhana:
- Anda dapat menggunakannya secara komersial.
- Anda dapat memodifikasi, menyetel halus, dan mendistribusikannya kembali.
- Anda dapat menjalankannya dalam produk sumber tertutup.
- Anda menyimpan output Anda.
Ini adalah perubahan nyata dari lisensi Gemma sebelumnya, yang membawa ketentuan kebijakan penggunaan Google sendiri. Apache 2.0 adalah lisensi permisif yang sama di balik daftar panjang infrastruktur terbuka, sehingga tinjauan hukum cenderung cepat.
Perangkat keras yang Anda butuhkan
Target Google adalah mesin 16GB, VRAM atau memori terpadu gaya Apple. Kuantisasi menurunkannya:
- Kualitas penuh: sekitar 16GB
- 8-bit: sekitar 14GB
- 4-bit (Q4_K_M): sekitar 8GB, standar di Ollama
Hal ini menempatkan 12B dalam jangkauan GPU gaming umum, MacBook 16GB, atau workstation kelas menengah. Model E2B dan E4B yang lebih kecil masih bisa berjalan lebih rendah jika perangkat keras Anda terbatas.
Batasan yang perlu diketahui
Google lugas tentang kompromi dalam kartu model:
- Model ini dapat menghasilkan fakta yang salah atau usang; verifikasi apa pun yang penting.
- Model ini dapat mencerminkan bias dalam data pelatihannya.
- Model ini menangani sarkasme, nuansa, dan bahasa figuratif secara tidak merata.
- Penalaran akal sehat memiliki batasan, seperti model ukuran ini.
- Kualitas output bergantung pada kejelasan prompt dan konteks yang Anda berikan.
Ini adalah peringatan umum untuk model terbuka 12B. Model ini tidak akan menggantikan model cloud terdepan untuk penalaran tersulit, tetapi bukan itu intinya. Intinya adalah AI multimodal yang mumpuni yang berjalan di mana data Anda sudah berada.
FAQ
Apakah Gemma 4 12B gratis? Ya. Bobotnya terbuka di bawah Apache 2.0 dan gratis untuk diunduh dari Hugging Face dan Kaggle. Anda hanya membayar untuk perangkat keras atau cloud tempat Anda menjalankannya. Lihat cara menggunakan Gemma 4 12B secara gratis.
Bisakah Gemma 4 12B benar-benar memahami audio? Ya. Model ini menerima audio mentah sebagai input dan dapat mentranskripsi ucapan, mengidentifikasi pembicara, dan menjawab pertanyaan tentang suara. Ini adalah model berukuran menengah pertama yang melakukan ini secara asli daripada melalui model ucapan terpisah.
Apa perbedaan antara gemma-4-12B dan gemma-4-12B-it? Model dasar hanya dilatih awal (pretrained). Versi -it disetel instruksi untuk obrolan, penggunaan alat, dan mengikuti petunjuk. Kebanyakan orang menginginkan versi -it.
Bagaimana perbedaan 12B dengan 26B dan 31B? 12B padat dan tanpa encoder, disetel untuk mesin 16GB. 26B adalah model Mixture-of-Experts (4B aktif, 26B total), dan 31B adalah model padat yang lebih besar untuk kualitas terdepan. Kedua model yang lebih besar mencetak skor lebih tinggi pada tolok ukur tetapi membutuhkan lebih banyak memori.
Apakah Gemma 4 12B mendukung pemanggilan alat? Ya. Model ini mendukung pemanggilan fungsi teks dan multimodal, ditambah mode berpikir opsional untuk penalaran langkah demi langkah, yang membuatnya dapat digunakan untuk alur kerja agen.
Bagaimana perbandingannya dengan Gemini 3.5? Pekerjaan yang berbeda. Gemini 3.5 adalah model terdepan yang dihosting Google; lihat apa itu Gemini 3.5. Gemma 4 12B adalah model terbuka yang Anda jalankan sendiri. Anda menukar kualitas puncak dengan privasi, penggunaan offline, dan biaya per-token nol.
