Apa itu Gemma 4 12B?

Penjelasan Gemma 4 12B: model terbuka Google Juni 2026 dengan audio bawaan, arsitektur multimodal bebas enkoder, konteks 256K, Apache 2.0, berjalan di laptop 16GB.

Ashley Innocent

Ashley Innocent

4 June 2026

Apa itu Gemma 4 12B?

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Google merilis Gemma 4 12B pada 3 Juni 2026. Ini adalah model bobot terbuka dengan 11,95 miliar parameter yang dapat membaca teks, gambar, audio, dan video, serta dapat dijalankan di laptop dengan memori 16GB. Detail utamanya: ini adalah model ukuran menengah pertama dengan input audio asli, dan model ini melakukannya tanpa encoder visual atau audio terpisah.

Bagian terakhir itulah yang membuatnya berbeda. Sebagian besar model multimodal menanamkan encoder visual dan encoder audio ke dalam model bahasa. Gemma 4 12B menghilangkan keduanya dan memasukkan potongan gambar mentah serta bentuk gelombang audio langsung ke dalam model. Anda mendapatkan satu file 12B yang menangani empat jenis input, berjalan secara offline, dan didistribusikan di bawah lisensi Apache 2.0 yang dapat Anda gunakan secara komersial.

tombol

Berikut adalah apa itu model ini, posisinya dalam keluarga Gemma 4, dan apa yang bisa Anda bangun dengannya. Jika Anda ingin menjalankannya hari ini, lompat ke panduan pendamping tentang cara menggunakan Gemma 4 12B secara gratis.

Gemma 4 12B sekilas

Spesifikasi Nilai
Dirilis 3 Juni 2026
Parameter 11.95B (padat)
Input Teks, gambar, audio, video
Output Teks
Jendela konteks 256K token
Arsitektur Multimodal terpadu tanpa encoder
Lisensi Apache 2.0
Berjalan di VRAM 16GB atau memori terpadu (sekitar 8GB pada 4-bit)
Varian google/gemma-4-12B (dasar), google/gemma-4-12B-it (disetel instruksi)

Jawaban singkat

Gemma 4 12B adalah model terbuka padat berparameter 12 miliar dari Google DeepMind yang menerima teks, gambar, audio, dan video sebagai input dan mengembalikan teks. Model ini disetel untuk berjalan secara lokal pada perangkat keras konsumen, dengan jendela konteks 256K token, panggilan alat asli, dan mode penalaran langkah demi langkah opsional.

Model ini berada di tengah jajaran Gemma 4. Google menggambarkannya sebagai jembatan antara model E4B yang ramah perangkat tepi dan model Mixture-of-Experts 26B yang lebih besar, dengan kualitas yang mendekati 26B pada beberapa tolok ukur dengan jejak memori kurang dari separuh.

Posisi 12B dalam keluarga Gemma 4

Gemma 4 tidak diluncurkan sekaligus. Model E2B, E4B, 26B, dan 31B tiba pada 31 Maret 2026. Model 12B adalah anggota terbaru, ditambahkan pada 3 Juni. Berikut adalah jajaran lengkapnya:

Model Ukuran Konteks Catatan
Gemma 4 E2B 2.3B efektif (5.1B mentah) 128K Di perangkat, input audio
Gemma 4 E4B 4.5B efektif (8B mentah) 128K Ringkas, input audio
Gemma 4 12B 11.95B padat 256K Tanpa encoder, input audio
Gemma 4 26B A4B 4B aktif / 26B total (MoE) 256K Mixture-of-experts
Gemma 4 31B 31B padat 256K Performa terdepan

Model 12B adalah satu-satunya model dalam keluarga yang dibangun berdasarkan desain tanpa encoder. Model lainnya mempertahankan encoder visual tradisional (dan encoder audio konformer pada dua model yang lebih kecil). Hal ini menjadikan 12B sebagai demonstrasi paling jelas tentang arah pengembangan AI multimodal di perangkat oleh Google.

Untuk konteks bagaimana model-model ini dibandingkan dengan model terbuka lainnya, lihat perbandingan kami antara MiniMax M3, DeepSeek V4, dan Qwen 3.7 serta perang harga bobot terbuka yang lebih luas.

Apa sebenarnya arti “tanpa encoder”

Model multimodal standar bekerja dalam dua tahap. Encoder visual mengubah gambar menjadi embedding, encoder audio mengubah suara menjadi embedding, dan kemudian proyektor memetakan embedding tersebut ke dalam ruang model bahasa. Itu berarti tiga komponen yang harus dimuat, disetel, dan disimpan dalam memori.

Gemma 4 12B menghilangkan encoder. Menurut laporan Google:

Input visual dan audio mengalir langsung ke inti model bahasa. Satu model, satu set bobot, setiap modalitas diperlakukan sebagai token.

Dua pilihan arsitektur lainnya menjaganya tetap efisien pada perangkat keras kecil:

Google juga menyertakan perancang Multi-Token Prediction (MTP) untuk speculative decoding, yang dapat mempercepat inferensi end-to-end hingga sekitar 3x tanpa mengubah kualitas output.

Audio asli dan multimodalitas penuh

Banyak model terbuka yang dapat membaca gambar. Gemma 4 12B adalah yang pertama berukuran menengah yang menerima audio secara asli, dalam model yang sama yang menangani teks dan visual. Ini membuka kelas pekerjaan yang berbeda:

Urutan input penting saat Anda mencampur modalitas. Template obrolan mengharapkan konten gambar sebelum prompt teks dan audio setelahnya. Model mengembalikan teks dalam setiap kasus.

Bagaimana performa Gemma 4 12B

Berikut adalah skor yang dipublikasikan untuk gemma-4-12B-it yang disetel instruksi, dari kartu model Hugging Face:

Tolok Ukur Gemma 4 12B-it
MMLU Pro (penalaran) 77.2%
AIME 2026 (matematika, tanpa alat) 77.5%
GPQA Diamond (sains) 78.8%
LiveCodeBench v6 (pengkodean) 72.0%
Codeforces (ELO) 1659
MMMU Pro (visual) 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-needle (konteks panjang) 43.4%

Untuk menempatkannya dalam konteks keluarga, berikut adalah posisi 12B di antara tetangganya pada beberapa tes utama:

Tolok Ukur E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

Polanya jelas. Model 12B berada jauh di atas E4B kelas 4B dan dalam jangkauan 26B MoE, yang merupakan tawaran Google: sebagian besar kualitas model yang lebih besar, pada mesin yang sudah Anda miliki.

Apa yang baru dibandingkan Gemma 3

Jika Anda pernah menggunakan Gemma 3, empat hal ini menonjol:

  1. Audio asli. Gemma 3 adalah teks dan visual. 12B menambahkan suara dan video-dengan-audio dalam model dasar.
  2. Desain tanpa encoder. Tidak ada encoder visual atau audio tambahan untuk dimuat.
  3. Konteks 256K. Empat kali lebih banyak ruang untuk dokumen panjang, transkrip, dan kode multi-file.
  4. Apache 2.0. Rilis Gemma sebelumnya menggunakan lisensi Gemma kustom dengan batasan penggunaan. Gemma 4 beralih ke Apache 2.0 standar, yang lebih sederhana untuk penggunaan komersial dan redistribusi.

Apa yang bisa Anda bangun dengannya

Model 12B ditujukan untuk pekerjaan yang berjalan di perangkat, bukan di cloud:

Karena ia mengekspos antarmuka obrolan standar melalui runner seperti Ollama dan llama.cpp, Anda dapat mengarahkan alat yang ada kepadanya. Saat Anda menghubungkan model lokal ke aplikasi, Anda tetap ingin mengkonfirmasi bentuk permintaan dan respons. Alat seperti Apidog memungkinkan Anda menyimpan titik akhir lokal, mengirim contoh prompt, dan memeriksa JSON sebelum Anda membangun di atasnya. Anda dapat mengunduh Apidog secara gratis dan mengarahkannya ke server lokal dalam satu menit. Lebih lanjut tentang itu di panduan penggunaan gratis.

Lisensi dan apa yang diberikan Apache 2.0 kepada Anda

Gemma 4 12B dirilis di bawah Apache 2.0. Dalam istilah sederhana:

Ini adalah perubahan nyata dari lisensi Gemma sebelumnya, yang membawa ketentuan kebijakan penggunaan Google sendiri. Apache 2.0 adalah lisensi permisif yang sama di balik daftar panjang infrastruktur terbuka, sehingga tinjauan hukum cenderung cepat.

Perangkat keras yang Anda butuhkan

Target Google adalah mesin 16GB, VRAM atau memori terpadu gaya Apple. Kuantisasi menurunkannya:

Hal ini menempatkan 12B dalam jangkauan GPU gaming umum, MacBook 16GB, atau workstation kelas menengah. Model E2B dan E4B yang lebih kecil masih bisa berjalan lebih rendah jika perangkat keras Anda terbatas.

Batasan yang perlu diketahui

Google lugas tentang kompromi dalam kartu model:

Ini adalah peringatan umum untuk model terbuka 12B. Model ini tidak akan menggantikan model cloud terdepan untuk penalaran tersulit, tetapi bukan itu intinya. Intinya adalah AI multimodal yang mumpuni yang berjalan di mana data Anda sudah berada.

FAQ

Apakah Gemma 4 12B gratis? Ya. Bobotnya terbuka di bawah Apache 2.0 dan gratis untuk diunduh dari Hugging Face dan Kaggle. Anda hanya membayar untuk perangkat keras atau cloud tempat Anda menjalankannya. Lihat cara menggunakan Gemma 4 12B secara gratis.

Bisakah Gemma 4 12B benar-benar memahami audio? Ya. Model ini menerima audio mentah sebagai input dan dapat mentranskripsi ucapan, mengidentifikasi pembicara, dan menjawab pertanyaan tentang suara. Ini adalah model berukuran menengah pertama yang melakukan ini secara asli daripada melalui model ucapan terpisah.

Apa perbedaan antara gemma-4-12B dan gemma-4-12B-it? Model dasar hanya dilatih awal (pretrained). Versi -it disetel instruksi untuk obrolan, penggunaan alat, dan mengikuti petunjuk. Kebanyakan orang menginginkan versi -it.

Bagaimana perbedaan 12B dengan 26B dan 31B? 12B padat dan tanpa encoder, disetel untuk mesin 16GB. 26B adalah model Mixture-of-Experts (4B aktif, 26B total), dan 31B adalah model padat yang lebih besar untuk kualitas terdepan. Kedua model yang lebih besar mencetak skor lebih tinggi pada tolok ukur tetapi membutuhkan lebih banyak memori.

Apakah Gemma 4 12B mendukung pemanggilan alat? Ya. Model ini mendukung pemanggilan fungsi teks dan multimodal, ditambah mode berpikir opsional untuk penalaran langkah demi langkah, yang membuatnya dapat digunakan untuk alur kerja agen.

Bagaimana perbandingannya dengan Gemini 3.5? Pekerjaan yang berbeda. Gemini 3.5 adalah model terdepan yang dihosting Google; lihat apa itu Gemini 3.5. Gemma 4 12B adalah model terbuka yang Anda jalankan sendiri. Anda menukar kualitas puncak dengan privasi, penggunaan offline, dan biaya per-token nol.

tombol

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.