Gemma 4 12B memiliki bobot terbuka dan berlisensi Apache 2.0, jadi "gratis" di sini berarti benar-benar gratis. Tidak ada tagihan API dan tidak ada langganan. Anda mengunduh modelnya dan menjalankannya di mesin Anda sendiri, atau mencobanya di tab browser. Satu-satunya biaya adalah perangkat keras yang sudah Anda miliki.
Satu hal yang perlu diketahui di awal: 12B dibangun untuk penggunaan lokal dan di perangkat. Kakaknya yang lebih besar, 31B dan 26B, adalah model yang dihosting Google untuk obrolan gratis di AI Studio. Daya tarik utama 12B adalah kemampuannya untuk berjalan di laptop berkapasitas 16GB, jadi metode gratis di bawah ini bertujuan untuk memasangnya di perangkat keras Anda dengan cepat. Baru mengenal model ini? Mulailah dengan apa itu Gemma 4 12B untuk spesifikasinya.

Berikut adalah enam metode kerja, mulai dari demo browser 60 detik hingga API lokal lengkap yang dapat Anda bangun.
Ringkasan cepat
| Metode | Yang Anda dapatkan | Terbaik untuk |
|---|---|---|
| Hugging Face Space | Obrolan browser, tanpa instalasi | Mencobanya dalam satu menit |
| Ollama | Model lokal + API yang kompatibel dengan OpenAI | Pengembang, satu perintah |
| LM Studio | Aplikasi desktop lokal dengan GUI | Tidak perlu terminal |
| llama.cpp | Server API lokal yang ringan | Pengaturan canggih dan overhead rendah |
| HF Transformers | Python, kontrol penuh, GPU Colab gratis | Notebook dan fine-tuning |
| Google AI Edge | Di perangkat, seluler | Ponsel dan perangkat keras edge |
Metode 1: Cobalah di browser Anda (tanpa instalasi)
Cara tercepat untuk melihat Gemma 4 12B adalah melalui Space demo resmi di Hugging Face. Tanpa unduhan, tanpa akun, tanpa GPU.

- Buka Gemma 4 12B demo Space
- Ketik prompt, atau unggah gambar atau klip audio
- Baca responsnya
Ini adalah cara yang tepat untuk pemeriksaan cepat. Anda juga dapat menguji sisi multimodal, karena Space menerima masukan gambar dan audio. Saat Anda siap membangun sesuatu yang nyata, pindahlah ke salah satu metode lokal di bawah ini.
Metode 2: Ollama (standar pengembang)
Ollama adalah cara termudah untuk menjalankan Gemma 4 12B secara lokal dan mendapatkan API yang berfungsi. Satu instalasi, satu pull, selesai.

Instal Ollama
Di macOS atau Linux:
curl -fsSL https://ollama.com/install.sh | sh
Di Windows, unduh pemasangnya dari ollama.com dan jalankan.
Pull dan jalankan model
ollama pull gemma4:12b
ollama run gemma4:12b
Perintah pertama mengunduh model (build 4-bit Q4_K_M secara default, sekitar 8GB). Perintah kedua akan membawa Anda ke obrolan interaktif. Ketik /bye untuk keluar.
Gunakan API lokal
Inilah bagian yang paling penting bagi para pengembang. Ollama menyediakan REST API yang kompatibel dengan OpenAI di http://localhost:11434. Tanpa kunci, tanpa cloud, tanpa batasan laju.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Jelaskan cara kerja transformer dalam dua kalimat."}
]
}'
Karena endpointnya cocok dengan format OpenAI, SDK atau alat apa pun yang berbicara OpenAI akan berfungsi dengan mengarahkan URL dasar ke localhost:11434/v1. Ini termasuk editor, framework agen, dan klien API. Untuk pola pengaturan IDE, pendekatan ini mencerminkan panduan penggunaan DeepSeek V4 di Cursor kami; tukar string model dengan gemma4:12b.
Perintah yang berguna:
ollama listmenampilkan model yang diunduhollama psmenampilkan apa yang sedang berjalanollama show gemma4:12bmencetak detail model
Metode 3: LM Studio (tanpa terminal)
Jika Anda lebih suka tidak menyentuh baris perintah, LM Studio adalah aplikasi desktop untuk Windows, macOS, dan Linux.
- Unduh dan instal LM Studio
- Cari Gemma 4 12B di katalog model
- Pilih kuantisasi yang sesuai dengan RAM Anda dan unduh
- Buka tab obrolan dan mulai memberikan prompt
LM Studio juga menjalankan server lokal dengan endpoint yang kompatibel dengan OpenAI, biasanya di port 1234, sehingga Anda mendapatkan API tanpa menulis kode apa pun. Ini adalah jalur paling ramah bagi desainer, penulis, dan siapa pun yang menginginkan jendela obrolan daripada file konfigurasi.
Metode 4: llama.cpp (ringan dan cepat)
llama.cpp menjalankan model GGUF dengan overhead minimal dan menyertakan server yang kompatibel dengan OpenAI.
Instal:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Kemudian mulai server yang diarahkan ke build GGUF resmi. Jelajahi koleksi ggml-org/gemma-4 di Hugging Face untuk nama repo 12B yang tepat, lalu teruskan ke llama-server:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Ini mengekspos API yang kompatibel dengan OpenAI di http://localhost:8080/v1. Jalur ini paling baik ketika Anda menginginkan dependensi minimal atau Anda menjalankannya di perangkat keras sederhana. Ini juga merupakan mesin di bawah beberapa alat lain, jadi mempelajarinya akan membuahkan hasil.
Metode 5: Hugging Face Transformers (kontrol penuh)
Untuk notebook, skrip, atau fine-tuning, jalankan model dengan Transformers di Python. Jika Anda tidak memiliki GPU lokal, notebook Google Colab gratis menyediakan satu untuk Anda.
Instal pustaka:
pip install transformers torch accelerate torchvision
# tambahkan librosa untuk input audio dan video
pip install librosa
Kemudian muat model yang telah disesuaikan instruksi dan buat:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "Anda adalah asisten yang membantu."},
{"role": "user", "content": "Tulis lelucon pendek tentang menghemat RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Atur enable_thinking=True untuk mengaktifkan mode penalaran langkah demi langkah. Untuk memasukkan file gambar atau audio, tambahkan daftar konten dengan {"type": "image", ...} sebelum teks dan {"type": "audio", ...} setelahnya. Bobot model juga tersedia di Kaggle jika Anda lebih suka sumber tersebut. Pola kode lengkap terdapat dalam panduan pengembang.
Metode 6: Google AI Edge (di perangkat dan seluler)
Untuk menjalankan Gemma 4 12B di ponsel atau perangkat edge, Google menyediakan stack AI Edge. Aplikasi Google AI Edge Gallery dan CLI LiteRT-LM keduanya menjalankan 12B di perangkat.
Untuk server lokal dengan LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Ini adalah jalur untuk asisten seluler offline dan aplikasi tertanam di mana data tidak pernah meninggalkan perangkat.
Uji API Gemma 4 12B lokal Anda dengan Apidog
Setelah Gemma 4 12B berjalan melalui Ollama atau llama.cpp, Anda memiliki API HTTP nyata di mesin Anda. Sebelum Anda menyambungkannya ke aplikasi, ada baiknya untuk mengujinya dengan klien API yang tepat sehingga Anda mengetahui bentuk permintaan dan respons yang persis. Apidog dibangun untuk tujuan itu.

Berikut adalah pengaturan yang bersih:
- Unduh Apidog dan buat proyek HTTP baru
- Tambahkan permintaan
POSTkehttp://localhost:11434/v1/chat/completions - Atur body ke JSON dan tempel payload contoh:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Kembalikan objek JSON dengan dua bidang: kota dan negara."}
],
"stream": false
}
- Simpan URL dasar sebagai variabel lingkungan sehingga Anda dapat beralih antara Ollama (
:11434) dan llama.cpp (:8080) dengan satu klik - Tambahkan pernyataan respons untuk mengonfirmasi bahwa model mengembalikan JSON yang valid di bidang
content - Ubah
"stream": truedan saksikan Apidog merender token yang dialirkan, yang merupakan cara Anda mengonfirmasi bahwa streaming berfungsi sebelum Anda membangun UI di sekitarnya
Keuntungannya: Anda menemukan prompt yang salah format atau nama bidang yang salah di Apidog, bukan tiga lapisan dalam kode aplikasi Anda. Jika Anda membandingkan klien, lihat rangkuman kami tentang alat pengujian API online gratis dan alternatif Postman terbaik. Alur pengujian yang sama berfungsi untuk endpoint yang kompatibel dengan OpenAI, jadi kebiasaan ini berlaku langsung untuk alur kerja gaya cara menguji API dengan Postman.
Kuantisasi mana yang harus Anda pilih?
Gemma 4 12B cocok untuk berbagai mesin tergantung pada seberapa agresif kompresinya:
| Build | Memori yang dibutuhkan | Kompromi |
|---|---|---|
| Presisi penuh | ~16GB | Kualitas terbaik |
| 8-bit | ~14GB | Kualitas hampir penuh |
| 4-bit (Q4_K_M) | ~8GB | Sedikit penurunan kualitas, berjalan secara luas |
Ollama secara default menggunakan build 4-bit, itulah sebabnya ia berjalan pada GPU 8GB atau MacBook 16GB. Jika Anda memiliki ruang lebih, build 8-bit memberikan peningkatan kualitas dengan beberapa gigabita tambahan.
Metode gratis mana yang harus Anda pilih?
Pohon keputusan cepat:
- Hanya ingin tahu? Demo Hugging Face Space
- Membangun perangkat lunak? Ollama, untuk API lokal satu perintah
- Tanpa terminal? LM Studio
- Perangkat keras atau dependensi minimal? llama.cpp
- Notebook atau fine-tuning? Transformers, dengan Colab gratis untuk GPU
- Ponsel atau perangkat edge? Google AI Edge
Sebagian besar pengembang memilih Ollama untuk penggunaan sehari-hari dan menyimpan Transformers untuk pekerjaan yang lebih berat.
Tips untuk mendapatkan hasil maksimal dari Gemma lokal gratis
- Sesuaikan kuantisasi dengan RAM Anda. Model yang bertukar ke disk berjalan lambat. Build 4-bit adalah default yang aman.
- Gunakan mode berpikir untuk masalah sulit. Atur
enable_thinking=Trueuntuk matematika dan penalaran multi-langkah, biarkan mati untuk obrolan cepat guna menghemat waktu. - Jaga prompt tetap dalam jendela 256K. Ini besar, tetapi transkrip panjang dan codebase akan bertambah.
- Validasi permintaan di Apidog terlebih dahulu. Konfirmasi bentuk JSON sebelum aplikasi Anda bergantung padanya.
- Bandingkan dengan model gratis lainnya. Pola lokal yang sama berfungsi untuk jalur akses Qwen 3.7, MiniMax M3, dan Claude Opus 4.8.
FAQ
Apakah Gemma 4 12B benar-benar gratis? Ya. Ini adalah bobot terbuka Apache 2.0, bebas diunduh dan dijalankan, termasuk untuk tujuan komersial. Anda hanya membayar untuk perangkat keras atau cloud tempat Anda menjalankannya.
Apakah saya memerlukan GPU? Tidak, tetapi itu membantu. Build 4-bit berjalan pada GPU 8GB atau Mac dengan memori terpadu 16GB. Hanya dengan CPU, ia berfungsi tetapi berjalan lambat.
Bisakah saya menggunakan Gemma 4 12B di Google AI Studio? Saat ini tidak bisa. AI Studio menghosting model 31B dan 26B untuk obrolan browser gratis. 12B dibangun untuk penggunaan lokal dan di perangkat, jadi Anda menjalankannya sendiri dengan metode di atas.
Apakah API lokal memerlukan kunci API? Tidak. Ollama dan llama.cpp menyajikan model di localhost tanpa kunci. Jika sebuah alat memerlukan bidang kunci, masukkan string placeholder apa pun; server lokal akan mengabaikannya.
Bisakah saya memanggilnya dari kode OpenAI yang sudah ada? Ya. Baik Ollama maupun llama.cpp mengekspos endpoint yang kompatibel dengan OpenAI. Arahkan URL dasar Anda ke http://localhost:11434/v1 (Ollama) atau http://localhost:8080/v1 (llama.cpp) dan pertahankan kode Anda.
Bagaimana cara menjalankan fitur gambar dan audio? Gunakan Transformers, LM Studio, atau aplikasi AI Edge, yang mendukung input multimodal. Tambahkan konten gambar sebelum prompt teks Anda dan konten audio setelahnya.
Mana yang lebih cepat, Ollama atau llama.cpp? Keduanya menggunakan mesin dasar yang sama. llama.cpp memiliki overhead lebih rendah dan lebih banyak flag tuning; Ollama lebih mudah diatur. Bagi kebanyakan orang, perbedaannya kecil.
