Cara Menggunakan Gemma 4 12B Gratis: 6 Metode Berhasil di 2026

Gunakan Gemma 4 12B secara gratis pada tahun 2026: demo Hugging Face, Ollama, LM Studio, llama.cpp, Transformers, dan Google AI Edge. Perintah yang berfungsi ditambah cara menguji API lokal.

Ashley Innocent

Ashley Innocent

4 June 2026

Cara Menggunakan Gemma 4 12B Gratis: 6 Metode Berhasil di 2026

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Gemma 4 12B memiliki bobot terbuka dan berlisensi Apache 2.0, jadi "gratis" di sini berarti benar-benar gratis. Tidak ada tagihan API dan tidak ada langganan. Anda mengunduh modelnya dan menjalankannya di mesin Anda sendiri, atau mencobanya di tab browser. Satu-satunya biaya adalah perangkat keras yang sudah Anda miliki.

Satu hal yang perlu diketahui di awal: 12B dibangun untuk penggunaan lokal dan di perangkat. Kakaknya yang lebih besar, 31B dan 26B, adalah model yang dihosting Google untuk obrolan gratis di AI Studio. Daya tarik utama 12B adalah kemampuannya untuk berjalan di laptop berkapasitas 16GB, jadi metode gratis di bawah ini bertujuan untuk memasangnya di perangkat keras Anda dengan cepat. Baru mengenal model ini? Mulailah dengan apa itu Gemma 4 12B untuk spesifikasinya.

Berikut adalah enam metode kerja, mulai dari demo browser 60 detik hingga API lokal lengkap yang dapat Anda bangun.

Ringkasan cepat

Metode Yang Anda dapatkan Terbaik untuk
Hugging Face Space Obrolan browser, tanpa instalasi Mencobanya dalam satu menit
Ollama Model lokal + API yang kompatibel dengan OpenAI Pengembang, satu perintah
LM Studio Aplikasi desktop lokal dengan GUI Tidak perlu terminal
llama.cpp Server API lokal yang ringan Pengaturan canggih dan overhead rendah
HF Transformers Python, kontrol penuh, GPU Colab gratis Notebook dan fine-tuning
Google AI Edge Di perangkat, seluler Ponsel dan perangkat keras edge

Metode 1: Cobalah di browser Anda (tanpa instalasi)

Cara tercepat untuk melihat Gemma 4 12B adalah melalui Space demo resmi di Hugging Face. Tanpa unduhan, tanpa akun, tanpa GPU.

  1. Buka Gemma 4 12B demo Space
  2. Ketik prompt, atau unggah gambar atau klip audio
  3. Baca responsnya

Ini adalah cara yang tepat untuk pemeriksaan cepat. Anda juga dapat menguji sisi multimodal, karena Space menerima masukan gambar dan audio. Saat Anda siap membangun sesuatu yang nyata, pindahlah ke salah satu metode lokal di bawah ini.

Metode 2: Ollama (standar pengembang)

Ollama adalah cara termudah untuk menjalankan Gemma 4 12B secara lokal dan mendapatkan API yang berfungsi. Satu instalasi, satu pull, selesai.

Instal Ollama

Di macOS atau Linux:

curl -fsSL https://ollama.com/install.sh | sh

Di Windows, unduh pemasangnya dari ollama.com dan jalankan.

Pull dan jalankan model

ollama pull gemma4:12b
ollama run gemma4:12b

Perintah pertama mengunduh model (build 4-bit Q4_K_M secara default, sekitar 8GB). Perintah kedua akan membawa Anda ke obrolan interaktif. Ketik /bye untuk keluar.

Gunakan API lokal

Inilah bagian yang paling penting bagi para pengembang. Ollama menyediakan REST API yang kompatibel dengan OpenAI di http://localhost:11434. Tanpa kunci, tanpa cloud, tanpa batasan laju.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Jelaskan cara kerja transformer dalam dua kalimat."}
    ]
  }'

Karena endpointnya cocok dengan format OpenAI, SDK atau alat apa pun yang berbicara OpenAI akan berfungsi dengan mengarahkan URL dasar ke localhost:11434/v1. Ini termasuk editor, framework agen, dan klien API. Untuk pola pengaturan IDE, pendekatan ini mencerminkan panduan penggunaan DeepSeek V4 di Cursor kami; tukar string model dengan gemma4:12b.

Perintah yang berguna:

Metode 3: LM Studio (tanpa terminal)

Jika Anda lebih suka tidak menyentuh baris perintah, LM Studio adalah aplikasi desktop untuk Windows, macOS, dan Linux.

  1. Unduh dan instal LM Studio
  2. Cari Gemma 4 12B di katalog model
  3. Pilih kuantisasi yang sesuai dengan RAM Anda dan unduh
  4. Buka tab obrolan dan mulai memberikan prompt

LM Studio juga menjalankan server lokal dengan endpoint yang kompatibel dengan OpenAI, biasanya di port 1234, sehingga Anda mendapatkan API tanpa menulis kode apa pun. Ini adalah jalur paling ramah bagi desainer, penulis, dan siapa pun yang menginginkan jendela obrolan daripada file konfigurasi.

Metode 4: llama.cpp (ringan dan cepat)

llama.cpp menjalankan model GGUF dengan overhead minimal dan menyertakan server yang kompatibel dengan OpenAI.

Instal:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Kemudian mulai server yang diarahkan ke build GGUF resmi. Jelajahi koleksi ggml-org/gemma-4 di Hugging Face untuk nama repo 12B yang tepat, lalu teruskan ke llama-server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Ini mengekspos API yang kompatibel dengan OpenAI di http://localhost:8080/v1. Jalur ini paling baik ketika Anda menginginkan dependensi minimal atau Anda menjalankannya di perangkat keras sederhana. Ini juga merupakan mesin di bawah beberapa alat lain, jadi mempelajarinya akan membuahkan hasil.

Metode 5: Hugging Face Transformers (kontrol penuh)

Untuk notebook, skrip, atau fine-tuning, jalankan model dengan Transformers di Python. Jika Anda tidak memiliki GPU lokal, notebook Google Colab gratis menyediakan satu untuk Anda.

Instal pustaka:

pip install transformers torch accelerate torchvision
# tambahkan librosa untuk input audio dan video
pip install librosa

Kemudian muat model yang telah disesuaikan instruksi dan buat:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Anda adalah asisten yang membantu."},
    {"role": "user", "content": "Tulis lelucon pendek tentang menghemat RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

Atur enable_thinking=True untuk mengaktifkan mode penalaran langkah demi langkah. Untuk memasukkan file gambar atau audio, tambahkan daftar konten dengan {"type": "image", ...} sebelum teks dan {"type": "audio", ...} setelahnya. Bobot model juga tersedia di Kaggle jika Anda lebih suka sumber tersebut. Pola kode lengkap terdapat dalam panduan pengembang.

Metode 6: Google AI Edge (di perangkat dan seluler)

Untuk menjalankan Gemma 4 12B di ponsel atau perangkat edge, Google menyediakan stack AI Edge. Aplikasi Google AI Edge Gallery dan CLI LiteRT-LM keduanya menjalankan 12B di perangkat.

Untuk server lokal dengan LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Ini adalah jalur untuk asisten seluler offline dan aplikasi tertanam di mana data tidak pernah meninggalkan perangkat.

Uji API Gemma 4 12B lokal Anda dengan Apidog

Setelah Gemma 4 12B berjalan melalui Ollama atau llama.cpp, Anda memiliki API HTTP nyata di mesin Anda. Sebelum Anda menyambungkannya ke aplikasi, ada baiknya untuk mengujinya dengan klien API yang tepat sehingga Anda mengetahui bentuk permintaan dan respons yang persis. Apidog dibangun untuk tujuan itu.

Berikut adalah pengaturan yang bersih:

  1. Unduh Apidog dan buat proyek HTTP baru
  2. Tambahkan permintaan POST ke http://localhost:11434/v1/chat/completions
  3. Atur body ke JSON dan tempel payload contoh:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Kembalikan objek JSON dengan dua bidang: kota dan negara."}
  ],
  "stream": false
}
  1. Simpan URL dasar sebagai variabel lingkungan sehingga Anda dapat beralih antara Ollama (:11434) dan llama.cpp (:8080) dengan satu klik
  2. Tambahkan pernyataan respons untuk mengonfirmasi bahwa model mengembalikan JSON yang valid di bidang content
  3. Ubah "stream": true dan saksikan Apidog merender token yang dialirkan, yang merupakan cara Anda mengonfirmasi bahwa streaming berfungsi sebelum Anda membangun UI di sekitarnya

Keuntungannya: Anda menemukan prompt yang salah format atau nama bidang yang salah di Apidog, bukan tiga lapisan dalam kode aplikasi Anda. Jika Anda membandingkan klien, lihat rangkuman kami tentang alat pengujian API online gratis dan alternatif Postman terbaik. Alur pengujian yang sama berfungsi untuk endpoint yang kompatibel dengan OpenAI, jadi kebiasaan ini berlaku langsung untuk alur kerja gaya cara menguji API dengan Postman.

Kuantisasi mana yang harus Anda pilih?

Gemma 4 12B cocok untuk berbagai mesin tergantung pada seberapa agresif kompresinya:

Build Memori yang dibutuhkan Kompromi
Presisi penuh ~16GB Kualitas terbaik
8-bit ~14GB Kualitas hampir penuh
4-bit (Q4_K_M) ~8GB Sedikit penurunan kualitas, berjalan secara luas

Ollama secara default menggunakan build 4-bit, itulah sebabnya ia berjalan pada GPU 8GB atau MacBook 16GB. Jika Anda memiliki ruang lebih, build 8-bit memberikan peningkatan kualitas dengan beberapa gigabita tambahan.

Metode gratis mana yang harus Anda pilih?

Pohon keputusan cepat:

Sebagian besar pengembang memilih Ollama untuk penggunaan sehari-hari dan menyimpan Transformers untuk pekerjaan yang lebih berat.

Tips untuk mendapatkan hasil maksimal dari Gemma lokal gratis

FAQ

Apakah Gemma 4 12B benar-benar gratis? Ya. Ini adalah bobot terbuka Apache 2.0, bebas diunduh dan dijalankan, termasuk untuk tujuan komersial. Anda hanya membayar untuk perangkat keras atau cloud tempat Anda menjalankannya.

Apakah saya memerlukan GPU? Tidak, tetapi itu membantu. Build 4-bit berjalan pada GPU 8GB atau Mac dengan memori terpadu 16GB. Hanya dengan CPU, ia berfungsi tetapi berjalan lambat.

Bisakah saya menggunakan Gemma 4 12B di Google AI Studio? Saat ini tidak bisa. AI Studio menghosting model 31B dan 26B untuk obrolan browser gratis. 12B dibangun untuk penggunaan lokal dan di perangkat, jadi Anda menjalankannya sendiri dengan metode di atas.

Apakah API lokal memerlukan kunci API? Tidak. Ollama dan llama.cpp menyajikan model di localhost tanpa kunci. Jika sebuah alat memerlukan bidang kunci, masukkan string placeholder apa pun; server lokal akan mengabaikannya.

Bisakah saya memanggilnya dari kode OpenAI yang sudah ada? Ya. Baik Ollama maupun llama.cpp mengekspos endpoint yang kompatibel dengan OpenAI. Arahkan URL dasar Anda ke http://localhost:11434/v1 (Ollama) atau http://localhost:8080/v1 (llama.cpp) dan pertahankan kode Anda.

Bagaimana cara menjalankan fitur gambar dan audio? Gunakan Transformers, LM Studio, atau aplikasi AI Edge, yang mendukung input multimodal. Tambahkan konten gambar sebelum prompt teks Anda dan konten audio setelahnya.

Mana yang lebih cepat, Ollama atau llama.cpp? Keduanya menggunakan mesin dasar yang sama. llama.cpp memiliki overhead lebih rendah dan lebih banyak flag tuning; Ollama lebih mudah diatur. Bagi kebanyakan orang, perbedaannya kecil.

button

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.