Gemma 4 12B açık ağırlıklı ve Apache 2.0 lisanslıdır, bu nedenle buradaki "ücretsiz" aslında ücretsiz anlamına gelir. API faturası ve abonelik yoktur. Modeli indirip kendi makinenizde çalıştırabilir veya bir tarayıcı sekmesinde deneyebilirsiniz. Tek maliyet, zaten sahip olduğunuz donanımdır.
Önceden bilinmesi gereken bir şey var: 12B, yerel ve cihaz içi kullanım için tasarlanmıştır. Daha büyük kardeşleri olan 31B ve 26B, Google'ın AI Studio'da ücretsiz sohbet için barındırdığı modellerdir. 12B'nin tüm iddiası, 16 GB'lık bir dizüstü bilgisayarda çalışabilmesidir, bu nedenle aşağıdaki ücretsiz yöntemler, onu donanımınıza hızlı bir şekilde nasıl kuracağınızla ilgilidir. Modele yeni mi başladınız? Özellikler için Gemma 4 12B nedir ile başlayın.

İşte 60 saniyelik bir tarayıcı demosundan üzerine inşa edebileceğiniz tam bir yerel API'ye kadar altı çalışma yöntemi.
Hızlı özet
| Yöntem | Ne elde edersiniz | En iyisi |
|---|---|---|
| Hugging Face Space | Tarayıcı sohbeti, sıfır kurulum | Bir dakikada denemek için |
| Ollama | Yerel model + OpenAI uyumlu API | Geliştiriciler, tek komutla |
| LM Studio | GUI'li yerel masaüstü uygulaması | Terminale gerek yok |
| llama.cpp | Hafif yerel API sunucusu | Gelişmiş ve düşük maliyetli kurulumlar |
| HF Transformers | Python, tam kontrol, ücretsiz Colab GPU | Not defterleri ve ince ayar |
| Google AI Edge | Cihaz üzerinde, mobil | Telefonlar ve uç cihaz donanımı |
Yöntem 1: Tarayıcınızda deneyin (kurulumsuz)
Gemma 4 12B'yi görmenin en hızlı yolu, Hugging Face'deki resmi demo Alanıdır. İndirme yok, hesap yok, GPU yok.

- Gemma 4 12B demo Alanını açın
- Bir istem yazın veya bir resim ya da ses klibi yükleyin
- Yanıtı okuyun
Bu, hızlı bir ön kontrol için doğru yoldur. Alan, resim ve ses girişi kabul ettiği için çok modlu tarafı da test edebilirsiniz. Gerçek bir şey inşa etmeye hazır olduğunuzda, aşağıdaki yerel yöntemlerden birine geçin.
Yöntem 2: Ollama (geliştirici varsayılanı)
Ollama, Gemma 4 12B'yi yerel olarak çalıştırmanın ve çalışan bir API elde etmenin en basit yoludur. Tek kurulum, tek çekme, tamam.

Ollama'yı Kurun
macOS veya Linux'ta:
curl -fsSL https://ollama.com/install.sh | sh
Windows'ta, ollama.com adresinden yükleyiciyi indirin ve çalıştırın.
Modeli çekin ve çalıştırın
ollama pull gemma4:12b
ollama run gemma4:12b
İlk komut modeli indirir (varsayılan olarak 4-bit Q4_K_M yapısı, yaklaşık 8 GB). İkinci komut sizi etkileşimli bir sohbet ekranına getirir. Çıkmak için /bye yazın.
Yerel API'yi kullanın
Geliştiricilerin ilgilendiği kısım burası. Ollama, http://localhost:11434 adresinde OpenAI uyumlu bir REST API sunar. Anahtar yok, bulut yok, hız sınırı yok.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Explain how transformers work in two sentences."}
]
}'
Uç nokta OpenAI formatıyla eşleştiği için, OpenAI'yi destekleyen herhangi bir SDK veya araç, temel URL'yi localhost:11434/v1 adresine yönlendirerek çalışır. Buna düzenleyiciler, aracı çerçeveler ve API istemcileri dahildir. Bir IDE kurulum düzeni için, yaklaşım Cursor'da DeepSeek V4 kılavuzumuza benzer; model dizesini gemma4:12b ile değiştirin.
Faydalı komutlar:
ollama listindirilen modelleri gösterirollama psçalışanları gösterirollama show gemma4:12bmodel ayrıntılarını yazdırır
Yöntem 3: LM Studio (terminal yok)
Komut satırına dokunmak istemiyorsanız, LM Studio Windows, macOS ve Linux için bir masaüstü uygulamasıdır.
- LM Studio'yu indirin ve kurun
- Model kataloğunda **Gemma 4 12B**'yi arayın
- RAM'inize uygun bir niceleme seçin ve indirin
- Sohbet sekmesini açın ve istemler vermeye başlayın
LM Studio ayrıca genellikle 1234 numaralı bağlantı noktasında OpenAI uyumlu bir uç noktaya sahip yerel bir sunucu çalıştırır, böylece herhangi bir kod yazmadan bir API elde edersiniz. Tasarımcılar, yazarlar ve bir yapılandırma dosyası yerine bir sohbet penceresi isteyen herkes için en kolay yoldur.
Yöntem 4: llama.cpp (hafif ve hızlı)
llama.cpp, GGUF modellerini az ek yükle çalıştırır ve kendi OpenAI uyumlu sunucusunu sunar.
Kurulumu:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Ardından resmi GGUF yapısını hedefleyen bir sunucu başlatın. Tam 12B depo adını bulmak için Hugging Face'deki ggml-org/gemma-4 koleksiyonuna göz atın, ardından bunu llama-server'a geçirin:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Bu, http://localhost:8080/v1 adresinde OpenAI uyumlu bir API ortaya çıkarır. Bu yol, minimum bağımlılık istediğinizde veya mütevazı donanımda çalıştırdığınızda en iyisidir. Ayrıca birçok başka aracın da altında yatan motor olduğundan, onu öğrenmek faydalıdır.
Yöntem 5: Hugging Face Transformers (tam kontrol)
Not defterleri, betikler veya ince ayar için modeli Python'da Transformers ile çalıştırın. Yerel bir GPU'nuz yoksa, ücretsiz bir Google Colab not defteri size bir GPU sağlar.
Kütüphaneleri kurun:
pip install transformers torch accelerate torchvision
# ses ve video girişi için librosa ekleyin
pip install librosa
Ardından talimatlara göre ayarlanmış modeli yükleyin ve oluşturun:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))
Adım adım akıl yürütme modunu açmak için `enable_thinking=True` olarak ayarlayın. Bir resim veya ses dosyası beslemek için, metinden önce `{"type": "image", ...}` ve sonra `{"type": "audio", ...}` içeren bir içerik listesi ekleyin. Bu kaynağı tercih ederseniz ağırlıklar Kaggle'da da mevcuttur. Tam kod desenleri geliştirici kılavuzunda bulunur.
Yöntem 6: Google AI Edge (cihaz üzerinde ve mobil)
Gemma 4 12B'yi bir telefonda veya uç cihazda çalıştırmak için Google, AI Edge yığınını sunar. Google AI Edge Gallery uygulaması ve LiteRT-LM CLI, 12B'yi cihaz üzerinde çalıştırır.
LiteRT-LM ile yerel bir sunucu için:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Bu, verilerin cihazdan hiç ayrılmadığı çevrimdışı mobil asistanlar ve gömülü uygulamalar için kullanılan yoldur.
Yerel Gemma 4 12B API'nizi Apidog ile test edin
Gemma 4 12B, Ollama veya llama.cpp aracılığıyla çalışmaya başladığında, makinenizde gerçek bir HTTP API'niz olur. Bunu bir uygulamaya entegre etmeden önce, doğru istek ve yanıt şeklini bilmek için uygun bir API istemcisinde denemek faydalıdır. Apidog bunun için tasarlanmıştır.

İşte temiz bir kurulum:
- Apidog'u indirin ve yeni bir HTTP projesi oluşturun
http://localhost:11434/v1/chat/completionsadresine birPOSTisteği ekleyin- Gövdeyi JSON olarak ayarlayın ve örnek bir yük yapıştırın:
{
"model": "gemma4:12b",
"messages": [
{"role": "user", "content": "Return a JSON object with two fields: city and country."}
],
"stream": false
}
- Temel URL'yi bir ortam değişkeni olarak kaydedin, böylece Ollama (
:11434) ve llama.cpp (:8080) arasında tek tıklamayla geçiş yapabilirsiniz - Modelin
contentalanında geçerli JSON döndürdüğünü doğrulamak için bir yanıt onayı ekleyin "stream": truedeğerini değiştirin ve Apidog'un akışa alınan belirteçleri nasıl oluşturduğunu izleyin; bu, etrafında bir kullanıcı arayüzü oluşturmadan önce akışın çalıştığını nasıl doğrulayacağınızdır
Kazanç: Bozuk bir istemi veya yanlış bir alan adını uygulama kodunuzun üç katmanı derininde değil, Apidog'da yakalarsınız. İstemcileri karşılaştırıyorsanız, ücretsiz çevrimiçi API test araçları ve en iyi Postman alternatifleri özetimize bakın. Aynı test akışı, herhangi bir OpenAI uyumlu uç nokta için çalışır, bu nedenle alışkanlıklar doğrudan Postman tarzı iş akışlarıyla API'ler nasıl test edilir konusuna aktarılır.
Hangi nicelemeyi seçmelisiniz?
Gemma 4 12B, ne kadar agresif sıkıştırıldığına bağlı olarak farklı makinelere uyar:
| Yapı | Gerekli bellek | Takas |
|---|---|---|
| Tam hassasiyet | ~16GB | En iyi kalite |
| 8-bit | ~14GB | Neredeyse tam kalite |
| 4-bit (Q4_K_M) | ~8GB | Hafif kalite düşüşü, geniş çapta çalışır |
Ollama, varsayılan olarak 4-bit yapıya sahiptir, bu yüzden 8 GB GPU'da veya 16 GB MacBook'ta çalışır. Alanınız varsa, 8-bit yapı birkaç ek gigabayt karşılığında size kalite artışı sağlar.
Hangi ücretsiz yöntemi seçmelisiniz?
Hızlı bir karar ağacı:
- Sadece meraklı mısınız? Hugging Face Space demosu
- Yazılım mı geliştiriyorsunuz? Tek komutlu yerel API için Ollama
- Terminal yok mu? LM Studio
- Minimal donanım veya bağımlılıklar mı? llama.cpp
- Not defterleri veya ince ayar mı? GPU için ücretsiz Colab ile Transformers
- Telefon veya uç cihaz mı? Google AI Edge
Çoğu geliştirici günlük kullanım için Ollama'yı tercih ederken, daha ağır işler için Transformers'ı kullanmaya devam eder.
Ücretsiz yerel Gemma'dan en iyi şekilde yararlanma ipuçları
- Nicelemeyi RAM'inize göre eşleştirin. Diske takas yapan bir model yavaş çalışır. 4-bit yapı güvenli varsayılandır.
- Zor problemler için düşünme modunu kullanın. Matematik ve çok adımlı akıl yürütme için
enable_thinking=Trueolarak ayarlayın, hızlı sohbet için zamandan tasarruf etmek amacıyla kapalı bırakın. - İstemleri 256K penceresinin içinde tutun. Büyük olsa da, uzun transkriptler ve kod tabanları birikir.
- İstekleri önce Apidog'da doğrulayın. Uygulamanız ona bağlı olmadan önce JSON şeklini onaylayın.
- Diğer ücretsiz modellerle karşılaştırın. Aynı yerel desen Qwen 3.7, MiniMax M3 ve Claude Opus 4.8 erişim yolları için de çalışır.
SSS (Sıkça Sorulan Sorular)
Gemma 4 12B gerçekten ücretsiz mi? Evet. Apache 2.0 açık ağırlıklı, ticari kullanım dahil ücretsiz olarak indirilebilir ve çalıştırılabilir. Yalnızca üzerinde çalıştırdığınız donanım veya bulut için ödeme yaparsınız.
GPU'ya ihtiyacım var mı? Hayır, ama yardımcı olur. 4-bit yapı 8 GB GPU'da veya 16 GB birleşik bellekli Mac'te çalışır. Yalnızca CPU'da çalışır ancak yavaş çalışır.
Gemma 4 12B'yi Google AI Studio'da kullanabilir miyim? Şu anda hayır. AI Studio, ücretsiz tarayıcı sohbeti için 31B ve 26B modellerini barındırır. 12B, yerel ve cihaz içi kullanım için oluşturulmuştur, bu nedenle yukarıdaki yöntemlerle kendiniz çalıştırırsınız.
Yerel API'nin bir API anahtarına ihtiyacı var mı? Hayır. Ollama ve llama.cpp modeli localhost'ta anahtarsız olarak sunar. Bir araç bir anahtar alanı gerektiriyorsa, herhangi bir yer tutucu dizesi girin; yerel sunucu bunu yok sayar.
Mevcut OpenAI kodumdan çağırabilir miyim? Evet. Hem Ollama hem de llama.cpp OpenAI uyumlu uç noktaları sunar. Temel URL'nizi http://localhost:11434/v1 (Ollama) veya http://localhost:8080/v1 (llama.cpp) olarak ayarlayın ve kodunuzu koruyun.
Resim ve ses özelliklerini nasıl çalıştırırım? Çok modlu girişi destekleyen Transformers, LM Studio veya AI Edge uygulamalarını kullanın. Metin isteminizden önce resim içeriği ve sonra ses içeriği ekleyin.
Hangisi daha hızlı, Ollama mı llama.cpp mi? Aynı temel motoru kullanırlar. llama.cpp daha az ek yüke ve daha fazla ayar bayrağına sahiptir; Ollama'nın kurulumu daha kolaydır. Çoğu insan için fark küçüktür.
