Gemma 4 12B Ücretsiz Nasıl Kullanılır: 2026'da 6 Çalışan Yöntem

2026'da Gemma 4 12B'yi ücretsiz kullanın: Hugging Face demosu, Ollama, LM Studio, llama.cpp, Transformers ve Google AI Edge. Çalışan komutlar ve yerel API'yi nasıl test edeceğiniz.

Ashley Innocent

Ashley Innocent

4 June 2026

Gemma 4 12B Ücretsiz Nasıl Kullanılır: 2026'da 6 Çalışan Yöntem

Kurumsal Apidog

Şirket İçi Dağıtım

SSO & RBAC

SOC 2 Uyumlu

Apidog Enterprise'ı Keşfet

Gemma 4 12B açık ağırlıklı ve Apache 2.0 lisanslıdır, bu nedenle buradaki "ücretsiz" aslında ücretsiz anlamına gelir. API faturası ve abonelik yoktur. Modeli indirip kendi makinenizde çalıştırabilir veya bir tarayıcı sekmesinde deneyebilirsiniz. Tek maliyet, zaten sahip olduğunuz donanımdır.

Önceden bilinmesi gereken bir şey var: 12B, yerel ve cihaz içi kullanım için tasarlanmıştır. Daha büyük kardeşleri olan 31B ve 26B, Google'ın AI Studio'da ücretsiz sohbet için barındırdığı modellerdir. 12B'nin tüm iddiası, 16 GB'lık bir dizüstü bilgisayarda çalışabilmesidir, bu nedenle aşağıdaki ücretsiz yöntemler, onu donanımınıza hızlı bir şekilde nasıl kuracağınızla ilgilidir. Modele yeni mi başladınız? Özellikler için Gemma 4 12B nedir ile başlayın.

İşte 60 saniyelik bir tarayıcı demosundan üzerine inşa edebileceğiniz tam bir yerel API'ye kadar altı çalışma yöntemi.

Hızlı özet

Yöntem Ne elde edersiniz En iyisi
Hugging Face Space Tarayıcı sohbeti, sıfır kurulum Bir dakikada denemek için
Ollama Yerel model + OpenAI uyumlu API Geliştiriciler, tek komutla
LM Studio GUI'li yerel masaüstü uygulaması Terminale gerek yok
llama.cpp Hafif yerel API sunucusu Gelişmiş ve düşük maliyetli kurulumlar
HF Transformers Python, tam kontrol, ücretsiz Colab GPU Not defterleri ve ince ayar
Google AI Edge Cihaz üzerinde, mobil Telefonlar ve uç cihaz donanımı

Yöntem 1: Tarayıcınızda deneyin (kurulumsuz)

Gemma 4 12B'yi görmenin en hızlı yolu, Hugging Face'deki resmi demo Alanıdır. İndirme yok, hesap yok, GPU yok.

  1. Gemma 4 12B demo Alanını açın
  2. Bir istem yazın veya bir resim ya da ses klibi yükleyin
  3. Yanıtı okuyun

Bu, hızlı bir ön kontrol için doğru yoldur. Alan, resim ve ses girişi kabul ettiği için çok modlu tarafı da test edebilirsiniz. Gerçek bir şey inşa etmeye hazır olduğunuzda, aşağıdaki yerel yöntemlerden birine geçin.

Yöntem 2: Ollama (geliştirici varsayılanı)

Ollama, Gemma 4 12B'yi yerel olarak çalıştırmanın ve çalışan bir API elde etmenin en basit yoludur. Tek kurulum, tek çekme, tamam.

Ollama'yı Kurun

macOS veya Linux'ta:

curl -fsSL https://ollama.com/install.sh | sh

Windows'ta, ollama.com adresinden yükleyiciyi indirin ve çalıştırın.

Modeli çekin ve çalıştırın

ollama pull gemma4:12b
ollama run gemma4:12b

İlk komut modeli indirir (varsayılan olarak 4-bit Q4_K_M yapısı, yaklaşık 8 GB). İkinci komut sizi etkileşimli bir sohbet ekranına getirir. Çıkmak için /bye yazın.

Yerel API'yi kullanın

Geliştiricilerin ilgilendiği kısım burası. Ollama, http://localhost:11434 adresinde OpenAI uyumlu bir REST API sunar. Anahtar yok, bulut yok, hız sınırı yok.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explain how transformers work in two sentences."}
    ]
  }'

Uç nokta OpenAI formatıyla eşleştiği için, OpenAI'yi destekleyen herhangi bir SDK veya araç, temel URL'yi localhost:11434/v1 adresine yönlendirerek çalışır. Buna düzenleyiciler, aracı çerçeveler ve API istemcileri dahildir. Bir IDE kurulum düzeni için, yaklaşım Cursor'da DeepSeek V4 kılavuzumuza benzer; model dizesini gemma4:12b ile değiştirin.

Faydalı komutlar:

Yöntem 3: LM Studio (terminal yok)

Komut satırına dokunmak istemiyorsanız, LM Studio Windows, macOS ve Linux için bir masaüstü uygulamasıdır.

  1. LM Studio'yu indirin ve kurun
  2. Model kataloğunda **Gemma 4 12B**'yi arayın
  3. RAM'inize uygun bir niceleme seçin ve indirin
  4. Sohbet sekmesini açın ve istemler vermeye başlayın

LM Studio ayrıca genellikle 1234 numaralı bağlantı noktasında OpenAI uyumlu bir uç noktaya sahip yerel bir sunucu çalıştırır, böylece herhangi bir kod yazmadan bir API elde edersiniz. Tasarımcılar, yazarlar ve bir yapılandırma dosyası yerine bir sohbet penceresi isteyen herkes için en kolay yoldur.

Yöntem 4: llama.cpp (hafif ve hızlı)

llama.cpp, GGUF modellerini az ek yükle çalıştırır ve kendi OpenAI uyumlu sunucusunu sunar.

Kurulumu:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Ardından resmi GGUF yapısını hedefleyen bir sunucu başlatın. Tam 12B depo adını bulmak için Hugging Face'deki ggml-org/gemma-4 koleksiyonuna göz atın, ardından bunu llama-server'a geçirin:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Bu, http://localhost:8080/v1 adresinde OpenAI uyumlu bir API ortaya çıkarır. Bu yol, minimum bağımlılık istediğinizde veya mütevazı donanımda çalıştırdığınızda en iyisidir. Ayrıca birçok başka aracın da altında yatan motor olduğundan, onu öğrenmek faydalıdır.

Yöntem 5: Hugging Face Transformers (tam kontrol)

Not defterleri, betikler veya ince ayar için modeli Python'da Transformers ile çalıştırın. Yerel bir GPU'nuz yoksa, ücretsiz bir Google Colab not defteri size bir GPU sağlar.

Kütüphaneleri kurun:

pip install transformers torch accelerate torchvision
# ses ve video girişi için librosa ekleyin
pip install librosa

Ardından talimatlara göre ayarlanmış modeli yükleyin ve oluşturun:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

Adım adım akıl yürütme modunu açmak için `enable_thinking=True` olarak ayarlayın. Bir resim veya ses dosyası beslemek için, metinden önce `{"type": "image", ...}` ve sonra `{"type": "audio", ...}` içeren bir içerik listesi ekleyin. Bu kaynağı tercih ederseniz ağırlıklar Kaggle'da da mevcuttur. Tam kod desenleri geliştirici kılavuzunda bulunur.

Yöntem 6: Google AI Edge (cihaz üzerinde ve mobil)

Gemma 4 12B'yi bir telefonda veya uç cihazda çalıştırmak için Google, AI Edge yığınını sunar. Google AI Edge Gallery uygulaması ve LiteRT-LM CLI, 12B'yi cihaz üzerinde çalıştırır.

LiteRT-LM ile yerel bir sunucu için:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

Bu, verilerin cihazdan hiç ayrılmadığı çevrimdışı mobil asistanlar ve gömülü uygulamalar için kullanılan yoldur.

Yerel Gemma 4 12B API'nizi Apidog ile test edin

Gemma 4 12B, Ollama veya llama.cpp aracılığıyla çalışmaya başladığında, makinenizde gerçek bir HTTP API'niz olur. Bunu bir uygulamaya entegre etmeden önce, doğru istek ve yanıt şeklini bilmek için uygun bir API istemcisinde denemek faydalıdır. Apidog bunun için tasarlanmıştır.

İşte temiz bir kurulum:

  1. Apidog'u indirin ve yeni bir HTTP projesi oluşturun
  2. http://localhost:11434/v1/chat/completions adresine bir POST isteği ekleyin
  3. Gövdeyi JSON olarak ayarlayın ve örnek bir yük yapıştırın:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Return a JSON object with two fields: city and country."}
  ],
  "stream": false
}
  1. Temel URL'yi bir ortam değişkeni olarak kaydedin, böylece Ollama (:11434) ve llama.cpp (:8080) arasında tek tıklamayla geçiş yapabilirsiniz
  2. Modelin content alanında geçerli JSON döndürdüğünü doğrulamak için bir yanıt onayı ekleyin
  3. "stream": true değerini değiştirin ve Apidog'un akışa alınan belirteçleri nasıl oluşturduğunu izleyin; bu, etrafında bir kullanıcı arayüzü oluşturmadan önce akışın çalıştığını nasıl doğrulayacağınızdır

Kazanç: Bozuk bir istemi veya yanlış bir alan adını uygulama kodunuzun üç katmanı derininde değil, Apidog'da yakalarsınız. İstemcileri karşılaştırıyorsanız, ücretsiz çevrimiçi API test araçları ve en iyi Postman alternatifleri özetimize bakın. Aynı test akışı, herhangi bir OpenAI uyumlu uç nokta için çalışır, bu nedenle alışkanlıklar doğrudan Postman tarzı iş akışlarıyla API'ler nasıl test edilir konusuna aktarılır.

Hangi nicelemeyi seçmelisiniz?

Gemma 4 12B, ne kadar agresif sıkıştırıldığına bağlı olarak farklı makinelere uyar:

Yapı Gerekli bellek Takas
Tam hassasiyet ~16GB En iyi kalite
8-bit ~14GB Neredeyse tam kalite
4-bit (Q4_K_M) ~8GB Hafif kalite düşüşü, geniş çapta çalışır

Ollama, varsayılan olarak 4-bit yapıya sahiptir, bu yüzden 8 GB GPU'da veya 16 GB MacBook'ta çalışır. Alanınız varsa, 8-bit yapı birkaç ek gigabayt karşılığında size kalite artışı sağlar.

Hangi ücretsiz yöntemi seçmelisiniz?

Hızlı bir karar ağacı:

Çoğu geliştirici günlük kullanım için Ollama'yı tercih ederken, daha ağır işler için Transformers'ı kullanmaya devam eder.

Ücretsiz yerel Gemma'dan en iyi şekilde yararlanma ipuçları

SSS (Sıkça Sorulan Sorular)

Gemma 4 12B gerçekten ücretsiz mi? Evet. Apache 2.0 açık ağırlıklı, ticari kullanım dahil ücretsiz olarak indirilebilir ve çalıştırılabilir. Yalnızca üzerinde çalıştırdığınız donanım veya bulut için ödeme yaparsınız.

GPU'ya ihtiyacım var mı? Hayır, ama yardımcı olur. 4-bit yapı 8 GB GPU'da veya 16 GB birleşik bellekli Mac'te çalışır. Yalnızca CPU'da çalışır ancak yavaş çalışır.

Gemma 4 12B'yi Google AI Studio'da kullanabilir miyim? Şu anda hayır. AI Studio, ücretsiz tarayıcı sohbeti için 31B ve 26B modellerini barındırır. 12B, yerel ve cihaz içi kullanım için oluşturulmuştur, bu nedenle yukarıdaki yöntemlerle kendiniz çalıştırırsınız.

Yerel API'nin bir API anahtarına ihtiyacı var mı? Hayır. Ollama ve llama.cpp modeli localhost'ta anahtarsız olarak sunar. Bir araç bir anahtar alanı gerektiriyorsa, herhangi bir yer tutucu dizesi girin; yerel sunucu bunu yok sayar.

Mevcut OpenAI kodumdan çağırabilir miyim? Evet. Hem Ollama hem de llama.cpp OpenAI uyumlu uç noktaları sunar. Temel URL'nizi http://localhost:11434/v1 (Ollama) veya http://localhost:8080/v1 (llama.cpp) olarak ayarlayın ve kodunuzu koruyun.

Resim ve ses özelliklerini nasıl çalıştırırım? Çok modlu girişi destekleyen Transformers, LM Studio veya AI Edge uygulamalarını kullanın. Metin isteminizden önce resim içeriği ve sonra ses içeriği ekleyin.

Hangisi daha hızlı, Ollama mı llama.cpp mi? Aynı temel motoru kullanırlar. llama.cpp daha az ek yüke ve daha fazla ayar bayrağına sahiptir; Ollama'nın kurulumu daha kolaydır. Çoğu insan için fark küçüktür.

button

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin