Gemma 4'ü Ollama ile Yerel Olarak Çalıştırma: Eksiksiz Rehber

Kısaca

Gemma 4, 3 Nisan 2026'da yayınlandı ve Ollama v0.20.0 aynı gün desteği ekledi. Varsayılan `gemma4:e4b` modelini iki komutla çekebilir ve çalıştırabilirsiniz. Bu kılavuz, kurulumu, model seçimini, API kullanımını ve yerel Gemma 4 uç noktalarınızı Apidog ile nasıl test edeceğinizi anlatır.

Giriş

Google, Gemma 4'ü 2 Nisan 2026'da yayınladı. 24 saat içinde Ollama, dört model varyantının tamamında tam destekle v0.20.0'ı gönderdi.

Geliştiriciler için bu önemlidir. Gemma 4 küçük bir iyileştirme değildir. Gemma 3'ün %20,8'ine kıyasla AIME 2026'da %89,2 puan almıştır. Kodlama kıyaslama puanı Codeforces'ta 110 ELO'dan 2150'ye sıçradı. Yerel işlev çağırma, yapılandırılabilir düşünme modları ve daha büyük varyantlarda 256K'lık bir bağlam penceresi elde edersiniz. Tüm bunlar kendi donanımınızda çalışır.

API destekli uygulamalar geliştiriyorsanız, yerel kurulum faydalı bir şeyin kilidini açar: uzak bir sunucuya veri göndermeden sahte veri oluşturmak, test senaryoları yazmak ve API yanıtlarını doğrulamak için hızlı, özel bir yapay zeka katmanı.

💡

Gemma 4 yerel olarak çalışmaya başladığında, Apidog'un Akıllı Mock (Smart Mock) özelliği, şemanızdan gerçekçi API yanıt verilerini aynı tür yapay zeka destekli çıkarım kullanarak oluşturabilir. API'nizin şeklini bir kez tanımlarsınız; Apidog sahte verileri yönetir. Bu, tutarlı, şemaya uygun test verilerini elle armatürler yazmadan istediğiniz yerel model deneyleriyle iyi bir şekilde eşleşir.

button

Bu kılavuz, kurulumdan ilk yerel API çağrınızı yapmaya kadar her şeyi kapsar.

Gemma 4'teki Yenilikler

Gemma 4, önemli ölçüde farklı yeteneklere sahip dört model varyantıyla birlikte gelir.

Gemma 4 model varyantları ve özelliklerini gösteren bir tablo.

Gemma 3'ten farkı şunlardır:

Mantık yürütme ve kodlama. 31B modeli LiveCodeBench v6'da %80'e ulaşır. Önceki Gemma 3 27B %29,1 puan almıştı. Bu fark kademeli bir iyileşme değil; farklı bir performans sınıfıdır.

Uzmanlar Karışımı (Mixture-of-Experts) mimarisi. 26B varyantı, çıkarım sırasında yalnızca 4 milyar aktif parametre ile MoE kullanır. İşlem maliyetinin çok altında, amiral gemisi kalitesine yakın performans elde edersiniz.

Daha uzun bağlam. E2B ve E4B uç modelleri 128K belirteci destekler. 26B ve 31B modelleri bunu 256K'ya kadar genişletir, bu da büyük kod tabanlarını veya API belirtim dosyalarını tek bir isteme sığdırmak için yeterlidir.

Yerel işlev çağırma. Tüm Gemma 4 modelleri kutudan çıktığı gibi yapılandırılmış araç kullanımını destekler. Bir işlev şeması tanımlayabilirsiniz ve model, o şemaya uyan geçerli JSON'u döndürür, istem mühendisliği hilelerine gerek yoktur.

Ses ve görüntü girişi. E2B ve E4B modelleri metnin yanı sıra ses ve değişken çözünürlüklü görüntü girişini kabul eder.

Düşünme modları. Modelin düşünce zinciri mantığını her istek için etkinleştirebilir veya devre dışı bırakabilirsiniz. Basit aramalar için atlayın. Karmaşık kodlama veya matematik problemleri için açın.

Gemma 4 model varyantları açıklandı

Herhangi bir şeyi çekmeden önce, donanımınız için doğru modeli seçin:

Model	Diskteki Boyut	Bağlam	Mimari	En İyisi
`gemma4:e2b`	7.2 GB	128K	Yoğun	Dizüstü bilgisayarlar, uç cihazlar, ses/görüntü
`gemma4:e4b` (varsayılan)	9.6 GB	128K	Yoğun	Çoğu geliştirici
`gemma4:26b`	18 GB	256K	MoE (4B aktif)	GB başına en iyi kalite
`gemma4:31b`	20 GB	256K	Yoğun	Maksimum kalite

`ollama run gemma4` komutunu çalıştırdığınızda `e4b` modeli varsayılandır. Çoğu tüketici GPU'sunda 10+ GB VRAM ile uyumludur ve Apple Silicon'un birleşik belleğinde oldukça hızlı çalışır.

`26b` MoE varyantı ise gizli bir cevherdir. Her token başına yalnızca 4 milyar parametre etkinleştiği için, çıkarım hızı 4B bir modele daha yakındır, kalitesi ise 13B bir modele yakındır. Eğer 20+ GB RAM'iniz varsa, bunu denemeye değer.

Önkoşullar

Ollama v0.20.0 veya daha yenisi gereklidir. Önceki sürümler Gemma 4 desteği içermemektedir.

Mevcut sürümünüzü kontrol edin:

ollama --version

Eğer eski bir sürüm kullanıyorsanız, güncelleyin:

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Windows'ta, en son yükleyiciyi ollama.com adresinden indirin.

Donanım gereksinimleri:

`gemma4:e2b`: Minimum 8 GB RAM (16 GB önerilir)
`gemma4:e4b`: 10 GB VRAM veya 16 GB birleşik bellek
`gemma4:26b`: 20+ GB RAM veya birleşik bellek
`gemma4:31b`: 24 GB VRAM veya 32 GB birleşik bellek

Gemma 4'ü yükleme ve çalıştırma

Varsayılan e4b modelini çekin ve çalıştırın:

ollama run gemma4

Ollama terminalinde Gemma 4'ü çalıştıran bir ekran görüntüsü. Metin, 'Ollama ile gemma4 çalıştırmak' şeklinde devam ediyor.

Bu, ilk çalıştırmada yaklaşık 9,6 GB indirir, ardından sizi etkileşimli bir oturuma yönlendirir. Test etmek için bir mesaj yazın:

>>> İstemci hataları için HTTP durum kodları nelerdir?

Belirli bir varyantı çalıştırmak için:

# Uç model, daha küçük ayak izi
ollama run gemma4:e2b

# MoE modeli, en iyi kalite-boyut oranı
ollama run gemma4:26b

# Tam amiral gemisi
ollama run gemma4:31b

Hemen çalıştırmadan çekmek için:

ollama pull gemma4
ollama pull gemma4:26b

Hangi modellerin sizde olduğunu kontrol edin:

ollama list

Gemma 4 API'sini yerel olarak kullanma

Ollama, `http://localhost:11434` adresinde yerel bir REST API sunar. Model çekildikten sonra, etkileşimli CLI'yı başlatmadan herhangi bir HTTP istemcisinden erişebilirsiniz.

Bir tamamlama oluşturun

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Bir kullanıcı profil API uç noktası için JSON yanıtı yaz",
    "stream": false
  }'

Sohbet tamamlama (OpenAI uyumlu uç nokta)

Ollama ayrıca OpenAI sohbet formatını da destekler:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {
        "role": "user",
        "content": "Bir e-ticaret sipariş API yanıtı için gerçekçi bir JSON mock oluştur"
      }
    ]
  }'

Python istemcisi

import requests

def ask_gemma4(prompt: str, model: str = "gemma4") -> str:
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    response.raise_for_status()
    return response.json()["response"]

result = ask_gemma4("Bir ödeme API yanıtının içermesi gereken alanları listele")
print(result)

OpenAI Python SDK'sını kullanma

Ollama'nın API'si OpenAI ile uyumlu olduğu için, resmi SDK'yı yerel örneğinize yönlendirebilirsiniz:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # SDK tarafından gerekli ama Ollama tarafından kullanılmıyor
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {
            "role": "system",
            "content": "Gerçekçi API yanıt verilerini JSON formatında oluşturursunuz."
        },
        {
            "role": "user",
            "content": "Bir GET /users/{id} uç noktası için örnek bir yanıt oluştur"
        }
    ]
)

print(response.choices[0].message.content)

Gemma 4 ile fonksiyon çağırma kullanma

Gemma 4 yerel fonksiyon çağırmayı destekler. Bir araç şeması tanımlarsınız ve model, fonksiyon imzanızla eşleşen yapılandırılmış JSON döndürür.

Bu, API'lerinizi programatik olarak çağıran aracılar oluşturmak için kullanışlıdır:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_user",
            "description": "API'den bir kullanıcıyı ID'ye göre getir",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "integer",
                        "description": "Benzersiz kullanıcı ID'si"
                    },
                    "include_orders": {
                        "type": "boolean",
                        "description": "Sipariş geçmişinin dahil edilip edilmeyeceği"
                    }
                },
                "required": ["user_id"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "user", "content": "42 numaralı kullanıcıyı sipariş geçmişiyle birlikte getir"}
    ],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name)       # get_user
print(tool_call.function.arguments)  # {"user_id": 42, "include_orders": true}

Model, doğal dilden doğru parametreleri çıkarır ve şemanızla eşleşen geçerli bir JSON nesnesi döndürür. Regex ayrıştırma veya çıktı temizliğine gerek yoktur.

Düşünme modunu etkinleştirme

Test senaryoları yazma veya API belirtimlerini analiz etme gibi karmaşık görevler için Gemma 4'ün düşünce zinciri mantığını etkinleştirebilirsiniz:

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {
            "role": "user",
            "content": "Uç durumlarla birlikte bir ödeme işleme API'si için eksiksiz bir test senaryosu tasarla"
        }
    ],
    extra_body={"think": True}
)

print(response.choices[0].message.content)

Tek bir mock değeri oluşturma gibi daha basit istekler için düşünme modunu atlayın. İhtiyacınız olmayan gecikmeyi artırır.

Apidog ile Gemma 4 API yanıtlarını test etme

Yerel Gemma 4 örneğiniz çalışmaya başladıktan sonra, API uç noktalarını sistematik olarak test etmek isteyeceksiniz. Apidog bunu ek bir araca gerek kalmadan halleder.

Apidog arayüzünde Gemma 4 API yanıtlarının nasıl test edileceğini gösteren bir ekran görüntüsü.

Ollama API belirtimini içe aktarın. Ollama'nın yerel sunucusu standart REST uç noktalarını sunar. Apidog'da yeni bir proje oluşturun ve `http://localhost:11434` temel URL'sini ekleyin.

Uç noktalarınızı tanımlayın. Test ettiğiniz uç noktaları ekleyin:

Tek seferlik tamamlamalar için `POST /api/generate`
Çoklu dönüşlü sohbet için `POST /v1/chat/completions`
Mevcut modelleri listelemek için `GET /api/tags`

Bir Test Senaryosu kurun. Apidog'da, bir Test Senaryosu birden fazla isteği aralarında onaylarla zincirler. Gemma 4 testi için:

Adım 1: `gemma4`'ün model listesinde göründüğünü doğrulamak için `GET /api/tags`
Adım 2: Bir istem göndermek ve `response` alanının boş olmadığını doğrulamak için `POST /api/generate`
Adım 3: Bir sohbet mesajı göndermek ve yanıtın beklenen formatınızla eşleştiğini doğrulamak için `POST /v1/chat/completions`

Adım 2'den gelen yanıtı yakalamak ve Adım 3'e iletmek için Apidog'un Değişken Çıkarıcı işlemcisini kullanın. Bu, çoklu dönüşlü konuşma akışlarını otomatik olarak test etmenizi sağlar.

Yanıt şemalarını doğrulayın. Apidog'un Sözleşme Testi, API yanıtlarını OpenAPI belirtiminize göre doğrular. Her Gemma 4 uç noktası için beklenen yanıt şeklini tanımlayın, ardından Ollama'nın API formatındaki herhangi bir bozulma değişikliğini yakalamak için model güncellemelerinden sonra sözleşme testlerini çalıştırın.

Paralel geliştirme için Akıllı Mock. Arka ucunuz Gemma 4 yanıtlarına bağlıysa ancak ön uç ekiplerinin yerel modeli beklemeden çalışmasını istiyorsanız, Apidog'un Akıllı Mock (Smart Mock) özelliği, API belirtiminizden şemaya uygun yanıtları otomatik olarak oluşturur. Bir Gemma 4 yanıtının nasıl göründüğünü tanımlayın ve Akıllı Mock talebe göre gerçekçi veriler sunar.

Gemma 4 ile çok modlu giriş

E2B ve E4B modelleri metnin yanı sıra görüntüleri de kabul eder. Görüntüleri base64 kodlu dizeler olarak geçirin:

import base64

with open("api_diagram.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemma4:e4b",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/png;base64,{image_data}"
                    }
                },
                {
                    "type": "text",
                    "text": "Bu diyagramda gösterilen API akışını tanımlayın ve olası hata yollarını belirleyin"
                }
            ]
        }
    ]
)

Bu, mimari diyagramlarını analiz etmek, API dokümantasyon ekran görüntülerini incelemek veya API'nizin işlemesi gereken görüntüden veri çıkarmak için kullanışlıdır.

Sık karşılaşılan sorunlar ve çözümler

Ollama modelin bulunamadığını söylüyor. Önce `ollama pull gemma4` komutunu çalıştırın veya `ollama list` ile doğrulayın.

CPU'da yavaş çıkarım. Gemma 4 GPU için optimize edilmiştir. Yalnızca CPU olan makinelerde, e4b modelinde saniyede 1-3 token bekleyin. Daha iyi CPU performansı için `gemma4:e2b` kullanın.

Bellek dışı hatalar. `ollama ps` ile mevcut VRAM veya birleşik belleğinizi kontrol edin. Model çok büyükse, `gemma4:e2b`'ye (7.2 GB) geçin.

Apple Silicon'da model yüklenmiyor. Ollama 0.20.0, Apple Silicon için MLX desteğini önizleme olarak ekledi. Eğer daha eski bir Ollama sürümündeyken, önce güncelleyin.

Bağlantı noktası zaten kullanımda. Başka bir şey 11434 numaralı bağlantı noktasını kullanıyorsa, özel bir bağlantı noktası ayarlayın: `OLLAMA_HOST=0.0.0.0:11435 ollama serve`.

Yanıtlar kesiliyor. İsteğinizdeki bağlam penceresini artırın: JSON gövdesine `"options": {"num_ctx": 8192}` ekleyin.

Gemma 4 diğer yerel modellere karşı

Model	Çoğu kullanıcı için en iyi boyut	Bağlam	Fonksiyon çağırma	Kodlama kıyaslama
Gemma 4	e4b (9.6 GB)	128K-256K	Yerel	%80 LiveCodeBench
Llama 3.3	70B-Q4 (40 GB)	128K	Yerel	~%60 LiveCodeBench
Qwen3.6-Plus	72B-Q4 (44 GB)	128K	Yerel	Güçlü
Mistral Small	24B (14 GB)	128K	Yerel	Orta

Gemma 4'ün avantajı MoE 26B varyantıdır. 18 GB boyutuyla, çıkarım sırasında 4B aktif parametre ile neredeyse amiral gemisi kalitesinde performans sunar ve bu listedeki daha büyük yoğun modellere göre daha iyi token-per-second değeri sağlar.

Saf kodlama görevleri için, 31B modeli çok daha büyük modellerle rekabet edebilir. Uç dağıtımlar veya dizüstü bilgisayarlar için `e2b` 8 GB'ın altında çalışır.

Sonuç

Ollama ile Gemma 4, şu anda mevcut en yetenekli yerel kurulumlardan biridir. Kurulum iki komut sürer. Varsayılan model çoğu geliştirici makinesinde çalışır. Ve Gemma 3'e göre mantık yürütme ve kodlama kalitesindeki sıçrama önemli derecede fazladır.

`ollama run gemma4` ile başlayın, uç noktalarınızın beklendiği gibi davrandığından emin olmak için API'yi Apidog ile test edin, ardından yukarıdaki model tablosuna göre iş yükünüz için doğru varyantı seçin.

Gemma 4 üzerinde API destekli özellikler geliştiren ekipler için, yerel çıkarımı Apidog'un Akıllı Mock ve Test Senaryoları ile eşleştirmek, uzak bağımlılıklar olmadan eksiksiz bir geliştirme döngüsü sağlar.

button

SSS

Yeni bir sürüm çıktığında Ollama'daki Gemma 4'ü nasıl güncellerim?`ollama pull gemma4` komutunu tekrar çalıştırın. Ollama en son sürümü kontrol eder ve yalnızca değişenleri indirir.

Gemma 4'ü GPU'suz bir makinede çalıştırabilir miyim?Evet, ama yavaş olur. CPU'da saniyede 1-3 token bekleyin. `e2b` modeli, yalnızca CPU olan makineler için en pratik seçenektir.

gemma4:e2b ve gemma4:e4b arasındaki fark nedir?Her ikisi de uç donanımlar için optimize edilmiş yoğun "etkili" modellerdir. E4B daha fazla parametreye sahiptir ve karmaşık mantık yürütmeyi daha iyi yönetir. E2B daha küçüktür ve ses girişini destekler. Çoğu metin görevi için, e4b daha iyi bir varsayılandır.

Gemma 4, LangChain ve LlamaIndex ile çalışıyor mu?Evet. Her iki çerçeve de Ollama'yı bir arka uç olarak destekler. Ollama sağlayıcısını `http://localhost:11434` adresine işaret edin ve model adı olarak `gemma4` kullanın.

Yerel Gemma 4 API'si, OpenAI API'si için yazılmış kodla uyumlu mu?Büyük ölçüde evet. Ollama'nın `/v1/chat/completions` uç noktası OpenAI formatını takip eder. `base_url`'i `http://localhost:11434/v1` olarak ve `api_key`'i herhangi bir boş olmayan dize olarak değiştirin. Çoğu OpenAI SDK çağrısı değişiklik yapmadan çalışır.

Gemma 4'ün düşünme modunu nasıl kullanırım?OpenAI SDK'sını kullanırken `extra_body` parametresinde `"think": true`'yi geçirin veya doğrudan API çağrılarında üst düzey JSON gövdesine `"think": true` ekleyin. Gecikmeyi azaltmak için basit görevler için devre dışı bırakın.

Gemma 4'ü ağdaki diğer makinelere sunabilir miyim?Evet. Ollama'yı `OLLAMA_HOST=0.0.0.0:11434 ollama serve` ile başlatın ve diğer makineler 11434 numaralı bağlantı noktasında IP adresinizden erişebilir.

API geliştirme görevleri için en iyi Gemma 4 modeli hangisidir?Sahte veri oluşturma ve test senaryoları yazma için `e4b`, hız ve kalite dengesi açısından doğru seçimdir. Karmaşık özellik analizi veya mimari incelemesi için `26b` MoE modeli, tam 31B modelinin maliyeti olmadan daha iyi sonuçlar verir.