Ollama ile Qwen 3.5 Nasıl Kullanılır

Ashley Innocent

Ashley Innocent

3 March 2026

Ollama ile Qwen 3.5 Nasıl Kullanılır

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Özetle

Ollama, Qwen 3.5 küçük modellerini (0.8B, 2B, 4B ve 9B) Mac, Linux veya Windows makinenizde yerel olarak çalıştırmanın en kolay yolunu sunar. Basit bir ollama run komutuyla, bulut API maliyetleri olmadan yetenekli yapay zeka özelliklerine erişebilirsiniz. Ollama'yı indirin, bir model çekin ve 5 dakikadan kısa sürede sohbet etmeye başlayın.

Ollama ile Qwen 3.5 küçük modellerini yerel olarak çalıştırın

Giriş

Büyük dil modellerini yerel olarak çalıştırmak çok popüler hale geldi ve Ollama bunu kolaylaştırıyor. Alibaba'nın Qwen 3.5 modellerini verileri buluta göndermeden veya belirteç başına ücret ödemeden kullanmak istiyorsanız, Ollama cevaptır.

💡
Ollama'nın API'si aracılığıyla Qwen 3.5 gibi yerel LLM'leri çağıran uygulamalar geliştirirken, yanıtları test etmek ve doğrulamak için güvenilir bir yola ihtiyacınız olacaktır. Apidog'un API test araçları, Ollama API uç noktalarınız için otomatik testler kurmanıza olanak tanıyarak, yanıtların doğru olduğundan ve beklentilerinizi karşıladığından emin olur. Yanıt süresi, içerik yapısı ve hata işleme için test iddiaları oluşturun—kurulumunuzu nasıl test edeceğinizi görmek için Ollama API bölümüne geçin.
Düğme

Bu kılavuz, Qwen 3.5 küçük modellerini Ollama ile çalıştırmak hakkında bilmeniz gereken her şeyi size anlatacaktır. İster hızlı görevler için kompakt 0.8B modeline, ister karmaşık mantık yürütme için daha büyük 9B modeline ihtiyacınız olsun, kurulumu, kullanımı ve entegrasyonu ele alacağız.

Neden Qwen 3.5 için Ollama Kullanmalı?

Ollama, yerel LLM dağıtımı için tercih edilen çözüm haline geldi:

Basit Kurulum
Karmaşık Docker veya Python kurulumları yok. Tek bir uygulamayı indirin ve hazırsınız.

Önce Gizlilik
Verileriniz makinenizde kalır. Bu, iş verileri veya hassas herhangi bir şey için önemlidir.

API Maliyeti Yok
Modelleri indirdikten sonra, çalıştırmaları ücretsizdir. Belirteç başına ücret veya abonelik yok.

Çevrimdışı Yetenek
İnternet olmasa bile her yerde yapay zeka kullanın.

Donanım Hızlandırma
Ollama, mevcut olduğunda GPU hızlandırmasını otomatik olarak kullanır ve yerel çıkarımı hızlandırır.

Ollama Kurulumu

Mac Kurulumu

Mac'iniz varsa, kurulum saniyeler sürer:

# ollama.com adresinden indirin veya Homebrew kullanın
brew install ollama

Hepsi bu kadar. Ollama, Apple Silicon'ı (M1/M2/M3) otomatik olarak algılayacak ve GPU hızlandırması için Metal'i kullanacaktır.

Linux Kurulumu

Linux sunucuları veya WSL için:

# Hızlı kurulum
curl -fsSL https://ollama.com/install.sh | sh

Windows Kurulumu

Windows kullanıcıları yükleyiciyi indirebilir. Windows sürümü, DirectML aracılığıyla GPU hızlandırmasını destekler.

Windows'ta Ollama Kurulumu

Doğrulama

Kurulumdan sonra, her şeyin çalıştığını doğrulayın:

ollama --version

Sürüm numarasını görmelisiniz. Şimdi bazı Qwen modellerini çekelim.

Qwen 3.5 Modellerini Çalıştırma

İlk Modelinizi Çekme

Ollama, model indirmeyi basitleştirir:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

Her modelin indirilmesi internet hızınıza bağlı olarak birkaç dakika sürer. 2B modeli yaklaşık 1.5 GB iken, 9B modeli yaklaşık 5 GB'dir.

Sohbet Oturumu Başlatma

Çekildikten sonra hemen sohbet etmeye başlayın:

ollama run qwen3.5:9b

Doğrudan yazabileceğiniz bir komut istemi göreceksiniz:

>>> Kuantum bilgisayar nedir basitçe?
Kuantum bilgisayar, bir tür hesaplama yöntemidir ve...

Sorularınızı yazın ve Enter tuşuna basın. Çıkmak için Ctrl+D tuşlarına basın.

Mevcut Modelleri Listeleme

Neler yüklediğinizi görün:

ollama list

Çıktı, her modeli, boyutunu ve en son ne zaman kullandığınızı gösterir.

Modelleri Kaldırma

İhtiyacınız olmayan modelleri kaldırarak disk alanını boşaltın:

ollama remove qwen3.5:9b

Model Karşılaştırma ve Seçimi

Doğru modeli seçmek donanımınıza ve kullanım durumunuza bağlıdır:

Model Parametreler Yaklaşık Model Boyutu (BF16, tam hassasiyet) Gerekli RAM (BF16, Unsloth rehberi) En İyisi İçin
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB Ultra hafif uç ve mobil: hızlı otomatik tamamlama, basit sohbet robotları, küçük araçlar, çok düşük seviyeli cihazlarda temel görme/OCR.
Qwen3.5-2B 2B ~4 GB ~9 GB Hafif asistanlar, küçük ajanlar, temel kodlama yardımı, mütevazı RAM'e sahip dizüstü bilgisayarlarda iyi çok modlu.
Qwen3.5-4B 4B ~8 GB ~14 GB "Akıllı otomatik tamamlama" geliştirici yardımcısı, hafif ajanlar, 2B'den daha iyi mantık yürütme ve çok modlu özellikler, yerel olarak çalıştırılması hala kolay.
Qwen3.5-9B 9B ~18 GB ~19 GB Güçlü genel asistan, iyi çok dilli + görme, 16–24 GB RAM/VRAM makinesinde ana yerel yapay zeka olarak kullanılabilir.

Çoğu kullanıcı için öneri: qwen2.5:2b ile başlayın. Yetenek ve hızın en iyi dengesini sunar. Yalnızca daha fazla mantık yürütme gücüne ihtiyacınız varsa 4B veya 9B'ye yükseltin.

Geliştiriciler İçin Ollama API'si

Ollama, uygulamalarınızın çağırabileceği yerel bir API sunucusu çalıştırır. Bu, Qwen 3.5'i projelerinize entegre etmek için mükemmeldir.

API Sunucusunu Başlatma

Ollama varsayılan olarak bir arka plan servisi olarak çalışır. API şu adreste mevcuttur:

http://localhost:11434

Temel Sohbet Tamamlama

Sohbet uç noktasına istek gönderin:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "Python nedir?"}
    ],
    "stream": false
  }'

Yanıt:

Ollama API sohbet tamamlama yanıtı

Yanıtları Akışla Yayınlama

Gerçek zamanlı çıktı için akış yayınlamayı etkinleştirin:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "5'e kadar say"}],
    "stream": true
  }'

Bu, oluşturulurken belirteçleri akışla yayınlar.

Üretim Uç Noktası

Sohbet dışı istemler için:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Kodlama hakkında bir haiku yaz",
    "stream": false
  }'

Uygulamalarınızla Entegrasyon

Python Entegrasyonu

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Özyinelemeyi açıkla"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

JavaScript/Node.js Entegrasyonu

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'API nedir?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Entegrasyonunuzu Apidog ile Test Etme

Ollama'yı çağıran uygulamalar geliştirirken, yanıtları doğrulamak için API test araçlarını kullanın. İşte Apidog ile Ollama API'nizi nasıl test edeceğiniz:

  1. http://localhost:11434/api/chat adresine yeni bir POST isteği oluşturun
  2. Content-Type'ı application/json olarak ayarlayın
  3. İstek gövdesini ekleyin:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Merhaba"}],
  "stream": false
}
Apidog ile Ollama API'sini test etme

Apidog, yanıt kalitesini doğrulayan, farklı istemleri test eden ve yerel LLM uç noktalarınızı izleyen otomatik test durumları oluşturmanıza olanak tanır. Bu, entegrasyonunuzun üretimde güvenilir bir şekilde çalıştığından emin olur.

Performans ve Donanım Gereksinimleri

GPU Hızlandırma

Ollama, mevcut olduğunda GPU'yu otomatik olarak kullanır:

Beklenen Performans

Model GPU Belirteç/sn (yaklaşık)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

Yalnızca CPU çıkarımı önemli ölçüde daha yavaş olacaktır (5-10 kat).

Bellek Gereksinimleri

Modele göre minimum RAM:

Minimumdan daha fazla RAM olması yanıt verme hızına yardımcı olur.

Sık Karşılaşılan Sorunları Giderme

"Ollama bulunamadı"

Ollama'nın PATH'inizde olduğundan emin olun. Mac/Linux'ta kurulumdan sonra terminalinizi yeniden başlatın.

Yavaş Performans

  1. GPU'nun kullanılıp kullanılmadığını kontrol edin: ollama list model bilgisini gösterir
  2. Yalnızca CPU için: daha yavaş hızlar bekleyin
  3. Diğer GPU uygulamalarını kapatın

Model İndirme Başarısız Oluyor

Daha hızlı internetle tekrar deneyin. Bir VPN kullanıyorsanız, onsuz deneyin.

API Bağlantısı Reddedildi

Ollama'nın çalıştığından emin olun: ollama serve (genellikle otomatik olarak çalışır)

Yetersiz Bellek

Daha küçük bir model kullanın. 9B modeli önemli miktarda RAM'e ihtiyaç duyar. Diğer uygulamaları kapatın.

Sonuç

Ollama, Qwen 3.5 modellerini yerel olarak çalıştırmayı basitleştirir. İster yapay zeka uygulamaları geliştiren bir geliştirici olun, ister sadece yerel LLM'lerle deneme yapmak isteyin, süreç saatler yerine dakikalar sürer.

Qwen 3.5'in güçlü çok dilli yetenekleri ile Ollama'nın basit arayüzünün birleşimi, yerel yapay zeka ile başlamanın en kolay yollarından birini sunar.

Sonraki adımlar: Ollama API'nizi kurduktan sonra, yanıt kalitesini doğrulayan, farklı istemleri test eden ve yerel LLM uç noktalarınızı izleyen otomatik test durumları oluşturmak için Apidog'u kullanın. Apidog'a ücretsiz başlayın.

Düğme

Sıkça Sorulan Sorular

Ollama ile diğer dağıtım yöntemleri arasındaki fark nedir?

Ollama basitlik için tasarlanmıştır. Docker veya manuel model dağıtımından farklı olarak, her şeyi (model indirme, GPU hızlandırma, API sunma) basit komutlarla halleder.

Ollama'yı diğer Qwen modelleriyle kullanabilir miyim?

Evet, Ollama birçok modeli destekler. Tam listeyi görmek için ollama.com/library adresini kontrol edin.

Ollama'daki Qwen modellerini nasıl güncellerim?

En son sürümü çekin: ollama pull qwen2.5:2b. Bu, varsa güncellemeleri indirir.

Birden fazla modeli aynı anda çalıştırabilir miyim?

Evet, ancak her model bellek kullanır. Çoğu sistem aynı anda 1-2 modeli çalıştırabilir.

Verilerim Ollama ile güvende mi?

Evet. Her şey yerel olarak çalışır. Harici sunuculara hiçbir veri gönderilmez.

Ollama kullanarak Qwen modellerini ince ayar yapabilir miyim?

Ollama yalnızca çıkarım içindir. İnce ayar için LoRA adaptörleri gibi başka araçlara ihtiyacınız olacaktır.

Ollama'nın kullandığı bağlantı noktasını nasıl değiştiririm?

Çalıştırmadan önce OLLAMA_HOST ortam değişkenini ayarlayın: export OLLAMA_HOST=0.0.0.0:8080

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin