Özetle
Ollama, Qwen 3.5 küçük modellerini (0.8B, 2B, 4B ve 9B) Mac, Linux veya Windows makinenizde yerel olarak çalıştırmanın en kolay yolunu sunar. Basit bir ollama run komutuyla, bulut API maliyetleri olmadan yetenekli yapay zeka özelliklerine erişebilirsiniz. Ollama'yı indirin, bir model çekin ve 5 dakikadan kısa sürede sohbet etmeye başlayın.

Giriş
Büyük dil modellerini yerel olarak çalıştırmak çok popüler hale geldi ve Ollama bunu kolaylaştırıyor. Alibaba'nın Qwen 3.5 modellerini verileri buluta göndermeden veya belirteç başına ücret ödemeden kullanmak istiyorsanız, Ollama cevaptır.
Bu kılavuz, Qwen 3.5 küçük modellerini Ollama ile çalıştırmak hakkında bilmeniz gereken her şeyi size anlatacaktır. İster hızlı görevler için kompakt 0.8B modeline, ister karmaşık mantık yürütme için daha büyük 9B modeline ihtiyacınız olsun, kurulumu, kullanımı ve entegrasyonu ele alacağız.
Neden Qwen 3.5 için Ollama Kullanmalı?
Ollama, yerel LLM dağıtımı için tercih edilen çözüm haline geldi:
Basit Kurulum
Karmaşık Docker veya Python kurulumları yok. Tek bir uygulamayı indirin ve hazırsınız.
Önce Gizlilik
Verileriniz makinenizde kalır. Bu, iş verileri veya hassas herhangi bir şey için önemlidir.
API Maliyeti Yok
Modelleri indirdikten sonra, çalıştırmaları ücretsizdir. Belirteç başına ücret veya abonelik yok.
Çevrimdışı Yetenek
İnternet olmasa bile her yerde yapay zeka kullanın.
Donanım Hızlandırma
Ollama, mevcut olduğunda GPU hızlandırmasını otomatik olarak kullanır ve yerel çıkarımı hızlandırır.
Ollama Kurulumu
Mac Kurulumu
Mac'iniz varsa, kurulum saniyeler sürer:
# ollama.com adresinden indirin veya Homebrew kullanın
brew install ollama
Hepsi bu kadar. Ollama, Apple Silicon'ı (M1/M2/M3) otomatik olarak algılayacak ve GPU hızlandırması için Metal'i kullanacaktır.
Linux Kurulumu
Linux sunucuları veya WSL için:
# Hızlı kurulum
curl -fsSL https://ollama.com/install.sh | sh
Windows Kurulumu
Windows kullanıcıları yükleyiciyi indirebilir. Windows sürümü, DirectML aracılığıyla GPU hızlandırmasını destekler.

Doğrulama
Kurulumdan sonra, her şeyin çalıştığını doğrulayın:
ollama --version
Sürüm numarasını görmelisiniz. Şimdi bazı Qwen modellerini çekelim.
Qwen 3.5 Modellerini Çalıştırma
İlk Modelinizi Çekme
Ollama, model indirmeyi basitleştirir:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bHer modelin indirilmesi internet hızınıza bağlı olarak birkaç dakika sürer. 2B modeli yaklaşık 1.5 GB iken, 9B modeli yaklaşık 5 GB'dir.
Sohbet Oturumu Başlatma
Çekildikten sonra hemen sohbet etmeye başlayın:
ollama run qwen3.5:9b
Doğrudan yazabileceğiniz bir komut istemi göreceksiniz:
>>> Kuantum bilgisayar nedir basitçe?
Kuantum bilgisayar, bir tür hesaplama yöntemidir ve...
Sorularınızı yazın ve Enter tuşuna basın. Çıkmak için Ctrl+D tuşlarına basın.
Mevcut Modelleri Listeleme
Neler yüklediğinizi görün:
ollama list
Çıktı, her modeli, boyutunu ve en son ne zaman kullandığınızı gösterir.
Modelleri Kaldırma
İhtiyacınız olmayan modelleri kaldırarak disk alanını boşaltın:
ollama remove qwen3.5:9b
Model Karşılaştırma ve Seçimi
Doğru modeli seçmek donanımınıza ve kullanım durumunuza bağlıdır:
| Model | Parametreler | Yaklaşık Model Boyutu (BF16, tam hassasiyet) | Gerekli RAM (BF16, Unsloth rehberi) | En İyisi İçin |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Ultra hafif uç ve mobil: hızlı otomatik tamamlama, basit sohbet robotları, küçük araçlar, çok düşük seviyeli cihazlarda temel görme/OCR. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Hafif asistanlar, küçük ajanlar, temel kodlama yardımı, mütevazı RAM'e sahip dizüstü bilgisayarlarda iyi çok modlu. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | "Akıllı otomatik tamamlama" geliştirici yardımcısı, hafif ajanlar, 2B'den daha iyi mantık yürütme ve çok modlu özellikler, yerel olarak çalıştırılması hala kolay. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Güçlü genel asistan, iyi çok dilli + görme, 16–24 GB RAM/VRAM makinesinde ana yerel yapay zeka olarak kullanılabilir. |
Çoğu kullanıcı için öneri: qwen2.5:2b ile başlayın. Yetenek ve hızın en iyi dengesini sunar. Yalnızca daha fazla mantık yürütme gücüne ihtiyacınız varsa 4B veya 9B'ye yükseltin.
Geliştiriciler İçin Ollama API'si
Ollama, uygulamalarınızın çağırabileceği yerel bir API sunucusu çalıştırır. Bu, Qwen 3.5'i projelerinize entegre etmek için mükemmeldir.
API Sunucusunu Başlatma
Ollama varsayılan olarak bir arka plan servisi olarak çalışır. API şu adreste mevcuttur:
http://localhost:11434
Temel Sohbet Tamamlama
Sohbet uç noktasına istek gönderin:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Python nedir?"}
],
"stream": false
}'
Yanıt:

Yanıtları Akışla Yayınlama
Gerçek zamanlı çıktı için akış yayınlamayı etkinleştirin:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "5'e kadar say"}],
"stream": true
}'
Bu, oluşturulurken belirteçleri akışla yayınlar.
Üretim Uç Noktası
Sohbet dışı istemler için:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Kodlama hakkında bir haiku yaz",
"stream": false
}'
Uygulamalarınızla Entegrasyon
Python Entegrasyonu
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Özyinelemeyi açıkla"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
JavaScript/Node.js Entegrasyonu
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'API nedir?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Entegrasyonunuzu Apidog ile Test Etme
Ollama'yı çağıran uygulamalar geliştirirken, yanıtları doğrulamak için API test araçlarını kullanın. İşte Apidog ile Ollama API'nizi nasıl test edeceğiniz:
http://localhost:11434/api/chatadresine yeni bir POST isteği oluşturun- Content-Type'ı
application/jsonolarak ayarlayın - İstek gövdesini ekleyin:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Merhaba"}],
"stream": false
}
Apidog, yanıt kalitesini doğrulayan, farklı istemleri test eden ve yerel LLM uç noktalarınızı izleyen otomatik test durumları oluşturmanıza olanak tanır. Bu, entegrasyonunuzun üretimde güvenilir bir şekilde çalıştığından emin olur.
Performans ve Donanım Gereksinimleri
GPU Hızlandırma
Ollama, mevcut olduğunda GPU'yu otomatik olarak kullanır:
- Apple Silicon (M1/M2/M3): Metal kullanır, çok verimli
- NVIDIA GPU'lar: CUDA kullanır, mükemmel performans
- AMD GPU'lar: Linux'ta ROCm kullanır
- Yalnızca CPU: Çalışır ancak daha yavaştır
Beklenen Performans
| Model | GPU | Belirteç/sn (yaklaşık) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
Yalnızca CPU çıkarımı önemli ölçüde daha yavaş olacaktır (5-10 kat).
Bellek Gereksinimleri
Modele göre minimum RAM:
- 0.8B: 2 GB kullanılabilir RAM
- 2B: 4 GB kullanılabilir RAM
- 4B: 8 GB kullanılabilir RAM
- 9B: 16 GB kullanılabilir RAM
Minimumdan daha fazla RAM olması yanıt verme hızına yardımcı olur.
Sık Karşılaşılan Sorunları Giderme
"Ollama bulunamadı"
Ollama'nın PATH'inizde olduğundan emin olun. Mac/Linux'ta kurulumdan sonra terminalinizi yeniden başlatın.
Yavaş Performans
- GPU'nun kullanılıp kullanılmadığını kontrol edin:
ollama listmodel bilgisini gösterir - Yalnızca CPU için: daha yavaş hızlar bekleyin
- Diğer GPU uygulamalarını kapatın
Model İndirme Başarısız Oluyor
Daha hızlı internetle tekrar deneyin. Bir VPN kullanıyorsanız, onsuz deneyin.
API Bağlantısı Reddedildi
Ollama'nın çalıştığından emin olun: ollama serve (genellikle otomatik olarak çalışır)
Yetersiz Bellek
Daha küçük bir model kullanın. 9B modeli önemli miktarda RAM'e ihtiyaç duyar. Diğer uygulamaları kapatın.
Sonuç
Ollama, Qwen 3.5 modellerini yerel olarak çalıştırmayı basitleştirir. İster yapay zeka uygulamaları geliştiren bir geliştirici olun, ister sadece yerel LLM'lerle deneme yapmak isteyin, süreç saatler yerine dakikalar sürer.
Qwen 3.5'in güçlü çok dilli yetenekleri ile Ollama'nın basit arayüzünün birleşimi, yerel yapay zeka ile başlamanın en kolay yollarından birini sunar.
Sonraki adımlar: Ollama API'nizi kurduktan sonra, yanıt kalitesini doğrulayan, farklı istemleri test eden ve yerel LLM uç noktalarınızı izleyen otomatik test durumları oluşturmak için Apidog'u kullanın. Apidog'a ücretsiz başlayın.
Sıkça Sorulan Sorular
Ollama ile diğer dağıtım yöntemleri arasındaki fark nedir?
Ollama basitlik için tasarlanmıştır. Docker veya manuel model dağıtımından farklı olarak, her şeyi (model indirme, GPU hızlandırma, API sunma) basit komutlarla halleder.
Ollama'yı diğer Qwen modelleriyle kullanabilir miyim?
Evet, Ollama birçok modeli destekler. Tam listeyi görmek için ollama.com/library adresini kontrol edin.
Ollama'daki Qwen modellerini nasıl güncellerim?
En son sürümü çekin: ollama pull qwen2.5:2b. Bu, varsa güncellemeleri indirir.
Birden fazla modeli aynı anda çalıştırabilir miyim?
Evet, ancak her model bellek kullanır. Çoğu sistem aynı anda 1-2 modeli çalıştırabilir.
Verilerim Ollama ile güvende mi?
Evet. Her şey yerel olarak çalışır. Harici sunuculara hiçbir veri gönderilmez.
Ollama kullanarak Qwen modellerini ince ayar yapabilir miyim?
Ollama yalnızca çıkarım içindir. İnce ayar için LoRA adaptörleri gibi başka araçlara ihtiyacınız olacaktır.
Ollama'nın kullandığı bağlantı noktasını nasıl değiştiririm?
Çalıştırmadan önce OLLAMA_HOST ortam değişkenini ayarlayın: export OLLAMA_HOST=0.0.0.0:8080
