Qwen3 Kuantize Modelleri Yerel Olarak Nasıl Kullanılır: Adım Adım Kılavuz

Ollama, LM Studio ve vLLM ile Qwen3 nicelleştirilmiş modellerini yerel olarak kullanmayı öğrenin.

Efe Demir

Efe Demir

5 June 2025

Qwen3 Kuantize Modelleri Yerel Olarak Nasıl Kullanılır: Adım Adım Kılavuz

Qwen3 gibi büyük dil modelleri (LLM'ler), kodlama, muhakeme ve doğal dil anlama konusundaki etkileyici yetenekleriyle yapay zeka dünyasında devrim yaratıyor. Alibaba'daki Qwen ekibi tarafından geliştirilen Qwen3, verimli yerel dağıtım sağlayan nicelleştirilmiş modeller sunarak, geliştiricilerin, araştırmacıların ve meraklıların bu güçlü modelleri kendi donanımlarında çalıştırmasını mümkün kılıyor. İster Ollama, LM Studio veya vLLM kullanıyor olun, bu kılavuz sizi Qwen3 nicelleştirilmiş modellerini yerel olarak kurma ve çalıştırma sürecinde yönlendirecektir.

💡
İşe başlamadan önce, yerel Qwen3 kurulumunuzu test etmek ve onunla etkileşim kurmak için doğru araçlara sahip olduğunuzdan emin olun. Apidog, yerel modelinizin API uç noktalarını kolaylıkla doğrulamanıza yardımcı olabilecek mükemmel bir API test aracıdır. Qwen3 ile çalışırken API test iş akışınızı kolaylaştırmak için Apidog'u ücretsiz indirin!
button

Bu teknik kılavuzda, kurulum sürecini, model seçimini, dağıtım yöntemlerini ve API entegrasyonunu inceleyeceğiz. Hadi başlayalım.

Qwen3 Nicelleştirilmiş Modelleri Nelerdir?

Qwen3, kodlama, matematik ve genel muhakeme gibi görevlerde yüksek performans için tasarlanmış, Alibaba'nın en yeni nesil LLM'leridir. BF16, FP8, GGUF, AWQ ve GPTQ formatlarındaki nicelleştirilmiş modeller, hesaplama ve bellek gereksinimlerini azaltarak, bunları tüketici sınıfı donanımlarda yerel dağıtım için ideal hale getirir.

Qwen3 ailesi çeşitli modeller içerir:

Bu modeller, Ollama, LM Studio ve vLLM gibi platformlar aracılığıyla esnek dağıtımı destekler; bunları ayrıntılı olarak ele alacağız. Ek olarak, Qwen3, daha iyi muhakeme için açılıp kapatılabilen "düşünme modu" ve çıktı kalitesini ince ayar yapmak için oluşturma parametreleri gibi özellikler sunar.

Temel bilgileri anladığımıza göre, Qwen3'ü yerel olarak çalıştırmanın önkoşullarına geçelim.

Qwen3'ü Yerel Olarak Çalıştırmanın Önkoşulları

Qwen3 nicelleştirilmiş modellerini dağıtmadan önce, sisteminizin aşağıdaki gereksinimleri karşıladığından emin olun:

Donanım:

Yazılım:

Bağımlılıklar:

Bu önkoşullar yerine getirildikten sonra, Qwen3 nicelleştirilmiş modellerini indirmeye geçelim.

Adım 1: Qwen3 Nicelleştirilmiş Modellerini İndirin

İlk olarak, nicelleştirilmiş modelleri güvenilir kaynaklardan indirmeniz gerekir. Qwen ekibi, Hugging Face ve ModelScope üzerinde Qwen3 modelleri sağlar

Hugging Face'ten Nasıl İndirilir

  1. Hugging Face Qwen3 koleksiyonunu ziyaret edin.
  2. Hafif dağıtım için GGUF formatında Qwen3-4B gibi bir model seçin.
  3. "İndir" düğmesini tıklayın veya model dosyalarını getirmek için git clone komutunu kullanın:
git clone https://huggingface.co/Qwen/Qwen3-4B-GGUF
  1. Model dosyalarını /models/qwen3-4b-gguf gibi bir dizinde saklayın.

ModelScope'tan Nasıl İndirilir

  1. ModelScope Qwen3 koleksiyonuna gidin.
  2. İstediğiniz modeli ve nicelleştirme formatını (örneğin, AWQ veya GPTQ) seçin.
  3. Dosyaları manuel olarak indirin veya programlı erişim için API'lerini kullanın.

Modeller indirildikten sonra, bunları Ollama kullanarak nasıl dağıtacağımızı inceleyelim.

Adım 2: Ollama Kullanarak Qwen3'ü Dağıtın

Ollama , LLM'leri minimum kurulumla yerel olarak çalıştırmak için kullanıcı dostu bir yol sunar. Qwen3'ün GGUF formatını destekler ve bu da onu yeni başlayanlar için ideal hale getirir.

Ollama'yı Yükleyin

  1. Ollama'nın resmi web sitesini ziyaret edin ve işletim sisteminiz için ikili dosyayı indirin.
  2. Yükleyiciyi çalıştırarak veya komut satırı talimatlarını izleyerek Ollama'yı yükleyin:
curl -fsSL https://ollama.com/install.sh | sh
  1. Yüklemeyi doğrulayın:
ollama --version

Ollama ile Qwen3'ü Çalıştırın

  1. Modeli başlatın:
ollama run qwen3:235b-a22b-q8_0
  1. Model çalıştıktan sonra, komut satırı aracılığıyla onunla etkileşim kurabilirsiniz:
>>> Merhaba, bugün size nasıl yardımcı olabilirim?

Ollama ayrıca, programlı erişim için yerel bir API uç noktası (genellikle http://localhost:11434) sağlar; bunu daha sonra Apidog kullanarak test edeceğiz.

Şimdi, Qwen3'ü çalıştırmak için LM Studio'yu nasıl kullanacağımızı inceleyelim.

Adım 3: LM Studio Kullanarak Qwen3'ü Dağıtın

LM Studio, LLM'leri yerel olarak çalıştırmak için popüler bir araçtır ve model yönetimi için grafik bir arayüz sunar.

LM Studio'yu Yükleyin

  1. LM Studio'yu resmi web sitesinden indirin.
  2. Ekrandaki talimatları izleyerek uygulamayı yükleyin.
  3. LM Studio'yu başlatın ve çalıştığından emin olun.

LM Studio'da Qwen3'ü Yükleyin

LM Studio'da, "Yerel Modeller" bölümüne gidin.

"Model Ekle"ye tıklayın ve indirmek için modeli arayın:

Model ayarlarını yapılandırın, örneğin:

"Sunucuyu Başlat"a tıklayarak model sunucusunu başlatın. LM Studio, yerel bir API uç noktası sağlayacaktır (örneğin, http://localhost:1234).

LM Studio'da Qwen3 ile Etkileşim Kurun

  1. Modeli test etmek için LM Studio'nun yerleşik sohbet arayüzünü kullanın.
  2. Alternatif olarak, API test bölümünde inceleyeceğimiz modelin API uç noktası aracılığıyla modele erişin.

LM Studio kurulduktan sonra, vLLM kullanarak daha gelişmiş bir dağıtım yöntemine geçelim.

Adım 4: vLLM Kullanarak Qwen3'ü Dağıtın

vLLM , Qwen3'ün FP8 ve AWQ nicelleştirilmiş modellerini destekleyen, LLM'ler için optimize edilmiş yüksek performanslı bir hizmet çözümüdür. Sağlam uygulamalar geliştiren geliştiriciler için idealdir.

vLLM'yi Yükleyin

  1. Sisteminizde Python 3.8+ yüklü olduğundan emin olun.
  2. Pip kullanarak vLLM'yi yükleyin:
pip install vllm
  1. Yüklemeyi doğrulayın:
python -c "import vllm; print(vllm.__version__)"

vLLM ile Qwen3'ü Çalıştırın

Qwen3 modelinizle bir vLLM sunucusu başlatın

# Modeli yükleyin ve çalıştırın:
vllm serve "Qwen/Qwen3-235B-A22B"

--enable-thinking=False bayrağı, Qwen3'ün düşünme modunu devre dışı bırakır.

Sunucu başladığında, http://localhost:8000 adresinde bir API uç noktası sağlayacaktır.

Optimal Performans için vLLM'yi Yapılandırın

vLLM, aşağıdakiler gibi gelişmiş yapılandırmaları destekler:

vLLM çalışırken, Apidog kullanarak API uç noktasını test edelim.

Adım 5: Apidog ile Qwen3 API'sini Test Edin

Apidog, API uç noktalarını test etmek için güçlü bir araçtır ve yerel olarak dağıtılan Qwen3 modelinizle etkileşim kurmak için mükemmeldir.

Apidog'u Kurun

  1. Apidog'u resmi web sitesinden indirin ve yükleyin.
  2. Apidog'u başlatın ve yeni bir proje oluşturun.

Ollama API'sini Test Edin

  1. Apidog'da yeni bir API isteği oluşturun.
  2. Uç noktayı http://localhost:11434/api/generate olarak ayarlayın.
  3. İsteği yapılandırın:
{
  "model": "qwen3-4b",
  "prompt": "Merhaba, bugün size nasıl yardımcı olabilirim?",
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20
}
  1. İsteği gönderin ve yanıtı doğrulayın.

vLLM API'sini Test Edin

  1. Apidog'da başka bir API isteği oluşturun.
  2. Uç noktayı http://localhost:8000/v1/completions olarak ayarlayın.
  3. İsteği yapılandırın:
{
  "model": "qwen3-4b-awq",
  "prompt": "Faktöriyel hesaplamak için bir Python betiği yazın.",
  "max_tokens": 512,
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20
}
  1. İsteği gönderin ve çıktıyı kontrol edin.

Apidog, Qwen3 dağıtımınızı doğrulamayı ve API'nin doğru çalıştığından emin olmayı kolaylaştırır. Şimdi, modelin performansını ince ayar yapalım.

Adım 6: Qwen3 Performansını İnce Ayar Yapın

Qwen3'ün performansını optimize etmek için, kullanım durumunuza göre aşağıdaki ayarları yapın:

Düşünme Modu

Qwen3, X gönderi görüntüsünde vurgulandığı gibi, gelişmiş muhakeme için bir "düşünme modu"nu destekler. Bunu iki şekilde kontrol edebilirsiniz:

  1. Yumuşak Geçiş: İsteminize /think veya /no_think ekleyin.
  1. Sert Geçiş: --enable-thinking=False ile vLLM'de düşünmeyi tamamen devre dışı bırakın.

Oluşturma Parametreleri

Daha iyi çıktı kalitesi için oluşturma parametrelerini ince ayar yapın:

Yaratıcılık ve doğruluk arasında istenen dengeyi elde etmek için bu ayarları deneyin.

Yaygın Sorunları Giderme

Qwen3'ü dağıtırken bazı sorunlarla karşılaşabilirsiniz. İşte yaygın sorunlara çözümler:

Model Ollama'da Yüklenemiyor:

vLLM Tensör Paralelliği Hatası:

Apidog'da API İsteği Başarısız Oluyor:

Bu sorunları ele alarak, sorunsuz bir dağıtım deneyimi sağlayabilirsiniz.

Sonuç

Qwen3 nicelleştirilmiş modellerini yerel olarak çalıştırmak, Ollama, LM Studio ve vLLM gibi araçlarla basit bir işlemdir. Uygulamalar geliştiren bir geliştirici veya LLM'lerle deneyler yapan bir araştırmacı olmanız fark etmez, Qwen3 ihtiyacınız olan esnekliği ve performansı sunar. Bu kılavuzu izleyerek, Hugging Face ve ModelScope'tan model indirmeyi, bunları çeşitli çerçeveler kullanarak dağıtmayı ve Apidog ile API uç noktalarını test etmeyi öğrendiniz.

Projeleriniz için yerel LLM'lerin gücünü açığa çıkarmak için bugün Qwen3'ü keşfetmeye başlayın!

button

Explore more

Cursor ile Deepseek R1'i Yerel Olarak Nasıl Kullanılır

Cursor ile Deepseek R1'i Yerel Olarak Nasıl Kullanılır

Yerel DeepSeek R1'i Cursor IDE ile kurun ve yapılandırın. Özel, uygun maliyetli AI kodlama yardımı için.

4 June 2025

Android'de Gemma 3n Nasıl Çalıştırılır?

Android'de Gemma 3n Nasıl Çalıştırılır?

Google AI Edge Gallery'den Gemma 3n'i Android'e kurup çalıştırmayı öğrenin.

3 June 2025

GitHub Eylemleri ile Claude Kodunu Nasıl Kullanılır

GitHub Eylemleri ile Claude Kodunu Nasıl Kullanılır

Claude Code'u GitHub Actions ile entegre edin: Kod incelemeleri, hata düzeltmeleri ve özellik uygulamaları. Kurulum, iş akışları ve geliştiriciler için ipuçları.

29 May 2025

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin