Büyük Dil Modelleri (BDM'ler) dünyası adeta patlama yaşadı ve genellikle metin üreten devasa, bulut tabanlı süper bilgisayar görüntüleri akla geliyor. Peki ya sürekli internet bağlantısı veya yüksek bulut abonelikleri olmadan, önemli bir yapay zeka gücünü doğrudan kişisel bilgisayarınızda kullanabilseydiniz? Heyecan verici gerçek şu ki, bunu yapabilirsiniz. Optimizasyon tekniklerindeki ilerlemeler sayesinde, tüketici sınıfı donanımın bellek kısıtlamalarına rahatça sığarken (özellikle 8 GB'den az RAM veya VRAM gerektiren) dikkate değer yetenekler sunan yeni nesil "küçük yerel BDM'ler" ortaya çıktı.
Geliştirici Ekibinizin maksimum üretkenlikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?
Apidog tüm taleplerinizi karşılar ve Postman'ı çok daha uygun bir fiyata değiştirir!
Önce BDM Kuantizasyonlarından Bahsedelim
Küçük yerel BDM'leri etkin bir şekilde kullanmak için temel teknik kavramların anlaşılması şarttır. Donanım bileşenleri ve model optimizasyon teknikleri arasındaki etkileşim, performansı ve erişilebilirliği belirler.
Yeni kullanıcılar için yaygın bir kafa karışıklığı noktası, VRAM (Video RAM) ve sistem RAM'i arasındaki farktır. VRAM, grafik kartınızda (GPU) doğrudan bulunan özel, yüksek hızlı bir bellektir. GPU'ların üstün olduğu hızlı, paralel işleme görevleri için özel olarak tasarlanmıştır; örneğin grafik işleme veya BDM çıkarımının merkezindeki devasa matris çarpımları gibi. Buna karşılık, normal sistem RAM'i daha yavaştır ancak genellikle daha boldur ve bilgisayarın merkezi işlem birimi (CPU) ve genel uygulamalar için ana bellek görevi görür. Verimli BDM çalışması için, modelin parametreleri (ağırlıklar) ve ara hesaplamalar (aktivasyonlar) ideal olarak tamamen hızlı VRAM içinde bulunur, böylece GPU bunlara anında erişebilir ve bilgiyi hızlı bir şekilde işleyebilir. Eğer bir modelin bileşenleri daha yavaş sistem RAM'inde bulunmaya zorlanırsa, çıkarım süreci önemli ölçüde engellenir ve bu da çok daha yavaş yanıt sürelerine yol açar.
Büyük dil modellerinin tüketici sınıfı donanımda çalışmasını mümkün kılan temel teknoloji kuantizasyondur.

Bu işlem, model ağırlıklarını standart 16 bit veya 32 bit kayan nokta hassasiyeti yerine 4 bit veya 8 bit tamsayılar gibi daha az bitle temsil ederek BDM'lerin bellek ayak izini büyük ölçüde azaltır. Bu teknik, FP16'da (tam hassasiyet) tipik olarak yaklaşık 14 GB gerektiren 7 milyar parametreli bir modelin, 4 bit kuantizasyon kullanılarak sadece 4-5 GB'ta çalışmasına olanak tanır. Bellek ve hesaplama yükündeki bu azalma, yüksek donanım maliyeti ve enerji tüketimi engellerini doğrudan ortadan kaldırarak, gelişmiş yapay zeka yeteneklerini standart tüketici cihazlarında erişilebilir hale getirir.
GGUF formatı, nicelenmiş yerel modelleri depolamak ve yüklemek için standart haline gelmiştir ve çeşitli çıkarım motorları arasında geniş uyumluluk sunar. GGUF ekosistemi içinde, her biri dosya boyutu, kalite ve çıkarım hızı arasında belirgin bir denge sunan farklı kuantizasyon türleri bulunur. Birçok genel kullanım durumu için, kalite ve bellek verimliliği arasında dengeli bir uzlaşma sağladığı için Q4_K_M sıklıkla önerilir. Kuantizasyon son derece etkili olsa da, Q2_K veya IQ3_XS gibi çok düşük bit hızlarına itmek, model kalitesinde gözle görülür bir bozulmaya yol açabilir.
Ayrıca, bir BDM'yi çalıştırmak için gereken gerçek VRAM veya RAM miktarının, modelin nicelenmiş dosya boyutundan biraz daha yüksek olduğunu belirtmek önemlidir. Bunun nedeni, girdi verilerini (istekler ve bağlam) ve ara hesaplama sonuçlarını (aktivasyonlar) depolamak için ek belleğe ihtiyaç duyulmasıdır. Tipik olarak, bu ek yük, modelin temel boyutunun yaklaşık 1,2 katı olarak tahmin edilebilir.
Yerel BDM'ler ve Ollama ile Başlarken
Yerel BDM'leri çalıştırmak için ekosistem önemli ölçüde olgunlaştı ve farklı kullanıcı tercihlerine ve teknik yeterliliklere uygun çeşitli araçlar sunuyor. Kullanım kolaylığı ve sağlam yetenekleriyle öne çıkan iki önemli platform bulunmaktadır.

Ollama, BDM'leri yerel olarak basitlik ve verimlilikle çalıştırmak için tasarlanmış güçlü ve geliştirici odaklı bir araçtır. Birincil arayüzü, kolay kurulum ve model yönetimi sağlayan bir komut satırı arayüzüdür (CLI). Ollama, yerleşik model paketleme ve kullanıcıların modelleri özelleştirmesine ve bunları betiklere ve çeşitli uygulamalara sorunsuz bir şekilde entegre etmesine olanak tanıyan "Modelfile" özelliği ile öne çıkar. Platform hafiftir ve performans açısından optimize edilmiştir, bu da onu geliştirme ortamlarında veya otomatik iş akışlarında hızlı, tekrarlanabilir dağıtımlar için ideal kılar.

Grafik arayüzü (GUI) tercih eden kullanıcılar için LM Studio genellikle tercih edilen seçenektir. Temiz bir tasarıma, yerleşik bir sohbet arayüzüne ve GGUF formatlı modelleri doğrudan Hugging Face'ten taramak ve indirmek için kullanıcı dostu bir sisteme sahip sezgisel bir masaüstü uygulaması sunar. LM Studio, kullanıcıların farklı BDM'ler arasında kolayca geçiş yapmasına ve parametreleri doğrudan kullanıcı arayüzünden ayarlamasına olanak tanıyarak model yönetimini basitleştirir. Bu anlık görsel geri bildirim, özellikle yeni başlayanlar ve teknik olmayan kullanıcılar için faydalıdır ve herhangi bir komut satırı bilgisi gerektirmeden hızlı deneyler ve istek testleri yapmayı kolaylaştırır.
LM Studio dahil olmak üzere birçok kullanıcı dostu araç, temel çıkarım motoru olarak genellikle Llama.cpp'yi kullanır. Llama.cpp, C++ ile yazılmış yüksek performanslı bir çıkarım motorudur ve öncelikle GGUF formatını kullanır ve hem CPU'larda hem de GPU'larda hızlandırmayı destekler.
Aşağıdaki seçim, 8 GB'den az VRAM'e sahip sistemlerde yerel olarak çalıştırılabilen, performans, çok yönlülük ve verimlilik dengesi sunan on yüksek yetenekli küçük BDM'yi vurgulamaktadır. Sağlanan bellek ayak izleri, tüketici donanımı için optimize edilmiş nicelenmiş GGUF sürümlerine odaklanmaktadır.
Keşfedebileceğiniz Küçük BDM'ler
Llama 3.1 8B (Nicelenmiş)
ollama run llama3.1:8b
Meta'nın Llama 3.1 8B'si, güçlü genel performansı ve etkileyici maliyet verimliliği ile tanınan, büyük beğeni toplayan açık kaynaklı bir modeldir. Öncekilerine kıyasla eğitim verilerinde yedi kat artış (15 trilyon token'dan fazla) dahil olmak üzere eğitim verilerinde ve optimizasyon tekniklerinde önemli iyileştirmelerden yararlanan Llama 3.1 ailesinin bir parçasıdır.

Tam 8B model tipik olarak daha fazla VRAM gerektirse de, daha düşük nicelenmiş sürümleri 8 GB VRAM/RAM sınırına sığacak şekilde tasarlanmıştır. Örneğin, Q2_K kuantizasyonunun dosya boyutu 3,18 GB'dir ve yaklaşık 7,20 GB bellek gerektirir. Benzer şekilde, Q3_K_M (4,02 GB dosya, 7,98 GB gerekli bellek), sınırlı belleğe sahip sistemler için uygun bir seçenektir.
Llama 3.1 8B, AlpacaEval 2.0 Kazanma Oranı ile ölçüldüğü gibi, sohbet yapay zekası performansında üstündür. Kod oluşturma (HumanEval Pass@1), metin özetleme (ürün incelemelerini ve e-postaları işlemek için CNN/DailyMail Rouge-L-Sum) ve Geri Getirme Artırılmış Üretim (RAG) görevlerinde (doğru soru yanıtlama ve doğal dil arama özetleme için MS Marco Rouge-L-Sum) güçlü yetenekler sergiler. Ayrıca, metinden yapılandırılmış çıktı oluşturmak (örneğin, kavramları bir JSON yüküne çıkarmak) ve kısa kod parçacıklarına genel bakış sağlamak için etkilidir. Verimliliği, toplu işleme ve ajan tabanlı iş akışları için uygun hale getirir.
Mistral 7B (Nicelenmiş)
ollama run mistral:7b
Mistral 7B, verimliliği, hızı ve kompakt VRAM ayak izi ile geniş çapta övülen tam yoğun bir transformatör modelidir. Performansını artırmak için Gruplandırılmış Sorgu Dikkat (GQA) ve Kayar Pencere Dikkat (SWA) gibi gelişmiş mimari teknikleri içerir.

Bu model, düşük VRAM ortamları için son derece optimize edilmiştir. Q4_K_M (4,37 GB dosya, 6,87 GB gerekli bellek) ve Q5_K_M (5,13 GB dosya, 7,63 GB gerekli bellek) gibi nicelenmiş sürümler, 8 GB VRAM bütçesine rahatça sığar. Mistral 7B, düşük gecikmenin kritik olduğu hızlı, bağımsız yapay zeka çıkarımı ve gerçek zamanlı uygulamalar için mükemmel bir seçimdir. Genel bilgi ve yapılandırılmış akıl yürütme görevlerinde güçlü performans sergiler. Kompakt VRAM ayak izi, onu uç cihaz dağıtımı için uygun hale getirir. Çok turlu sohbet için etkilidir ve genel sorular için yapay zeka sohbet botu çözümlerinde kullanılabilir. Apache 2.0 lisansı, ticari kullanım durumları için özellikle elverişlidir.
Gemma 3:4b (Nicelenmiş)
ollama run gemma3:4b
Gemma 3:4B parametre modeli, Google DeepMind'ın Gemma ailesinin bir üyesidir ve hafif bir pakette verimlilik ve son teknoloji performans için özel olarak tasarlanmıştır. Bellek ayak izi son derece küçüktür, bu da onu çok çeşitli donanımlar için son derece erişilebilir kılar.

Örneğin, Q4_K_M kuantizasyonunun dosya boyutu 1,71 GB'dir ve 4 GB VRAM'e sahip sistemler için önerilir. Bu minimal bellek kullanımı, mobil cihazlar dahil olmak üzere çok düşük seviyeli donanımlarda hızlı prototipleme ve dağıtım için ideal bir aday olmasını sağlar. Gemma 3:4B, temel metin oluşturma, soru yanıtlama ve özetleme görevleri için çok uygundur. Hızlı bilgi alma ve Optik Karakter Tanıma (OCR) uygulamaları için etkili olabilir. Küçük boyutuna rağmen, Gemma 3:4B güçlü performans sergiler.
Gemma 7B (Nicelenmiş)
ollama run gemma:7b
Gemma ailesinin daha büyük kardeşi olarak, 7B modeli tüketici sınıfı donanımda çalışabilir kalırken gelişmiş yetenekler sunar. Google'ın daha kapsamlı Gemini modelleriyle teknik ve altyapı bileşenlerini paylaşarak, geliştirici dizüstü bilgisayarlarında veya masaüstü bilgisayarlarda doğrudan yüksek performans elde etmesine olanak tanır.

Q5_K_M (6,14 GB dosya) ve Q6_K (7,01 GB dosya) gibi Gemma 7B'nin nicelenmiş sürümleri, 8 GB VRAM sınırına rahatça sığar. Optimal performans için genellikle en az 8 GB sistem RAM'i gerektirir. Gemma 7B, metin oluşturma, soru yanıtlama, özetleme ve akıl yürütme dahil olmak üzere çok çeşitli doğal dil işleme görevlerini yerine getirebilen çok yönlü bir modeldir. Kod oluşturma ve yorumlama yeteneklerinin yanı sıra matematiksel sorguları yanıtlama yeteneği de sergiler. Daha büyük Gemini modelleriyle paylaşılan mimarisi, geliştirici dizüstü bilgisayarlarında veya masaüstü bilgisayarlarda yüksek performans sağlar, bu da onu içerik oluşturma, sohbet yapay zekası ve bilgi keşfi için değerli bir araç haline getirir.
Phi-3 Mini (3.8B, Nicelenmiş)
ollama run phi3
Microsoft'un Phi-3 Mini'si, olağanüstü verimliliği ve yüksek kaliteli, akıl yürütme yoğun özelliklere güçlü odaklanmasıyla öne çıkan hafif, son teknoloji bir modeldir. Bu model, yalnızca daha büyük BDM'lerin karmaşık görevleri etkili bir şekilde yerine getirebileceği geleneksel düşünceye meydan okuyor. Phi-3 Mini dikkat çekici derecede bellek verimlidir. Örneğin, Q8_0 kuantizasyonunun dosya boyutu 4,06 GB'dir ve yaklaşık 7,48 GB bellek gerektirir, bu da onu 8 GB sınırının içine yerleştirir.

FP16 (tam hassasiyet) sürümünün bile dosya boyutu 7,64 GB'dir, ancak 10,82 GB bellek gerektirir. Phi-3 Mini, dil anlama, mantıksal akıl yürütme, kodlama ve matematiksel problem çözmede üstündür. Kompakt boyutu ve tasarımı, bellek/hesaplama kısıtlı ortamlar ve gecikme süresi sınırlı senaryolar (mobil cihazlara dağıtım dahil) için uygun hale getirir. Sohbet formatında sunulan istemler için özellikle uygundur ve üretken yapay zeka destekli özellikler için bir yapı taşı olarak hizmet verebilir.
DeepSeek R1 7B/8B (Nicelenmiş)
ollama run deepseek-r1:7b
DeepSeek modelleri, 7B ve 8B varyantları dahil olmak üzere, sağlam akıl yürütme yetenekleri ve hesaplama verimliliği ile tanınır. DeepSeek-R1-0528-Qwen3-8B varyantı, yüksek performans elde etmek için daha büyük bir modelden damıtılmış olması nedeniyle 8B boyutundaki muhtemelen en iyi akıl yürütme modeli olarak vurgulanmıştır. DeepSeek R1 7B Q4_K_M kuantizasyonunun dosya boyutu 4,22 GB'dir ve yaklaşık 6,72 GB bellek gerektirir.

DeepSeek R1 8B modelinin genel model boyutu 4,9 GB'dir ve önerilen VRAM'i 6 GB'dir. Bu yapılandırmalar 8 GB kısıtlamasına rahatça sığar. DeepSeek modelleri, doğal dil anlama, metin oluşturma, soru yanıtlama ve özellikle akıl yürütme ve kod oluşturmada güçlüdür. Göreceli olarak düşük hesaplama ayak izi, onları küçük ve orta ölçekli işletmeler (KOBİ'ler) ve büyük bulut maliyetlerine katlanmadan yapay zeka çözümleri dağıtmak isteyen geliştiriciler için çekici bir seçenek haline getirir; akıllı müşteri destek sistemleri, gelişmiş veri analizi ve otomatik içerik oluşturma için uygundur.
Qwen 1.5/2.5 7B (Nicelenmiş)
ollama run qwen:7b
Alibaba'dan Qwen serisi, 7B varyantlarının genel amaçlı yapay zeka uygulamaları için dengeli bir güç merkezi olarak hizmet verdiği çeşitli modeller sunar. Qwen2'nin beta sürümü olarak kabul edilen Qwen 1.5, çok dilli desteğe ve 32K token'lık kararlı bir bağlam uzunluğuna sahiptir.

Bellek ayak izi açısından, Qwen 1.5 7B Q5_K_M kuantizasyonunun dosya boyutu 5,53 GB'dir. Qwen2.5 7B'nin genel model boyutu 4,7 GB'dir ve önerilen VRAM'i 6 GB'dir. Bu modeller 8 GB VRAM sınırının oldukça içindedir. Qwen 7B modelleri çok yönlüdür, sohbet yapay zekası, içerik oluşturma, temel akıl yürütme görevleri ve dil çevirisi için uygundur. Özellikle, Qwen 7B Chat modeli, Çince ve İngilizce anlama, kodlama ve matematikte güçlü performans sergiler ve araç kullanımı için ReAct Prompting'i destekler. Verimliliği, müşteri destek sohbet botları ve temel programlama yardımı için uygun hale getirir.
Deepseek-coder-v2 6.7B (Nicelenmiş)
ollama run deepseek-coder-v2:6.7b
Deepseek-coder-v2 6.7B, DeepSeek'ten, kodlamaya özel görevler için titizlikle tasarlanmış özel bir modeldir. Bu ince ayarlı varyant, kod oluşturma ve anlama yeteneklerini önemli ölçüde artırmayı amaçlamaktadır. 3,8 GB model boyutu ve 6 GB önerilen VRAM ile 8 GB kısıtlamasına rahatça sığar, bu da onu sınırlı donanıma sahip geliştiriciler için son derece erişilebilir kılar. Birincil kullanım durumları arasında kod tamamlama, kod parçacıkları oluşturma ve mevcut kodu yorumlama yer alır. Sınırlı VRAM ile çalışan geliştiriciler ve programcılar için Deepseek-coder-v2 6.7B, yüksek düzeyde uzmanlaşmış yetenekler sunarak, onu yerel kodlama yardımı için en iyi seçenek haline getirir.
BitNet b1.58 2B4T
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
Microsoft'un BitNet b1.58 2B4T'si, rekabetçi performansı korurken bellek ve enerji tüketiminde büyük düşüşlere yol açan 1.58 bit ağırlık formatı kullanan devrim niteliğinde bir açık kaynak modelidir. Yalnızca 0,4 GB gömülü olmayan bellek gerektiren eşsiz bellek verimliliği, onu akıllı telefonlar, dizüstü bilgisayarlar ve IoT cihazları gibi uç yapay zeka cihazları dahil olmak üzere aşırı kaynak kısıtlı ortamlar ve verimli yalnızca CPU çıkarımı için ideal kılar.

Özel GPU desteği olmayan cihazlara yüksek performanslı BDM yetenekleri getirerek, sürekli bulut bağlantısı olmadan cihaz içi çeviri, içerik önerisi ve daha yetenekli mobil sesli asistanlar sağlar. Çok daha büyük modellere kıyasla biraz daha az doğruluk sergileyebilse de, boyutuna göre performansı dikkat çekicidir. Eşsiz bellek verimliliği ve CPU'larda etkili bir şekilde çalışma yeteneği, onu yapay zeka alanında erişilebilirlik ve sürdürülebilirlik açısından oyunun kurallarını değiştiren bir konuma getirir.
Orca-Mini 7B (Nicelenmiş)
ollama run orca-mini:7b
Orca-Mini 7B, Orca Stili veri kümeleri üzerinde eğitilmiş, Llama ve Llama 2 mimarileri üzerine inşa edilmiş genel amaçlı bir modeldir. Çeşitli boyutlarda mevcuttur ve 7B varyantı giriş seviyesi donanım için uygun bir seçenek olduğunu kanıtlamıştır. orca-mini:7b modelinin dosya boyutu 3,8 GB'dir. Q4_K_M (4,08 GB dosya, 6,58 GB gerekli bellek) ve Q5_K_M (4,78 GB dosya, 7,28 GB gerekli bellek) gibi nicelenmiş sürümler 8 GB kısıtlamasına sığar. Optimal çalışma için genellikle en az 8 GB sistem RAM'i gerektirir. Orca-Mini 7B, genel metin oluşturma, soru yanıtlama ve sohbet görevleri için çok uygundur. Güçlü talimat takip yeteneği sergiler ve yapay zeka ajanları oluşturmak için etkili bir şekilde kullanılabilir. Orca araştırmasına dayanan ince ayarlı Mistral-7B-OpenOrca varyantı, metin ve kod oluşturma, soruları yanıtlama ve sohbet etmede olağanüstü performans gösterir.
Sonuç
Bu raporda vurgulanan modeller - Llama 3 8B, Mistral 7B, Gemma 2B ve 7B, Phi-3 Mini, DeepSeek R1 7B/8B, Qwen 1.5/2.5 7B, Deepseek-coder-v2 6.7B, BitNet b1.58 2B4T ve Orca-Mini 7B dahil - bu erişilebilirliğin öncüleridir. Her biri, genel konuşma ve yaratıcı yazmadan özel kodlama yardımı ve karmaşık akıl yürütmeye kadar çeşitli görevler için uygun hale getiren benzersiz bir yetenek, bellek verimliliği ve ideal kullanım durumları karışımı sunar.
Bu modellerin sınırlı VRAM'e sahip sistemlerdeki etkinliği, büyük ölçüde, ciddi kalite bozulması olmadan bellek ayak izlerini büyük ölçüde azaltan gelişmiş kuantizasyon tekniklerine atfedilebilir. Model verimliliğindeki sürekli ilerlemeler ve uç yapay zeka dağıtımına artan odaklanma, sofistike yapay zeka yeteneklerinin günlük cihazlara sorunsuz bir şekilde entegre edildiği bir geleceğe işaret ediyor. Kullanıcıların önerilen modellerle deneme yapmaları teşvik edilir, çünkü "en iyi" seçim nihayetinde özneldir ve bireysel donanım yapılandırmalarına ve belirli uygulama gereksinimlerine bağlıdır. Canlı açık kaynak topluluğu, bu gelişen ortama katkıda bulunmaya devam ederek, yerel BDM'ler için dinamik ve yenilikçi bir gelecek sağlıyor.
Geliştirici Ekibinizin maksimum üretkenlikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?
Apidog tüm taleplerinizi karşılar ve Postman'ı çok daha uygun bir fiyata değiştirir!