DolphinGemma: Yunuslar İçin LLM

Google, Gemma ailesinin bir parçası olan DolphinGemma'yı tanıttı. Açık kaynaklı, alıntı odaklı.

Efe Demir

Efe Demir

5 June 2025

DolphinGemma: Yunuslar İçin LLM

Büyük Dil Modellerinin (BDM'ler) çoğalması doğal dil işlemede devrim yarattı, ancak gerçek dışı veya "halüsinasyonlu" içerik üretme eğilimleri güvenilir dağıtım için kritik bir engel olmaya devam ediyor. Standart BDM'ler genellikle engin, ancak şeffaf olmayan, parametrik bilgilerini kullanıcı tarafından sağlanan bağlamla harmanlayarak doğrulanması zor çıktılara yol açar. Bunu ele alan Google, DolphinGemma'yı, açık modellerin Gemma ailesi içinde, açık alıntı ile temellendirilmiş nesil için titizlikle tasarlanmış özel bir yineleme olarak tanıttı. Bu makale, DolphinGemma'nın olası mimarisi, eğitim yöntemleri, değerlendirme ölçütleri ve güvenilir yapay zeka ortamındaki konumunun teknik bir incelemesini sunmaktadır.

💡
Harika bir API Dokümantasyonu oluşturan harika bir API Test aracı mı istiyorsunuz?

Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?

Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!
button

Temel Mimari: Gemma Mirası

DolphinGemma, Google'ın Gemma modellerinin yerleşik mimarisi üzerine kurulmuştur. Gemma'nın kendisi, GPT gibi modeller tarafından popüler hale getirilen yalnızca kod çözücü Transformer mimarisinden yararlanır.

DolphinGemma tarafından miras alınan temel özellikler şunları içerebilir:

  1. Transformer Blokları: Giriş dizisindeki farklı belirteçlerin önemini tartmayı sağlayan çok başlı öz-dikkat katmanları ve ileri beslemeli ağlardan oluşur. Gemma, daha hızlı çıkarım ve daha az bellek ayak izi için çok sorgulu dikkat kullanır, özellikle daha büyük modeller için faydalıdır.
  2. Parametre Boyutları: DolphinGemma varyantlarının, öncelikle 2B (özellikle ~2,5 milyar parametre) ve 7B/8B (özellikle ~8,5 milyar parametre) etkili parametreler olmak üzere, yayınlanan Gemma boyutlarıyla uyumlu olması bekleniyor. Bu boyutlar, tüketici sınıfı GPU'larda (NVIDIA RTX serisi gibi) ve CPU'larda dağıtılabilir veya bulut ortamlarında (örneğin, Google Cloud Vertex AI, Kaggle) verimli bir şekilde barındırılabilirken önemli yetenekler sunan kasıtlı bir değiş tokuşu temsil eder.
  3. Kelime Dağarcığı ve Belirteçleştirme: Gemma için kullanılan aynı 256k kelime dağarcığı boyutunu kullanan, büyük bir korpus üzerinde eğitilmiş bir SentencePiece belirteçleştirici kullanır. Bu, çeşitli metin ve kodların verimli bir şekilde kodlanmasını sağlar.
  4. Etkinleştirme İşlevleri: Geliştirilmiş eğitim dinamikleri ve performansı için GeGLU (GELU aktivasyonlu Kapılı Doğrusal Birimler) gibi modern aktivasyon işlevleri kullanır.
  5. Normalleştirme: Performanstan ödün vermeden hesaplama verimliliği için standart Katman Normalleştirme yerine RMSNorm (Kök Ortalama Kare Katman Normalleştirme) kullanır.
  6. Döner Konumsal Gömme (RoPE): Konumsal bilgileri doğrudan dikkat mekanizması içinde uygular, mutlak veya öğrenilmiş konumsal gömmelere kıyasla dizi uzunluğunun daha iyi işlenmesini ve potansiyel olarak geliştirilmiş ekstrapolasyon yetenekleri sunar.

Bu temel, DolphinGemma'nın özel temellendirme yeteneklerinin üzerine inşa edildiği yetenekli ve nispeten verimli bir temel model sağlar.

Teknik Zorluk: Parametrik Hakimiyetin Üstesinden Gelmek

Standart BDM'ler, Alım-Destekli Üretim (RAG) aracılığıyla bağlam sağlansa bile, genellikle "bilgi sızıntısı" sergiler. Dahili parametreleri, ön eğitim sırasında öğrenilen çok miktarda dünya bilgisini kodlar. Üretim sırasında, modelin bir sonraki belirteç için tahmini, hem sağlanan bağlamdan (alınan belgeler) hem de bu dahili parametrik bilgiden etkilenir. Bu şunlara yol açabilir:

DolphinGemma'nın temel teknik hedefi, üretim sürecini sağlanan bağlama güçlü bir şekilde yönlendirmek ve kaynak atıflarını (alıntılar) açıkça üretmektir.

DolphinGemma'nın Çözümü: Özel İnce Ayar

DolphinGemma, temellendirilmiş davranışını mimari revizyonla (çekirdek Transformer bloklarında varsa, muhtemelen minimum değişiklikler) değil, hedefli denetimli ince ayar (SFT) ve potansiyel olarak temellendirme ve alıntıya özel olarak odaklanmış takviyeli öğrenme aşamalarıyla elde eder.

  1. İnce Ayar Hedefi: Birincil eğitim hedefi, genel talimat takibinden veya sohbet yeteneklerinden (Gemma-IT varyantları gibi) şuna kayar: Bir sorgu Q ve bir dizi kaynak belge {D1, D2, ..., Dn} verildiğinde, yalnızca {Di} içinde bulunan bilgilerle tutarlı ve A'daki açıklıkları belirli Di'ye bağlayan alıntılar içeren bir cevap A oluşturun.
  2. İnce Ayar Veri Korpusu: Bu, tipik talimat ayarlama veri kümelerinden farklı, özel bir veri kümesi gerektirir. Bu korpus muhtemelen şu biçimde örnekler içerir:
  1. Eğitim Yöntemleri:

Değerlendirme Ölçütleri ve Performans

DolphinGemma'yı değerlendirmek, öncelikle akıcılığı ve n-gram örtüşmesini ölçen standart dil üretimi puanlarının (BLEU veya ROUGE gibi) ötesinde ölçütler gerektirir. Temel değerlendirme boyutları şunları içerir:

  1. Temellendirme/Doğruluk:
  1. Alıntı Kalitesi:
  1. Akıcılık ve Alaka Düzeyi: Çıktının okunabilir ve sorguyla alakalı olduğundan emin olmak için ROUGE gibi standart ölçütler hala kullanılabilir, ancak temellendirmeye ikincildir.
  2. Kıyaslamalar: Değerlendirme, cevapların yalnızca sağlanan parçacıklardan türetilmesi gereken ve potansiyel olarak temellendirme ve alıntıyı düşmanca koşullar altında (örneğin, kaynaklarda çelişkili bilgiler) test etmek için özel olarak tasarlanmış özel olarak oluşturulmuş kıyaslamalar ve Soru Cevap veri kümelerinin (Doğal Sorular, Web Soruları, TriviaQA) değiştirilmiş versiyonları üzerinde gerçekleşecektir.

Teknik Hususlar ve Değişimler

Açıklık ve Kullanılabilirlik

Gemma ailesinin temel bir yönü, açık doğasıdır. Google genellikle şunları yayınlar:

Bu, araştırmacıların ve geliştiricilerin DolphinGemma'yı doğrudan dağıtmasına, değiştirmesine ve üzerine inşa etmesine olanak tanır. Kullanılabilirlik, Kaggle, Hugging Face ve Vertex AI Model Garden gibi platformlar aracılığıyla olabilir.

Sonuç: Dil Modellerinde Güven Mühendisliği

DolphinGemma, BDM'lere doğrulanabilir temellendirme ve alıntı yetenekleri kazandırmak için önemli bir mühendislik çabasını temsil eder. Verimli Gemma mimarisinden yararlanarak ve bağlama bağlılık ve kaynak atıfına odaklanan özel, büyük ölçekli ince ayar uygulayarak, genel RAG istemlerinin ötesine geçer. Alma kalitesine bağımlı olmak ve kaynak çatışmalarını ele almada zorluklarla karşılaşmakla birlikte, DolphinGemma, halüsinasyonları azaltmak ve daha güvenilir yapay zeka sistemleri oluşturmak için teknik olarak sağlam bir yaklaşım sunar. Açık bir model olarak kullanılabilirliği, doğruluk ve doğrulanabilirliğin pazarlık konusu olmadığı sistemler için çok önemli bir bileşen sağlayarak, güvenilir, gerçeğe dayalı yapay zeka uygulamalarında araştırma ve geliştirmeyi hızlandırma vaat ediyor.

Explore more

Fathom-R1-14B: Hindistan'dan Gelişmiş Yapay Zeka Muhakeme Modeli

Fathom-R1-14B: Hindistan'dan Gelişmiş Yapay Zeka Muhakeme Modeli

Yapay zeka hızla gelişiyor. FractalAIResearch/Fathom-R1-14B, 14.8 milyar parametreyle matematik ve genel akıl yürütmede başarılı.

5 June 2025

Mistral Code: İşletmeler için En Özelleştirilebilir Yapay Zeka Destekli Kodlama Asistanı

Mistral Code: İşletmeler için En Özelleştirilebilir Yapay Zeka Destekli Kodlama Asistanı

Mistral Code'u keşfedin: Kurumsal kullanıma özel, en özelleştirilebilir yapay zeka destekli kodlama asistanı.

5 June 2025

Claude Code'un 2025'te Yapay Zeka Kodlamasını Nasıl Dönüştürdüğü

Claude Code'un 2025'te Yapay Zeka Kodlamasını Nasıl Dönüştürdüğü

Claude Code, 2025'te yapay zeka destekli kodlamayı nasıl devrimleştiriyor? Özelliklerini, kullanımını ve Windsurf kısıtlamalarından sonra neden popüler olduğunu öğrenin. Geliştiriciler için okunması gereken!

5 June 2025

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin