Dia-1.6B'yi Yerel Olarak Nasıl Çalıştırılır (En İyi ElevenLabs Açık Kaynak Alternatifi)

Metinden konuşmaya (TTS) teknolojisinin manzarası, geçmişin robotik seslerinin çok ötesine geçerek, baş döndürücü bir hızla ilerliyor. Modern yapay zeka destekli TTS sistemleri, içerik oluşturucular, geliştiriciler ve işletmeler için yeni olanaklar yaratarak, dikkate değer ölçüde gerçekçi ve etkileyici insan konuşması üretebilir. Eleven Labs gibi sofistike bulut tabanlı hizmetler, yüksek kaliteli çıktı ve ses klonlama konusunda öncülük ederken, genellikle abonelik ücretleri, veri gizliliği endişeleri ve sınırlı kullanıcı kontrolü ile birlikte gelir.

Açık kaynaklı TTS modellerinin önemli bir etki yarattığı yer burasıdır. Şeffaflık, esneklik ve topluluk odaklı yenilik sunarak, cazip alternatifler sunarlar. Bu alandaki öne çıkan yeni bir oyuncu, Nari Labs tarafından geliştirilen Dia-1.6B'dir. 1,6 milyar parametreye sahip bu model, sadece standart TTS'de değil, aynı zamanda sözlü olmayan ipuçları ve kontrol edilebilir ses özellikleri ile tamamlanmış, gerçekçi diyalog oluşturmak için özel olarak tasarlanmıştır.

Bu makale, Dia-1.6B'ye kapsamlı bir rehber sunmaktadır. Eşsiz yeteneklerini keşfedecek, neden yerleşik platformlara karşı güçlü bir açık kaynak rakibi olarak durduğunu detaylandıracak, yerel donanımınızda çalıştırma adımlarını inceleyecek, teknik gereksinimlerini ele alacak ve kullanımıyla ilgili temel etik hususları tartışacağız. Doğrudan kontrolünüz altında güçlü, uyarlanabilir ve şeffaf bir TTS çözümü arıyorsanız, Dia-1.6B ciddi bir değerlendirmeyi hak ediyor.

💡

Harika bir API Dokümantasyonu oluşturan harika bir API Test aracı mı istiyorsunuz?

Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?

Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!

button

Dia-1.6B Nedir? Giriş

Dia-1.6B, Nari Labs tarafından oluşturulan ve Hugging Face platformu aracılığıyla kullanıma sunulan, metinden konuşmaya sentezi için tasarlanmış büyük bir dil modelidir. Birincil farkı, izole cümlelerden ziyade konuşma diyalogları oluşturmak için optimizasyonunda yatmaktadır.

Dia is absolutely stunning 🤯

1.6B parameter TTS model to create realistic dialogue from text. Control emotion/tone via audio conditioning + generates nonverbals like laughter & coughs. Licensed Apache 2.0 🔥

⬇️ Sharing the online demo below pic.twitter.com/b7jglAcwbG
— Victor M (@victormustar) April 22, 2025

Temel özellikleri şunlardır:

Model Boyutu: 1,6 milyar parametreye sahip olan Dia, tonlama, ritim ve duygusal ton dahil olmak üzere karmaşık konuşma nüanslarını yakalama kapasitesine sahiptir.
Diyalog Oluşturma: Birden fazla konuşmacı içeren senaryoları işlemek için oluşturulmuştur. [S1] ve [S2] gibi basit etiketler farklı konuşmacıları belirtir ve doğal sesli karşılıklı konuşmaların oluşturulmasını sağlar.
Sözlü Olmayan İletişim: Gerçekçiliği artırmak için Dia, giriş metnine dahil edildiğinde kahkaha ((laughs)), öksürük ((coughs)) veya boğaz temizleme ((clears throat)) gibi yaygın sözlü olmayan sesleri doğrudan üretebilir.
Ses Koşullandırması: Kullanıcılar, bir giriş ses örneği sağlayarak çıktı sesini etkileyebilirler. Bu özellik, üretilen konuşmanın duygusunu ve tonunu kontrol etmeye olanak tanır ve ses klonlama yeteneklerinin temelini oluşturur.
Açık Ağırlıklar ve Kod: Dia-1.6B, izin verici Apache 2.0 lisansı altında açık model ağırlıkları ve çıkarım kodu ile yayınlanmıştır. Bu, herkesin modeli özgürce indirmesine, incelemesine, değiştirmesine ve kullanmasına, işbirliğini ve şeffaflığı teşvik etmesine olanak tanır. Model ağırlıkları Hugging Face'te barındırılmaktadır.
Dil Desteği: Şu anda, Dia-1.6B yalnızca İngilizce oluşturmayı desteklemektedir.

Nari Labs ayrıca, Dia-1.6B'yi ElevenLabs Studio ve Sesame CSM-1B ile karşılaştıran bir demo sayfası sunmaktadır ve Hugging Face'in desteği sayesinde, kullanıcıların modeli yerel kurulum yapmadan denemeleri için bir ZeroGPU Space mevcuttur.

Dia-1.6B'nin Temel Özellikleri

Dia, kendisini çeşitli temel özelliklerle farklılaştırır:

Gerçekçi Diyalog Sentezi: Mimarisi, basit metin etiketleriyle belirtilen birden fazla konuşmacı arasında doğal sesli konuşmalar oluşturmak için özel olarak ayarlanmıştır.
Entegre Sözlü Olmayan Sesler: Kahkaha veya öksürük gibi sesleri doğrudan metin ipuçlarından üretme yeteneği, standart TTS'de sıklıkla eksik olan önemli bir özgünlük katmanı ekler.
Ses Klonlama ve Koşullandırma: Bir referans ses örneği ve transkriptini (doğru şekilde biçimlendirilmiş) sağlayarak, kullanıcılar modelin çıktısını örnek sesin özelliklerini taklit etmeye veya duygusal tonunu kontrol etmeye yönlendirebilirler. Bir örnek komut dosyası (example/voice_clone.py) depoda mevcuttur. Hugging Face Space ayrıca klonlama için ses yüklemeye de izin verir.
Açık Kaynak Erişilebilirliği: Apache 2.0 lisansı altında açık ağırlıklarla yayınlanan Dia, kullanıcıları, satıcı kısıtlamalarından bağımsız olarak, araştırma, geliştirme veya kişisel projeler için modele tam erişim yetkisi verir.

Dia-1.6B vs. Elevenlabs vs Sesame 1B: Hızlı Bir Karşılaştırma

pic.twitter.com/kaFdal8a9n Lets go, an Open Source TTS-Model that beats Elevenlabs and Sesame 1b at only 1.6b.

Dia 1.6b is absolutely amazing. This gets hardly better. https://t.co/mCAWSOaa8q
— Chubby♨️ (@kimmonismus) April 22, 2025

Eleven Labs gibi platformlar cilalı arayüzler ve yüksek kaliteli sonuçlar sunarken, Dia-1.6B, açık kaynaklı, yerel öncelikli yaklaşımına özgü farklı avantajlar sağlar:

Maliyet: Bulut hizmetleri tipik olarak önemli hale gelebilen abonelik ücretleri veya kullanıma dayalı fiyatlandırma içerir. Dia-1.6B'yi indirmek ve kullanmak ücretsizdir; tek maliyet donanım yatırımı ve elektrik tüketimidir.
Kontrol ve Gizlilik: Bulut TTS kullanmak, metin verilerinizi harici sunuculara göndermek anlamına gelir. Dia'yı yerel olarak çalıştırmak, verilerinizin tamamen makinenizde kalmasını sağlar ve hassas bilgiler için hayati önem taşıyan maksimum gizlilik ve kontrol sunar.
Şeffaflık ve Özelleştirme: Açık ağırlıklar, benzersiz uygulamalar için belirli veri kümeleri veya sesler üzerinde ince ayar yapılmasına izin verir ve daha da önemlisi, inceleme olanağı sağlar. Bu özelleştirme düzeyi genellikle kapalı, tescilli sistemlerle imkansızdır.
Çevrimdışı Yetenek: Bulut platformları bir internet bağlantısı gerektirir. Dia, bir kez yüklendikten sonra tamamen çevrimdışı çalışabilir ve bu da onu sınırlı bağlantıya veya artırılmış güvenlik ihtiyaçlarına sahip ortamlar için uygun hale getirir.
Topluluk ve Yenilik: Açık kaynak projeleri, hata düzeltmeleri, özellik geliştirmeleri ve yeni uygulamalar dahil olmak üzere topluluk katkılarından yararlanır ve potansiyel olarak tek bir satıcının kapasitesinin ötesinde ilerlemeyi hızlandırır. Nari Labs, Discord sunucuları aracılığıyla topluluk katılımını teşvik eder.
Satıcı Bağımlılığından Kurtulma: Tek bir tescilli hizmete güvenmek bağımlılık yaratır. Sağlayıcı fiyatlandırmayı, özellikleri veya şartları değiştirirse, kullanıcıların sınırlı seçenekleri vardır. Açık kaynak, uyum sağlama ve geçiş özgürlüğü sunar.

Dia-1.6B'yi seçmek, kolaylık ve donanım gereksinimleri pahasına daha fazla kontrol, gizlilik ve uygun maliyetliliği seçmek anlamına gelir.

Başlarken: Dia-1.6B'yi Yerel Olarak Çalıştırma

Nari Labs'in talimatlarına göre, Dia-1.6B'yi kendi bilgisayarınızda nasıl kurup çalıştıracağınız aşağıdadır.

Donanım Gereksinimleri

GPU Bağımlılığı: Şu anda, Dia-1.6B bir CUDA özellikli NVIDIA GPU gerektirir. CPU desteği planlanmaktadır ancak henüz uygulanmamıştır.
VRAM: Tam model yaklaşık 10 GB GPU belleğine ihtiyaç duyar. Bu, tipik olarak orta seviye ila üst düzey tüketici GPU'ları (RTX 3070/4070 veya daha iyisi gibi) veya kurumsal kartlar (A4000 gibi) gerektirir. Gelecekteki nicelleştirilmiş sürümler bunu önemli ölçüde azaltmayı hedefliyor.
Çıkarım Hızı: Performans GPU'ya bağlıdır. Kurumsal GPU'larda, oluşturma gerçek zamanlıdan daha hızlı olabilir. Bir NVIDIA A4000'de, Nari Labs kabaca 40 token/saniye ölçtü (~86 token, 1 saniye ses oluşturur). Daha eski GPU'lar daha yavaş olacaktır.

Uygun donanımı olmayan kullanıcılar için Nari Labs, Hugging Face ZeroGPU Space'i denemeyi veya modellerinin potansiyel olarak daha büyük, barındırılan sürümlerine erişim için bekleme listesine katılmayı önerir.

Önkoşullar

GPU: CUDA özellikli bir NVIDIA GPU gereklidir. Model, PyTorch 2.0+ ve CUDA 12.6 ile test edilmiştir. GPU sürücülerinizin güncel olduğundan emin olun.
VRAM: Tam 1,6B parametre modeli için yaklaşık 10 GB GPU belleği gerekir. (Gelecek için planlanan nicelleştirilmiş sürümler bunu düşürecektir).
Python: Çalışan bir Python kurulumu (örneğin, Python 3.8+).
Git: Yazılım deposunu klonlamak için gereklidir.
uv (Önerilen): Nari Labs, hızlı bir Python paket yöneticisi olan uv kullanır. Yoksa yükleyin (pip install uv). İsteğe bağlı olsa da, kullanmak kurulumu basitleştirir.

Kurulum ve Hızlı Başlangıç (Gradio UI)

Depoyu Klonlayın:
Terminalinizi/komut isteminizi açın, istediğiniz kurulum dizinine gidin ve şunu çalıştırın:

git clone https://github.com/nari-labs/dia.git

Dizine Gidin:

cd dia

Uygulamayı Çalıştırın (uv kullanarak):
Bu, önerilen yöntemdir. Sanal ortam oluşturmayı ve bağımlılık kurulumunu otomatik olarak yönetir.

uv run app.py

Bu komutu ilk kez çalıştırdığınızda, PyTorch, Hugging Face kitaplıkları, Gradio, Dia model ağırlıkları (~1,6B parametre) ve Descript Audio Codec'in bileşenleri dahil olmak üzere bağımlılıkları indirecektir. Bu ilk kurulum biraz zaman alabilir. Sonraki başlatmalar çok daha hızlı olacaktır.

Uygulamayı Çalıştırın (Manuel Alternatif):
uv kullanmıyorsanız, tipik olarak şunları yaparsınız:

# Sanal bir ortam oluşturun
python -m venv .venv
# Etkinleştirin (sözdizimi işletim sistemine göre değişir)
# Linux/macOS: source .venv/bin/activate
# Windows: .venv\Scripts\activate
# Bağımlılıkları yükleyin (belirtimler için pyproject.toml dosyasını kontrol edin)
pip install -r requirements.txt # Veya eşdeğeri
# Uygulamayı çalıştırın
python app.py

(Not: Manuel olarak yüklerken, gerekli paketlerin tam listesi için klonlanmış depodaki pyproject.toml dosyasını kontrol edin.)

Gradio Arayüzüne Erişin:
Sunucu başladığında, terminaliniz genellikle http://127.0.0.1:7860 gibi bir yerel URL görüntüleyecektir. Bu URL'yi web tarayıcınızda açın.

Gradio UI'yi Kullanma:
Web arayüzü kolay etkileşim sağlar:

Metin Girişi: Komut dosyanızı yazın veya yapıştırın. Konuşmacılar için [S1], [S2] vb. ve sözlü olmayan sesler için (laughs), (coughs) kullanın.
Ses İstemi (İsteğe Bağlı): Ses stilini yönlendirmek veya klonlama yapmak için bir referans ses dosyası yükleyin. İstemin transkriptini, gerekli biçimi izleyerek (örneklere bakın) metin girişinde ana komut dosyanızdan önce yerleştirmeyi unutmayın.
Oluştur: Sentezi başlatmak için düğmeyi tıklayın. İşleme süresi, GPU'nuzun ve komut dosyanızın uzunluğuna bağlıdır.
Çıktı: Oluşturulan ses, oynatma kontrolleri ve bir indirme seçeneği ile görünecektir.

Ses Tutarlılığına İlişkin Not: Temel Dia-1.6B modeli, belirli bir ses üzerinde ince ayarlanmamıştır. Sonuç olarak, aynı metinden birden çok kez ses üretmek, farklı sesli sesler verebilir. Tutarlı konuşmacı çıktısı elde etmek için şunları yapabilirsiniz:

Bir Ses İstemi Kullanın: Bir referans ses klibi sağlayın (yukarıda açıklandığı gibi).
Tohumu Düzeltin: Belirli bir rastgele tohum değeri ayarlayın (Gradio UI veya kitaplık işlevi bu parametreyi ortaya çıkarıyorsa).

Özel uygulamalara entegrasyon için, işte bir Python komut dosyası örneği ve Dia'nın kullanımı:

import soundfile as sf
# 'dia' paketinin doğru yüklendiğinden veya Python yolunuzda bulunduğundan emin olun
from dia.model import Dia

# Önceden eğitilmiş modeli Hugging Face'ten yükleyin (gerekirse indirir)
model = Dia.from_pretrained("nari-labs/Dia-1.6B")

# Diyalog etiketleri ve sözlü olmayanlarla giriş metnini hazırlayın
text = "[S1] Dia, açık ağırlıklı bir metinden diyaloğa modelidir. [S2] Komut dosyaları ve sesler üzerinde tam kontrole sahipsiniz. [S1] Vay canına. İnanılmaz. (kahkahalar) [S2] Şimdi Git hub veya Hugging Face'te deneyin."

# Ses dalga biçimini oluşturun (GPU gerektirir)
# Çıktı tipik olarak bir NumPy dizisidir
output_waveform = model.generate(text)

# Örnekleme hızını tanımlayın (Dia genellikle 44100 Hz kullanır)
sample_rate = 44100

# Oluşturulan sesi bir dosyaya kaydedin
output_filename = "dialogue_output.wav" # Veya .mp3, vb.
sf.write(output_filename, output_waveform, sample_rate)

print(f"Ses başarıyla {output_filename} konumuna kaydedildi")

Bir PyPI paketi ve bir komut satırı arayüzü (CLI) aracı, gelecekteki sürüm için planlanmaktadır.

💡

button

Sonuç: Sizin Sesiniz, Sizin Kontrolünüz

Nari Labs'ten Dia-1.6B, açık kaynaklı metinden konuşmaya alanında önemli bir kilometre taşıdır. Diyalog oluşturmaya, sözlü olmayan seslerin dahil edilmesine ve Apache 2.0 lisansı altında açık ağırlıklara bağlılığına odaklanması, tipik bulut hizmetlerinin sağladığından daha fazla kontrol, gizlilik ve özelleştirme arayan kullanıcılar için güçlü bir alternatif haline getiriyor. Yetenekli donanım ve bir miktar teknik kurulum gerektirse de, faydaları - devam eden kullanım ücretleri yok, tam veri egemenliği, çevrimdışı çalışma ve derin uyarlama potansiyeli - caziptir. Dia, nicelleştirme ve CPU desteği gibi planlanan optimizasyonlarla gelişmeye devam ettikçe, erişilebilirliği ve faydası artacak ve açık kaynağın ses sentezinin geleceğindeki rolünü daha da sağlamlaştıracaktır. Modelleri yerel olarak çalıştırmaya istekli ve donanımlı olanlar için Dia-1.6B, ses oluşturma yeteneklerinize gerçekten sahip olmanın bir yolunu sunar.