Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?

Ashley Innocent

Ashley Innocent

2 April 2026

Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Kısaca

VibeVoice, Microsoft'un üç modeli bulunan açık kaynak sesli yapay zeka ailesidir: Metinden konuşmaya (90 dakikaya kadar, 4 konuşmacı için) VibeVoice-1.5B, gerçek zamanlı TTS akışı için VibeVoice-Realtime-0.5B ve konuşma tanıma için VibeVoice-ASR (60 dakikalık ses, 50'den fazla dil, %7.77 WER). Tüm modeller MIT lisanslıdır ve yerel olarak çalışır. Bu kılavuz kurulumu, kullanımı ve API entegrasyonunu kapsar.

Giriş

Microsoft, 2026'nın başlarında VibeVoice'u açık kaynak bir sesli yapay zeka çerçevesi olarak yayımladı. Hem konuşma sentezi (metinden konuşmaya) hem de konuşma tanıma (otomatik konuşma tanıma) modellerini içerir; bunların tümü, bulut bağımlılığı olmadan donanımınızda yerel olarak çalışır.

Metinden konuşmaya ve konuşma tanımaya yönelik VibeVoice modelleri.

Çerçevenin üç modeli bulunmaktadır:

VibeVoice metinden konuşmaya akışı.

TTS modelleri, yayınlandıktan sonra tartışmalara yol açtı. Microsoft, ses klonlamanın kötüye kullanıldığını tespit ettiğinde ana GitHub deposunu geçici olarak devre dışı bıraktı. Topluluk kodu fork'ladı ve Microsoft daha sonra, oluşturulan sese yerleştirilmiş duyulabilir bir yapay zeka sorumluluk reddi beyanı ve köken doğrulaması için algılanamayan filigranlama gibi ek güvenlik önlemleriyle depoyu yeniden etkinleştirdi.

VibeVoice-ASR artık bulut dağıtımı için Azure AI Foundry'de mevcuttur. TTS modelleri, MIT lisansıyla araştırma odaklı kalmaya devam ediyor.

Bu kılavuz, kurulumu, metinden konuşmaya üretimini, konuşma tanımayı, API entegrasyonunu ve Apidog ile sesli yapay zeka uç noktalarını nasıl test edeceğinizi anlatmaktadır.

button

VibeVoice nasıl çalışır: mimariye genel bakış

Tokenlaştırıcı atılımı

VibeVoice'un temel ilerlemesi, ultra düşük kare hızı olan 7.5 Hz'de çalışan sürekli konuşma tokenlaştırıcılarıdır. Karşılaştırma için, çoğu konuşma modeli sesi 50-100 Hz'de işler. Kare hızındaki bu 7-13 kat azalma, modelin uzun dizileri (90 dakikalık ses) bağlamdan düşmeden işleyebilmesi anlamına gelir.

VibeVoice model mimarisi.
VibeVoice tokenlaştırıcı mimarisi.

Sistem iki tokenlaştırıcı kullanır:

Sonraki-token difüzyonu

Model, bir LLM omurgasını (Qwen2.5-1.5B) hafif bir difüzyon başlığı (~123M parametre) ile birleştirir. LLM, metinsel bağlamı ve diyalog akışını yönetir. Difüzyon başlığı, DDPM (Denoising Diffusion Probabilistic Models) kullanarak Yüksek Doğrulukta akustik detaylar üretir (Classifier-Free Guidance ile).

Toplam parametre sayısı: 3B (tokenlaştırıcılar ve difüzyon başlığı dahil).

Eğitim yaklaşımı

VibeVoice, müfredat öğrenimi kullanır, giderek daha uzun diziler üzerinde eğitim yapar: 4K, 16K, 32K, ardından 64K token. Önceden eğitilmiş tokenlaştırıcılar bu fazda donmuş kalır; sadece LLM ve difüzyon başlığı parametreleri güncellenir. Bu, modelin kısa form yeteneklerini unutmadan giderek daha uzun sesleri işlemeyi öğrenmesini sağlar.

VibeVoice model özellikleri

Model Parametreler Amaç Maks. uzunluk Diller Lisans
VibeVoice-1.5B 3B (toplam) Metinden konuşmaya 90 dakika İngilizce, Çince MIT
VibeVoice-Realtime-0.5B ~0.5B Gerçek zamanlı TTS Uzun biçimli İngilizce, Çince MIT
VibeVoice-ASR ~9B Konuşma tanıma 60 dakika 50+ dil MIT

VibeVoice-1.5B (Metinden Konuşmaya)

Özellik Değer
LLM tabanı Qwen2.5-1.5B
Bağlam uzunluğu 64K token
Maks. konuşmacı 4 eşzamanlı
Ses çıkışı 24kHz WAV mono
Tensör tipi BF16
Biçim Safetensors
HuggingFace indirmeleri 62,630/ay
Topluluk fork'ları 12 ince ayarlı varyant

VibeVoice-ASR

Özellik Değer
Mimari taban Qwen2.5
Parametreler ~9B
Ses işleme Tek geçişte 60 dakikaya kadar
Kare hızı 7.5 Hz
Ortalama WER %7.77 (8 İngilizce veri kümesi genelinde)
LibriSpeech Clean WER %2.20
TED-LIUM WER %2.57
Diller 50+
Çıktı Yapılandırılmış (Kim + Ne Zaman + Ne)
Desteklenen ses 16kHz+ WAV, FLAC, MP3

Kurulum ve yapılandırma

Önkoşullar

VibeVoice TTS'i yükleyin

# Depoyu klonlayın
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Bağımlılıkları yükleyin
pip install -r requirements.txt

Modeller ilk çalıştırmada HuggingFace'den otomatik olarak indirilir. Bunları önceden de indirebilirsiniz:

from huggingface_hub import snapshot_download

# 1.5B TTS modelini indirin
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip aracılığıyla yükleyin (topluluk paketi)

pip install vibevoice

ASR için yükleyin

VibeVoice-ASR ayrı bir kurulum kullanır:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Veya yönetilen bulut çıkarımı için Azure AI Foundry üzerinden dağıtın.

VibeVoice-1.5B ile konuşma üretimi

Tek konuşmacılı üretim

Senaryonuzla bir metin dosyası oluşturun:

Alice: Apidog geliştirici podcast'ine hoş geldiniz. Bugün 2026 için API test stratejilerini ele alıyoruz.

Çıkarım çalıştırın:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Çıktı, outputs/ dizinine bir .wav dosyası olarak kaydedilir.

Çok konuşmacılı podcast üretimi

VibeVoice, tüm kayıt boyunca tutarlı ses kimlikleriyle 4 konuşmacıya kadar işleyebilir:

Alice: Programa tekrar hoş geldiniz. Bugün bize iki API uzmanı katılıyor.
Bob: Beni davet ettiğiniz için teşekkürler. Son beş yıldır REST API tasarım desenleri üzerinde çalışıyorum.
Carol: Ben de GraphQL performans optimizasyonuna odaklanıyorum. Burada olmaktan mutluluk duyuyorum.
Alice: Herkesin duymak istediği tartışmayla başlayalım. Mikro hizmetler için REST'e karşı GraphQL.
Bob: REST size net kaynak sınırları verir. Her uç nokta belirli bir kaynağa eşleşir.
Carol: GraphQL size esneklik verir. Tek bir uç nokta ve istemci hangi verilere ihtiyacı olduğuna karar verir.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Model, 90 dakikalık uzunluklarda bile, tüm konuşma boyunca her konuşmacı için farklı ses özelliklerini korur.

Ses klonlama (sıfır-atım)

Bir referans ses örneğinden bir sesi klonlayın:

Ses gereksinimleri:

Mevcut sesi doğru biçime dönüştürün:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Ses klonlama için Gradio demo arayüzünü kullanın:

python demo/gradio_demo.py

Bu, referans sesinizi yükleyip, klonlanmış sesi seçip ve konuşma üretebileceğiniz http://127.0.0.1:7860 adresinde bir web arayüzü başlatır.

VibeVoice-Realtime-0.5B ile akış

Düşük gecikmeli ses çıkışı (~300ms ilk parça) gerektiren uygulamalar için:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Gerçek zamanlı model daha küçük ve daha hızlıdır ancak tam 1.5B modeline göre daha düşük kaliteli ses üretir. Etkileşimli uygulamalar için onu kullanın; önceden oluşturulmuş içerik için 1.5B'yi kullanın.

VibeVoice'u Python ile kullanma

Pipeline API'si

from transformers import pipeline
from huggingface_hub import snapshot_download

# Model indir
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline yükle
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Çok konuşmacılı senaryo hazırla
script = [
    {"role": "Alice", "content": "API sürümlemeyi nasıl ele alıyorsunuz?"},
    {"role": "Bob", "content": "URL yolu sürümlemesini kullanıyoruz. v1, v2 vb."},
]

# Sohbet şablonu uygula
input_data = pipe.processor.apply_chat_template(script)

# Ses oluştur
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Üretim için FastAPI sarıcısı

Topluluk, VibeVoice'u OpenAI uyumlu bir TTS API'si olarak sunan bir FastAPI sarıcısı geliştirdi:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Bu size OpenAI'nin TTS formatıyla uyumlu bir API uç noktası sağlar:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "API dokümantasyonunuz bir monolog değil, bir sohbet olmalı.",
    "voice": "alice"
  }' \
  --output speech.wav

Bu OpenAI uyumlu uç nokta, Apidog ile VibeVoice API entegrasyonunuzu OpenAI'nin TTS API'si için kullanacağınız istek formatıyla test edebileceğiniz anlamına gelir. Uç noktayı içe aktarın, istek gövdenizi yapılandırın ve uygulama kodu yazmadan ses üretimini test edin.

Konuşma tanıma için VibeVoice-ASR kullanma

Temel transkripsiyon

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Yapılandırılmış çıktı formatı

VibeVoice-ASR, her segment için üç alan içeren yapılandırılmış transkripsiyonlar üretir:

Örnek çıktı:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Yeni sürüm için API uç noktalarını inceleyelim."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Faturalandırma modülü için üç yeni uç nokta ekledim."
    }
  ]
}

MCP sunucusu olarak ASR

VibeVoice-ASR, Claude Code, Cursor ve diğer yapay zeka kodlama araçlarına doğrudan takılabilen bir MCP (Model Bağlam Protokolü) sunucusu olarak çalışabilir:

# MCP sunucusunu yükle
pip install vibevoice-mcp-server

# Çalıştır
vibevoice-mcp serve

Bu, kodlama aracınızın toplantıları, sesli notları veya ses kayıtlarını iş akışının bir parçası olarak yazıya dökmesini sağlar. Gereksinimleri siz dikte edersiniz, MCP sunucusu onları yazıya döker ve kodlama aracısı metni işler.

VibeVoice-ASR'ı Whisper'a karşı ne zaman kullanmalı

Kullanım durumu En iyi seçim Neden
Uzun toplantılar (30-60 dk) VibeVoice-ASR Tek geçişte 60 dakikalık işleme, konuşmacı kimliği
Birden fazla konuşmacıyla röportajlar VibeVoice-ASR Dahili diarizasyon
Zaman damgası gerektiren podcast'ler VibeVoice-ASR Yapılandırılmış Kim/Ne Zaman/Ne çıktısı
Çok dilli içerik (50+ dil) VibeVoice-ASR Daha geniş dil desteği
Gürültülü ortamlarda kısa klipler Whisper Daha iyi gürültü sağlamlığı
Uç/mobil dağıtım Whisper Daha küçük model boyutu, daha geniş cihaz desteği
İngilizce dışı diller (uzmanlaşmış) Whisper Daha olgun çok dilli ince ayar

Apidog ile sesli yapay zeka API'lerini test etme

İster VibeVoice FastAPI sarıcısını, ister Azure AI Foundry uç noktasını kullanıyor olun, ister kendi sesli yapay zeka API'nizi oluşturuyor olun, Apidog bu entegrasyonları test etmenize ve hatalarını ayıklamanıza yardımcı olur.

Apidog arayüzü, JSON gövdeli ve yanıt detaylı bir API test isteğini gösteriyor.

TTS uç noktasını test edin

  1. Apidog'da VibeVoice FastAPI sunucunuza işaret eden yeni bir POST isteği oluşturun
  2. İstek gövdesini OpenAI uyumlu format olarak ayarlayın:
{
  "model": "vibevoice-1.5b",
  "input": "Uygun tonlama ve tempoyla konuşma sentezini test edin.",
  "voice": "alice",
  "response_format": "wav"
}
  1. İsteği gönderin ve yanıt başlıklarının audio/wav içerik tipini içerdiğini doğrulayın
  2. Ses kalitesini doğrulamak için yanıtı bir WAV dosyası olarak kaydedin

ASR uç noktasını test edin

Konuşmadan metne API'leri için:

  1. multipart/form-data ile bir POST isteği oluşturun
  2. Ses dosyanızı bir form alanı olarak ekleyin
  3. Yapılandırılmış JSON yanıtının konuşmacı kimliklerini, zaman damgalarını ve yazıya dökülmüş metni içerdiğini doğrulayın

Ses API sözleşmelerini doğrulayın

Sesli yapay zeka API'leri, JSON meta verileriyle birlikte ikili verileri (ses dosyaları) işler. Apidog'un istek oluşturucusu her ikisini de yönetir:

Üretime dağıtmadan önce sesli yapay zeka entegrasyonlarınızı test etmek için Apidog'u indirin.

button

Güvenlik ve sorumlu kullanım

Microsoft, ilk kötüye kullanım olaylarından sonra birkaç güvenlik önlemi ekledi:

İzin verilenler

İzin verilmeyenler

Bilmeniz gereken sınırlamalar

TTS için dil desteği dardır. VibeVoice-1.5B İngilizce ve Çince'yi destekler. Diğer diller anlaşılmaz çıktı üretir. VibeVoice-ASR, 50'den fazla dilde daha geniş kapsama sahiptir.

Dil sınırlamalarının illüstrasyonu.

ASR için donanım gereksinimleri yüksektir. ASR modeli 24 GB+ VRAM (A100/H100 sınıfı GPU'lar) gerektirir. TTS modelleri, 7-8 GB VRAM'e sahip tüketici GPU'larında çalışır.

Çakışan konuşma işleme yok. TTS modeli, konuşmacıların birbirlerinin üzerine konuştuğu durumu modellemez. Tüm diyaloglar sıra tabanlıdır.

Miras alınan model önyargıları. Her iki model de Qwen2.5 tabanlarından önyargıları miras alır. Çıktılar beklenmedik, önyargılı veya yanlış içerik içerebilir.

Araştırma düzeyinde yazılım. Bu üretime hazır değildir. Kenar durumlarda, hata yönetiminde ve İngilizce dışı çıktılarda pürüzler bekleyin.

VibeVoice-ASR'ı Azure AI Foundry'ye dağıtma

GPU altyapısını yönetmek istemeyen ekipler için Microsoft, VibeVoice-ASR'ı Azure AI Foundry aracılığıyla erişilebilir kıldı. Bu size donanım sağlamadan yönetilen bir API uç noktası sağlar.

Azure dağıtımı ölçeklendirmeyi, model güncellemelerini ve altyapı bakımını yönetir. Ses dosyalarını kabul eden ve yerel modelle aynı Kim/Ne Zaman/Ne formatında yapılandırılmış transkripsiyonlar döndüren bir HTTPS uç noktası alırsınız.

Bu, kendi kendine barındırılan GPU çıkarımının sağlayamayacağı tutarlı çalışma süresi ve SLA garantileri gerektiren üretim iş yükleri için özellikle kullanışlıdır. Mevcut fiyatlandırma ve dağıtım seçenekleri için Azure AI Foundry'nin model kataloğunu kontrol edin.

Uygulamanıza entegre etmeden önce Azure'da barındırılan VibeVoice uç noktanızı test etmek için, Apidog'da uç nokta URL'sini ve kimlik doğrulama başlıklarını ayarlayın ve örnek ses dosyalarına karşı test transkripsiyonları çalıştırın.

Topluluk ve ekosistem

VibeVoice'ın aktif bir topluluğu vardır:

Dikkate değer topluluk projeleri:

Sıkça Sorulan Sorular

VibeVoice'u kullanmak ücretsiz midir?

Evet. Her üç model de (TTS 1.5B, Gerçek zamanlı 0.5B, ASR) MIT lisanslıdır. Bunları ticari ve ticari olmayan amaçlarla kullanabilirsiniz. Azure AI Foundry barındırma, yönetilen bulut çıkarımı için ayrı fiyatlandırmaya sahiptir.

VibeVoice, Apple Silicon Mac'lerde çalışabilir mi?

Topluluk, M serisi Mac çıkarımı için betikler sağlamıştır. VibeVoice-1.5B modeli için HuggingFace tartışmalarını kontrol edin. Performans, CUDA GPU'larından daha yavaştır ancak işlevseldir.

VibeVoice, ElevenLabs ile nasıl karşılaştırılır?

VibeVoice, API maliyeti olmadan ve makinenizden veri çıkışı olmadan yerel olarak çalışır. ElevenLabs, daha yüksek kalite, daha fazla ses ve daha kolay kurulum sunar, ancak ücretli abonelik ve bulut işleme gerektirir. Gizliliğe duyarlı uygulamalar veya çevrimdışı kullanım için VibeVoice kazanır. Üretim kalitesi ve kullanım kolaylığı açısından ElevenLabs öndedir.

GitHub deposu neden geçici olarak devre dışı bırakıldı?

Microsoft, insanların ses klonlamayı kimlik taklidi ve deepfake'ler için kullandığını tespit etti. Depoyu devre dışı bıraktılar, güvenlik özellikleri (duyulabilir sorumluluk reddi, filigranlama) eklediler ve yeniden etkinleştirdiler. Topluluk fork'u, kesinti sırasında geliştirmeyi sürdürdü.

VibeVoice'u özel sesler üzerinde ince ayarlayabilir miyim?

Evet. Topluluk, HuggingFace'de 12 ince ayarlı varyant üretmiştir. Eğitim için ses örnekleri (24kHz mono'da 30-60 saniye net WAV ses) ve GPU kaynaklarına ihtiyacınız var.

VibeVoice hangi ses formatlarını çıkarır?

24.000 Hz mono WAV. Oluşturulduktan sonra ffmpeg ile MP3, OGG, FLAC veya diğer formatlara dönüştürebilirsiniz.

VibeVoice-ASR'ı Whisper yerine kullanabilir miyim?

Konuşmacı tanımlaması olan uzun form sesler için evet. VibeVoice-ASR, dahili diarizasyon ile 60 dakikalık kayıtları tek bir geçişte işler. Whisper, konuşmacı tanımlaması için harici araçlara ihtiyaç duyar ve 30 dakikadan uzun kayıtlarla parçalamadan zorlanır. Kısa, gürültülü klipler veya uç dağıtım için Whisper daha iyi bir seçenektir.

VibeVoice gerçek zamanlı sesli sohbeti destekler mi?

VibeVoice-Realtime-0.5B, ~300ms ilk parça gecikmesiyle metin akışı girişini destekler. Yakın gerçek zamanlı uygulamalar için kullanılabilir ancak tam çift yönlü sesli sohbet için tasarlanmamıştır. Bunun için Azure OpenAI'nin GPT-Realtime'ına veya benzer barındırılan çözümlere bakın.

button

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin