Microsoft VibeVoice Nedir? Açık Kaynak Sesli Yapay Zeka Modelleri Nasıl Kullanılır?

Kısaca

VibeVoice, Microsoft'un üç modeli bulunan açık kaynak sesli yapay zeka ailesidir: Metinden konuşmaya (90 dakikaya kadar, 4 konuşmacı için) VibeVoice-1.5B, gerçek zamanlı TTS akışı için VibeVoice-Realtime-0.5B ve konuşma tanıma için VibeVoice-ASR (60 dakikalık ses, 50'den fazla dil, %7.77 WER). Tüm modeller MIT lisanslıdır ve yerel olarak çalışır. Bu kılavuz kurulumu, kullanımı ve API entegrasyonunu kapsar.

Giriş

Microsoft, 2026'nın başlarında VibeVoice'u açık kaynak bir sesli yapay zeka çerçevesi olarak yayımladı. Hem konuşma sentezi (metinden konuşmaya) hem de konuşma tanıma (otomatik konuşma tanıma) modellerini içerir; bunların tümü, bulut bağımlılığı olmadan donanımınızda yerel olarak çalışır.

Metinden konuşmaya ve konuşma tanımaya yönelik VibeVoice modelleri.

Çerçevenin üç modeli bulunmaktadır:

VibeVoice-1.5B, metin senaryolarından etkileyici, çok konuşmacılı sohbet sesi oluşturur. Tek bir geçişte 4 farklı konuşmacıyla 90 dakikaya kadar konuşma sentezleyebilir.
VibeVoice-Realtime-0.5B, ~300ms ilk parça gecikmesiyle ses üreten hafif bir akış varyantıdır.
VibeVoice-ASR, 50'den fazla dilde, konuşmacı tanımlaması, zaman damgaları ve yapılandırılmış çıktı ile 60 dakikaya kadar kesintisiz sesi yazıya döker.

TTS modelleri, yayınlandıktan sonra tartışmalara yol açtı. Microsoft, ses klonlamanın kötüye kullanıldığını tespit ettiğinde ana GitHub deposunu geçici olarak devre dışı bıraktı. Topluluk kodu fork'ladı ve Microsoft daha sonra, oluşturulan sese yerleştirilmiş duyulabilir bir yapay zeka sorumluluk reddi beyanı ve köken doğrulaması için algılanamayan filigranlama gibi ek güvenlik önlemleriyle depoyu yeniden etkinleştirdi.

VibeVoice-ASR artık bulut dağıtımı için Azure AI Foundry'de mevcuttur. TTS modelleri, MIT lisansıyla araştırma odaklı kalmaya devam ediyor.

Bu kılavuz, kurulumu, metinden konuşmaya üretimini, konuşma tanımayı, API entegrasyonunu ve Apidog ile sesli yapay zeka uç noktalarını nasıl test edeceğinizi anlatmaktadır.

button

VibeVoice nasıl çalışır: mimariye genel bakış

Tokenlaştırıcı atılımı

VibeVoice'un temel ilerlemesi, ultra düşük kare hızı olan 7.5 Hz'de çalışan sürekli konuşma tokenlaştırıcılarıdır. Karşılaştırma için, çoğu konuşma modeli sesi 50-100 Hz'de işler. Kare hızındaki bu 7-13 kat azalma, modelin uzun dizileri (90 dakikalık ses) bağlamdan düşmeden işleyebilmesi anlamına gelir.

Sistem iki tokenlaştırıcı kullanır:

Akustik Tokenlaştırıcı: Aynalı simetrik bir kodlayıcı-kod çözücüde ~340M parametreye sahip bir sigma-VAE varyantı. 24kHz giriş sesinden 3.200 kat aşağı örnekler.
Semantik Tokenlaştırıcı: Akustik tokenlaştırıcının mimarisini yansıtır ancak dilsel anlamı yakalamak için bir ASR proxy görevi ile eğitilmiştir.

Sonraki-token difüzyonu

Model, bir LLM omurgasını (Qwen2.5-1.5B) hafif bir difüzyon başlığı (~123M parametre) ile birleştirir. LLM, metinsel bağlamı ve diyalog akışını yönetir. Difüzyon başlığı, DDPM (Denoising Diffusion Probabilistic Models) kullanarak Yüksek Doğrulukta akustik detaylar üretir (Classifier-Free Guidance ile).

Toplam parametre sayısı: 3B (tokenlaştırıcılar ve difüzyon başlığı dahil).

Eğitim yaklaşımı

VibeVoice, müfredat öğrenimi kullanır, giderek daha uzun diziler üzerinde eğitim yapar: 4K, 16K, 32K, ardından 64K token. Önceden eğitilmiş tokenlaştırıcılar bu fazda donmuş kalır; sadece LLM ve difüzyon başlığı parametreleri güncellenir. Bu, modelin kısa form yeteneklerini unutmadan giderek daha uzun sesleri işlemeyi öğrenmesini sağlar.

VibeVoice model özellikleri

Model	Parametreler	Amaç	Maks. uzunluk	Diller	Lisans
VibeVoice-1.5B	3B (toplam)	Metinden konuşmaya	90 dakika	İngilizce, Çince	MIT
VibeVoice-Realtime-0.5B	~0.5B	Gerçek zamanlı TTS	Uzun biçimli	İngilizce, Çince	MIT
VibeVoice-ASR	~9B	Konuşma tanıma	60 dakika	50+ dil	MIT

VibeVoice-1.5B (Metinden Konuşmaya)

Özellik	Değer
LLM tabanı	Qwen2.5-1.5B
Bağlam uzunluğu	64K token
Maks. konuşmacı	4 eşzamanlı
Ses çıkışı	24kHz WAV mono
Tensör tipi	BF16
Biçim	Safetensors
HuggingFace indirmeleri	62,630/ay
Topluluk fork'ları	12 ince ayarlı varyant

VibeVoice-ASR

Özellik	Değer
Mimari taban	Qwen2.5
Parametreler	~9B
Ses işleme	Tek geçişte 60 dakikaya kadar
Kare hızı	7.5 Hz
Ortalama WER	%7.77 (8 İngilizce veri kümesi genelinde)
LibriSpeech Clean WER	%2.20
TED-LIUM WER	%2.57
Diller	50+
Çıktı	Yapılandırılmış (Kim + Ne Zaman + Ne)
Desteklenen ses	16kHz+ WAV, FLAC, MP3

Kurulum ve yapılandırma

Önkoşullar

Python 3.8+
CUDA destekli NVIDIA GPU
TTS modelleri için minimum 7-8 GB VRAM
ASR modeli için minimum 24 GB VRAM (A100/H100 önerilir)
Minimum 32 GB RAM (ASR için 64 GB önerilir)
CUDA 11.8+ (CUDA 12.0+ önerilir)

VibeVoice TTS'i yükleyin

# Depoyu klonlayın
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Bağımlılıkları yükleyin
pip install -r requirements.txt

Modeller ilk çalıştırmada HuggingFace'den otomatik olarak indirilir. Bunları önceden de indirebilirsiniz:

from huggingface_hub import snapshot_download

# 1.5B TTS modelini indirin
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

pip aracılığıyla yükleyin (topluluk paketi)

pip install vibevoice

ASR için yükleyin

VibeVoice-ASR ayrı bir kurulum kullanır:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Veya yönetilen bulut çıkarımı için Azure AI Foundry üzerinden dağıtın.

VibeVoice-1.5B ile konuşma üretimi

Tek konuşmacılı üretim

Senaryonuzla bir metin dosyası oluşturun:

Alice: Apidog geliştirici podcast'ine hoş geldiniz. Bugün 2026 için API test stratejilerini ele alıyoruz.

Çıkarım çalıştırın:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Çıktı, outputs/ dizinine bir .wav dosyası olarak kaydedilir.

Çok konuşmacılı podcast üretimi

VibeVoice, tüm kayıt boyunca tutarlı ses kimlikleriyle 4 konuşmacıya kadar işleyebilir:

Alice: Programa tekrar hoş geldiniz. Bugün bize iki API uzmanı katılıyor.
Bob: Beni davet ettiğiniz için teşekkürler. Son beş yıldır REST API tasarım desenleri üzerinde çalışıyorum.
Carol: Ben de GraphQL performans optimizasyonuna odaklanıyorum. Burada olmaktan mutluluk duyuyorum.
Alice: Herkesin duymak istediği tartışmayla başlayalım. Mikro hizmetler için REST'e karşı GraphQL.
Bob: REST size net kaynak sınırları verir. Her uç nokta belirli bir kaynağa eşleşir.
Carol: GraphQL size esneklik verir. Tek bir uç nokta ve istemci hangi verilere ihtiyacı olduğuna karar verir.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Model, 90 dakikalık uzunluklarda bile, tüm konuşma boyunca her konuşmacı için farklı ses özelliklerini korur.

Ses klonlama (sıfır-atım)

Bir referans ses örneğinden bir sesi klonlayın:

Ses gereksinimleri:

Biçim: WAV (mono)
Örnekleme hızı: 24.000 Hz
Süre: 30-60 saniye net konuşma

Mevcut sesi doğru biçime dönüştürün:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Ses klonlama için Gradio demo arayüzünü kullanın:

python demo/gradio_demo.py

Bu, referans sesinizi yükleyip, klonlanmış sesi seçip ve konuşma üretebileceğiniz http://127.0.0.1:7860 adresinde bir web arayüzü başlatır.

VibeVoice-Realtime-0.5B ile akış

Düşük gecikmeli ses çıkışı (~300ms ilk parça) gerektiren uygulamalar için:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Gerçek zamanlı model daha küçük ve daha hızlıdır ancak tam 1.5B modeline göre daha düşük kaliteli ses üretir. Etkileşimli uygulamalar için onu kullanın; önceden oluşturulmuş içerik için 1.5B'yi kullanın.

VibeVoice'u Python ile kullanma

Pipeline API'si

from transformers import pipeline
from huggingface_hub import snapshot_download

# Model indir
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline yükle
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Çok konuşmacılı senaryo hazırla
script = [
    {"role": "Alice", "content": "API sürümlemeyi nasıl ele alıyorsunuz?"},
    {"role": "Bob", "content": "URL yolu sürümlemesini kullanıyoruz. v1, v2 vb."},
]

# Sohbet şablonu uygula
input_data = pipe.processor.apply_chat_template(script)

# Ses oluştur
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Üretim için FastAPI sarıcısı

Topluluk, VibeVoice'u OpenAI uyumlu bir TTS API'si olarak sunan bir FastAPI sarıcısı geliştirdi:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Bu size OpenAI'nin TTS formatıyla uyumlu bir API uç noktası sağlar:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "API dokümantasyonunuz bir monolog değil, bir sohbet olmalı.",
    "voice": "alice"
  }' \
  --output speech.wav

Bu OpenAI uyumlu uç nokta, Apidog ile VibeVoice API entegrasyonunuzu OpenAI'nin TTS API'si için kullanacağınız istek formatıyla test edebileceğiniz anlamına gelir. Uç noktayı içe aktarın, istek gövdenizi yapılandırın ve uygulama kodu yazmadan ses üretimini test edin.

Konuşma tanıma için VibeVoice-ASR kullanma

Temel transkripsiyon

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Yapılandırılmış çıktı formatı

VibeVoice-ASR, her segment için üç alan içeren yapılandırılmış transkripsiyonlar üretir:

Kim: Konuşmacı kimliği (Konuşmacı 1, Konuşmacı 2, vb.)
Ne Zaman: Başlangıç ve bitiş zaman damgaları
Ne: Yazıya dökülmüş metin içeriği

Örnek çıktı:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Yeni sürüm için API uç noktalarını inceleyelim."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Faturalandırma modülü için üç yeni uç nokta ekledim."
    }
  ]
}

MCP sunucusu olarak ASR

VibeVoice-ASR, Claude Code, Cursor ve diğer yapay zeka kodlama araçlarına doğrudan takılabilen bir MCP (Model Bağlam Protokolü) sunucusu olarak çalışabilir:

# MCP sunucusunu yükle
pip install vibevoice-mcp-server

# Çalıştır
vibevoice-mcp serve

Bu, kodlama aracınızın toplantıları, sesli notları veya ses kayıtlarını iş akışının bir parçası olarak yazıya dökmesini sağlar. Gereksinimleri siz dikte edersiniz, MCP sunucusu onları yazıya döker ve kodlama aracısı metni işler.

VibeVoice-ASR'ı Whisper'a karşı ne zaman kullanmalı

Kullanım durumu	En iyi seçim	Neden
Uzun toplantılar (30-60 dk)	VibeVoice-ASR	Tek geçişte 60 dakikalık işleme, konuşmacı kimliği
Birden fazla konuşmacıyla röportajlar	VibeVoice-ASR	Dahili diarizasyon
Zaman damgası gerektiren podcast'ler	VibeVoice-ASR	Yapılandırılmış Kim/Ne Zaman/Ne çıktısı
Çok dilli içerik (50+ dil)	VibeVoice-ASR	Daha geniş dil desteği
Gürültülü ortamlarda kısa klipler	Whisper	Daha iyi gürültü sağlamlığı
Uç/mobil dağıtım	Whisper	Daha küçük model boyutu, daha geniş cihaz desteği
İngilizce dışı diller (uzmanlaşmış)	Whisper	Daha olgun çok dilli ince ayar

Apidog ile sesli yapay zeka API'lerini test etme

İster VibeVoice FastAPI sarıcısını, ister Azure AI Foundry uç noktasını kullanıyor olun, ister kendi sesli yapay zeka API'nizi oluşturuyor olun, Apidog bu entegrasyonları test etmenize ve hatalarını ayıklamanıza yardımcı olur.

Apidog arayüzü, JSON gövdeli ve yanıt detaylı bir API test isteğini gösteriyor.

TTS uç noktasını test edin

Apidog'da VibeVoice FastAPI sunucunuza işaret eden yeni bir POST isteği oluşturun
İstek gövdesini OpenAI uyumlu format olarak ayarlayın:

{
  "model": "vibevoice-1.5b",
  "input": "Uygun tonlama ve tempoyla konuşma sentezini test edin.",
  "voice": "alice",
  "response_format": "wav"
}

İsteği gönderin ve yanıt başlıklarının audio/wav içerik tipini içerdiğini doğrulayın
Ses kalitesini doğrulamak için yanıtı bir WAV dosyası olarak kaydedin

ASR uç noktasını test edin

Konuşmadan metne API'leri için:

multipart/form-data ile bir POST isteği oluşturun
Ses dosyanızı bir form alanı olarak ekleyin
Yapılandırılmış JSON yanıtının konuşmacı kimliklerini, zaman damgalarını ve yazıya dökülmüş metni içerdiğini doğrulayın

Ses API sözleşmelerini doğrulayın

Sesli yapay zeka API'leri, JSON meta verileriyle birlikte ikili verileri (ses dosyaları) işler. Apidog'un istek oluşturucusu her ikisini de yönetir:

ASR uç noktaları için ikili dosya yüklemeleri
TTS uç noktaları için JSON gövde biçimlendirme
Yapılandırılmış transkripsiyon çıktısı için yanıt doğrulama
Yerel ve bulut uç noktaları arasında geçiş yapmak için ortam değişkenleri

Üretime dağıtmadan önce sesli yapay zeka entegrasyonlarınızı test etmek için Apidog'u indirin.

button

Güvenlik ve sorumlu kullanım

Microsoft, ilk kötüye kullanım olaylarından sonra birkaç güvenlik önlemi ekledi:

Duyulabilir yapay zeka sorumluluk reddi: Oluşturulan tüm sesler, otomatik olarak “Bu bölüm yapay zeka tarafından oluşturuldu” mesajını içerir.
Algılanamayan filigranlama: Gizli işaretler, VibeVoice tarafından oluşturulan içeriğin üçüncü taraf doğrulamasını sağlar.
Çıkarım günlüğü: Hashlenmiş günlükler, üç aylık toplu istatistiklerle kötüye kullanım modellerini tespit eder.
MIT lisansı: Ticari kullanıma izin verir, ancak Microsoft, daha fazla test yapılmadan üretim dağıtımına karşı tavsiyede bulunur.

İzin verilenler

Araştırma ve akademik kullanım
Dahili prototipleme ve test
Uygun yapay zeka açıklamasıyla podcast üretimi
Erişilebilirlik uygulamaları (görme engelli kullanıcılar için metinden konuşmaya)

İzin verilmeyenler

Açıkça kaydedilmiş rıza olmadan ses taklidi
Deepfake'ler veya yapay zeka sesini gerçek insan kayıtları olarak sunma
Canlı deepfake uygulamaları için gerçek zamanlı ses dönüştürme
Konuşma dışı ses (müzik, ses efektleri) üretimi

Bilmeniz gereken sınırlamalar

TTS için dil desteği dardır. VibeVoice-1.5B İngilizce ve Çince'yi destekler. Diğer diller anlaşılmaz çıktı üretir. VibeVoice-ASR, 50'den fazla dilde daha geniş kapsama sahiptir.

ASR için donanım gereksinimleri yüksektir. ASR modeli 24 GB+ VRAM (A100/H100 sınıfı GPU'lar) gerektirir. TTS modelleri, 7-8 GB VRAM'e sahip tüketici GPU'larında çalışır.

Çakışan konuşma işleme yok. TTS modeli, konuşmacıların birbirlerinin üzerine konuştuğu durumu modellemez. Tüm diyaloglar sıra tabanlıdır.

Miras alınan model önyargıları. Her iki model de Qwen2.5 tabanlarından önyargıları miras alır. Çıktılar beklenmedik, önyargılı veya yanlış içerik içerebilir.

Araştırma düzeyinde yazılım. Bu üretime hazır değildir. Kenar durumlarda, hata yönetiminde ve İngilizce dışı çıktılarda pürüzler bekleyin.

VibeVoice-ASR'ı Azure AI Foundry'ye dağıtma

GPU altyapısını yönetmek istemeyen ekipler için Microsoft, VibeVoice-ASR'ı Azure AI Foundry aracılığıyla erişilebilir kıldı. Bu size donanım sağlamadan yönetilen bir API uç noktası sağlar.

Azure dağıtımı ölçeklendirmeyi, model güncellemelerini ve altyapı bakımını yönetir. Ses dosyalarını kabul eden ve yerel modelle aynı Kim/Ne Zaman/Ne formatında yapılandırılmış transkripsiyonlar döndüren bir HTTPS uç noktası alırsınız.

Bu, kendi kendine barındırılan GPU çıkarımının sağlayamayacağı tutarlı çalışma süresi ve SLA garantileri gerektiren üretim iş yükleri için özellikle kullanışlıdır. Mevcut fiyatlandırma ve dağıtım seçenekleri için Azure AI Foundry'nin model kataloğunu kontrol edin.

Uygulamanıza entegre etmeden önce Azure'da barındırılan VibeVoice uç noktanızı test etmek için, Apidog'da uç nokta URL'sini ve kimlik doğrulama başlıklarını ayarlayın ve örnek ses dosyalarına karşı test transkripsiyonları çalıştırın.

Topluluk ve ekosistem

VibeVoice'ın aktif bir topluluğu vardır:

1.5B modeli için aylık 62.630'dan fazla HuggingFace indirmesi
HuggingFace'de 2.280'den fazla beğeni
Modeli çalıştıran 79'dan fazla HuggingFace Alanı
Topluluktan 12 ince ayarlı varyant
Daha düşük VRAM dağıtımı için 4 nicemlenmiş sürüm
Aktif bakımla vibevoice-community/VibeVoice adresinde topluluk fork'u

Dikkate değer topluluk projeleri:

VibeVoice-FastAPI: Docker destekli üretim REST API sarıcısı
VibeVoice MCP Server: Model Bağlam Protokolü aracılığıyla yapay zeka kodlama araçlarıyla entegrasyon
Apple Silicon desteği: M serisi Mac çıkarımı için topluluk betikleri
Nicemlenmiş modeller: Azaltılmış VRAM kullanımı için GGUF ve diğer formatlar

Sıkça Sorulan Sorular

VibeVoice'u kullanmak ücretsiz midir?

Evet. Her üç model de (TTS 1.5B, Gerçek zamanlı 0.5B, ASR) MIT lisanslıdır. Bunları ticari ve ticari olmayan amaçlarla kullanabilirsiniz. Azure AI Foundry barındırma, yönetilen bulut çıkarımı için ayrı fiyatlandırmaya sahiptir.

VibeVoice, Apple Silicon Mac'lerde çalışabilir mi?

Topluluk, M serisi Mac çıkarımı için betikler sağlamıştır. VibeVoice-1.5B modeli için HuggingFace tartışmalarını kontrol edin. Performans, CUDA GPU'larından daha yavaştır ancak işlevseldir.

VibeVoice, ElevenLabs ile nasıl karşılaştırılır?

VibeVoice, API maliyeti olmadan ve makinenizden veri çıkışı olmadan yerel olarak çalışır. ElevenLabs, daha yüksek kalite, daha fazla ses ve daha kolay kurulum sunar, ancak ücretli abonelik ve bulut işleme gerektirir. Gizliliğe duyarlı uygulamalar veya çevrimdışı kullanım için VibeVoice kazanır. Üretim kalitesi ve kullanım kolaylığı açısından ElevenLabs öndedir.

GitHub deposu neden geçici olarak devre dışı bırakıldı?

Microsoft, insanların ses klonlamayı kimlik taklidi ve deepfake'ler için kullandığını tespit etti. Depoyu devre dışı bıraktılar, güvenlik özellikleri (duyulabilir sorumluluk reddi, filigranlama) eklediler ve yeniden etkinleştirdiler. Topluluk fork'u, kesinti sırasında geliştirmeyi sürdürdü.

VibeVoice'u özel sesler üzerinde ince ayarlayabilir miyim?

Evet. Topluluk, HuggingFace'de 12 ince ayarlı varyant üretmiştir. Eğitim için ses örnekleri (24kHz mono'da 30-60 saniye net WAV ses) ve GPU kaynaklarına ihtiyacınız var.

VibeVoice hangi ses formatlarını çıkarır?

24.000 Hz mono WAV. Oluşturulduktan sonra ffmpeg ile MP3, OGG, FLAC veya diğer formatlara dönüştürebilirsiniz.

VibeVoice-ASR'ı Whisper yerine kullanabilir miyim?

Konuşmacı tanımlaması olan uzun form sesler için evet. VibeVoice-ASR, dahili diarizasyon ile 60 dakikalık kayıtları tek bir geçişte işler. Whisper, konuşmacı tanımlaması için harici araçlara ihtiyaç duyar ve 30 dakikadan uzun kayıtlarla parçalamadan zorlanır. Kısa, gürültülü klipler veya uç dağıtım için Whisper daha iyi bir seçenektir.

VibeVoice gerçek zamanlı sesli sohbeti destekler mi?

VibeVoice-Realtime-0.5B, ~300ms ilk parça gecikmesiyle metin akışı girişini destekler. Yakın gerçek zamanlı uygulamalar için kullanılabilir ancak tam çift yönlü sesli sohbet için tasarlanmamıştır. Bunun için Azure OpenAI'nin GPT-Realtime'ına veya benzer barındırılan çözümlere bakın.

button