TL;DR
VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (bis zu 90 Minuten, 4 Sprecher), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung (60-Minuten-Audio, über 50 Sprachen, 7,77 % WER). Alle Modelle sind MIT-lizenziert und laufen lokal. Dieser Leitfaden behandelt Installation, Nutzung und API-Integration.
Einleitung
Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Es umfasst Modelle sowohl für die Sprachsynthese (Text-zu-Sprache) als auch für die Spracherkennung (automatische Spracherkennung), die alle lokal auf Ihrer Hardware ohne Cloud-Abhängigkeit laufen.

Das Framework hat drei Modelle:
- VibeVoice-1.5B generiert aus Textskripten ausdrucksstarkes Konversationsaudio mit mehreren Sprechern. Es kann in einem Durchgang bis zu 90 Minuten Sprache mit 4 verschiedenen Sprechern synthetisieren.
- VibeVoice-Realtime-0.5B ist eine leichte Streaming-Variante, die Audio mit einer Latenz von ~300 ms für den ersten Block erzeugt.
- VibeVoice-ASR transkribiert bis zu 60 Minuten kontinuierliches Audio mit Sprecheridentifikation, Zeitstempeln und strukturierter Ausgabe in über 50 Sprachen.

Die TTS-Modelle sorgten nach ihrer Veröffentlichung für Kontroversen. Microsoft deaktivierte das Haupt-GitHub-Repository vorübergehend, als sie Missbrauch durch Stimmklonung entdeckten. Die Community erstellte eine Abspaltung des Codes, und Microsoft reaktivierte das Repository später mit zusätzlichen Schutzmaßnahmen: einem hörbaren KI-Haftungsausschluss, der in generierte Audios eingebettet ist, und unmerklichen Wasserzeichen zur Herkunftsüberprüfung.
VibeVoice-ASR ist jetzt auf Azure AI Foundry für die Cloud-Bereitstellung verfügbar. Die TTS-Modelle bleiben forschungsorientiert und unterliegen einer MIT-Lizenz.
Dieser Leitfaden führt Sie durch die Installation, die Text-zu-Sprache-Generierung, die Spracherkennung, die API-Integration und wie Sie Sprach-KI-Endpunkte mit Apidog testen können.
Wie VibeVoice funktioniert: Architekturübersicht
Der Tokenizer-Durchbruch
Der Kernfortschritt von VibeVoice sind seine kontinuierlichen Sprachtokenizer, die mit einer extrem niedrigen Framerate von 7,5 Hz arbeiten. Zum Vergleich: Die meisten Sprachmodelle verarbeiten Audio mit 50-100 Hz. Diese 7- bis 13-fache Reduzierung der Framerate bedeutet, dass das Modell lange Sequenzen (90 Minuten Audio) verarbeiten kann, ohne den Kontext zu verlieren.


Das System verwendet zwei Tokenizer:
- Akustischer Tokenizer: Eine Sigma-VAE-Variante mit ~340 Mio. Parametern in einem spiegelsymmetrischen Encoder-Decoder. Es reduziert die Abtastrate um das 3.200-fache von 24-kHz-Eingangsaudio.
- Semantischer Tokenizer: Spiegelt die Architektur des akustischen Tokenizers wider, wird aber mit einer ASR-Proxy-Aufgabe trainiert, um die sprachliche Bedeutung zu erfassen.
Next-Token-Diffusion
Das Modell kombiniert eine LLM-Grundlage (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter). Die LLM verarbeitet textuellen Kontext und Dialogfluss. Der Diffusions-Head generiert hochauflösende akustische Details mithilfe von DDPM (Denoising Diffusion Probabilistic Models) mit Classifier-Free Guidance.
Gesamtzahl der Parameter: 3B (einschließlich Tokenizer und Diffusions-Head).
Trainingsansatz
VibeVoice verwendet Curriculum Learning, wobei schrittweise längere Sequenzen trainiert werden: 4K, 16K, 32K, dann 64K Token. Die vortrainierten Tokenizer bleiben während dieser Phase eingefroren; nur die Parameter der LLM und des Diffusions-Heads werden aktualisiert. Dies ermöglicht es dem Modell, die Verarbeitung zunehmend langer Audios zu lernen, ohne Kurzform-Fähigkeiten zu vergessen.
VibeVoice-Modellspezifikationen
| Modell | Parameter | Zweck | Maximale Länge | Sprachen | Lizenz |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (gesamt) | Text-zu-Sprache | 90 Minuten | Englisch, Chinesisch | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | Streaming-TTS | Langform | Englisch, Chinesisch | MIT |
| VibeVoice-ASR | ~9B | Spracherkennung | 60 Minuten | Über 50 Sprachen | MIT |
VibeVoice-1.5B (TTS)
| Spezifikation | Wert |
|---|---|
| LLM-Basis | Qwen2.5-1.5B |
| Kontextlänge | 64K Token |
| Max. Sprecher | 4 gleichzeitig |
| Audioausgabe | 24kHz WAV Mono |
| Tensor-Typ | BF16 |
| Format | Safetensors |
| HuggingFace-Downloads | 62.630/Monat |
| Community-Forks | 12 feinabgestimmte Varianten |
VibeVoice-ASR
| Spezifikation | Wert |
|---|---|
| Architektur-Basis | Qwen2.5 |
| Parameter | ~9B |
| Audioverarbeitung | Bis zu 60 Minuten in einem Durchgang |
| Framerate | 7.5 Hz |
| Durchschnittliche WER | 7.77% (über 8 englische Datensätze) |
| LibriSpeech Clean WER | 2.20% |
| TED-LIUM WER | 2.57% |
| Sprachen | Über 50 |
| Ausgabe | Strukturiert (Wer + Wann + Was) |
| Unterstützte Audioformate | WAV, FLAC, MP3 bei 16kHz+ |
Installation und Einrichtung
Voraussetzungen
- Python 3.8+
- NVIDIA GPU mit CUDA-Unterstützung
- Mindestens 7-8 GB VRAM für TTS-Modelle
- Mindestens 24 GB VRAM für ASR-Modelle (A100/H100 empfohlen)
- Mindestens 32 GB RAM (64 GB für ASR empfohlen)
- CUDA 11.8+ (CUDA 12.0+ empfohlen)
VibeVoice TTS installieren
# Repository klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Abhängigkeiten installieren
pip install -r requirements.txt
Modelle werden beim ersten Start automatisch von HuggingFace heruntergeladen. Sie können sie auch vorab herunterladen:
from huggingface_hub import snapshot_download
# Das 1.5B TTS-Modell herunterladen
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Installation via pip (Community-Paket)
pip install vibevoice
Für ASR installieren
VibeVoice-ASR verwendet eine separate Einrichtung:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Oder über Azure AI Foundry für verwaltete Cloud-Inferenz bereitstellen.
Spracherzeugung mit VibeVoice-1.5B
Generierung eines einzelnen Sprechers
Erstellen Sie eine Textdatei mit Ihrem Skript:
Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.
Inferenz ausführen:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
Die Ausgabe wird als .wav-Datei im Verzeichnis outputs/ gespeichert.
Podcast-Generierung mit mehreren Sprechern
VibeVoice verarbeitet bis zu 4 Sprecher mit konsistenten Stimmidentitäten während der gesamten Aufnahme:
Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Das Modell behält für jeden Sprecher während des gesamten Gesprächs, selbst bei einer Länge von 90 Minuten, unterschiedliche Stimmcharakteristika bei.
Stimmklonung (Zero-Shot)
Klonen Sie eine Stimme aus einer Referenz-Audiodatei:
Audioanforderungen:
- Format: WAV (mono)
- Abtastrate: 24.000 Hz
- Dauer: 30-60 Sekunden klarer Sprache
Bestehendes Audio in das richtige Format konvertieren:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Verwenden Sie die Gradio-Demo-Oberfläche für die Stimmklonung:
python demo/gradio_demo.py
Dies startet eine Web-Benutzeroberfläche unter http://127.0.0.1:7860, wo Sie Ihre Referenz-Audiodatei hochladen, die geklonte Stimme auswählen und Sprache generieren können.
Streaming mit VibeVoice-Realtime-0.5B
Für Anwendungen, die eine Audioausgabe mit geringer Latenz (~300 ms für den ersten Block) benötigen:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Das Realtime-Modell ist kleiner und schneller, erzeugt aber Audio mit geringerer Wiedergabetreue als das vollständige 1.5B-Modell. Verwenden Sie es für interaktive Anwendungen; verwenden Sie das 1.5B-Modell für vorab generierte Inhalte.
VibeVoice mit Python verwenden
Pipeline-API
from transformers import pipeline
from huggingface_hub import snapshot_download
# Modell herunterladen
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Pipeline laden
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Skript für mehrere Sprecher vorbereiten
script = [
{"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
{"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]
# Chat-Vorlage anwenden
input_data = pipe.processor.apply_chat_template(script)
# Audio generieren
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
FastAPI-Wrapper für die Produktion
Die Community hat einen FastAPI-Wrapper erstellt, der VibeVoice als OpenAI-kompatible TTS-API bereitstellt:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Dies bietet Ihnen einen API-Endpunkt, der mit dem TTS-Format von OpenAI kompatibel ist:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
"voice": "alice"
}' \
--output speech.wav
Dieser OpenAI-kompatible Endpunkt bedeutet, dass Sie Ihre VibeVoice-API-Integration mit Apidog mit demselben Anfrageformat testen können, das Sie für die TTS-API von OpenAI verwenden würden. Importieren Sie den Endpunkt, konfigurieren Sie Ihren Anforderungs-Body und testen Sie die Stimmerzeugung, ohne Anwendungs-Code schreiben zu müssen.
VibeVoice-ASR für die Spracherkennung verwenden
Grundlegende Transkription
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Strukturiertes Ausgabeformat
VibeVoice-ASR erstellt strukturierte Transkriptionen mit drei Feldern pro Segment:
- Wer: Sprecheridentität (Sprecher 1, Sprecher 2 usw.)
- Wann: Start- und End-Zeitstempel
- Was: Transkribierter Textinhalt
Beispielausgabe:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR als MCP-Server
VibeVoice-ASR kann als MCP-Server (Model Context Protocol) ausgeführt werden, der direkt in Claude Code, Cursor und andere KI-Codierungstools integrierbar ist:
# Den MCP-Server installieren
pip install vibevoice-mcp-server
# Ausführen
vibevoice-mcp serve
Dies ermöglicht es Ihrem Codierungs-Agenten, Besprechungen, Sprachnotizen oder Audioaufnahmen als Teil seines Workflows zu transkribieren. Sie diktieren Anforderungen, der MCP-Server transkribiert sie, und der Codierungs-Agent verarbeitet den Text.
Wann VibeVoice-ASR vs. Whisper verwenden
| Anwendungsfall | Beste Wahl | Warum |
|---|---|---|
| Lange Besprechungen (30-60 Min.) | VibeVoice-ASR | Einmalige 60-Minuten-Verarbeitung, Sprechererkennung |
| Interviews mit mehreren Sprechern | VibeVoice-ASR | Integrierte Diarisierung |
| Podcasts, die Zeitstempel benötigen | VibeVoice-ASR | Strukturierte Wer/Wann/Was-Ausgabe |
| Mehrsprachige Inhalte (über 50 Sprachen) | VibeVoice-ASR | Breitere Sprachunterstützung |
| Kurze Clips in lauten Umgebungen | Whisper | Bessere Rauschrobustheit |
| Edge-/Mobile-Bereitstellung | Whisper | Kleinere Modellgröße, breitere Geräteunterstützung |
| Nicht-englische Sprachen (spezialisiert) | Whisper | Ausgereiftere mehrsprachige Feinabstimmung |
Testen von Sprach-KI-APIs mit Apidog
Egal, ob Sie den VibeVoice FastAPI-Wrapper, den Azure AI Foundry-Endpunkt oder Ihre eigene Sprach-KI-API verwenden, Apidog hilft Ihnen beim Testen und Debuggen dieser Integrationen.

TTS-Endpunkt testen
- Erstellen Sie eine neue POST-Anfrage in Apidog, die auf Ihren VibeVoice FastAPI-Server verweist.
- Stellen Sie den Anforderungs-Body auf das OpenAI-kompatible Format ein:
{
"model": "vibevoice-1.5b",
"input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
"voice": "alice",
"response_format": "wav"
}
- Senden Sie die Anfrage und überprüfen Sie, ob die Antwort-Header den Inhaltstyp
audio/waventhalten. - Speichern Sie die Antwort als WAV-Datei, um die Audioqualität zu überprüfen.
ASR-Endpunkt testen
Für Sprach-zu-Text-APIs:
- Richten Sie eine POST-Anfrage mit
multipart/form-dataein. - Fügen Sie Ihre Audiodatei als Formularfeld an.
- Überprüfen Sie, ob die strukturierte JSON-Antwort Sprecher-IDs, Zeitstempel und transkribierten Text enthält.
Audio-API-Verträge validieren
Sprach-KI-APIs verarbeiten binäre Daten (Audiodateien) zusammen mit JSON-Metadaten. Der Anfrage-Builder von Apidog verarbeitet beides:
- Binäre Dateiuploads für ASR-Endpunkte
- JSON-Body-Formatierung für TTS-Endpunkte
- Antwortvalidierung für strukturierte Transkriptionsausgaben
- Umgebungsvariablen zum Umschalten zwischen lokalen und Cloud-Endpunkten
Laden Sie Apidog herunter, um Ihre Sprach-KI-Integrationen zu testen, bevor Sie sie in der Produktion bereitstellen.
Sicherheit und verantwortungsvolle Nutzung
Microsoft hat nach den anfänglichen Missbrauchsfällen mehrere Schutzmaßnahmen hinzugefügt:
- Hörbarer KI-Haftungsausschluss: Alle generierten Audios enthalten eine automatische Nachricht „Dieses Segment wurde von KI generiert“.
- Unmerkliches Wasserzeichen: Versteckte Markierungen ermöglichen die Überprüfung von VibeVoice-generierten Inhalten durch Dritte.
- Inferenz-Protokollierung: Gehashte Protokolle erkennen Missbrauchsmuster mit vierteljährlich aggregierten Statistiken.
- MIT-Lizenz: Erlaubt kommerzielle Nutzung, Microsoft empfiehlt jedoch, die Bereitstellung in der Produktion ohne weitere Tests zu unterlassen.
Was erlaubt ist
- Forschungs- und akademische Nutzung
- Internes Prototyping und Testen
- Podcast-Generierung mit ordnungsgemäßer KI-Offenlegung
- Barrierefreiheitsanwendungen (Text-zu-Sprache für sehbehinderte Benutzer)
Was nicht erlaubt ist
- Stimmimitation ohne ausdrückliche aufgezeichnete Zustimmung
- Deepfakes oder die Präsentation von KI-Audio als echte menschliche Aufnahmen
- Echtzeit-Stimmenkonvertierung für Live-Deepfake-Anwendungen
- Generierung von Nicht-Sprach-Audio (Musik, Soundeffekte)
Einschränkungen, die zu beachten sind
Die Sprachunterstützung ist für TTS eingeschränkt. VibeVoice-1.5B unterstützt Englisch und Chinesisch. Andere Sprachen erzeugen unverständliche Ausgaben. VibeVoice-ASR hat eine breitere Abdeckung mit über 50 Sprachen.

Die Hardware-Anforderungen sind für ASR hoch. Das ASR-Modell benötigt 24 GB+ VRAM (GPUs der Klasse A100/H100). Die TTS-Modelle laufen auf Consumer-GPUs mit 7-8 GB VRAM.
Keine Verarbeitung überlappender Sprache. Das TTS-Modell modelliert keine Sprecher, die übereinander sprechen. Alle Dialoge sind rundenbasiert.
Vererbte Modellverzerrungen. Beide Modelle erben Verzerrungen von ihrer Qwen2.5-Basis. Ausgaben können unerwartete, voreingenommene oder ungenaue Inhalte enthalten.
Software auf Forschungsniveau. Dies ist nicht produktionsreif. Erwarten Sie unvollkommene Stellen in Randfällen, bei der Fehlerbehandlung und bei nicht-englischer Ausgabe.
VibeVoice-ASR auf Azure AI Foundry bereitstellen
Für Teams, die keine GPU-Infrastruktur verwalten möchten, hat Microsoft VibeVoice-ASR über Azure AI Foundry verfügbar gemacht. Dies bietet Ihnen einen verwalteten API-Endpunkt ohne Hardware-Bereitstellung.
Die Azure-Bereitstellung übernimmt Skalierung, Modellaktualisierungen und Infrastrukturwartung. Sie erhalten einen HTTPS-Endpunkt, der Audiodateien akzeptiert und strukturierte Transkriptionen im gleichen Wer/Wann/Was-Format wie das lokale Modell zurückgibt.
Dies ist besonders nützlich für Produktions-Workloads, bei denen Sie eine konsistente Betriebszeit und SLA-Garantien benötigen, die eine selbst gehostete GPU-Inferenz nicht bieten kann. Überprüfen Sie den Modellkatalog von Azure AI Foundry für aktuelle Preise und Bereitstellungsoptionen.
Um Ihren Azure-gehosteten VibeVoice-Endpunkt zu testen, bevor Sie ihn in Ihre Anwendung integrieren, richten Sie die Endpunkt-URL und die Authentifizierungs-Header in Apidog ein und führen Sie Testtranskriptionen für Beispiel-Audiodateien aus.
Community und Ökosystem
VibeVoice hat eine aktive Community:
- Über 62.630 monatliche HuggingFace-Downloads für das 1.5B-Modell
- Über 2.280 Likes auf HuggingFace
- Über 79 HuggingFace Spaces, die das Modell ausführen
- 12 feinabgestimmte Varianten aus der Community
- 4 quantisierte Versionen für die Bereitstellung mit geringerem VRAM
- Community-Fork unter
vibevoice-community/VibeVoicemit aktiver Wartung
Bemerkenswerte Community-Projekte:
- VibeVoice-FastAPI: REST-API-Wrapper für die Produktion mit Docker-Unterstützung
- VibeVoice MCP Server: Integration mit KI-Codierungstools über das Model Context Protocol
- Apple Silicon-Unterstützung: Community-Skripte für die Inferenz auf Macs der M-Serie
- Quantisierte Modelle: GGUF und andere Formate für reduzierten VRAM-Verbrauch
FAQ
Ist VibeVoice kostenlos nutzbar?
Ja. Alle drei Modelle (TTS 1.5B, Realtime 0.5B, ASR) sind MIT-lizenziert. Sie können sie für kommerzielle und nicht-kommerzielle Zwecke verwenden. Das Azure AI Foundry Hosting hat separate Preise für verwaltete Cloud-Inferenz.
Kann VibeVoice auf Apple Silicon Macs laufen?
Die Community hat Skripte für die Inferenz auf Macs der M-Serie beigesteuert. Überprüfen Sie die HuggingFace-Diskussionen für das VibeVoice-1.5B-Modell. Die Leistung ist langsamer als bei CUDA-GPUs, aber funktionsfähig.
Wie vergleicht sich VibeVoice mit ElevenLabs?
VibeVoice läuft lokal ohne API-Kosten und ohne dass Daten Ihren Rechner verlassen. ElevenLabs bietet höhere Qualität, mehr Stimmen und eine einfachere Einrichtung, erfordert aber ein kostenpflichtiges Abonnement und Cloud-Verarbeitung. Für datenschutzsensible Anwendungen oder Offline-Nutzung ist VibeVoice die bessere Wahl. Für Produktionsqualität und Benutzerfreundlichkeit ist ElevenLabs voraus.
Warum wurde das GitHub-Repository vorübergehend deaktiviert?
Microsoft entdeckte, dass Personen Stimmklonung für Imitationen und Deepfakes verwendeten. Sie deaktivierten das Repository, fügten Sicherheitsfunktionen hinzu (hörbare Haftungsausschlüsse, Wasserzeichen) und reaktivierten es. Der Community-Fork hielt die Entwicklung während der Ausfallzeit am Laufen.
Kann ich VibeVoice auf benutzerdefinierte Stimmen feinabstimmen?
Ja. Die Community hat 12 feinabgestimmte Varianten auf HuggingFace produziert. Sie benötigen Sprachproben (30-60 Sekunden klares WAV-Audio bei 24kHz Mono) und GPU-Ressourcen für das Training.
Welche Audioformate gibt VibeVoice aus?
WAV bei 24.000 Hz Mono. Sie können nach der Generierung mit ffmpeg in MP3, OGG, FLAC oder andere Formate konvertieren.
Kann ich VibeVoice-ASR als Whisper-Ersatz verwenden?
Für Langform-Audio mit Sprecheridentifikation, ja. VibeVoice-ASR verarbeitet 60-Minuten-Aufnahmen in einem Durchgang mit integrierter Diarisierung. Whisper benötigt externe Tools für die Sprecheridentifikation und hat Schwierigkeiten mit Aufnahmen über 30 Minuten ohne Chunking. Für kurze, laute Clips oder Edge-Bereitstellung bleibt Whisper die bessere Wahl.
Unterstützt VibeVoice Echtzeit-Sprachchats?
VibeVoice-Realtime-0.5B unterstützt Streaming-Texteingabe mit einer Latenz von ~300 ms für den ersten Block. Es ist für nahezu Echtzeit-Anwendungen nutzbar, ist aber nicht für Vollduplex-Sprachkonversationen ausgelegt. Dafür schauen Sie sich Azure OpenAIs GPT-Realtime oder ähnliche gehostete Lösungen an.
