Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen

TL;DR

VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (bis zu 90 Minuten, 4 Sprecher), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung (60-Minuten-Audio, über 50 Sprachen, 7,77 % WER). Alle Modelle sind MIT-lizenziert und laufen lokal. Dieser Leitfaden behandelt Installation, Nutzung und API-Integration.

Einleitung

Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Es umfasst Modelle sowohl für die Sprachsynthese (Text-zu-Sprache) als auch für die Spracherkennung (automatische Spracherkennung), die alle lokal auf Ihrer Hardware ohne Cloud-Abhängigkeit laufen.

VibeVoice Diagramm mit drei Kreisen, die VibeVoice-1.5B, VibeVoice-Realtime-0.5B und VibeVoice-ASR repräsentieren, verbunden durch Linien in einem organischen Layout.

Das Framework hat drei Modelle:

VibeVoice-1.5B generiert aus Textskripten ausdrucksstarkes Konversationsaudio mit mehreren Sprechern. Es kann in einem Durchgang bis zu 90 Minuten Sprache mit 4 verschiedenen Sprechern synthetisieren.
VibeVoice-Realtime-0.5B ist eine leichte Streaming-Variante, die Audio mit einer Latenz von ~300 ms für den ersten Block erzeugt.
VibeVoice-ASR transkribiert bis zu 60 Minuten kontinuierliches Audio mit Sprecheridentifikation, Zeitstempeln und strukturierter Ausgabe in über 50 Sprachen.

VibeVoice-ASR-Ergebnisse in verschiedenen Sprachen, einschließlich Englisch, Chinesisch, Deutsch, Spanisch, Russisch und mehr.

Die TTS-Modelle sorgten nach ihrer Veröffentlichung für Kontroversen. Microsoft deaktivierte das Haupt-GitHub-Repository vorübergehend, als sie Missbrauch durch Stimmklonung entdeckten. Die Community erstellte eine Abspaltung des Codes, und Microsoft reaktivierte das Repository später mit zusätzlichen Schutzmaßnahmen: einem hörbaren KI-Haftungsausschluss, der in generierte Audios eingebettet ist, und unmerklichen Wasserzeichen zur Herkunftsüberprüfung.

VibeVoice-ASR ist jetzt auf Azure AI Foundry für die Cloud-Bereitstellung verfügbar. Die TTS-Modelle bleiben forschungsorientiert und unterliegen einer MIT-Lizenz.

Dieser Leitfaden führt Sie durch die Installation, die Text-zu-Sprache-Generierung, die Spracherkennung, die API-Integration und wie Sie Sprach-KI-Endpunkte mit Apidog testen können.

button

Wie VibeVoice funktioniert: Architekturübersicht

Der Tokenizer-Durchbruch

Der Kernfortschritt von VibeVoice sind seine kontinuierlichen Sprachtokenizer, die mit einer extrem niedrigen Framerate von 7,5 Hz arbeiten. Zum Vergleich: Die meisten Sprachmodelle verarbeiten Audio mit 50-100 Hz. Diese 7- bis 13-fache Reduzierung der Framerate bedeutet, dass das Modell lange Sequenzen (90 Minuten Audio) verarbeiten kann, ohne den Kontext zu verlieren.

Schematische Darstellung der Architektur eines VibeVoice Tokenizers, der die Datenflüsse durch Encoder, Quantizer und Decoder zeigt.

Diagramm, das die VibeVoice-Pipeline für die Text-zu-Sprache-Synthese zeigt, einschließlich LLM, Diffusionsmodell und dem Prozess zur Erzeugung von Audiowellenformen.

Das System verwendet zwei Tokenizer:

Akustischer Tokenizer: Eine Sigma-VAE-Variante mit ~340 Mio. Parametern in einem spiegelsymmetrischen Encoder-Decoder. Es reduziert die Abtastrate um das 3.200-fache von 24-kHz-Eingangsaudio.
Semantischer Tokenizer: Spiegelt die Architektur des akustischen Tokenizers wider, wird aber mit einer ASR-Proxy-Aufgabe trainiert, um die sprachliche Bedeutung zu erfassen.

Next-Token-Diffusion

Das Modell kombiniert eine LLM-Grundlage (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter). Die LLM verarbeitet textuellen Kontext und Dialogfluss. Der Diffusions-Head generiert hochauflösende akustische Details mithilfe von DDPM (Denoising Diffusion Probabilistic Models) mit Classifier-Free Guidance.

Gesamtzahl der Parameter: 3B (einschließlich Tokenizer und Diffusions-Head).

Trainingsansatz

VibeVoice verwendet Curriculum Learning, wobei schrittweise längere Sequenzen trainiert werden: 4K, 16K, 32K, dann 64K Token. Die vortrainierten Tokenizer bleiben während dieser Phase eingefroren; nur die Parameter der LLM und des Diffusions-Heads werden aktualisiert. Dies ermöglicht es dem Modell, die Verarbeitung zunehmend langer Audios zu lernen, ohne Kurzform-Fähigkeiten zu vergessen.

VibeVoice-Modellspezifikationen

Modell	Parameter	Zweck	Maximale Länge	Sprachen	Lizenz
VibeVoice-1.5B	3B (gesamt)	Text-zu-Sprache	90 Minuten	Englisch, Chinesisch	MIT
VibeVoice-Realtime-0.5B	~0.5B	Streaming-TTS	Langform	Englisch, Chinesisch	MIT
VibeVoice-ASR	~9B	Spracherkennung	60 Minuten	Über 50 Sprachen	MIT

VibeVoice-1.5B (TTS)

Spezifikation	Wert
LLM-Basis	Qwen2.5-1.5B
Kontextlänge	64K Token
Max. Sprecher	4 gleichzeitig
Audioausgabe	24kHz WAV Mono
Tensor-Typ	BF16
Format	Safetensors
HuggingFace-Downloads	62.630/Monat
Community-Forks	12 feinabgestimmte Varianten

VibeVoice-ASR

Spezifikation	Wert
Architektur-Basis	Qwen2.5
Parameter	~9B
Audioverarbeitung	Bis zu 60 Minuten in einem Durchgang
Framerate	7.5 Hz
Durchschnittliche WER	7.77% (über 8 englische Datensätze)
LibriSpeech Clean WER	2.20%
TED-LIUM WER	2.57%
Sprachen	Über 50
Ausgabe	Strukturiert (Wer + Wann + Was)
Unterstützte Audioformate	WAV, FLAC, MP3 bei 16kHz+

Installation und Einrichtung

Voraussetzungen

Python 3.8+
NVIDIA GPU mit CUDA-Unterstützung
Mindestens 7-8 GB VRAM für TTS-Modelle
Mindestens 24 GB VRAM für ASR-Modelle (A100/H100 empfohlen)
Mindestens 32 GB RAM (64 GB für ASR empfohlen)
CUDA 11.8+ (CUDA 12.0+ empfohlen)

VibeVoice TTS installieren

# Repository klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Abhängigkeiten installieren
pip install -r requirements.txt

Modelle werden beim ersten Start automatisch von HuggingFace heruntergeladen. Sie können sie auch vorab herunterladen:

from huggingface_hub import snapshot_download

# Das 1.5B TTS-Modell herunterladen
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Installation via pip (Community-Paket)

pip install vibevoice

Für ASR installieren

VibeVoice-ASR verwendet eine separate Einrichtung:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Oder über Azure AI Foundry für verwaltete Cloud-Inferenz bereitstellen.

Spracherzeugung mit VibeVoice-1.5B

Generierung eines einzelnen Sprechers

Erstellen Sie eine Textdatei mit Ihrem Skript:

Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.

Inferenz ausführen:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Die Ausgabe wird als .wav-Datei im Verzeichnis outputs/ gespeichert.

Podcast-Generierung mit mehreren Sprechern

VibeVoice verarbeitet bis zu 4 Sprecher mit konsistenten Stimmidentitäten während der gesamten Aufnahme:

Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Das Modell behält für jeden Sprecher während des gesamten Gesprächs, selbst bei einer Länge von 90 Minuten, unterschiedliche Stimmcharakteristika bei.

Stimmklonung (Zero-Shot)

Klonen Sie eine Stimme aus einer Referenz-Audiodatei:

Audioanforderungen:

Format: WAV (mono)
Abtastrate: 24.000 Hz
Dauer: 30-60 Sekunden klarer Sprache

Bestehendes Audio in das richtige Format konvertieren:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Verwenden Sie die Gradio-Demo-Oberfläche für die Stimmklonung:

python demo/gradio_demo.py

Dies startet eine Web-Benutzeroberfläche unter http://127.0.0.1:7860, wo Sie Ihre Referenz-Audiodatei hochladen, die geklonte Stimme auswählen und Sprache generieren können.

Streaming mit VibeVoice-Realtime-0.5B

Für Anwendungen, die eine Audioausgabe mit geringer Latenz (~300 ms für den ersten Block) benötigen:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Das Realtime-Modell ist kleiner und schneller, erzeugt aber Audio mit geringerer Wiedergabetreue als das vollständige 1.5B-Modell. Verwenden Sie es für interaktive Anwendungen; verwenden Sie das 1.5B-Modell für vorab generierte Inhalte.

VibeVoice mit Python verwenden

Pipeline-API

from transformers import pipeline
from huggingface_hub import snapshot_download

# Modell herunterladen
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline laden
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Skript für mehrere Sprecher vorbereiten
script = [
    {"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
    {"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]

# Chat-Vorlage anwenden
input_data = pipe.processor.apply_chat_template(script)

# Audio generieren
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

FastAPI-Wrapper für die Produktion

Die Community hat einen FastAPI-Wrapper erstellt, der VibeVoice als OpenAI-kompatible TTS-API bereitstellt:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Dies bietet Ihnen einen API-Endpunkt, der mit dem TTS-Format von OpenAI kompatibel ist:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
    "voice": "alice"
  }' \
  --output speech.wav

Dieser OpenAI-kompatible Endpunkt bedeutet, dass Sie Ihre VibeVoice-API-Integration mit Apidog mit demselben Anfrageformat testen können, das Sie für die TTS-API von OpenAI verwenden würden. Importieren Sie den Endpunkt, konfigurieren Sie Ihren Anforderungs-Body und testen Sie die Stimmerzeugung, ohne Anwendungs-Code schreiben zu müssen.

VibeVoice-ASR für die Spracherkennung verwenden

Grundlegende Transkription

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Strukturiertes Ausgabeformat

VibeVoice-ASR erstellt strukturierte Transkriptionen mit drei Feldern pro Segment:

Wer: Sprecheridentität (Sprecher 1, Sprecher 2 usw.)
Wann: Start- und End-Zeitstempel
Was: Transkribierter Textinhalt

Beispielausgabe:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR als MCP-Server

VibeVoice-ASR kann als MCP-Server (Model Context Protocol) ausgeführt werden, der direkt in Claude Code, Cursor und andere KI-Codierungstools integrierbar ist:

# Den MCP-Server installieren
pip install vibevoice-mcp-server

# Ausführen
vibevoice-mcp serve

Dies ermöglicht es Ihrem Codierungs-Agenten, Besprechungen, Sprachnotizen oder Audioaufnahmen als Teil seines Workflows zu transkribieren. Sie diktieren Anforderungen, der MCP-Server transkribiert sie, und der Codierungs-Agent verarbeitet den Text.

Wann VibeVoice-ASR vs. Whisper verwenden

Anwendungsfall	Beste Wahl	Warum
Lange Besprechungen (30-60 Min.)	VibeVoice-ASR	Einmalige 60-Minuten-Verarbeitung, Sprechererkennung
Interviews mit mehreren Sprechern	VibeVoice-ASR	Integrierte Diarisierung
Podcasts, die Zeitstempel benötigen	VibeVoice-ASR	Strukturierte Wer/Wann/Was-Ausgabe
Mehrsprachige Inhalte (über 50 Sprachen)	VibeVoice-ASR	Breitere Sprachunterstützung
Kurze Clips in lauten Umgebungen	Whisper	Bessere Rauschrobustheit
Edge-/Mobile-Bereitstellung	Whisper	Kleinere Modellgröße, breitere Geräteunterstützung
Nicht-englische Sprachen (spezialisiert)	Whisper	Ausgereiftere mehrsprachige Feinabstimmung

Testen von Sprach-KI-APIs mit Apidog

Egal, ob Sie den VibeVoice FastAPI-Wrapper, den Azure AI Foundry-Endpunkt oder Ihre eigene Sprach-KI-API verwenden, Apidog hilft Ihnen beim Testen und Debuggen dieser Integrationen.

Screenshot der Apidog-Oberfläche, die einen API-Anforderungseditor für einen VibeVoice-TTS-Endpunkt zeigt, mit Feldern für Modell, Eingabe, Stimme und Ausgabeformat.

TTS-Endpunkt testen

Erstellen Sie eine neue POST-Anfrage in Apidog, die auf Ihren VibeVoice FastAPI-Server verweist.
Stellen Sie den Anforderungs-Body auf das OpenAI-kompatible Format ein:

{
  "model": "vibevoice-1.5b",
  "input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
  "voice": "alice",
  "response_format": "wav"
}

Senden Sie die Anfrage und überprüfen Sie, ob die Antwort-Header den Inhaltstyp audio/wav enthalten.
Speichern Sie die Antwort als WAV-Datei, um die Audioqualität zu überprüfen.

ASR-Endpunkt testen

Für Sprach-zu-Text-APIs:

Richten Sie eine POST-Anfrage mit multipart/form-data ein.
Fügen Sie Ihre Audiodatei als Formularfeld an.
Überprüfen Sie, ob die strukturierte JSON-Antwort Sprecher-IDs, Zeitstempel und transkribierten Text enthält.

Audio-API-Verträge validieren

Sprach-KI-APIs verarbeiten binäre Daten (Audiodateien) zusammen mit JSON-Metadaten. Der Anfrage-Builder von Apidog verarbeitet beides:

Binäre Dateiuploads für ASR-Endpunkte
JSON-Body-Formatierung für TTS-Endpunkte
Antwortvalidierung für strukturierte Transkriptionsausgaben
Umgebungsvariablen zum Umschalten zwischen lokalen und Cloud-Endpunkten

Laden Sie Apidog herunter, um Ihre Sprach-KI-Integrationen zu testen, bevor Sie sie in der Produktion bereitstellen.

button

Sicherheit und verantwortungsvolle Nutzung

Microsoft hat nach den anfänglichen Missbrauchsfällen mehrere Schutzmaßnahmen hinzugefügt:

Hörbarer KI-Haftungsausschluss: Alle generierten Audios enthalten eine automatische Nachricht „Dieses Segment wurde von KI generiert“.
Unmerkliches Wasserzeichen: Versteckte Markierungen ermöglichen die Überprüfung von VibeVoice-generierten Inhalten durch Dritte.
Inferenz-Protokollierung: Gehashte Protokolle erkennen Missbrauchsmuster mit vierteljährlich aggregierten Statistiken.
MIT-Lizenz: Erlaubt kommerzielle Nutzung, Microsoft empfiehlt jedoch, die Bereitstellung in der Produktion ohne weitere Tests zu unterlassen.

Was erlaubt ist

Forschungs- und akademische Nutzung
Internes Prototyping und Testen
Podcast-Generierung mit ordnungsgemäßer KI-Offenlegung
Barrierefreiheitsanwendungen (Text-zu-Sprache für sehbehinderte Benutzer)

Was nicht erlaubt ist

Stimmimitation ohne ausdrückliche aufgezeichnete Zustimmung
Deepfakes oder die Präsentation von KI-Audio als echte menschliche Aufnahmen
Echtzeit-Stimmenkonvertierung für Live-Deepfake-Anwendungen
Generierung von Nicht-Sprach-Audio (Musik, Soundeffekte)

Einschränkungen, die zu beachten sind

Die Sprachunterstützung ist für TTS eingeschränkt. VibeVoice-1.5B unterstützt Englisch und Chinesisch. Andere Sprachen erzeugen unverständliche Ausgaben. VibeVoice-ASR hat eine breitere Abdeckung mit über 50 Sprachen.

Ein Diagramm, das die Sprachabdeckung von VibeVoice-ASR zeigt, wobei über 50 Sprachen auf einer Weltkarte hervorgehoben sind.

Die Hardware-Anforderungen sind für ASR hoch. Das ASR-Modell benötigt 24 GB+ VRAM (GPUs der Klasse A100/H100). Die TTS-Modelle laufen auf Consumer-GPUs mit 7-8 GB VRAM.

Keine Verarbeitung überlappender Sprache. Das TTS-Modell modelliert keine Sprecher, die übereinander sprechen. Alle Dialoge sind rundenbasiert.

Vererbte Modellverzerrungen. Beide Modelle erben Verzerrungen von ihrer Qwen2.5-Basis. Ausgaben können unerwartete, voreingenommene oder ungenaue Inhalte enthalten.

Software auf Forschungsniveau. Dies ist nicht produktionsreif. Erwarten Sie unvollkommene Stellen in Randfällen, bei der Fehlerbehandlung und bei nicht-englischer Ausgabe.

VibeVoice-ASR auf Azure AI Foundry bereitstellen

Für Teams, die keine GPU-Infrastruktur verwalten möchten, hat Microsoft VibeVoice-ASR über Azure AI Foundry verfügbar gemacht. Dies bietet Ihnen einen verwalteten API-Endpunkt ohne Hardware-Bereitstellung.

Die Azure-Bereitstellung übernimmt Skalierung, Modellaktualisierungen und Infrastrukturwartung. Sie erhalten einen HTTPS-Endpunkt, der Audiodateien akzeptiert und strukturierte Transkriptionen im gleichen Wer/Wann/Was-Format wie das lokale Modell zurückgibt.

Dies ist besonders nützlich für Produktions-Workloads, bei denen Sie eine konsistente Betriebszeit und SLA-Garantien benötigen, die eine selbst gehostete GPU-Inferenz nicht bieten kann. Überprüfen Sie den Modellkatalog von Azure AI Foundry für aktuelle Preise und Bereitstellungsoptionen.

Um Ihren Azure-gehosteten VibeVoice-Endpunkt zu testen, bevor Sie ihn in Ihre Anwendung integrieren, richten Sie die Endpunkt-URL und die Authentifizierungs-Header in Apidog ein und führen Sie Testtranskriptionen für Beispiel-Audiodateien aus.

Community und Ökosystem

VibeVoice hat eine aktive Community:

Über 62.630 monatliche HuggingFace-Downloads für das 1.5B-Modell
Über 2.280 Likes auf HuggingFace
Über 79 HuggingFace Spaces, die das Modell ausführen
12 feinabgestimmte Varianten aus der Community
4 quantisierte Versionen für die Bereitstellung mit geringerem VRAM
Community-Fork unter vibevoice-community/VibeVoice mit aktiver Wartung

Bemerkenswerte Community-Projekte:

VibeVoice-FastAPI: REST-API-Wrapper für die Produktion mit Docker-Unterstützung
VibeVoice MCP Server: Integration mit KI-Codierungstools über das Model Context Protocol
Apple Silicon-Unterstützung: Community-Skripte für die Inferenz auf Macs der M-Serie
Quantisierte Modelle: GGUF und andere Formate für reduzierten VRAM-Verbrauch

FAQ

Ist VibeVoice kostenlos nutzbar?

Ja. Alle drei Modelle (TTS 1.5B, Realtime 0.5B, ASR) sind MIT-lizenziert. Sie können sie für kommerzielle und nicht-kommerzielle Zwecke verwenden. Das Azure AI Foundry Hosting hat separate Preise für verwaltete Cloud-Inferenz.

Kann VibeVoice auf Apple Silicon Macs laufen?

Die Community hat Skripte für die Inferenz auf Macs der M-Serie beigesteuert. Überprüfen Sie die HuggingFace-Diskussionen für das VibeVoice-1.5B-Modell. Die Leistung ist langsamer als bei CUDA-GPUs, aber funktionsfähig.

Wie vergleicht sich VibeVoice mit ElevenLabs?

VibeVoice läuft lokal ohne API-Kosten und ohne dass Daten Ihren Rechner verlassen. ElevenLabs bietet höhere Qualität, mehr Stimmen und eine einfachere Einrichtung, erfordert aber ein kostenpflichtiges Abonnement und Cloud-Verarbeitung. Für datenschutzsensible Anwendungen oder Offline-Nutzung ist VibeVoice die bessere Wahl. Für Produktionsqualität und Benutzerfreundlichkeit ist ElevenLabs voraus.

Warum wurde das GitHub-Repository vorübergehend deaktiviert?

Microsoft entdeckte, dass Personen Stimmklonung für Imitationen und Deepfakes verwendeten. Sie deaktivierten das Repository, fügten Sicherheitsfunktionen hinzu (hörbare Haftungsausschlüsse, Wasserzeichen) und reaktivierten es. Der Community-Fork hielt die Entwicklung während der Ausfallzeit am Laufen.

Kann ich VibeVoice auf benutzerdefinierte Stimmen feinabstimmen?

Ja. Die Community hat 12 feinabgestimmte Varianten auf HuggingFace produziert. Sie benötigen Sprachproben (30-60 Sekunden klares WAV-Audio bei 24kHz Mono) und GPU-Ressourcen für das Training.

Welche Audioformate gibt VibeVoice aus?

WAV bei 24.000 Hz Mono. Sie können nach der Generierung mit ffmpeg in MP3, OGG, FLAC oder andere Formate konvertieren.

Kann ich VibeVoice-ASR als Whisper-Ersatz verwenden?

Für Langform-Audio mit Sprecheridentifikation, ja. VibeVoice-ASR verarbeitet 60-Minuten-Aufnahmen in einem Durchgang mit integrierter Diarisierung. Whisper benötigt externe Tools für die Sprecheridentifikation und hat Schwierigkeiten mit Aufnahmen über 30 Minuten ohne Chunking. Für kurze, laute Clips oder Edge-Bereitstellung bleibt Whisper die bessere Wahl.

Unterstützt VibeVoice Echtzeit-Sprachchats?

VibeVoice-Realtime-0.5B unterstützt Streaming-Texteingabe mit einer Latenz von ~300 ms für den ersten Block. Es ist für nahezu Echtzeit-Anwendungen nutzbar, ist aber nicht für Vollduplex-Sprachkonversationen ausgelegt. Dafür schauen Sie sich Azure OpenAIs GPT-Realtime oder ähnliche gehostete Lösungen an.

button