Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen

Ashley Innocent

Ashley Innocent

2 April 2026

Microsoft VibeVoice: Open-Source Voice AI Modelle nutzen

TL;DR

VibeVoice ist Microsofts Open-Source-Sprach-KI-Familie mit drei Modellen: VibeVoice-1.5B für Text-zu-Sprache (bis zu 90 Minuten, 4 Sprecher), VibeVoice-Realtime-0.5B für Streaming-TTS und VibeVoice-ASR für Spracherkennung (60-Minuten-Audio, über 50 Sprachen, 7,77 % WER). Alle Modelle sind MIT-lizenziert und laufen lokal. Dieser Leitfaden behandelt Installation, Nutzung und API-Integration.

Einleitung

Microsoft veröffentlichte VibeVoice Anfang 2026 als Open-Source-Sprach-KI-Framework. Es umfasst Modelle sowohl für die Sprachsynthese (Text-zu-Sprache) als auch für die Spracherkennung (automatische Spracherkennung), die alle lokal auf Ihrer Hardware ohne Cloud-Abhängigkeit laufen.

VibeVoice Diagramm mit drei Kreisen, die VibeVoice-1.5B, VibeVoice-Realtime-0.5B und VibeVoice-ASR repräsentieren, verbunden durch Linien in einem organischen Layout.

Das Framework hat drei Modelle:

VibeVoice-ASR-Ergebnisse in verschiedenen Sprachen, einschließlich Englisch, Chinesisch, Deutsch, Spanisch, Russisch und mehr.

Die TTS-Modelle sorgten nach ihrer Veröffentlichung für Kontroversen. Microsoft deaktivierte das Haupt-GitHub-Repository vorübergehend, als sie Missbrauch durch Stimmklonung entdeckten. Die Community erstellte eine Abspaltung des Codes, und Microsoft reaktivierte das Repository später mit zusätzlichen Schutzmaßnahmen: einem hörbaren KI-Haftungsausschluss, der in generierte Audios eingebettet ist, und unmerklichen Wasserzeichen zur Herkunftsüberprüfung.

VibeVoice-ASR ist jetzt auf Azure AI Foundry für die Cloud-Bereitstellung verfügbar. Die TTS-Modelle bleiben forschungsorientiert und unterliegen einer MIT-Lizenz.

Dieser Leitfaden führt Sie durch die Installation, die Text-zu-Sprache-Generierung, die Spracherkennung, die API-Integration und wie Sie Sprach-KI-Endpunkte mit Apidog testen können.

button

Wie VibeVoice funktioniert: Architekturübersicht

Der Tokenizer-Durchbruch

Der Kernfortschritt von VibeVoice sind seine kontinuierlichen Sprachtokenizer, die mit einer extrem niedrigen Framerate von 7,5 Hz arbeiten. Zum Vergleich: Die meisten Sprachmodelle verarbeiten Audio mit 50-100 Hz. Diese 7- bis 13-fache Reduzierung der Framerate bedeutet, dass das Modell lange Sequenzen (90 Minuten Audio) verarbeiten kann, ohne den Kontext zu verlieren.

Schematische Darstellung der Architektur eines VibeVoice Tokenizers, der die Datenflüsse durch Encoder, Quantizer und Decoder zeigt.
Diagramm, das die VibeVoice-Pipeline für die Text-zu-Sprache-Synthese zeigt, einschließlich LLM, Diffusionsmodell und dem Prozess zur Erzeugung von Audiowellenformen.

Das System verwendet zwei Tokenizer:

Next-Token-Diffusion

Das Modell kombiniert eine LLM-Grundlage (Qwen2.5-1.5B) mit einem leichten Diffusions-Head (~123 Mio. Parameter). Die LLM verarbeitet textuellen Kontext und Dialogfluss. Der Diffusions-Head generiert hochauflösende akustische Details mithilfe von DDPM (Denoising Diffusion Probabilistic Models) mit Classifier-Free Guidance.

Gesamtzahl der Parameter: 3B (einschließlich Tokenizer und Diffusions-Head).

Trainingsansatz

VibeVoice verwendet Curriculum Learning, wobei schrittweise längere Sequenzen trainiert werden: 4K, 16K, 32K, dann 64K Token. Die vortrainierten Tokenizer bleiben während dieser Phase eingefroren; nur die Parameter der LLM und des Diffusions-Heads werden aktualisiert. Dies ermöglicht es dem Modell, die Verarbeitung zunehmend langer Audios zu lernen, ohne Kurzform-Fähigkeiten zu vergessen.

VibeVoice-Modellspezifikationen

Modell Parameter Zweck Maximale Länge Sprachen Lizenz
VibeVoice-1.5B 3B (gesamt) Text-zu-Sprache 90 Minuten Englisch, Chinesisch MIT
VibeVoice-Realtime-0.5B ~0.5B Streaming-TTS Langform Englisch, Chinesisch MIT
VibeVoice-ASR ~9B Spracherkennung 60 Minuten Über 50 Sprachen MIT

VibeVoice-1.5B (TTS)

Spezifikation Wert
LLM-Basis Qwen2.5-1.5B
Kontextlänge 64K Token
Max. Sprecher 4 gleichzeitig
Audioausgabe 24kHz WAV Mono
Tensor-Typ BF16
Format Safetensors
HuggingFace-Downloads 62.630/Monat
Community-Forks 12 feinabgestimmte Varianten

VibeVoice-ASR

Spezifikation Wert
Architektur-Basis Qwen2.5
Parameter ~9B
Audioverarbeitung Bis zu 60 Minuten in einem Durchgang
Framerate 7.5 Hz
Durchschnittliche WER 7.77% (über 8 englische Datensätze)
LibriSpeech Clean WER 2.20%
TED-LIUM WER 2.57%
Sprachen Über 50
Ausgabe Strukturiert (Wer + Wann + Was)
Unterstützte Audioformate WAV, FLAC, MP3 bei 16kHz+

Installation und Einrichtung

Voraussetzungen

VibeVoice TTS installieren

# Repository klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Abhängigkeiten installieren
pip install -r requirements.txt

Modelle werden beim ersten Start automatisch von HuggingFace heruntergeladen. Sie können sie auch vorab herunterladen:

from huggingface_hub import snapshot_download

# Das 1.5B TTS-Modell herunterladen
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Installation via pip (Community-Paket)

pip install vibevoice

Für ASR installieren

VibeVoice-ASR verwendet eine separate Einrichtung:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Oder über Azure AI Foundry für verwaltete Cloud-Inferenz bereitstellen.

Spracherzeugung mit VibeVoice-1.5B

Generierung eines einzelnen Sprechers

Erstellen Sie eine Textdatei mit Ihrem Skript:

Alice: Willkommen zum Apidog Entwickler-Podcast. Heute behandeln wir API-Teststrategien für 2026.

Inferenz ausführen:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

Die Ausgabe wird als .wav-Datei im Verzeichnis outputs/ gespeichert.

Podcast-Generierung mit mehreren Sprechern

VibeVoice verarbeitet bis zu 4 Sprecher mit konsistenten Stimmidentitäten während der gesamten Aufnahme:

Alice: Willkommen zurück zur Show. Heute haben wir zwei API-Experten bei uns.
Bob: Danke für die Einladung. Ich habe die letzten fünf Jahre an REST-API-Designmustern gearbeitet.
Carol: Und ich konzentriere mich auf die GraphQL-Leistungsoptimierung. Freut mich, hier zu sein.
Alice: Beginnen wir mit der Debatte, die jeder hören möchte. REST versus GraphQL für Mikroservices.
Bob: REST gibt Ihnen klare Ressourcengrenzen. Jeder Endpunkt ist einer bestimmten Ressource zugeordnet.
Carol: GraphQL bietet Ihnen Flexibilität. Ein Endpunkt, und der Client entscheidet, welche Daten er benötigt.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Das Modell behält für jeden Sprecher während des gesamten Gesprächs, selbst bei einer Länge von 90 Minuten, unterschiedliche Stimmcharakteristika bei.

Stimmklonung (Zero-Shot)

Klonen Sie eine Stimme aus einer Referenz-Audiodatei:

Audioanforderungen:

Bestehendes Audio in das richtige Format konvertieren:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Verwenden Sie die Gradio-Demo-Oberfläche für die Stimmklonung:

python demo/gradio_demo.py

Dies startet eine Web-Benutzeroberfläche unter http://127.0.0.1:7860, wo Sie Ihre Referenz-Audiodatei hochladen, die geklonte Stimme auswählen und Sprache generieren können.

Streaming mit VibeVoice-Realtime-0.5B

Für Anwendungen, die eine Audioausgabe mit geringer Latenz (~300 ms für den ersten Block) benötigen:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Das Realtime-Modell ist kleiner und schneller, erzeugt aber Audio mit geringerer Wiedergabetreue als das vollständige 1.5B-Modell. Verwenden Sie es für interaktive Anwendungen; verwenden Sie das 1.5B-Modell für vorab generierte Inhalte.

VibeVoice mit Python verwenden

Pipeline-API

from transformers import pipeline
from huggingface_hub import snapshot_download

# Modell herunterladen
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Pipeline laden
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Skript für mehrere Sprecher vorbereiten
script = [
    {"role": "Alice", "content": "Wie gehen Sie mit API-Versionierung um?"},
    {"role": "Bob", "content": "Wir verwenden URL-Pfad-Versionierung. v1, v2 und so weiter."},
]

# Chat-Vorlage anwenden
input_data = pipe.processor.apply_chat_template(script)

# Audio generieren
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

FastAPI-Wrapper für die Produktion

Die Community hat einen FastAPI-Wrapper erstellt, der VibeVoice als OpenAI-kompatible TTS-API bereitstellt:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Dies bietet Ihnen einen API-Endpunkt, der mit dem TTS-Format von OpenAI kompatibel ist:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Ihre API-Dokumentation sollte eine Konversation sein, keine Monolog.",
    "voice": "alice"
  }' \
  --output speech.wav

Dieser OpenAI-kompatible Endpunkt bedeutet, dass Sie Ihre VibeVoice-API-Integration mit Apidog mit demselben Anfrageformat testen können, das Sie für die TTS-API von OpenAI verwenden würden. Importieren Sie den Endpunkt, konfigurieren Sie Ihren Anforderungs-Body und testen Sie die Stimmerzeugung, ohne Anwendungs-Code schreiben zu müssen.

VibeVoice-ASR für die Spracherkennung verwenden

Grundlegende Transkription

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Strukturiertes Ausgabeformat

VibeVoice-ASR erstellt strukturierte Transkriptionen mit drei Feldern pro Segment:

Beispielausgabe:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR als MCP-Server

VibeVoice-ASR kann als MCP-Server (Model Context Protocol) ausgeführt werden, der direkt in Claude Code, Cursor und andere KI-Codierungstools integrierbar ist:

# Den MCP-Server installieren
pip install vibevoice-mcp-server

# Ausführen
vibevoice-mcp serve

Dies ermöglicht es Ihrem Codierungs-Agenten, Besprechungen, Sprachnotizen oder Audioaufnahmen als Teil seines Workflows zu transkribieren. Sie diktieren Anforderungen, der MCP-Server transkribiert sie, und der Codierungs-Agent verarbeitet den Text.

Wann VibeVoice-ASR vs. Whisper verwenden

Anwendungsfall Beste Wahl Warum
Lange Besprechungen (30-60 Min.) VibeVoice-ASR Einmalige 60-Minuten-Verarbeitung, Sprechererkennung
Interviews mit mehreren Sprechern VibeVoice-ASR Integrierte Diarisierung
Podcasts, die Zeitstempel benötigen VibeVoice-ASR Strukturierte Wer/Wann/Was-Ausgabe
Mehrsprachige Inhalte (über 50 Sprachen) VibeVoice-ASR Breitere Sprachunterstützung
Kurze Clips in lauten Umgebungen Whisper Bessere Rauschrobustheit
Edge-/Mobile-Bereitstellung Whisper Kleinere Modellgröße, breitere Geräteunterstützung
Nicht-englische Sprachen (spezialisiert) Whisper Ausgereiftere mehrsprachige Feinabstimmung

Testen von Sprach-KI-APIs mit Apidog

Egal, ob Sie den VibeVoice FastAPI-Wrapper, den Azure AI Foundry-Endpunkt oder Ihre eigene Sprach-KI-API verwenden, Apidog hilft Ihnen beim Testen und Debuggen dieser Integrationen.

Screenshot der Apidog-Oberfläche, die einen API-Anforderungseditor für einen VibeVoice-TTS-Endpunkt zeigt, mit Feldern für Modell, Eingabe, Stimme und Ausgabeformat.

TTS-Endpunkt testen

  1. Erstellen Sie eine neue POST-Anfrage in Apidog, die auf Ihren VibeVoice FastAPI-Server verweist.
  2. Stellen Sie den Anforderungs-Body auf das OpenAI-kompatible Format ein:
{
  "model": "vibevoice-1.5b",
  "input": "Testsprachsynthese mit der richtigen Intonation und Sprechgeschwindigkeit.",
  "voice": "alice",
  "response_format": "wav"
}
  1. Senden Sie die Anfrage und überprüfen Sie, ob die Antwort-Header den Inhaltstyp audio/wav enthalten.
  2. Speichern Sie die Antwort als WAV-Datei, um die Audioqualität zu überprüfen.

ASR-Endpunkt testen

Für Sprach-zu-Text-APIs:

  1. Richten Sie eine POST-Anfrage mit multipart/form-data ein.
  2. Fügen Sie Ihre Audiodatei als Formularfeld an.
  3. Überprüfen Sie, ob die strukturierte JSON-Antwort Sprecher-IDs, Zeitstempel und transkribierten Text enthält.

Audio-API-Verträge validieren

Sprach-KI-APIs verarbeiten binäre Daten (Audiodateien) zusammen mit JSON-Metadaten. Der Anfrage-Builder von Apidog verarbeitet beides:

Laden Sie Apidog herunter, um Ihre Sprach-KI-Integrationen zu testen, bevor Sie sie in der Produktion bereitstellen.

button

Sicherheit und verantwortungsvolle Nutzung

Microsoft hat nach den anfänglichen Missbrauchsfällen mehrere Schutzmaßnahmen hinzugefügt:

Was erlaubt ist

Was nicht erlaubt ist

Einschränkungen, die zu beachten sind

Die Sprachunterstützung ist für TTS eingeschränkt. VibeVoice-1.5B unterstützt Englisch und Chinesisch. Andere Sprachen erzeugen unverständliche Ausgaben. VibeVoice-ASR hat eine breitere Abdeckung mit über 50 Sprachen.

Ein Diagramm, das die Sprachabdeckung von VibeVoice-ASR zeigt, wobei über 50 Sprachen auf einer Weltkarte hervorgehoben sind.

Die Hardware-Anforderungen sind für ASR hoch. Das ASR-Modell benötigt 24 GB+ VRAM (GPUs der Klasse A100/H100). Die TTS-Modelle laufen auf Consumer-GPUs mit 7-8 GB VRAM.

Keine Verarbeitung überlappender Sprache. Das TTS-Modell modelliert keine Sprecher, die übereinander sprechen. Alle Dialoge sind rundenbasiert.

Vererbte Modellverzerrungen. Beide Modelle erben Verzerrungen von ihrer Qwen2.5-Basis. Ausgaben können unerwartete, voreingenommene oder ungenaue Inhalte enthalten.

Software auf Forschungsniveau. Dies ist nicht produktionsreif. Erwarten Sie unvollkommene Stellen in Randfällen, bei der Fehlerbehandlung und bei nicht-englischer Ausgabe.

VibeVoice-ASR auf Azure AI Foundry bereitstellen

Für Teams, die keine GPU-Infrastruktur verwalten möchten, hat Microsoft VibeVoice-ASR über Azure AI Foundry verfügbar gemacht. Dies bietet Ihnen einen verwalteten API-Endpunkt ohne Hardware-Bereitstellung.

Die Azure-Bereitstellung übernimmt Skalierung, Modellaktualisierungen und Infrastrukturwartung. Sie erhalten einen HTTPS-Endpunkt, der Audiodateien akzeptiert und strukturierte Transkriptionen im gleichen Wer/Wann/Was-Format wie das lokale Modell zurückgibt.

Dies ist besonders nützlich für Produktions-Workloads, bei denen Sie eine konsistente Betriebszeit und SLA-Garantien benötigen, die eine selbst gehostete GPU-Inferenz nicht bieten kann. Überprüfen Sie den Modellkatalog von Azure AI Foundry für aktuelle Preise und Bereitstellungsoptionen.

Um Ihren Azure-gehosteten VibeVoice-Endpunkt zu testen, bevor Sie ihn in Ihre Anwendung integrieren, richten Sie die Endpunkt-URL und die Authentifizierungs-Header in Apidog ein und führen Sie Testtranskriptionen für Beispiel-Audiodateien aus.

Community und Ökosystem

VibeVoice hat eine aktive Community:

Bemerkenswerte Community-Projekte:

FAQ

Ist VibeVoice kostenlos nutzbar?

Ja. Alle drei Modelle (TTS 1.5B, Realtime 0.5B, ASR) sind MIT-lizenziert. Sie können sie für kommerzielle und nicht-kommerzielle Zwecke verwenden. Das Azure AI Foundry Hosting hat separate Preise für verwaltete Cloud-Inferenz.

Kann VibeVoice auf Apple Silicon Macs laufen?

Die Community hat Skripte für die Inferenz auf Macs der M-Serie beigesteuert. Überprüfen Sie die HuggingFace-Diskussionen für das VibeVoice-1.5B-Modell. Die Leistung ist langsamer als bei CUDA-GPUs, aber funktionsfähig.

Wie vergleicht sich VibeVoice mit ElevenLabs?

VibeVoice läuft lokal ohne API-Kosten und ohne dass Daten Ihren Rechner verlassen. ElevenLabs bietet höhere Qualität, mehr Stimmen und eine einfachere Einrichtung, erfordert aber ein kostenpflichtiges Abonnement und Cloud-Verarbeitung. Für datenschutzsensible Anwendungen oder Offline-Nutzung ist VibeVoice die bessere Wahl. Für Produktionsqualität und Benutzerfreundlichkeit ist ElevenLabs voraus.

Warum wurde das GitHub-Repository vorübergehend deaktiviert?

Microsoft entdeckte, dass Personen Stimmklonung für Imitationen und Deepfakes verwendeten. Sie deaktivierten das Repository, fügten Sicherheitsfunktionen hinzu (hörbare Haftungsausschlüsse, Wasserzeichen) und reaktivierten es. Der Community-Fork hielt die Entwicklung während der Ausfallzeit am Laufen.

Kann ich VibeVoice auf benutzerdefinierte Stimmen feinabstimmen?

Ja. Die Community hat 12 feinabgestimmte Varianten auf HuggingFace produziert. Sie benötigen Sprachproben (30-60 Sekunden klares WAV-Audio bei 24kHz Mono) und GPU-Ressourcen für das Training.

Welche Audioformate gibt VibeVoice aus?

WAV bei 24.000 Hz Mono. Sie können nach der Generierung mit ffmpeg in MP3, OGG, FLAC oder andere Formate konvertieren.

Kann ich VibeVoice-ASR als Whisper-Ersatz verwenden?

Für Langform-Audio mit Sprecheridentifikation, ja. VibeVoice-ASR verarbeitet 60-Minuten-Aufnahmen in einem Durchgang mit integrierter Diarisierung. Whisper benötigt externe Tools für die Sprecheridentifikation und hat Schwierigkeiten mit Aufnahmen über 30 Minuten ohne Chunking. Für kurze, laute Clips oder Edge-Bereitstellung bleibt Whisper die bessere Wahl.

Unterstützt VibeVoice Echtzeit-Sprachchats?

VibeVoice-Realtime-0.5B unterstützt Streaming-Texteingabe mit einer Latenz von ~300 ms für den ersten Block. Es ist für nahezu Echtzeit-Anwendungen nutzbar, ist aber nicht für Vollduplex-Sprachkonversationen ausgelegt. Dafür schauen Sie sich Azure OpenAIs GPT-Realtime oder ähnliche gehostete Lösungen an.

button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen