Qu'est-ce que Microsoft VibeVoice ? Comment utiliser les modèles vocaux IA Open Source

Ashley Innocent

Ashley Innocent

2 April 2026

Qu'est-ce que Microsoft VibeVoice ? Comment utiliser les modèles vocaux IA Open Source

En bref

VibeVoice est la famille d'IA vocale open-source de Microsoft, comprenant trois modèles : VibeVoice-1.5B pour la synthèse vocale (jusqu'à 90 minutes, 4 locuteurs), VibeVoice-Realtime-0.5B pour le TTS en streaming, et VibeVoice-ASR pour la reconnaissance vocale (audio de 60 minutes, plus de 50 langues, 7,77 % WER). Tous les modèles sont sous licence MIT et fonctionnent localement. Ce guide couvre l'installation, l'utilisation et l'intégration API.

Introduction

Microsoft a lancé VibeVoice, un framework d'IA vocale open-source, début 2026. Il comprend des modèles pour la synthèse vocale (text-to-speech) et la reconnaissance vocale (automatic speech recognition), tous fonctionnant localement sur votre matériel sans dépendance au cloud.

Le framework propose trois modèles :

Les modèles TTS ont suscité la controverse après leur publication. Microsoft a temporairement désactivé le dépôt GitHub principal lorsqu'il a découvert une mauvaise utilisation du clonage vocal. La communauté a forké le code, et Microsoft a par la suite réactivé le dépôt avec des protections supplémentaires : une clause de non-responsabilité audible sur l'IA intégrée dans l'audio généré et un filigrane imperceptible pour la vérification de la provenance.

VibeVoice-ASR est désormais disponible sur Azure AI Foundry pour le déploiement cloud. Les modèles TTS restent axés sur la recherche et sont sous licence MIT.

Ce guide vous présente l'installation, la génération de texte-vers-parole, la reconnaissance vocale, l'intégration API et comment tester les points d'API d'IA vocale avec Apidog.

bouton

Fonctionnement de VibeVoice : aperçu de l'architecture

La percée du tokeniseur

L'avancée majeure de VibeVoice réside dans ses tokeniseurs de parole continus fonctionnant à un débit d'images ultra-faible de **7,5 Hz**. À titre de comparaison, la plupart des modèles de parole traitent l'audio à 50-100 Hz. Cette réduction de 7 à 13 fois du débit d'images signifie que le modèle gère de longues séquences (90 minutes d'audio) sans manquer de contexte.

Le système utilise deux tokeniseurs :

Diffusion par jeton suivant

Le modèle combine un noyau LLM (Qwen2.5-1.5B) avec une tête de diffusion légère (~123 millions de paramètres). Le LLM gère le contexte textuel et le flux de dialogue. La tête de diffusion génère des détails acoustiques haute fidélité à l'aide de DDPM (Denoising Diffusion Probabilistic Models) avec un guidage sans classifieur.

Nombre total de paramètres : **3 milliards** (y compris les tokeniseurs et la tête de diffusion).

Approche d'entraînement

VibeVoice utilise l'apprentissage par curriculum, s'entraînant progressivement sur des séquences plus longues : 4K, 16K, 32K, puis 64K jetons. Les tokeniseurs pré-entraînés restent figés pendant cette phase ; seuls les paramètres du LLM et de la tête de diffusion sont mis à jour. Cela permet au modèle d'apprendre à gérer des audio de plus en plus longs sans oublier ses capacités de courtes durées.

Spécifications des modèles VibeVoice

Modèle Paramètres Objectif Durée maximale Langues Licence
VibeVoice-1.5B 3 milliards (total) Texte-vers-parole 90 minutes Anglais, Chinois MIT
VibeVoice-Realtime-0.5B ~0.5 milliards TTS en streaming Longue durée Anglais, Chinois MIT
VibeVoice-ASR ~9 milliards Reconnaissance vocale 60 minutes 50+ langues MIT

VibeVoice-1.5B (TTS)

Spécification Valeur
Base LLM Qwen2.5-1.5B
Longueur de contexte 64K jetons
Max. locuteurs 4 simultanés
Sortie audio 24kHz WAV mono
Type de tenseur BF16
Format Safetensors
Téléchargements HuggingFace 62 630/mois
Forks communautaires 12 variantes affinées

VibeVoice-ASR

Spécification Valeur
Base architecturale Qwen2.5
Paramètres ~9 milliards
Traitement audio Jusqu'à 60 minutes en un seul passage
Débit d'images 7.5 Hz
WER moyen 7,77 % (sur 8 ensembles de données en anglais)
WER LibriSpeech Clean 2.20%
WER TED-LIUM 2.57%
Langues 50+
Sortie Structurée (Qui + Quand + Quoi)
Audio supporté WAV, FLAC, MP3 à 16kHz+

Installation et configuration

Prérequis

Installer VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Les modèles sont téléchargés automatiquement depuis HuggingFace lors de la première exécution. Vous pouvez également les pré-télécharger :

from huggingface_hub import snapshot_download

# Télécharger le modèle TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Installation via pip (paquet communautaire)

pip install vibevoice

Installation pour l'ASR

VibeVoice-ASR utilise une configuration séparée :

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Ou déployez via Azure AI Foundry pour l'inférence cloud gérée.

Génération de parole avec VibeVoice-1.5B

Génération par un seul locuteur

Créez un fichier texte avec votre script :

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Exécutez l'inférence :

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

La sortie est enregistrée sous forme de fichier .wav dans le répertoire outputs/.

Génération de podcast multi-locuteurs

VibeVoice gère jusqu'à 4 locuteurs avec des identités vocales cohérentes tout au long de l'enregistrement :

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

Le modèle maintient des caractéristiques vocales distinctes pour chaque locuteur tout au long de la conversation, même pour des durées de 90 minutes.

Clonage de voix (zero-shot)

Clonez une voix à partir d'un échantillon audio de référence :

Exigences audio :

Convertissez l'audio existant au bon format :

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Utilisez l'interface de démonstration Gradio pour le clonage de voix :

python demo/gradio_demo.py

Ceci lance une interface web à http://127.0.0.1:7860 où vous téléchargez votre audio de référence, sélectionnez la voix clonée et générez la parole.

Streaming avec VibeVoice-Realtime-0.5B

Pour les applications nécessitant une sortie audio à faible latence (premier chunk d'environ 300 ms) :

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

Le modèle Realtime est plus petit et plus rapide, mais il produit un son de fidélité inférieure à celui du modèle complet 1.5B. Utilisez-le pour les applications interactives ; utilisez le 1.5B pour le contenu pré-généré.

Utilisation de VibeVoice avec Python

API Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Télécharger le modèle
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Charger le pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Préparer le script multi-locuteurs
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Appliquer le template de chat
input_data = pipe.processor.apply_chat_template(script)

# Générer l'audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI pour la production

La communauté a créé un wrapper FastAPI qui expose VibeVoice comme une API TTS compatible OpenAI :

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Cela vous donne un point d'API compatible avec le format TTS d'OpenAI :

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Ce point d'API compatible OpenAI signifie que vous pouvez tester votre intégration API VibeVoice avec Apidog en utilisant le même format de requête que vous utiliseriez pour l'API TTS d'OpenAI. Importez le point d'API, configurez le corps de votre requête et testez la génération vocale sans écrire de code d'application.

Utilisation de VibeVoice-ASR pour la reconnaissance vocale

Transcription de base

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Format de sortie structuré

VibeVoice-ASR produit des transcriptions structurées avec trois champs par segment :

Exemple de sortie :

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR en tant que serveur MCP

VibeVoice-ASR peut fonctionner comme un serveur MCP (Model Context Protocol), se branchant directement sur Claude Code, Cursor et d'autres outils de codage basés sur l'IA :

# Installer le serveur MCP
pip install vibevoice-mcp-server

# Lancer
vibevoice-mcp serve

Cela permet à votre agent de codage de transcrire des réunions, des notes vocales ou des enregistrements audio dans le cadre de son flux de travail. Vous dictez les exigences, le serveur MCP les transcrit et l'agent de codage traite le texte.

Quand utiliser VibeVoice-ASR vs Whisper

Cas d'utilisation Meilleur choix Pourquoi
Longues réunions (30-60 min) VibeVoice-ASR Traitement en un seul passage de 60 min, ID du locuteur
Interviews avec plusieurs locuteurs VibeVoice-ASR Diarisation intégrée
Podcasts nécessitant des horodatages VibeVoice-ASR Sortie structurée Qui/Quand/Quoi
Contenu multilingue (50+ langues) VibeVoice-ASR Prise en charge linguistique plus large
Courts clips dans des environnements bruyants Whisper Meilleure robustesse au bruit
Déploiement en périphérie/mobile Whisper Taille de modèle réduite, prise en charge de plus d'appareils
Langues non anglaises (spécialisées) Whisper Affinage multilingue plus mature

Test des API d'IA vocale avec Apidog

Que vous utilisiez le wrapper FastAPI de VibeVoice, le point de terminaison Azure AI Foundry, ou que vous construisiez votre propre API d'IA vocale, Apidog vous aide à tester et déboguer ces intégrations.

Tester le point de terminaison TTS

  1. Créez une nouvelle requête POST dans Apidog pointant vers votre serveur FastAPI VibeVoice
  2. Définissez le corps de la requête au format compatible OpenAI :
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
  1. Envoyez la requête et vérifiez que les en-têtes de réponse incluent le type de contenu audio/wav
  2. Enregistrez la réponse sous forme de fichier WAV pour vérifier la qualité audio

Tester le point de terminaison ASR

Pour les API de synthèse vocale :

  1. Configurez une requête POST avec multipart/form-data
  2. Joignez votre fichier audio en tant que champ de formulaire
  3. Vérifiez que la réponse JSON structurée inclut les identifiants des locuteurs, les horodatages et le texte transcrit

Valider les contrats API audio

Les API d'IA vocale gèrent les données binaires (fichiers audio) en même temps que les métadonnées JSON. Le constructeur de requêtes d'Apidog gère les deux :

Téléchargez Apidog pour tester vos intégrations d'IA vocale avant de les déployer en production.

bouton

Sécurité et utilisation responsable

Microsoft a ajouté plusieurs mesures de protection après les incidents de mauvaise utilisation initiaux :

Ce qui est autorisé

Ce qui n'est pas autorisé

Limitations à connaître

Le support linguistique est limité pour le TTS. VibeVoice-1.5B prend en charge l'anglais et le chinois. D'autres langues produisent une sortie inintelligible. VibeVoice-ASR a une couverture plus large avec plus de 50 langues.

Les exigences matérielles sont élevées pour l'ASR. Le modèle ASR nécessite plus de 24 Go de VRAM (GPU de classe A100/H100). Les modèles TTS fonctionnent sur des GPU grand public avec 7-8 Go de VRAM.

Pas de gestion du chevauchement de la parole. Le modèle TTS ne modélise pas les locuteurs qui se parlent les uns sur les autres. Tout le dialogue est basé sur des tours de parole.

Biais de modèle hérités. Les deux modèles héritent des biais de leur base Qwen2.5. Les sorties peuvent contenir un contenu inattendu, biaisé ou inexact.

Logiciel de niveau recherche. Ce n'est pas prêt pour la production. Attendez-vous à des imperfections dans les cas limites, la gestion des erreurs et la sortie non anglaise.

Déploiement de VibeVoice-ASR sur Azure AI Foundry

Pour les équipes qui ne veulent pas gérer l'infrastructure GPU, Microsoft a rendu VibeVoice-ASR disponible via Azure AI Foundry. Cela vous offre un point d'API géré sans avoir à provisionner de matériel.

Le déploiement Azure gère la mise à l'échelle, les mises à jour des modèles et la maintenance de l'infrastructure. Vous obtenez un point de terminaison HTTPS qui accepte les fichiers audio et renvoie des transcriptions structurées dans le même format Qui/Quand/Quoi que le modèle local.

Ceci est particulièrement utile pour les charges de travail de production où vous avez besoin d'une disponibilité constante et de garanties SLA que l'inférence GPU auto-hébergée ne peut pas fournir. Consultez le catalogue de modèles d'Azure AI Foundry pour connaître les tarifs actuels et les options de déploiement.

Pour tester votre point de terminaison VibeVoice hébergé sur Azure avant de l'intégrer à votre application, configurez l'URL du point de terminaison et les en-têtes d'authentification dans Apidog et exécutez des transcriptions de test sur des exemples de fichiers audio.

Communauté et écosystème

VibeVoice dispose d'une communauté active :

Projets communautaires notables :

FAQ

VibeVoice est-il gratuit ?

Oui. Les trois modèles (TTS 1.5B, Realtime 0.5B, ASR) sont sous licence MIT. Vous pouvez les utiliser à des fins commerciales et non commerciales. L'hébergement sur Azure AI Foundry a une tarification distincte pour l'inférence cloud gérée.

VibeVoice peut-il fonctionner sur les Mac Apple Silicon ?

La communauté a contribué avec des scripts pour l'inférence sur Mac M-series. Consultez les discussions HuggingFace pour le modèle VibeVoice-1.5B. Les performances sont plus lentes que celles des GPU CUDA mais fonctionnelles.

Comment VibeVoice se compare-t-il à ElevenLabs ?

VibeVoice fonctionne localement sans frais d'API et sans que vos données ne quittent votre machine. ElevenLabs offre une qualité supérieure, plus de voix et une configuration plus facile, mais nécessite un abonnement payant et un traitement cloud. Pour les applications sensibles à la confidentialité ou l'utilisation hors ligne, VibeVoice l'emporte. Pour la qualité de production et la facilité d'utilisation, ElevenLabs est en avance.

Pourquoi le dépôt GitHub a-t-il été temporairement désactivé ?

Microsoft a découvert que des personnes utilisaient le clonage vocal à des fins d'usurpation d'identité et de deepfakes. Ils ont désactivé le dépôt, ajouté des fonctionnalités de sécurité (avertissements audibles, filigranes) et l'ont réactivé. Le fork communautaire a maintenu le développement pendant cette période.

Puis-je affiner VibeVoice avec des voix personnalisées ?

Oui. La communauté a produit 12 variantes affinées sur HuggingFace. Vous avez besoin d'échantillons vocaux (30-60 secondes d'audio WAV clair à 24 kHz mono) et de ressources GPU pour l'entraînement.

Quels formats audio VibeVoice produit-il ?

WAV à 24 000 Hz mono. Vous pouvez convertir en MP3, OGG, FLAC ou d'autres formats avec ffmpeg après la génération.

Puis-je utiliser VibeVoice-ASR comme remplacement de Whisper ?

Pour les longs enregistrements audio avec identification des locuteurs, oui. VibeVoice-ASR gère des enregistrements de 60 minutes en un seul passage avec diarisation intégrée. Whisper nécessite des outils externes pour l'identification des locuteurs et a du mal avec les enregistrements de plus de 30 minutes sans découpage. Pour les clips courts et bruyants ou le déploiement en périphérie, Whisper reste le meilleur choix.

VibeVoice prend-il en charge le chat vocal en temps réel ?

VibeVoice-Realtime-0.5B prend en charge l'entrée de texte en streaming avec une latence d'environ 300 ms pour le premier chunk. Il est utilisable pour des applications quasi-temps réel mais n'est pas conçu pour une conversation vocale en duplex intégral. Pour cela, penchez-vous sur GPT-Realtime d'Azure OpenAI ou des solutions hébergées similaires.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API

Qu'est-ce que Microsoft VibeVoice ? Comment utiliser les modèles vocaux IA Open Source