En bref
VibeVoice est la famille d'IA vocale open-source de Microsoft, comprenant trois modèles : VibeVoice-1.5B pour la synthèse vocale (jusqu'à 90 minutes, 4 locuteurs), VibeVoice-Realtime-0.5B pour le TTS en streaming, et VibeVoice-ASR pour la reconnaissance vocale (audio de 60 minutes, plus de 50 langues, 7,77 % WER). Tous les modèles sont sous licence MIT et fonctionnent localement. Ce guide couvre l'installation, l'utilisation et l'intégration API.
Introduction
Microsoft a lancé VibeVoice, un framework d'IA vocale open-source, début 2026. Il comprend des modèles pour la synthèse vocale (text-to-speech) et la reconnaissance vocale (automatic speech recognition), tous fonctionnant localement sur votre matériel sans dépendance au cloud.

Le framework propose trois modèles :
- VibeVoice-1.5B génère un son conversationnel expressif et multi-locuteurs à partir de scripts textuels. Il peut synthétiser jusqu'à 90 minutes de parole avec 4 locuteurs distincts en un seul passage.
- VibeVoice-Realtime-0.5B est une variante légère en streaming qui produit de l'audio avec une latence d'environ 300 ms pour le premier chunk.
- VibeVoice-ASR transcrit jusqu'à 60 minutes d'audio continu avec identification des locuteurs, horodatage et sortie structurée dans plus de 50 langues.

Les modèles TTS ont suscité la controverse après leur publication. Microsoft a temporairement désactivé le dépôt GitHub principal lorsqu'il a découvert une mauvaise utilisation du clonage vocal. La communauté a forké le code, et Microsoft a par la suite réactivé le dépôt avec des protections supplémentaires : une clause de non-responsabilité audible sur l'IA intégrée dans l'audio généré et un filigrane imperceptible pour la vérification de la provenance.
VibeVoice-ASR est désormais disponible sur Azure AI Foundry pour le déploiement cloud. Les modèles TTS restent axés sur la recherche et sont sous licence MIT.
Ce guide vous présente l'installation, la génération de texte-vers-parole, la reconnaissance vocale, l'intégration API et comment tester les points d'API d'IA vocale avec Apidog.
Fonctionnement de VibeVoice : aperçu de l'architecture
La percée du tokeniseur
L'avancée majeure de VibeVoice réside dans ses tokeniseurs de parole continus fonctionnant à un débit d'images ultra-faible de **7,5 Hz**. À titre de comparaison, la plupart des modèles de parole traitent l'audio à 50-100 Hz. Cette réduction de 7 à 13 fois du débit d'images signifie que le modèle gère de longues séquences (90 minutes d'audio) sans manquer de contexte.


Le système utilise deux tokeniseurs :
- Tokeniseur acoustique : Un variant sigma-VAE avec environ 340 millions de paramètres dans un encodeur-décodeur à symétrie miroir. Il sous-échantillonne 3 200 fois l'audio d'entrée de 24 kHz.
- Tokeniseur sémantique : Miroite l'architecture du tokeniseur acoustique mais est entraîné avec une tâche proxy ASR pour capturer la signification linguistique.
Diffusion par jeton suivant
Le modèle combine un noyau LLM (Qwen2.5-1.5B) avec une tête de diffusion légère (~123 millions de paramètres). Le LLM gère le contexte textuel et le flux de dialogue. La tête de diffusion génère des détails acoustiques haute fidélité à l'aide de DDPM (Denoising Diffusion Probabilistic Models) avec un guidage sans classifieur.
Nombre total de paramètres : **3 milliards** (y compris les tokeniseurs et la tête de diffusion).
Approche d'entraînement
VibeVoice utilise l'apprentissage par curriculum, s'entraînant progressivement sur des séquences plus longues : 4K, 16K, 32K, puis 64K jetons. Les tokeniseurs pré-entraînés restent figés pendant cette phase ; seuls les paramètres du LLM et de la tête de diffusion sont mis à jour. Cela permet au modèle d'apprendre à gérer des audio de plus en plus longs sans oublier ses capacités de courtes durées.
Spécifications des modèles VibeVoice
| Modèle | Paramètres | Objectif | Durée maximale | Langues | Licence |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3 milliards (total) | Texte-vers-parole | 90 minutes | Anglais, Chinois | MIT |
| VibeVoice-Realtime-0.5B | ~0.5 milliards | TTS en streaming | Longue durée | Anglais, Chinois | MIT |
| VibeVoice-ASR | ~9 milliards | Reconnaissance vocale | 60 minutes | 50+ langues | MIT |
VibeVoice-1.5B (TTS)
| Spécification | Valeur |
|---|---|
| Base LLM | Qwen2.5-1.5B |
| Longueur de contexte | 64K jetons |
| Max. locuteurs | 4 simultanés |
| Sortie audio | 24kHz WAV mono |
| Type de tenseur | BF16 |
| Format | Safetensors |
| Téléchargements HuggingFace | 62 630/mois |
| Forks communautaires | 12 variantes affinées |
VibeVoice-ASR
| Spécification | Valeur |
|---|---|
| Base architecturale | Qwen2.5 |
| Paramètres | ~9 milliards |
| Traitement audio | Jusqu'à 60 minutes en un seul passage |
| Débit d'images | 7.5 Hz |
| WER moyen | 7,77 % (sur 8 ensembles de données en anglais) |
| WER LibriSpeech Clean | 2.20% |
| WER TED-LIUM | 2.57% |
| Langues | 50+ |
| Sortie | Structurée (Qui + Quand + Quoi) |
| Audio supporté | WAV, FLAC, MP3 à 16kHz+ |
Installation et configuration
Prérequis
- Python 3.8+
- GPU NVIDIA avec support CUDA
- Minimum 7-8 Go de VRAM pour les modèles TTS
- Minimum 24 Go de VRAM pour le modèle ASR (A100/H100 recommandé)
- Minimum 32 Go de RAM (64 Go recommandés pour l'ASR)
- CUDA 11.8+ (CUDA 12.0+ recommandé)
Installer VibeVoice TTS
# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Install dependencies
pip install -r requirements.txt
Les modèles sont téléchargés automatiquement depuis HuggingFace lors de la première exécution. Vous pouvez également les pré-télécharger :
from huggingface_hub import snapshot_download
# Télécharger le modèle TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Installation via pip (paquet communautaire)
pip install vibevoice
Installation pour l'ASR
VibeVoice-ASR utilise une configuration séparée :
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Ou déployez via Azure AI Foundry pour l'inférence cloud gérée.
Génération de parole avec VibeVoice-1.5B
Génération par un seul locuteur
Créez un fichier texte avec votre script :
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Exécutez l'inférence :
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
La sortie est enregistrée sous forme de fichier .wav dans le répertoire outputs/.
Génération de podcast multi-locuteurs
VibeVoice gère jusqu'à 4 locuteurs avec des identités vocales cohérentes tout au long de l'enregistrement :
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
Le modèle maintient des caractéristiques vocales distinctes pour chaque locuteur tout au long de la conversation, même pour des durées de 90 minutes.
Clonage de voix (zero-shot)
Clonez une voix à partir d'un échantillon audio de référence :
Exigences audio :
- Format : WAV (mono)
- Taux d'échantillonnage : 24 000 Hz
- Durée : 30-60 secondes de parole claire
Convertissez l'audio existant au bon format :
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Utilisez l'interface de démonstration Gradio pour le clonage de voix :
python demo/gradio_demo.py
Ceci lance une interface web à http://127.0.0.1:7860 où vous téléchargez votre audio de référence, sélectionnez la voix clonée et générez la parole.
Streaming avec VibeVoice-Realtime-0.5B
Pour les applications nécessitant une sortie audio à faible latence (premier chunk d'environ 300 ms) :
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
Le modèle Realtime est plus petit et plus rapide, mais il produit un son de fidélité inférieure à celui du modèle complet 1.5B. Utilisez-le pour les applications interactives ; utilisez le 1.5B pour le contenu pré-généré.
Utilisation de VibeVoice avec Python
API Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Télécharger le modèle
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Charger le pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Préparer le script multi-locuteurs
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Appliquer le template de chat
input_data = pipe.processor.apply_chat_template(script)
# Générer l'audio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper FastAPI pour la production
La communauté a créé un wrapper FastAPI qui expose VibeVoice comme une API TTS compatible OpenAI :
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Cela vous donne un point d'API compatible avec le format TTS d'OpenAI :
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Ce point d'API compatible OpenAI signifie que vous pouvez tester votre intégration API VibeVoice avec Apidog en utilisant le même format de requête que vous utiliseriez pour l'API TTS d'OpenAI. Importez le point d'API, configurez le corps de votre requête et testez la génération vocale sans écrire de code d'application.
Utilisation de VibeVoice-ASR pour la reconnaissance vocale
Transcription de base
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Format de sortie structuré
VibeVoice-ASR produit des transcriptions structurées avec trois champs par segment :
- Qui : Identité du locuteur (Locuteur 1, Locuteur 2, etc.)
- Quand : Horodatages de début et de fin
- Quoi : Contenu textuel transcrit
Exemple de sortie :
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR en tant que serveur MCP
VibeVoice-ASR peut fonctionner comme un serveur MCP (Model Context Protocol), se branchant directement sur Claude Code, Cursor et d'autres outils de codage basés sur l'IA :
# Installer le serveur MCP
pip install vibevoice-mcp-server
# Lancer
vibevoice-mcp serve
Cela permet à votre agent de codage de transcrire des réunions, des notes vocales ou des enregistrements audio dans le cadre de son flux de travail. Vous dictez les exigences, le serveur MCP les transcrit et l'agent de codage traite le texte.
Quand utiliser VibeVoice-ASR vs Whisper
| Cas d'utilisation | Meilleur choix | Pourquoi |
|---|---|---|
| Longues réunions (30-60 min) | VibeVoice-ASR | Traitement en un seul passage de 60 min, ID du locuteur |
| Interviews avec plusieurs locuteurs | VibeVoice-ASR | Diarisation intégrée |
| Podcasts nécessitant des horodatages | VibeVoice-ASR | Sortie structurée Qui/Quand/Quoi |
| Contenu multilingue (50+ langues) | VibeVoice-ASR | Prise en charge linguistique plus large |
| Courts clips dans des environnements bruyants | Whisper | Meilleure robustesse au bruit |
| Déploiement en périphérie/mobile | Whisper | Taille de modèle réduite, prise en charge de plus d'appareils |
| Langues non anglaises (spécialisées) | Whisper | Affinage multilingue plus mature |
Test des API d'IA vocale avec Apidog
Que vous utilisiez le wrapper FastAPI de VibeVoice, le point de terminaison Azure AI Foundry, ou que vous construisiez votre propre API d'IA vocale, Apidog vous aide à tester et déboguer ces intégrations.

Tester le point de terminaison TTS
- Créez une nouvelle requête POST dans Apidog pointant vers votre serveur FastAPI VibeVoice
- Définissez le corps de la requête au format compatible OpenAI :
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- Envoyez la requête et vérifiez que les en-têtes de réponse incluent le type de contenu
audio/wav - Enregistrez la réponse sous forme de fichier WAV pour vérifier la qualité audio
Tester le point de terminaison ASR
Pour les API de synthèse vocale :
- Configurez une requête POST avec
multipart/form-data - Joignez votre fichier audio en tant que champ de formulaire
- Vérifiez que la réponse JSON structurée inclut les identifiants des locuteurs, les horodatages et le texte transcrit
Valider les contrats API audio
Les API d'IA vocale gèrent les données binaires (fichiers audio) en même temps que les métadonnées JSON. Le constructeur de requêtes d'Apidog gère les deux :
- Téléchargement de fichiers binaires pour les points de terminaison ASR
- Formatage du corps JSON pour les points de terminaison TTS
- Validation de la réponse pour la sortie de transcription structurée
- Variables d'environnement pour basculer entre les points de terminaison locaux et cloud
Téléchargez Apidog pour tester vos intégrations d'IA vocale avant de les déployer en production.
Sécurité et utilisation responsable
Microsoft a ajouté plusieurs mesures de protection après les incidents de mauvaise utilisation initiaux :
- Avertissement audible sur l'IA : Tous les audios générés incluent un message automatique « Ce segment a été généré par l'IA »
- Filigrane imperceptible : Des marqueurs cachés permettent la vérification par des tiers du contenu généré par VibeVoice
- Journalisation de l'inférence : Des journaux hachés détectent les schémas d'abus avec des statistiques agrégées trimestrielles
- Licence MIT : Permet l'utilisation commerciale, mais Microsoft déconseille le déploiement en production sans tests supplémentaires
Ce qui est autorisé
- Utilisation à des fins de recherche et académiques
- Prototypage et tests internes
- Génération de podcasts avec divulgation appropriée de l'IA
- Applications d'accessibilité (synthèse vocale pour les utilisateurs malvoyants)
Ce qui n'est pas autorisé
- Usurpation d'identité vocale sans consentement enregistré explicite
- Deepfakes ou présentation d'audio généré par l'IA comme des enregistrements humains authentiques
- Conversion vocale en temps réel pour des applications de deepfake en direct
- Génération d'audio non-vocal (musique, effets sonores)
Limitations à connaître
Le support linguistique est limité pour le TTS. VibeVoice-1.5B prend en charge l'anglais et le chinois. D'autres langues produisent une sortie inintelligible. VibeVoice-ASR a une couverture plus large avec plus de 50 langues.

Les exigences matérielles sont élevées pour l'ASR. Le modèle ASR nécessite plus de 24 Go de VRAM (GPU de classe A100/H100). Les modèles TTS fonctionnent sur des GPU grand public avec 7-8 Go de VRAM.
Pas de gestion du chevauchement de la parole. Le modèle TTS ne modélise pas les locuteurs qui se parlent les uns sur les autres. Tout le dialogue est basé sur des tours de parole.
Biais de modèle hérités. Les deux modèles héritent des biais de leur base Qwen2.5. Les sorties peuvent contenir un contenu inattendu, biaisé ou inexact.
Logiciel de niveau recherche. Ce n'est pas prêt pour la production. Attendez-vous à des imperfections dans les cas limites, la gestion des erreurs et la sortie non anglaise.
Déploiement de VibeVoice-ASR sur Azure AI Foundry
Pour les équipes qui ne veulent pas gérer l'infrastructure GPU, Microsoft a rendu VibeVoice-ASR disponible via Azure AI Foundry. Cela vous offre un point d'API géré sans avoir à provisionner de matériel.
Le déploiement Azure gère la mise à l'échelle, les mises à jour des modèles et la maintenance de l'infrastructure. Vous obtenez un point de terminaison HTTPS qui accepte les fichiers audio et renvoie des transcriptions structurées dans le même format Qui/Quand/Quoi que le modèle local.
Ceci est particulièrement utile pour les charges de travail de production où vous avez besoin d'une disponibilité constante et de garanties SLA que l'inférence GPU auto-hébergée ne peut pas fournir. Consultez le catalogue de modèles d'Azure AI Foundry pour connaître les tarifs actuels et les options de déploiement.
Pour tester votre point de terminaison VibeVoice hébergé sur Azure avant de l'intégrer à votre application, configurez l'URL du point de terminaison et les en-têtes d'authentification dans Apidog et exécutez des transcriptions de test sur des exemples de fichiers audio.
Communauté et écosystème
VibeVoice dispose d'une communauté active :
- Plus de 62 630 téléchargements mensuels sur HuggingFace pour le modèle 1.5B
- Plus de 2 280 J'aime sur HuggingFace
- Plus de 79 Espaces HuggingFace exécutant le modèle
- 12 variantes affinées par la communauté
- 4 versions quantifiées pour un déploiement avec moins de VRAM
- Fork communautaire à
vibevoice-community/VibeVoiceavec maintenance active
Projets communautaires notables :
- VibeVoice-FastAPI : Wrapper API REST de production avec support Docker
- Serveur MCP VibeVoice : Intégration avec les outils de codage IA via le protocole MCP (Model Context Protocol)
- Support Apple Silicon : Scripts communautaires pour l'inférence sur Mac M-series
- Modèles quantifiés : GGUF et autres formats pour une utilisation réduite de la VRAM
FAQ
VibeVoice est-il gratuit ?
Oui. Les trois modèles (TTS 1.5B, Realtime 0.5B, ASR) sont sous licence MIT. Vous pouvez les utiliser à des fins commerciales et non commerciales. L'hébergement sur Azure AI Foundry a une tarification distincte pour l'inférence cloud gérée.
VibeVoice peut-il fonctionner sur les Mac Apple Silicon ?
La communauté a contribué avec des scripts pour l'inférence sur Mac M-series. Consultez les discussions HuggingFace pour le modèle VibeVoice-1.5B. Les performances sont plus lentes que celles des GPU CUDA mais fonctionnelles.
Comment VibeVoice se compare-t-il à ElevenLabs ?
VibeVoice fonctionne localement sans frais d'API et sans que vos données ne quittent votre machine. ElevenLabs offre une qualité supérieure, plus de voix et une configuration plus facile, mais nécessite un abonnement payant et un traitement cloud. Pour les applications sensibles à la confidentialité ou l'utilisation hors ligne, VibeVoice l'emporte. Pour la qualité de production et la facilité d'utilisation, ElevenLabs est en avance.
Pourquoi le dépôt GitHub a-t-il été temporairement désactivé ?
Microsoft a découvert que des personnes utilisaient le clonage vocal à des fins d'usurpation d'identité et de deepfakes. Ils ont désactivé le dépôt, ajouté des fonctionnalités de sécurité (avertissements audibles, filigranes) et l'ont réactivé. Le fork communautaire a maintenu le développement pendant cette période.
Puis-je affiner VibeVoice avec des voix personnalisées ?
Oui. La communauté a produit 12 variantes affinées sur HuggingFace. Vous avez besoin d'échantillons vocaux (30-60 secondes d'audio WAV clair à 24 kHz mono) et de ressources GPU pour l'entraînement.
Quels formats audio VibeVoice produit-il ?
WAV à 24 000 Hz mono. Vous pouvez convertir en MP3, OGG, FLAC ou d'autres formats avec ffmpeg après la génération.
Puis-je utiliser VibeVoice-ASR comme remplacement de Whisper ?
Pour les longs enregistrements audio avec identification des locuteurs, oui. VibeVoice-ASR gère des enregistrements de 60 minutes en un seul passage avec diarisation intégrée. Whisper nécessite des outils externes pour l'identification des locuteurs et a du mal avec les enregistrements de plus de 30 minutes sans découpage. Pour les clips courts et bruyants ou le déploiement en périphérie, Whisper reste le meilleur choix.
VibeVoice prend-il en charge le chat vocal en temps réel ?
VibeVoice-Realtime-0.5B prend en charge l'entrée de texte en streaming avec une latence d'environ 300 ms pour le premier chunk. Il est utilisable pour des applications quasi-temps réel mais n'est pas conçu pour une conversation vocale en duplex intégral. Pour cela, penchez-vous sur GPT-Realtime d'Azure OpenAI ou des solutions hébergées similaires.
