TL;DR
VibeVoice es la familia de IA de voz de código abierto de Microsoft con tres modelos: VibeVoice-1.5B para texto a voz (hasta 90 minutos, 4 oradores), VibeVoice-Realtime-0.5B para TTS en tiempo real, y VibeVoice-ASR para reconocimiento de voz (audio de 60 minutos, más de 50 idiomas, 7.77% WER). Todos los modelos tienen licencia MIT y se ejecutan localmente. Esta guía cubre la instalación, el uso y la integración de la API.
Introducción
Microsoft lanzó VibeVoice como un marco de IA de voz de código abierto a principios de 2026. Incluye modelos tanto para síntesis de voz (texto a voz) como para reconocimiento de voz (reconocimiento automático de voz), todos ejecutándose localmente en su hardware sin dependencia de la nube.

El marco tiene tres modelos:
- VibeVoice-1.5B genera audio conversacional expresivo y multi-orador a partir de guiones de texto. Puede sintetizar hasta 90 minutos de voz con 4 oradores distintos en una sola pasada.
- VibeVoice-Realtime-0.5B es una variante de streaming ligera que produce audio con una latencia de primera porción de ~300ms.
- VibeVoice-ASR transcribe hasta 60 minutos de audio continuo con identificación de orador, marcas de tiempo y salida estructurada en más de 50 idiomas.

Los modelos TTS causaron controversia después de su lanzamiento. Microsoft deshabilitó temporalmente el repositorio principal de GitHub cuando descubrieron el uso indebido de la clonación de voz. La comunidad bifurcó el código, y Microsoft posteriormente volvió a habilitar el repositorio con salvaguardas adicionales: un aviso audible de IA incrustado en el audio generado y marcas de agua imperceptibles para la verificación de la procedencia.
VibeVoice-ASR ahora está disponible en Azure AI Foundry para despliegue en la nube. Los modelos TTS siguen siendo orientados a la investigación con una licencia MIT.
Esta guía le acompaña a través de la instalación, la generación de texto a voz, el reconocimiento de voz, la integración de la API y cómo probar los puntos finales de IA de voz con Apidog.
Cómo funciona VibeVoice: visión general de la arquitectura
El avance del tokenizador
El avance principal de VibeVoice es su tokenizador de voz continuo que opera a una tasa de fotogramas ultrabaja de 7.5 Hz. En comparación, la mayoría de los modelos de voz procesan audio a 50-100 Hz. Esta reducción de 7 a 13 veces en la tasa de fotogramas significa que el modelo maneja secuencias largas (90 minutos de audio) sin quedarse sin contexto.


El sistema utiliza dos tokenizadores:
- Tokenizador Acústico: Una variante sigma-VAE con ~340M de parámetros en un codificador-decodificador simétrico tipo espejo. Realiza un submuestreo de 3,200x del audio de entrada de 24kHz.
- Tokenizador Semántico: Refleja la arquitectura del tokenizador acústico pero está entrenado con una tarea proxy de ASR para capturar el significado lingüístico.
Difusión del siguiente token
El modelo combina un 'backbone' de LLM (Qwen2.5-1.5B) con un 'diffusion head' ligero (~123M parámetros). El LLM maneja el contexto textual y el flujo del diálogo. El 'diffusion head' genera detalles acústicos de alta fidelidad utilizando DDPM (Modelos Probabilísticos de Difusión por Eliminación de Ruido) con Guía Libre de Clasificador.
Recuento total de parámetros: 3B (incluyendo tokenizadores y 'diffusion head').
Enfoque de entrenamiento
VibeVoice utiliza aprendizaje curricular, entrenando progresivamente en secuencias más largas: 4K, 16K, 32K, luego 64K tokens. Los tokenizadores preentrenados permanecen congelados durante esta fase; solo los parámetros del LLM y del 'diffusion head' se actualizan. Esto permite que el modelo aprenda a manejar audio cada vez más largo sin olvidar las capacidades de formato corto.
Especificaciones del modelo VibeVoice
| Modelo | Parámetros | Propósito | Longitud máxima | Idiomas | Licencia |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (total) | Texto a voz | 90 minutos | Inglés, Chino | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS en tiempo real | Larga duración | Inglés, Chino | MIT |
| VibeVoice-ASR | ~9B | Reconocimiento de voz | 60 minutos | Más de 50 idiomas | MIT |
VibeVoice-1.5B (TTS)
| Especificación | Valor |
|---|---|
| Base LLM | Qwen2.5-1.5B |
| Longitud de contexto | 64K tokens |
| Máx. oradores | 4 simultáneos |
| Salida de audio | 24kHz WAV mono |
| Tipo de tensor | BF16 |
| Formato | Safetensors |
| Descargas en HuggingFace | 62,630/mes |
| Bifurcaciones de la comunidad | 12 variantes ajustadas |
VibeVoice-ASR
| Especificación | Valor |
|---|---|
| Base de arquitectura | Qwen2.5 |
| Parámetros | ~9B |
| Procesamiento de audio | Hasta 60 minutos de una sola pasada |
| Tasa de fotogramas | 7.5 Hz |
| WER promedio | 7.77% (en 8 conjuntos de datos en inglés) |
| WER de LibriSpeech Clean | 2.20% |
| WER de TED-LIUM | 2.57% |
| Idiomas | Más de 50 |
| Salida | Estructurada (Quién + Cuándo + Qué) |
| Audio compatible | WAV, FLAC, MP3 a 16kHz+ |
Instalación y configuración
Prerrequisitos
- Python 3.8+
- NVIDIA GPU con soporte CUDA
- Mínimo 7-8 GB de VRAM para modelos TTS
- Mínimo 24 GB de VRAM para el modelo ASR (se recomienda A100/H100)
- Mínimo 32 GB de RAM (se recomiendan 64 GB para ASR)
- CUDA 11.8+ (se recomienda CUDA 12.0+)
Instalar VibeVoice TTS
# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Install dependencies
pip install -r requirements.txt
Los modelos se descargan automáticamente de HuggingFace en la primera ejecución. También puede descargarlos previamente:
from huggingface_hub import snapshot_download
# Download the 1.5B TTS model
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Instalar vía pip (paquete de la comunidad)
pip install vibevoice
Instalar para ASR
VibeVoice-ASR utiliza una configuración separada:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
O desplegar a través de Azure AI Foundry para inferencia en la nube gestionada.
Generando voz con VibeVoice-1.5B
Generación de un solo orador
Cree un archivo de texto con su guion:
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.
Ejecute la inferencia:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
La salida se guarda como un archivo .wav en el directorio outputs/.
Generación de podcast multi-orador
VibeVoice maneja hasta 4 oradores con identidades de voz consistentes durante toda la grabación:
Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
El modelo mantiene características de voz distintas para cada orador a lo largo de toda la conversación, incluso en grabaciones de 90 minutos.
Clonación de voz (sin ejemplos previos)
Clone una voz a partir de una muestra de audio de referencia:
Requisitos de audio:
- Formato: WAV (mono)
- Frecuencia de muestreo: 24,000 Hz
- Duración: 30-60 segundos de habla clara
Convierta el audio existente al formato correcto:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Utilice la interfaz de demostración de Gradio para la clonación de voz:
python demo/gradio_demo.py
Esto inicia una interfaz de usuario web en http://127.0.0.1:7860 donde puede subir su audio de referencia, seleccionar la voz clonada y generar voz.
Streaming con VibeVoice-Realtime-0.5B
Para aplicaciones que necesitan salida de audio de baja latencia (~300ms del primer fragmento):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
El modelo en tiempo real es más pequeño y rápido, pero produce audio de menor fidelidad que el modelo completo de 1.5B. Úselo para aplicaciones interactivas; use el 1.5B para contenido pregenerado.
Usando VibeVoice con Python
API de Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Load pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Prepare multi-speaker script
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
# Apply chat template
input_data = pipe.processor.apply_chat_template(script)
# Generate audio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper de FastAPI para producción
La comunidad construyó un 'wrapper' de FastAPI que expone VibeVoice como una API TTS compatible con OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Esto le proporciona un punto final de API compatible con el formato TTS de OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
Este punto final compatible con OpenAI significa que puede probar su integración de la API de VibeVoice con Apidog utilizando el mismo formato de solicitud que usaría para la API TTS de OpenAI. Importe el punto final, configure el cuerpo de su solicitud y pruebe la generación de voz sin escribir código de aplicación.
Usando VibeVoice-ASR para reconocimiento de voz
Transcripción básica
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Formato de salida estructurado
VibeVoice-ASR produce transcripciones estructuradas con tres campos por segmento:
- Quién: Identidad del orador (Orador 1, Orador 2, etc.)
- Cuándo: Marcas de tiempo de inicio y fin
- Qué: Contenido de texto transcrito
Ejemplo de salida:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR como servidor MCP
VibeVoice-ASR puede ejecutarse como un servidor MCP (Protocolo de Contexto de Modelo), integrándose directamente con Claude Code, Cursor y otras herramientas de codificación de IA:
# Install the MCP server
pip install vibevoice-mcp-server
# Run it
vibevoice-mcp serve
Esto permite que su agente de codificación transcriba reuniones, notas de voz o grabaciones de audio como parte de su flujo de trabajo. Usted dicta los requisitos, el servidor MCP los transcribe y el agente de codificación procesa el texto.
Cuándo usar VibeVoice-ASR vs Whisper
| Caso de uso | Mejor opción | Por qué |
|---|---|---|
| Reuniones largas (30-60 min) | VibeVoice-ASR | Procesamiento de 60 min de una sola pasada, identificación de orador |
| Entrevistas con múltiples oradores | VibeVoice-ASR | Diarización integrada |
| Podcasts que necesitan marcas de tiempo | VibeVoice-ASR | Salida estructurada Quién/Cuándo/Qué |
| Contenido multilingüe (más de 50 idiomas) | VibeVoice-ASR | Mayor soporte de idiomas |
| Clips cortos en entornos ruidosos | Whisper | Mejor robustez al ruido |
| Despliegue en el borde/móvil | Whisper | Tamaño de modelo más pequeño, mayor soporte de dispositivos |
| Idiomas no ingleses (especializados) | Whisper | Ajuste multilingüe más maduro |
Probando APIs de IA de voz con Apidog
Ya sea que esté utilizando el 'wrapper' de FastAPI de VibeVoice, el punto final de Azure AI Foundry, o construyendo su propia API de IA de voz, Apidog le ayuda a probar y depurar estas integraciones.

Probar el punto final TTS
- Cree una nueva solicitud POST en Apidog apuntando a su servidor FastAPI de VibeVoice
- Establezca el cuerpo de la solicitud en el formato compatible con OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Test speech synthesis with proper intonation and pacing.",
"voice": "alice",
"response_format": "wav"
}
- Envíe la solicitud y verifique que los encabezados de respuesta incluyan el tipo de contenido
audio/wav - Guarde la respuesta como un archivo WAV para verificar la calidad del audio
Probar el punto final ASR
Para APIs de voz a texto:
- Configure una solicitud POST con
multipart/form-data - Adjunte su archivo de audio como un campo de formulario
- Verifique que la respuesta JSON estructurada incluya identificadores de orador, marcas de tiempo y texto transcrito
Validar contratos de API de audio
Las APIs de IA de voz manejan datos binarios (archivos de audio) junto con metadatos JSON. El constructor de solicitudes de Apidog maneja ambos:
- Cargas de archivos binarios para puntos finales ASR
- Formato de cuerpo JSON para puntos finales TTS
- Validación de respuesta para salida de transcripción estructurada
- Variables de entorno para cambiar entre puntos finales locales y en la nube
Descargue Apidog para probar sus integraciones de IA de voz antes de desplegar en producción.
Seguridad y uso responsable
Microsoft añadió varias salvaguardas después de los incidentes iniciales de uso indebido:
- Aviso audible de IA: Todo el audio generado incluye un mensaje automático de "Este segmento fue generado por IA"
- Marcas de agua imperceptibles: Marcadores ocultos permiten la verificación por terceros del contenido generado por VibeVoice
- Registro de inferencia: Los registros 'hashed' detectan patrones de abuso con estadísticas agregadas trimestralmente
- Licencia MIT: Permite el uso comercial, pero Microsoft recomienda no desplegar en producción sin pruebas adicionales
Lo que está permitido
- Uso académico y de investigación
- Prototipos y pruebas internas
- Generación de podcasts con la debida divulgación de IA
- Aplicaciones de accesibilidad (texto a voz para usuarios con discapacidad visual)
Lo que no está permitido
- Suplantación de voz sin consentimiento explícito grabado
- Deepfakes o presentar audio de IA como grabaciones humanas genuinas
- Conversión de voz en tiempo real para aplicaciones de deepfake en vivo
- Generación de audio no vocal (música, efectos de sonido)
Limitaciones a tener en cuenta
El soporte de idiomas es limitado para TTS. VibeVoice-1.5B soporta inglés y chino. Otros idiomas producen una salida ininteligible. VibeVoice-ASR tiene una cobertura más amplia con más de 50 idiomas.

Los requisitos de hardware son elevados para ASR. El modelo ASR necesita más de 24 GB de VRAM (GPUs de clase A100/H100). Los modelos TTS se ejecutan en GPUs de consumo con 7-8 GB de VRAM.
No hay manejo de habla superpuesta. El modelo TTS no modela a los oradores hablando al mismo tiempo. Todo el diálogo se basa en turnos.
Sesgos del modelo heredados. Ambos modelos heredan sesgos de su base Qwen2.5. Las salidas pueden contener contenido inesperado, sesgado o impreciso.
Software de grado de investigación. Esto no está listo para producción. Espere imperfecciones en casos límite, manejo de errores y salida no inglesa.
Desplegando VibeVoice-ASR en Azure AI Foundry
Para los equipos que no quieren gestionar la infraestructura de GPU, Microsoft puso a disposición VibeVoice-ASR a través de Azure AI Foundry. Esto le proporciona un punto final de API gestionado sin tener que provisionar hardware.
El despliegue en Azure maneja el escalado, las actualizaciones del modelo y el mantenimiento de la infraestructura. Obtiene un punto final HTTPS que acepta archivos de audio y devuelve transcripciones estructuradas en el mismo formato Quién/Cuándo/Qué que el modelo local.
Esto es particularmente útil para cargas de trabajo de producción donde necesita un tiempo de actividad constante y garantías de SLA que la inferencia de GPU autoalojada no puede proporcionar. Consulte el catálogo de modelos de Azure AI Foundry para conocer los precios actuales y las opciones de despliegue.
Para probar su punto final de VibeVoice alojado en Azure antes de integrarlo en su aplicación, configure la URL del punto final y los encabezados de autenticación en Apidog y ejecute transcripciones de prueba contra archivos de audio de muestra.
Comunidad y ecosistema
VibeVoice tiene una comunidad activa:
- Más de 62,630 descargas mensuales en HuggingFace para el modelo 1.5B
- Más de 2,280 "me gusta" en HuggingFace
- Más de 79 "HuggingFace Spaces" ejecutando el modelo
- 12 variantes ajustadas por la comunidad
- 4 versiones cuantizadas para despliegues con menor VRAM
- Bifurcación de la comunidad en
vibevoice-community/VibeVoicecon mantenimiento activo
Proyectos comunitarios notables:
- VibeVoice-FastAPI: 'Wrapper' de API REST de producción con soporte Docker
- VibeVoice MCP Server: Integración con herramientas de codificación de IA a través del Protocolo de Contexto de Modelo
- Soporte para Apple Silicon: Scripts de la comunidad para inferencia en Mac serie M
- Modelos cuantizados: GGUF y otros formatos para un uso reducido de VRAM
Preguntas frecuentes
¿Es VibeVoice de uso gratuito?
Sí. Los tres modelos (TTS 1.5B, Realtime 0.5B, ASR) tienen licencia MIT. Puede usarlos con fines comerciales y no comerciales. El alojamiento en Azure AI Foundry tiene precios separados para la inferencia en la nube gestionada.
¿Puede VibeVoice ejecutarse en Mac con Apple Silicon?
La comunidad ha contribuido con scripts para la inferencia en Mac serie M. Consulte las discusiones de HuggingFace para el modelo VibeVoice-1.5B. El rendimiento es más lento que el de las GPUs CUDA, pero es funcional.
¿Cómo se compara VibeVoice con ElevenLabs?
VibeVoice se ejecuta localmente sin costes de API y sin que los datos salgan de su máquina. ElevenLabs ofrece mayor calidad, más voces y una configuración más sencilla, pero requiere una suscripción de pago y procesamiento en la nube. Para aplicaciones sensibles a la privacidad o uso sin conexión, VibeVoice es superior. Para calidad de producción y facilidad de uso, ElevenLabs está por delante.
¿Por qué se deshabilitó temporalmente el repositorio de GitHub?
Microsoft descubrió que las personas usaban la clonación de voz para suplantación y 'deepfakes'. Deshabilitaron el repositorio, añadieron características de seguridad (avisos audibles, marcas de agua) y lo volvieron a habilitar. La bifurcación de la comunidad mantuvo el desarrollo durante el tiempo de inactividad.
¿Puedo ajustar VibeVoice con voces personalizadas?
Sí. La comunidad ha producido 12 variantes ajustadas en HuggingFace. Necesita muestras de voz (30-60 segundos de audio WAV claro a 24kHz mono) y recursos de GPU para el entrenamiento.
¿Qué formatos de audio produce VibeVoice?
WAV a 24,000 Hz mono. Puede convertir a MP3, OGG, FLAC u otros formatos con ffmpeg después de la generación.
¿Puedo usar VibeVoice-ASR como reemplazo de Whisper?
Para audio de larga duración con identificación de orador, sí. VibeVoice-ASR maneja grabaciones de 60 minutos en una sola pasada con diarización integrada. Whisper necesita herramientas externas para la identificación de orador y tiene dificultades con grabaciones de más de 30 minutos sin fragmentación. Para clips cortos y ruidosos o despliegues en el borde, Whisper sigue siendo la mejor opción.
¿Soporta VibeVoice chat de voz en tiempo real?
VibeVoice-Realtime-0.5B soporta entrada de texto en tiempo real con una latencia de ~300ms del primer fragmento. Es utilizable para aplicaciones casi en tiempo real, pero no está diseñado para conversaciones de voz full-duplex. Para eso, considere GPT-Realtime de Azure OpenAI o soluciones alojadas similares.
