¿Qué es Microsoft VibeVoice? Cómo Usar los Modelos de Voz IA de Código Abierto

Ashley Innocent

Ashley Innocent

2 April 2026

¿Qué es Microsoft VibeVoice? Cómo Usar los Modelos de Voz IA de Código Abierto

TL;DR

VibeVoice es la familia de IA de voz de código abierto de Microsoft con tres modelos: VibeVoice-1.5B para texto a voz (hasta 90 minutos, 4 oradores), VibeVoice-Realtime-0.5B para TTS en tiempo real, y VibeVoice-ASR para reconocimiento de voz (audio de 60 minutos, más de 50 idiomas, 7.77% WER). Todos los modelos tienen licencia MIT y se ejecutan localmente. Esta guía cubre la instalación, el uso y la integración de la API.

Introducción

Microsoft lanzó VibeVoice como un marco de IA de voz de código abierto a principios de 2026. Incluye modelos tanto para síntesis de voz (texto a voz) como para reconocimiento de voz (reconocimiento automático de voz), todos ejecutándose localmente en su hardware sin dependencia de la nube.

Microsoft VibeVoice Voice AI Framework

El marco tiene tres modelos:

VibeVoice TTS and ASR Models

Los modelos TTS causaron controversia después de su lanzamiento. Microsoft deshabilitó temporalmente el repositorio principal de GitHub cuando descubrieron el uso indebido de la clonación de voz. La comunidad bifurcó el código, y Microsoft posteriormente volvió a habilitar el repositorio con salvaguardas adicionales: un aviso audible de IA incrustado en el audio generado y marcas de agua imperceptibles para la verificación de la procedencia.

VibeVoice-ASR ahora está disponible en Azure AI Foundry para despliegue en la nube. Los modelos TTS siguen siendo orientados a la investigación con una licencia MIT.

Esta guía le acompaña a través de la instalación, la generación de texto a voz, el reconocimiento de voz, la integración de la API y cómo probar los puntos finales de IA de voz con Apidog.

button

Cómo funciona VibeVoice: visión general de la arquitectura

El avance del tokenizador

El avance principal de VibeVoice es su tokenizador de voz continuo que opera a una tasa de fotogramas ultrabaja de 7.5 Hz. En comparación, la mayoría de los modelos de voz procesan audio a 50-100 Hz. Esta reducción de 7 a 13 veces en la tasa de fotogramas significa que el modelo maneja secuencias largas (90 minutos de audio) sin quedarse sin contexto.

VibeVoice Tokenizer Architecture
VibeVoice Architecture Overview

El sistema utiliza dos tokenizadores:

Difusión del siguiente token

El modelo combina un 'backbone' de LLM (Qwen2.5-1.5B) con un 'diffusion head' ligero (~123M parámetros). El LLM maneja el contexto textual y el flujo del diálogo. El 'diffusion head' genera detalles acústicos de alta fidelidad utilizando DDPM (Modelos Probabilísticos de Difusión por Eliminación de Ruido) con Guía Libre de Clasificador.

Recuento total de parámetros: 3B (incluyendo tokenizadores y 'diffusion head').

Enfoque de entrenamiento

VibeVoice utiliza aprendizaje curricular, entrenando progresivamente en secuencias más largas: 4K, 16K, 32K, luego 64K tokens. Los tokenizadores preentrenados permanecen congelados durante esta fase; solo los parámetros del LLM y del 'diffusion head' se actualizan. Esto permite que el modelo aprenda a manejar audio cada vez más largo sin olvidar las capacidades de formato corto.

Especificaciones del modelo VibeVoice

Modelo Parámetros Propósito Longitud máxima Idiomas Licencia
VibeVoice-1.5B 3B (total) Texto a voz 90 minutos Inglés, Chino MIT
VibeVoice-Realtime-0.5B ~0.5B TTS en tiempo real Larga duración Inglés, Chino MIT
VibeVoice-ASR ~9B Reconocimiento de voz 60 minutos Más de 50 idiomas MIT

VibeVoice-1.5B (TTS)

Especificación Valor
Base LLM Qwen2.5-1.5B
Longitud de contexto 64K tokens
Máx. oradores 4 simultáneos
Salida de audio 24kHz WAV mono
Tipo de tensor BF16
Formato Safetensors
Descargas en HuggingFace 62,630/mes
Bifurcaciones de la comunidad 12 variantes ajustadas

VibeVoice-ASR

Especificación Valor
Base de arquitectura Qwen2.5
Parámetros ~9B
Procesamiento de audio Hasta 60 minutos de una sola pasada
Tasa de fotogramas 7.5 Hz
WER promedio 7.77% (en 8 conjuntos de datos en inglés)
WER de LibriSpeech Clean 2.20%
WER de TED-LIUM 2.57%
Idiomas Más de 50
Salida Estructurada (Quién + Cuándo + Qué)
Audio compatible WAV, FLAC, MP3 a 16kHz+

Instalación y configuración

Prerrequisitos

Instalar VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Los modelos se descargan automáticamente de HuggingFace en la primera ejecución. También puede descargarlos previamente:

from huggingface_hub import snapshot_download

# Download the 1.5B TTS model
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instalar vía pip (paquete de la comunidad)

pip install vibevoice

Instalar para ASR

VibeVoice-ASR utiliza una configuración separada:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

O desplegar a través de Azure AI Foundry para inferencia en la nube gestionada.

Generando voz con VibeVoice-1.5B

Generación de un solo orador

Cree un archivo de texto con su guion:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Ejecute la inferencia:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

La salida se guarda como un archivo .wav en el directorio outputs/.

Generación de podcast multi-orador

VibeVoice maneja hasta 4 oradores con identidades de voz consistentes durante toda la grabación:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

El modelo mantiene características de voz distintas para cada orador a lo largo de toda la conversación, incluso en grabaciones de 90 minutos.

Clonación de voz (sin ejemplos previos)

Clone una voz a partir de una muestra de audio de referencia:

Requisitos de audio:

Convierta el audio existente al formato correcto:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Utilice la interfaz de demostración de Gradio para la clonación de voz:

python demo/gradio_demo.py

Esto inicia una interfaz de usuario web en http://127.0.0.1:7860 donde puede subir su audio de referencia, seleccionar la voz clonada y generar voz.

Streaming con VibeVoice-Realtime-0.5B

Para aplicaciones que necesitan salida de audio de baja latencia (~300ms del primer fragmento):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

El modelo en tiempo real es más pequeño y rápido, pero produce audio de menor fidelidad que el modelo completo de 1.5B. Úselo para aplicaciones interactivas; use el 1.5B para contenido pregenerado.

Usando VibeVoice con Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Load pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Prepare multi-speaker script
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Apply chat template
input_data = pipe.processor.apply_chat_template(script)

# Generate audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper de FastAPI para producción

La comunidad construyó un 'wrapper' de FastAPI que expone VibeVoice como una API TTS compatible con OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Esto le proporciona un punto final de API compatible con el formato TTS de OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Este punto final compatible con OpenAI significa que puede probar su integración de la API de VibeVoice con Apidog utilizando el mismo formato de solicitud que usaría para la API TTS de OpenAI. Importe el punto final, configure el cuerpo de su solicitud y pruebe la generación de voz sin escribir código de aplicación.

Usando VibeVoice-ASR para reconocimiento de voz

Transcripción básica

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Formato de salida estructurado

VibeVoice-ASR produce transcripciones estructuradas con tres campos por segmento:

Ejemplo de salida:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR como servidor MCP

VibeVoice-ASR puede ejecutarse como un servidor MCP (Protocolo de Contexto de Modelo), integrándose directamente con Claude Code, Cursor y otras herramientas de codificación de IA:

# Install the MCP server
pip install vibevoice-mcp-server

# Run it
vibevoice-mcp serve

Esto permite que su agente de codificación transcriba reuniones, notas de voz o grabaciones de audio como parte de su flujo de trabajo. Usted dicta los requisitos, el servidor MCP los transcribe y el agente de codificación procesa el texto.

Cuándo usar VibeVoice-ASR vs Whisper

Caso de uso Mejor opción Por qué
Reuniones largas (30-60 min) VibeVoice-ASR Procesamiento de 60 min de una sola pasada, identificación de orador
Entrevistas con múltiples oradores VibeVoice-ASR Diarización integrada
Podcasts que necesitan marcas de tiempo VibeVoice-ASR Salida estructurada Quién/Cuándo/Qué
Contenido multilingüe (más de 50 idiomas) VibeVoice-ASR Mayor soporte de idiomas
Clips cortos en entornos ruidosos Whisper Mejor robustez al ruido
Despliegue en el borde/móvil Whisper Tamaño de modelo más pequeño, mayor soporte de dispositivos
Idiomas no ingleses (especializados) Whisper Ajuste multilingüe más maduro

Probando APIs de IA de voz con Apidog

Ya sea que esté utilizando el 'wrapper' de FastAPI de VibeVoice, el punto final de Azure AI Foundry, o construyendo su propia API de IA de voz, Apidog le ayuda a probar y depurar estas integraciones.

Apidog testing voice AI APIs

Probar el punto final TTS

  1. Cree una nueva solicitud POST en Apidog apuntando a su servidor FastAPI de VibeVoice
  2. Establezca el cuerpo de la solicitud en el formato compatible con OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}
  1. Envíe la solicitud y verifique que los encabezados de respuesta incluyan el tipo de contenido audio/wav
  2. Guarde la respuesta como un archivo WAV para verificar la calidad del audio

Probar el punto final ASR

Para APIs de voz a texto:

  1. Configure una solicitud POST con multipart/form-data
  2. Adjunte su archivo de audio como un campo de formulario
  3. Verifique que la respuesta JSON estructurada incluya identificadores de orador, marcas de tiempo y texto transcrito

Validar contratos de API de audio

Las APIs de IA de voz manejan datos binarios (archivos de audio) junto con metadatos JSON. El constructor de solicitudes de Apidog maneja ambos:

Descargue Apidog para probar sus integraciones de IA de voz antes de desplegar en producción.

button

Seguridad y uso responsable

Microsoft añadió varias salvaguardas después de los incidentes iniciales de uso indebido:

Lo que está permitido

Lo que no está permitido

Limitaciones a tener en cuenta

El soporte de idiomas es limitado para TTS. VibeVoice-1.5B soporta inglés y chino. Otros idiomas producen una salida ininteligible. VibeVoice-ASR tiene una cobertura más amplia con más de 50 idiomas.

VibeVoice TTS Limited Language Support

Los requisitos de hardware son elevados para ASR. El modelo ASR necesita más de 24 GB de VRAM (GPUs de clase A100/H100). Los modelos TTS se ejecutan en GPUs de consumo con 7-8 GB de VRAM.

No hay manejo de habla superpuesta. El modelo TTS no modela a los oradores hablando al mismo tiempo. Todo el diálogo se basa en turnos.

Sesgos del modelo heredados. Ambos modelos heredan sesgos de su base Qwen2.5. Las salidas pueden contener contenido inesperado, sesgado o impreciso.

Software de grado de investigación. Esto no está listo para producción. Espere imperfecciones en casos límite, manejo de errores y salida no inglesa.

Desplegando VibeVoice-ASR en Azure AI Foundry

Para los equipos que no quieren gestionar la infraestructura de GPU, Microsoft puso a disposición VibeVoice-ASR a través de Azure AI Foundry. Esto le proporciona un punto final de API gestionado sin tener que provisionar hardware.

El despliegue en Azure maneja el escalado, las actualizaciones del modelo y el mantenimiento de la infraestructura. Obtiene un punto final HTTPS que acepta archivos de audio y devuelve transcripciones estructuradas en el mismo formato Quién/Cuándo/Qué que el modelo local.

Esto es particularmente útil para cargas de trabajo de producción donde necesita un tiempo de actividad constante y garantías de SLA que la inferencia de GPU autoalojada no puede proporcionar. Consulte el catálogo de modelos de Azure AI Foundry para conocer los precios actuales y las opciones de despliegue.

Para probar su punto final de VibeVoice alojado en Azure antes de integrarlo en su aplicación, configure la URL del punto final y los encabezados de autenticación en Apidog y ejecute transcripciones de prueba contra archivos de audio de muestra.

Comunidad y ecosistema

VibeVoice tiene una comunidad activa:

Proyectos comunitarios notables:

Preguntas frecuentes

¿Es VibeVoice de uso gratuito?

Sí. Los tres modelos (TTS 1.5B, Realtime 0.5B, ASR) tienen licencia MIT. Puede usarlos con fines comerciales y no comerciales. El alojamiento en Azure AI Foundry tiene precios separados para la inferencia en la nube gestionada.

¿Puede VibeVoice ejecutarse en Mac con Apple Silicon?

La comunidad ha contribuido con scripts para la inferencia en Mac serie M. Consulte las discusiones de HuggingFace para el modelo VibeVoice-1.5B. El rendimiento es más lento que el de las GPUs CUDA, pero es funcional.

¿Cómo se compara VibeVoice con ElevenLabs?

VibeVoice se ejecuta localmente sin costes de API y sin que los datos salgan de su máquina. ElevenLabs ofrece mayor calidad, más voces y una configuración más sencilla, pero requiere una suscripción de pago y procesamiento en la nube. Para aplicaciones sensibles a la privacidad o uso sin conexión, VibeVoice es superior. Para calidad de producción y facilidad de uso, ElevenLabs está por delante.

¿Por qué se deshabilitó temporalmente el repositorio de GitHub?

Microsoft descubrió que las personas usaban la clonación de voz para suplantación y 'deepfakes'. Deshabilitaron el repositorio, añadieron características de seguridad (avisos audibles, marcas de agua) y lo volvieron a habilitar. La bifurcación de la comunidad mantuvo el desarrollo durante el tiempo de inactividad.

¿Puedo ajustar VibeVoice con voces personalizadas?

Sí. La comunidad ha producido 12 variantes ajustadas en HuggingFace. Necesita muestras de voz (30-60 segundos de audio WAV claro a 24kHz mono) y recursos de GPU para el entrenamiento.

¿Qué formatos de audio produce VibeVoice?

WAV a 24,000 Hz mono. Puede convertir a MP3, OGG, FLAC u otros formatos con ffmpeg después de la generación.

¿Puedo usar VibeVoice-ASR como reemplazo de Whisper?

Para audio de larga duración con identificación de orador, sí. VibeVoice-ASR maneja grabaciones de 60 minutos en una sola pasada con diarización integrada. Whisper necesita herramientas externas para la identificación de orador y tiene dificultades con grabaciones de más de 30 minutos sin fragmentación. Para clips cortos y ruidosos o despliegues en el borde, Whisper sigue siendo la mejor opción.

¿Soporta VibeVoice chat de voz en tiempo real?

VibeVoice-Realtime-0.5B soporta entrada de texto en tiempo real con una latencia de ~300ms del primer fragmento. Es utilizable para aplicaciones casi en tiempo real, pero no está diseñado para conversaciones de voz full-duplex. Para eso, considere GPT-Realtime de Azure OpenAI o soluciones alojadas similares.

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs