¿Qué es Microsoft VibeVoice? Cómo Usar los Modelos de Voz IA de Código Abierto

TL;DR

VibeVoice es la familia de IA de voz de código abierto de Microsoft con tres modelos: VibeVoice-1.5B para texto a voz (hasta 90 minutos, 4 oradores), VibeVoice-Realtime-0.5B para TTS en tiempo real, y VibeVoice-ASR para reconocimiento de voz (audio de 60 minutos, más de 50 idiomas, 7.77% WER). Todos los modelos tienen licencia MIT y se ejecutan localmente. Esta guía cubre la instalación, el uso y la integración de la API.

Introducción

Microsoft lanzó VibeVoice como un marco de IA de voz de código abierto a principios de 2026. Incluye modelos tanto para síntesis de voz (texto a voz) como para reconocimiento de voz (reconocimiento automático de voz), todos ejecutándose localmente en su hardware sin dependencia de la nube.

El marco tiene tres modelos:

VibeVoice-1.5B genera audio conversacional expresivo y multi-orador a partir de guiones de texto. Puede sintetizar hasta 90 minutos de voz con 4 oradores distintos en una sola pasada.
VibeVoice-Realtime-0.5B es una variante de streaming ligera que produce audio con una latencia de primera porción de ~300ms.
VibeVoice-ASR transcribe hasta 60 minutos de audio continuo con identificación de orador, marcas de tiempo y salida estructurada en más de 50 idiomas.

Los modelos TTS causaron controversia después de su lanzamiento. Microsoft deshabilitó temporalmente el repositorio principal de GitHub cuando descubrieron el uso indebido de la clonación de voz. La comunidad bifurcó el código, y Microsoft posteriormente volvió a habilitar el repositorio con salvaguardas adicionales: un aviso audible de IA incrustado en el audio generado y marcas de agua imperceptibles para la verificación de la procedencia.

VibeVoice-ASR ahora está disponible en Azure AI Foundry para despliegue en la nube. Los modelos TTS siguen siendo orientados a la investigación con una licencia MIT.

Esta guía le acompaña a través de la instalación, la generación de texto a voz, el reconocimiento de voz, la integración de la API y cómo probar los puntos finales de IA de voz con Apidog.

button

Cómo funciona VibeVoice: visión general de la arquitectura

El avance del tokenizador

El avance principal de VibeVoice es su tokenizador de voz continuo que opera a una tasa de fotogramas ultrabaja de 7.5 Hz. En comparación, la mayoría de los modelos de voz procesan audio a 50-100 Hz. Esta reducción de 7 a 13 veces en la tasa de fotogramas significa que el modelo maneja secuencias largas (90 minutos de audio) sin quedarse sin contexto.

El sistema utiliza dos tokenizadores:

Tokenizador Acústico: Una variante sigma-VAE con ~340M de parámetros en un codificador-decodificador simétrico tipo espejo. Realiza un submuestreo de 3,200x del audio de entrada de 24kHz.
Tokenizador Semántico: Refleja la arquitectura del tokenizador acústico pero está entrenado con una tarea proxy de ASR para capturar el significado lingüístico.

Difusión del siguiente token

El modelo combina un 'backbone' de LLM (Qwen2.5-1.5B) con un 'diffusion head' ligero (~123M parámetros). El LLM maneja el contexto textual y el flujo del diálogo. El 'diffusion head' genera detalles acústicos de alta fidelidad utilizando DDPM (Modelos Probabilísticos de Difusión por Eliminación de Ruido) con Guía Libre de Clasificador.

Recuento total de parámetros: 3B (incluyendo tokenizadores y 'diffusion head').

Enfoque de entrenamiento

VibeVoice utiliza aprendizaje curricular, entrenando progresivamente en secuencias más largas: 4K, 16K, 32K, luego 64K tokens. Los tokenizadores preentrenados permanecen congelados durante esta fase; solo los parámetros del LLM y del 'diffusion head' se actualizan. Esto permite que el modelo aprenda a manejar audio cada vez más largo sin olvidar las capacidades de formato corto.

Especificaciones del modelo VibeVoice

Modelo	Parámetros	Propósito	Longitud máxima	Idiomas	Licencia
VibeVoice-1.5B	3B (total)	Texto a voz	90 minutos	Inglés, Chino	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS en tiempo real	Larga duración	Inglés, Chino	MIT
VibeVoice-ASR	~9B	Reconocimiento de voz	60 minutos	Más de 50 idiomas	MIT

VibeVoice-1.5B (TTS)

Especificación	Valor
Base LLM	Qwen2.5-1.5B
Longitud de contexto	64K tokens
Máx. oradores	4 simultáneos
Salida de audio	24kHz WAV mono
Tipo de tensor	BF16
Formato	Safetensors
Descargas en HuggingFace	62,630/mes
Bifurcaciones de la comunidad	12 variantes ajustadas

VibeVoice-ASR

Especificación	Valor
Base de arquitectura	Qwen2.5
Parámetros	~9B
Procesamiento de audio	Hasta 60 minutos de una sola pasada
Tasa de fotogramas	7.5 Hz
WER promedio	7.77% (en 8 conjuntos de datos en inglés)
WER de LibriSpeech Clean	2.20%
WER de TED-LIUM	2.57%
Idiomas	Más de 50
Salida	Estructurada (Quién + Cuándo + Qué)
Audio compatible	WAV, FLAC, MP3 a 16kHz+

Instalación y configuración

Prerrequisitos

Python 3.8+
NVIDIA GPU con soporte CUDA
Mínimo 7-8 GB de VRAM para modelos TTS
Mínimo 24 GB de VRAM para el modelo ASR (se recomienda A100/H100)
Mínimo 32 GB de RAM (se recomiendan 64 GB para ASR)
CUDA 11.8+ (se recomienda CUDA 12.0+)

Instalar VibeVoice TTS

# Clone the repository
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Install dependencies
pip install -r requirements.txt

Los modelos se descargan automáticamente de HuggingFace en la primera ejecución. También puede descargarlos previamente:

from huggingface_hub import snapshot_download

# Download the 1.5B TTS model
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instalar vía pip (paquete de la comunidad)

pip install vibevoice

Instalar para ASR

VibeVoice-ASR utiliza una configuración separada:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

O desplegar a través de Azure AI Foundry para inferencia en la nube gestionada.

Generando voz con VibeVoice-1.5B

Generación de un solo orador

Cree un archivo de texto con su guion:

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

Ejecute la inferencia:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

La salida se guarda como un archivo .wav en el directorio outputs/.

Generación de podcast multi-orador

VibeVoice maneja hasta 4 oradores con identidades de voz consistentes durante toda la grabación:

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
Alice: Let's start with the debate everyone wants to hear. REST versus GraphQL for microservices.
Bob: REST gives you clear resource boundaries. Each endpoint maps to a specific resource.
Carol: GraphQL gives you flexibility. One endpoint, and the client decides what data it needs.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

El modelo mantiene características de voz distintas para cada orador a lo largo de toda la conversación, incluso en grabaciones de 90 minutos.

Clonación de voz (sin ejemplos previos)

Clone una voz a partir de una muestra de audio de referencia:

Requisitos de audio:

Formato: WAV (mono)
Frecuencia de muestreo: 24,000 Hz
Duración: 30-60 segundos de habla clara

Convierta el audio existente al formato correcto:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Utilice la interfaz de demostración de Gradio para la clonación de voz:

python demo/gradio_demo.py

Esto inicia una interfaz de usuario web en http://127.0.0.1:7860 donde puede subir su audio de referencia, seleccionar la voz clonada y generar voz.

Streaming con VibeVoice-Realtime-0.5B

Para aplicaciones que necesitan salida de audio de baja latencia (~300ms del primer fragmento):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

El modelo en tiempo real es más pequeño y rápido, pero produce audio de menor fidelidad que el modelo completo de 1.5B. Úselo para aplicaciones interactivas; use el 1.5B para contenido pregenerado.

Usando VibeVoice con Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Download model
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Load pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Prepare multi-speaker script
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

# Apply chat template
input_data = pipe.processor.apply_chat_template(script)

# Generate audio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper de FastAPI para producción

La comunidad construyó un 'wrapper' de FastAPI que expone VibeVoice como una API TTS compatible con OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Esto le proporciona un punto final de API compatible con el formato TTS de OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

Este punto final compatible con OpenAI significa que puede probar su integración de la API de VibeVoice con Apidog utilizando el mismo formato de solicitud que usaría para la API TTS de OpenAI. Importe el punto final, configure el cuerpo de su solicitud y pruebe la generación de voz sin escribir código de aplicación.

Usando VibeVoice-ASR para reconocimiento de voz

Transcripción básica

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Formato de salida estructurado

VibeVoice-ASR produce transcripciones estructuradas con tres campos por segmento:

Quién: Identidad del orador (Orador 1, Orador 2, etc.)
Cuándo: Marcas de tiempo de inicio y fin
Qué: Contenido de texto transcrito

Ejemplo de salida:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR como servidor MCP

VibeVoice-ASR puede ejecutarse como un servidor MCP (Protocolo de Contexto de Modelo), integrándose directamente con Claude Code, Cursor y otras herramientas de codificación de IA:

# Install the MCP server
pip install vibevoice-mcp-server

# Run it
vibevoice-mcp serve

Esto permite que su agente de codificación transcriba reuniones, notas de voz o grabaciones de audio como parte de su flujo de trabajo. Usted dicta los requisitos, el servidor MCP los transcribe y el agente de codificación procesa el texto.

Cuándo usar VibeVoice-ASR vs Whisper

Caso de uso	Mejor opción	Por qué
Reuniones largas (30-60 min)	VibeVoice-ASR	Procesamiento de 60 min de una sola pasada, identificación de orador
Entrevistas con múltiples oradores	VibeVoice-ASR	Diarización integrada
Podcasts que necesitan marcas de tiempo	VibeVoice-ASR	Salida estructurada Quién/Cuándo/Qué
Contenido multilingüe (más de 50 idiomas)	VibeVoice-ASR	Mayor soporte de idiomas
Clips cortos en entornos ruidosos	Whisper	Mejor robustez al ruido
Despliegue en el borde/móvil	Whisper	Tamaño de modelo más pequeño, mayor soporte de dispositivos
Idiomas no ingleses (especializados)	Whisper	Ajuste multilingüe más maduro

Probando APIs de IA de voz con Apidog

Ya sea que esté utilizando el 'wrapper' de FastAPI de VibeVoice, el punto final de Azure AI Foundry, o construyendo su propia API de IA de voz, Apidog le ayuda a probar y depurar estas integraciones.

Probar el punto final TTS

Cree una nueva solicitud POST en Apidog apuntando a su servidor FastAPI de VibeVoice
Establezca el cuerpo de la solicitud en el formato compatible con OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

Envíe la solicitud y verifique que los encabezados de respuesta incluyan el tipo de contenido audio/wav
Guarde la respuesta como un archivo WAV para verificar la calidad del audio

Probar el punto final ASR

Para APIs de voz a texto:

Configure una solicitud POST con multipart/form-data
Adjunte su archivo de audio como un campo de formulario
Verifique que la respuesta JSON estructurada incluya identificadores de orador, marcas de tiempo y texto transcrito

Validar contratos de API de audio

Las APIs de IA de voz manejan datos binarios (archivos de audio) junto con metadatos JSON. El constructor de solicitudes de Apidog maneja ambos:

Cargas de archivos binarios para puntos finales ASR
Formato de cuerpo JSON para puntos finales TTS
Validación de respuesta para salida de transcripción estructurada
Variables de entorno para cambiar entre puntos finales locales y en la nube

Descargue Apidog para probar sus integraciones de IA de voz antes de desplegar en producción.

button

Seguridad y uso responsable

Microsoft añadió varias salvaguardas después de los incidentes iniciales de uso indebido:

Aviso audible de IA: Todo el audio generado incluye un mensaje automático de "Este segmento fue generado por IA"
Marcas de agua imperceptibles: Marcadores ocultos permiten la verificación por terceros del contenido generado por VibeVoice
Registro de inferencia: Los registros 'hashed' detectan patrones de abuso con estadísticas agregadas trimestralmente
Licencia MIT: Permite el uso comercial, pero Microsoft recomienda no desplegar en producción sin pruebas adicionales

Lo que está permitido

Uso académico y de investigación
Prototipos y pruebas internas
Generación de podcasts con la debida divulgación de IA
Aplicaciones de accesibilidad (texto a voz para usuarios con discapacidad visual)

Lo que no está permitido

Suplantación de voz sin consentimiento explícito grabado
Deepfakes o presentar audio de IA como grabaciones humanas genuinas
Conversión de voz en tiempo real para aplicaciones de deepfake en vivo
Generación de audio no vocal (música, efectos de sonido)

Limitaciones a tener en cuenta

El soporte de idiomas es limitado para TTS. VibeVoice-1.5B soporta inglés y chino. Otros idiomas producen una salida ininteligible. VibeVoice-ASR tiene una cobertura más amplia con más de 50 idiomas.

Los requisitos de hardware son elevados para ASR. El modelo ASR necesita más de 24 GB de VRAM (GPUs de clase A100/H100). Los modelos TTS se ejecutan en GPUs de consumo con 7-8 GB de VRAM.

No hay manejo de habla superpuesta. El modelo TTS no modela a los oradores hablando al mismo tiempo. Todo el diálogo se basa en turnos.

Sesgos del modelo heredados. Ambos modelos heredan sesgos de su base Qwen2.5. Las salidas pueden contener contenido inesperado, sesgado o impreciso.

Software de grado de investigación. Esto no está listo para producción. Espere imperfecciones en casos límite, manejo de errores y salida no inglesa.

Desplegando VibeVoice-ASR en Azure AI Foundry

Para los equipos que no quieren gestionar la infraestructura de GPU, Microsoft puso a disposición VibeVoice-ASR a través de Azure AI Foundry. Esto le proporciona un punto final de API gestionado sin tener que provisionar hardware.

El despliegue en Azure maneja el escalado, las actualizaciones del modelo y el mantenimiento de la infraestructura. Obtiene un punto final HTTPS que acepta archivos de audio y devuelve transcripciones estructuradas en el mismo formato Quién/Cuándo/Qué que el modelo local.

Esto es particularmente útil para cargas de trabajo de producción donde necesita un tiempo de actividad constante y garantías de SLA que la inferencia de GPU autoalojada no puede proporcionar. Consulte el catálogo de modelos de Azure AI Foundry para conocer los precios actuales y las opciones de despliegue.

Para probar su punto final de VibeVoice alojado en Azure antes de integrarlo en su aplicación, configure la URL del punto final y los encabezados de autenticación en Apidog y ejecute transcripciones de prueba contra archivos de audio de muestra.

Comunidad y ecosistema

VibeVoice tiene una comunidad activa:

Más de 62,630 descargas mensuales en HuggingFace para el modelo 1.5B
Más de 2,280 "me gusta" en HuggingFace
Más de 79 "HuggingFace Spaces" ejecutando el modelo
12 variantes ajustadas por la comunidad
4 versiones cuantizadas para despliegues con menor VRAM
Bifurcación de la comunidad en vibevoice-community/VibeVoice con mantenimiento activo

Proyectos comunitarios notables:

VibeVoice-FastAPI: 'Wrapper' de API REST de producción con soporte Docker
VibeVoice MCP Server: Integración con herramientas de codificación de IA a través del Protocolo de Contexto de Modelo
Soporte para Apple Silicon: Scripts de la comunidad para inferencia en Mac serie M
Modelos cuantizados: GGUF y otros formatos para un uso reducido de VRAM

Preguntas frecuentes

¿Es VibeVoice de uso gratuito?

Sí. Los tres modelos (TTS 1.5B, Realtime 0.5B, ASR) tienen licencia MIT. Puede usarlos con fines comerciales y no comerciales. El alojamiento en Azure AI Foundry tiene precios separados para la inferencia en la nube gestionada.

¿Puede VibeVoice ejecutarse en Mac con Apple Silicon?

La comunidad ha contribuido con scripts para la inferencia en Mac serie M. Consulte las discusiones de HuggingFace para el modelo VibeVoice-1.5B. El rendimiento es más lento que el de las GPUs CUDA, pero es funcional.

¿Cómo se compara VibeVoice con ElevenLabs?

VibeVoice se ejecuta localmente sin costes de API y sin que los datos salgan de su máquina. ElevenLabs ofrece mayor calidad, más voces y una configuración más sencilla, pero requiere una suscripción de pago y procesamiento en la nube. Para aplicaciones sensibles a la privacidad o uso sin conexión, VibeVoice es superior. Para calidad de producción y facilidad de uso, ElevenLabs está por delante.

¿Por qué se deshabilitó temporalmente el repositorio de GitHub?

Microsoft descubrió que las personas usaban la clonación de voz para suplantación y 'deepfakes'. Deshabilitaron el repositorio, añadieron características de seguridad (avisos audibles, marcas de agua) y lo volvieron a habilitar. La bifurcación de la comunidad mantuvo el desarrollo durante el tiempo de inactividad.

¿Puedo ajustar VibeVoice con voces personalizadas?

Sí. La comunidad ha producido 12 variantes ajustadas en HuggingFace. Necesita muestras de voz (30-60 segundos de audio WAV claro a 24kHz mono) y recursos de GPU para el entrenamiento.

¿Qué formatos de audio produce VibeVoice?

WAV a 24,000 Hz mono. Puede convertir a MP3, OGG, FLAC u otros formatos con ffmpeg después de la generación.

¿Puedo usar VibeVoice-ASR como reemplazo de Whisper?

Para audio de larga duración con identificación de orador, sí. VibeVoice-ASR maneja grabaciones de 60 minutos en una sola pasada con diarización integrada. Whisper necesita herramientas externas para la identificación de orador y tiene dificultades con grabaciones de más de 30 minutos sin fragmentación. Para clips cortos y ruidosos o despliegues en el borde, Whisper sigue siendo la mejor opción.

¿Soporta VibeVoice chat de voz en tiempo real?

VibeVoice-Realtime-0.5B soporta entrada de texto en tiempo real con una latencia de ~300ms del primer fragmento. Es utilizable para aplicaciones casi en tiempo real, pero no está diseñado para conversaciones de voz full-duplex. Para eso, considere GPT-Realtime de Azure OpenAI o soluciones alojadas similares.

button