O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto

Ashley Innocent

Ashley Innocent

2 abril 2026

O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto

TL;DR

VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.

Introdução

A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.

Microsoft VibeVoice - IA de Voz de Código Aberto

O framework possui três modelos:

Visão geral dos modelos VibeVoice

Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.

VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.

Este guia aborda a instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.

botão

Como VibeVoice funciona: visão geral da arquitetura

O avanço do tokenizador

O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros significa que o modelo lida com sequências longas (90 minutos de áudio) sem esgotar o contexto.

Arquitetura do tokenizador VibeVoice
Processamento de fala do VibeVoice

O sistema usa dois tokenizadores:

Difusão de próximo token

O modelo combina um backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão leve (~123M parâmetros). O LLM lida com o contexto textual e o fluxo do diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade usando DDPM (Denoising Diffusion Probabilistic Models) com Classifificador-Free Guidance.

Contagem total de parâmetros: 3B (incluindo tokenizadores e cabeça de difusão).

Abordagem de treinamento

VibeVoice usa aprendizado curricular, treinando progressivamente em sequências mais longas: 4K, 16K, 32K, depois 64K tokens. Os tokenizadores pré-treinados permanecem congelados durante esta fase; apenas os parâmetros do LLM e da cabeça de difusão são atualizados. Isso permite que o modelo aprenda a lidar com áudio cada vez mais longo sem esquecer as capacidades de formato curto.

Especificações do modelo VibeVoice

Modelo Parâmetros Propósito Comprimento máximo Idiomas Licença
VibeVoice-1.5B 3B (total) Texto-para-fala 90 minutos Inglês, Chinês MIT
VibeVoice-Realtime-0.5B ~0.5B TTS em Streaming Longo formato Inglês, Chinês MIT
VibeVoice-ASR ~9B Reconhecimento de fala 60 minutos 50+ idiomas MIT

VibeVoice-1.5B (TTS)

Especificação Valor
Base LLM Qwen2.5-1.5B
Comprimento do contexto 64K tokens
Máx. locutores 4 simultâneos
Saída de áudio WAV mono 24kHz
Tipo de tensor BF16
Formato Safetensors
Downloads HuggingFace 62.630/mês
Forks da comunidade 12 variantes ajustadas

VibeVoice-ASR

Especificação Valor
Base da arquitetura Qwen2.5
Parâmetros ~9B
Processamento de áudio Até 60 minutos em uma única passagem
Taxa de quadros 7.5 Hz
WER médio 7.77% (em 8 conjuntos de dados em inglês)
WER LibriSpeech Clean 2.20%
WER TED-LIUM 2.57%
Idiomas 50+
Saída Estruturada (Quem + Quando + O quê)
Áudio suportado WAV, FLAC, MP3 a 16kHz+

Instalação e configuração

Pré-requisitos

Instalar VibeVoice TTS

# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Instalar dependências
pip install -r requirements.txt

Os modelos são baixados automaticamente do HuggingFace na primeira execução. Você também pode baixá-los previamente:

from huggingface_hub import snapshot_download

# Baixar o modelo TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instalar via pip (pacote da comunidade)

pip install vibevoice

Instalar para ASR

VibeVoice-ASR usa uma configuração separada:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.

Gerando fala com VibeVoice-1.5B

Geração de locutor único

Crie um arquivo de texto com seu script:

Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.

Execute a inferência:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

A saída é salva como um arquivo .wav no diretório outputs/.

Geração de podcast multi-locutor

VibeVoice lida com até 4 locutores com identidades de voz consistentes durante toda a gravação:

Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.
python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

O modelo mantém características de voz distintas para cada locutor em toda a conversa, mesmo em durações de 90 minutos.

Clonagem de voz (zero-shot)

Clonar uma voz a partir de uma amostra de áudio de referência:

Requisitos de áudio:

Converta o áudio existente para o formato correto:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Use a interface de demonstração do Gradio para clonagem de voz:

python demo/gradio_demo.py

Isso inicia uma interface web em http://127.0.0.1:7860 onde você carrega seu áudio de referência, seleciona a voz clonada e gera a fala.

Streaming com VibeVoice-Realtime-0.5B

Para aplicativos que necessitam de saída de áudio com baixa latência (~300ms do primeiro chunk):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

O modelo Realtime é menor e mais rápido, mas produz áudio de fidelidade inferior ao modelo completo de 1.5B. Use-o para aplicativos interativos; use o 1.5B para conteúdo pré-gerado.

Usando VibeVoice com Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Carregar pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Preparar script multi-locutor
script = [
    {"role": "Alice", "content": "Como você lida com o versionamento de API?"},
    {"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]

# Aplicar template de chat
input_data = pipe.processor.apply_chat_template(script)

# Gerar áudio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI para produção

A comunidade construiu um wrapper FastAPI que expõe o VibeVoice como uma API TTS compatível com OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Isso fornece um endpoint de API compatível com o formato TTS da OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
    "voice": "alice"
  }' \
  --output speech.wav

Este endpoint compatível com OpenAI significa que você pode testar sua integração da API VibeVoice com Apidog usando o mesmo formato de requisição que você usaria para a API TTS da OpenAI. Importe o endpoint, configure o corpo da sua requisição e teste a geração de voz sem escrever código de aplicativo.

Usando VibeVoice-ASR para reconhecimento de fala

Transcrições básicas

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Formato de saída estruturado

VibeVoice-ASR produz transcrições estruturadas com três campos por segmento:

Exemplo de saída:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Vamos revisar os endpoints da API para o novo lançamento."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Adicionei três novos endpoints para o módulo de faturamento."
    }
  ]
}

ASR como um servidor MCP

VibeVoice-ASR pode rodar como um servidor MCP (Model Context Protocol), conectando-se diretamente ao Claude Code, Cursor e outras ferramentas de codificação de IA:

# Instalar o servidor MCP
pip install vibevoice-mcp-server

# Executar
vibevoice-mcp serve

Isso permite que seu agente de codificação transcreva reuniões, notas de voz ou gravações de áudio como parte de seu fluxo de trabalho. Você dita os requisitos, o servidor MCP os transcreve e o agente de codificação processa o texto.

Quando usar VibeVoice-ASR vs Whisper

Caso de uso Melhor opção Por quê
Reuniões longas (30-60 min) VibeVoice-ASR Processamento de 60 min em uma única passagem, identificação de locutor
Entrevistas com múltiplos locutores VibeVoice-ASR Diarização integrada
Podcasts que precisam de carimbos de data/hora VibeVoice-ASR Saída estruturada Quem/Quando/O quê
Conteúdo multilíngue (50+ idiomas) VibeVoice-ASR Maior suporte a idiomas
Clipes curtos em ambientes barulhentos Whisper Melhor robustez a ruído
Implantação em edge/mobile Whisper Menor tamanho de modelo, maior suporte a dispositivos
Idiomas não-Inglês (especializados) Whisper Ajuste multilíngue mais maduro

Testando APIs de IA de voz com Apidog

Quer você esteja usando o wrapper FastAPI do VibeVoice, o endpoint do Azure AI Foundry, ou construindo sua própria API de IA de voz, o Apidog ajuda a testar e depurar essas integrações.

Testando APIs de IA de Voz com Apidog

Testar o endpoint TTS

  1. Crie uma nova requisição POST no Apidog apontando para o seu servidor VibeVoice FastAPI
  2. Defina o corpo da requisição para o formato compatível com OpenAI:
{
  "model": "vibevoice-1.5b",
  "input": "Testar a síntese de fala com entonação e ritmo adequados.",
  "voice": "alice",
  "response_format": "wav"
}
  1. Envie a requisição e verifique se os cabeçalhos da resposta incluem o tipo de conteúdo audio/wav
  2. Salve a resposta como um arquivo WAV para verificar a qualidade do áudio

Testar o endpoint ASR

Para APIs de fala para texto:

  1. Configure uma requisição POST com multipart/form-data
  2. Anexe seu arquivo de áudio como um campo de formulário
  3. Verifique se a resposta JSON estruturada inclui IDs de locutor, carimbos de data/hora e texto transcrito

Validar contratos de API de áudio

APIs de IA de voz lidam com dados binários (arquivos de áudio) junto com metadados JSON. O construtor de requisições do Apidog lida com ambos:

Baixe o Apidog para testar suas integrações de IA de voz antes de implantar em produção.

botão

Segurança e uso responsável

A Microsoft adicionou várias salvaguardas após os incidentes iniciais de uso indevido:

O que é permitido

O que não é permitido

Limitações a serem observadas

O suporte a idiomas é restrito para TTS. VibeVoice-1.5B suporta inglês e chinês. Outros idiomas produzem saída ininteligível. VibeVoice-ASR tem cobertura mais ampla em mais de 50 idiomas.

Limitações do VibeVoice

Os requisitos de hardware são altos para ASR. O modelo ASR precisa de mais de 24 GB de VRAM (GPUs da classe A100/H100). Os modelos TTS rodam em GPUs de consumidor com 7-8 GB de VRAM.

Não há tratamento de fala sobreposta. O modelo TTS não modela locutores falando um sobre o outro. Todo o diálogo é baseado em turnos.

Vieses herdados do modelo. Ambos os modelos herdam vieses de sua base Qwen2.5. As saídas podem conter conteúdo inesperado, enviesado ou impreciso.

Software de nível de pesquisa. Não está pronto para produção. Espere arestas em casos extremos, tratamento de erros e saída não-Inglês.

Implantando VibeVoice-ASR no Azure AI Foundry

Para equipes que não desejam gerenciar infraestrutura de GPU, a Microsoft disponibilizou o VibeVoice-ASR através do Azure AI Foundry. Isso oferece um endpoint de API gerenciado sem a necessidade de provisionar hardware.

A implantação do Azure cuida do dimensionamento, atualizações de modelos e manutenção da infraestrutura. Você obtém um endpoint HTTPS que aceita arquivos de áudio e retorna transcrições estruturadas no mesmo formato Quem/Quando/O quê do modelo local.

Isso é particularmente útil para cargas de trabalho de produção onde você precisa de tempo de atividade consistente e garantias de SLA que a inferência de GPU auto-hospedada não pode fornecer. Verifique o catálogo de modelos do Azure AI Foundry para preços e opções de implantação atuais.

Para testar seu endpoint VibeVoice hospedado no Azure antes de integrá-lo ao seu aplicativo, configure a URL do endpoint e os cabeçalhos de autenticação no Apidog e execute transcrições de teste contra arquivos de áudio de exemplo.

Comunidade e ecossistema

VibeVoice possui uma comunidade ativa:

Projetos notáveis da comunidade:

FAQ

VibeVoice é gratuito para usar?

Sim. Todos os três modelos (TTS 1.5B, Realtime 0.5B, ASR) são licenciados sob MIT. Você pode usá-los para fins comerciais e não comerciais. A hospedagem no Azure AI Foundry tem preços separados para inferência gerenciada na nuvem.

VibeVoice pode rodar em Macs Apple Silicon?

A comunidade contribuiu com scripts para inferência em Macs da série M. Verifique as discussões no HuggingFace para o modelo VibeVoice-1.5B. O desempenho é mais lento que as GPUs CUDA, mas funcional.

Como o VibeVoice se compara ao ElevenLabs?

VibeVoice roda localmente sem custos de API e sem dados saindo da sua máquina. ElevenLabs oferece maior qualidade, mais vozes e configuração mais fácil, mas requer uma assinatura paga e processamento em nuvem. Para aplicações sensíveis à privacidade ou uso offline, VibeVoice é superior. Para qualidade de produção e facilidade de uso, ElevenLabs está à frente.

Por que o repositório GitHub foi temporariamente desativado?

A Microsoft descobriu pessoas usando clonagem de voz para personificação e deepfakes. Eles desativaram o repositório, adicionaram recursos de segurança (avisos audíveis, marca d'água) e o reativaram. O fork da comunidade manteve o desenvolvimento em andamento durante o período de inatividade.

Posso ajustar o VibeVoice com vozes personalizadas?

Sim. A comunidade produziu 12 variantes ajustadas no HuggingFace. Você precisa de amostras de voz (30-60 segundos de áudio WAV mono claro a 24kHz) e recursos de GPU para treinamento.

Quais formatos de áudio o VibeVoice gera?

WAV a 24.000 Hz mono. Você pode converter para MP3, OGG, FLAC ou outros formatos com ffmpeg após a geração.

Posso usar VibeVoice-ASR como um substituto para o Whisper?

Para áudio de longa duração com identificação de locutor, sim. VibeVoice-ASR lida com gravações de 60 minutos em uma única passagem com diarização integrada. O Whisper precisa de ferramentas externas para identificação de locutor e tem dificuldades com gravações acima de 30 minutos sem segmentação. Para clipes curtos e ruidosos ou implantação em dispositivos edge, o Whisper continua sendo a melhor escolha.

VibeVoice suporta chat de voz em tempo real?

VibeVoice-Realtime-0.5B suporta entrada de texto em streaming com latência de primeiro chunk de ~300ms. É utilizável para aplicações quase em tempo real, mas não é projetado para conversação de voz full-duplex. Para isso, procure o GPT-Realtime do Azure OpenAI ou soluções hospedadas semelhantes.

botão

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs