O Que É Microsoft VibeVoice? Como Usar os Modelos de IA de Voz de Código Aberto

TL;DR

VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.

Introdução

A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.

Microsoft VibeVoice - IA de Voz de Código Aberto

O framework possui três modelos:

VibeVoice-1.5B gera áudio conversacional expressivo e multi-locutor a partir de scripts de texto. Pode sintetizar até 90 minutos de fala com 4 locutores distintos em uma única passagem.
VibeVoice-Realtime-0.5B é uma variante leve de streaming que produz áudio com latência de primeira parte de ~300ms.
VibeVoice-ASR transcreve até 60 minutos de áudio contínuo com identificação de locutor, carimbos de data/hora e saída estruturada em mais de 50 idiomas.

Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.

VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.

Este guia aborda a instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.

botão

Como VibeVoice funciona: visão geral da arquitetura

O avanço do tokenizador

O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros significa que o modelo lida com sequências longas (90 minutos de áudio) sem esgotar o contexto.

O sistema usa dois tokenizadores:

Tokenizador Acústico: Uma variante sigma-VAE com ~340M parâmetros em um codificador-decodificador com simetria espelhada. Ele faz um downsample de 3.200x a partir de áudio de entrada de 24kHz.
Tokenizador Semântico: Espelha a arquitetura do tokenizador acústico, mas é treinado com uma tarefa proxy ASR para capturar o significado linguístico.

Difusão de próximo token

O modelo combina um backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão leve (~123M parâmetros). O LLM lida com o contexto textual e o fluxo do diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade usando DDPM (Denoising Diffusion Probabilistic Models) com Classifificador-Free Guidance.

Contagem total de parâmetros: 3B (incluindo tokenizadores e cabeça de difusão).

Abordagem de treinamento

VibeVoice usa aprendizado curricular, treinando progressivamente em sequências mais longas: 4K, 16K, 32K, depois 64K tokens. Os tokenizadores pré-treinados permanecem congelados durante esta fase; apenas os parâmetros do LLM e da cabeça de difusão são atualizados. Isso permite que o modelo aprenda a lidar com áudio cada vez mais longo sem esquecer as capacidades de formato curto.

Especificações do modelo VibeVoice

Modelo	Parâmetros	Propósito	Comprimento máximo	Idiomas	Licença
VibeVoice-1.5B	3B (total)	Texto-para-fala	90 minutos	Inglês, Chinês	MIT
VibeVoice-Realtime-0.5B	~0.5B	TTS em Streaming	Longo formato	Inglês, Chinês	MIT
VibeVoice-ASR	~9B	Reconhecimento de fala	60 minutos	50+ idiomas	MIT

VibeVoice-1.5B (TTS)

Especificação	Valor
Base LLM	Qwen2.5-1.5B
Comprimento do contexto	64K tokens
Máx. locutores	4 simultâneos
Saída de áudio	WAV mono 24kHz
Tipo de tensor	BF16
Formato	Safetensors
Downloads HuggingFace	62.630/mês
Forks da comunidade	12 variantes ajustadas

VibeVoice-ASR

Especificação	Valor
Base da arquitetura	Qwen2.5
Parâmetros	~9B
Processamento de áudio	Até 60 minutos em uma única passagem
Taxa de quadros	7.5 Hz
WER médio	7.77% (em 8 conjuntos de dados em inglês)
WER LibriSpeech Clean	2.20%
WER TED-LIUM	2.57%
Idiomas	50+
Saída	Estruturada (Quem + Quando + O quê)
Áudio suportado	WAV, FLAC, MP3 a 16kHz+

Instalação e configuração

Pré-requisitos

Python 3.8+
GPU NVIDIA com suporte a CUDA
Mínimo de 7-8 GB de VRAM para modelos TTS
Mínimo de 24 GB de VRAM para o modelo ASR (A100/H100 recomendado)
Mínimo de 32 GB de RAM (64 GB recomendado para ASR)
CUDA 11.8+ (CUDA 12.0+ recomendado)

Instalar VibeVoice TTS

# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# Instalar dependências
pip install -r requirements.txt

Os modelos são baixados automaticamente do HuggingFace na primeira execução. Você também pode baixá-los previamente:

from huggingface_hub import snapshot_download

# Baixar o modelo TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

Instalar via pip (pacote da comunidade)

pip install vibevoice

Instalar para ASR

VibeVoice-ASR usa uma configuração separada:

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.

Gerando fala com VibeVoice-1.5B

Geração de locutor único

Crie um arquivo de texto com seu script:

Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.

Execute a inferência:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

A saída é salva como um arquivo .wav no diretório outputs/.

Geração de podcast multi-locutor

VibeVoice lida com até 4 locutores com identidades de voz consistentes durante toda a gravação:

Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

O modelo mantém características de voz distintas para cada locutor em toda a conversa, mesmo em durações de 90 minutos.

Clonagem de voz (zero-shot)

Clonar uma voz a partir de uma amostra de áudio de referência:

Requisitos de áudio:

Formato: WAV (mono)
Taxa de amostragem: 24.000 Hz
Duração: 30-60 segundos de fala clara

Converta o áudio existente para o formato correto:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

Use a interface de demonstração do Gradio para clonagem de voz:

python demo/gradio_demo.py

Isso inicia uma interface web em http://127.0.0.1:7860 onde você carrega seu áudio de referência, seleciona a voz clonada e gera a fala.

Streaming com VibeVoice-Realtime-0.5B

Para aplicativos que necessitam de saída de áudio com baixa latência (~300ms do primeiro chunk):

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

O modelo Realtime é menor e mais rápido, mas produz áudio de fidelidade inferior ao modelo completo de 1.5B. Use-o para aplicativos interativos; use o 1.5B para conteúdo pré-gerado.

Usando VibeVoice com Python

API de Pipeline

from transformers import pipeline
from huggingface_hub import snapshot_download

# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# Carregar pipeline
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# Preparar script multi-locutor
script = [
    {"role": "Alice", "content": "Como você lida com o versionamento de API?"},
    {"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]

# Aplicar template de chat
input_data = pipe.processor.apply_chat_template(script)

# Gerar áudio
generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

Wrapper FastAPI para produção

A comunidade construiu um wrapper FastAPI que expõe o VibeVoice como uma API TTS compatível com OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

Isso fornece um endpoint de API compatível com o formato TTS da OpenAI:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
    "voice": "alice"
  }' \
  --output speech.wav

Este endpoint compatível com OpenAI significa que você pode testar sua integração da API VibeVoice com Apidog usando o mesmo formato de requisição que você usaria para a API TTS da OpenAI. Importe o endpoint, configure o corpo da sua requisição e teste a geração de voz sem escrever código de aplicativo.

Usando VibeVoice-ASR para reconhecimento de fala

Transcrições básicas

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

Formato de saída estruturado

VibeVoice-ASR produz transcrições estruturadas com três campos por segmento:

Quem: Identidade do locutor (Locutor 1, Locutor 2, etc.)
Quando: Carimbos de data/hora de início e fim
O quê: Conteúdo do texto transcrito

Exemplo de saída:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Vamos revisar os endpoints da API para o novo lançamento."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "Adicionei três novos endpoints para o módulo de faturamento."
    }
  ]
}

ASR como um servidor MCP

VibeVoice-ASR pode rodar como um servidor MCP (Model Context Protocol), conectando-se diretamente ao Claude Code, Cursor e outras ferramentas de codificação de IA:

# Instalar o servidor MCP
pip install vibevoice-mcp-server

# Executar
vibevoice-mcp serve

Isso permite que seu agente de codificação transcreva reuniões, notas de voz ou gravações de áudio como parte de seu fluxo de trabalho. Você dita os requisitos, o servidor MCP os transcreve e o agente de codificação processa o texto.

Quando usar VibeVoice-ASR vs Whisper

Caso de uso	Melhor opção	Por quê
Reuniões longas (30-60 min)	VibeVoice-ASR	Processamento de 60 min em uma única passagem, identificação de locutor
Entrevistas com múltiplos locutores	VibeVoice-ASR	Diarização integrada
Podcasts que precisam de carimbos de data/hora	VibeVoice-ASR	Saída estruturada Quem/Quando/O quê
Conteúdo multilíngue (50+ idiomas)	VibeVoice-ASR	Maior suporte a idiomas
Clipes curtos em ambientes barulhentos	Whisper	Melhor robustez a ruído
Implantação em edge/mobile	Whisper	Menor tamanho de modelo, maior suporte a dispositivos
Idiomas não-Inglês (especializados)	Whisper	Ajuste multilíngue mais maduro

Testando APIs de IA de voz com Apidog

Quer você esteja usando o wrapper FastAPI do VibeVoice, o endpoint do Azure AI Foundry, ou construindo sua própria API de IA de voz, o Apidog ajuda a testar e depurar essas integrações.

Testar o endpoint TTS

Crie uma nova requisição POST no Apidog apontando para o seu servidor VibeVoice FastAPI
Defina o corpo da requisição para o formato compatível com OpenAI:

{
  "model": "vibevoice-1.5b",
  "input": "Testar a síntese de fala com entonação e ritmo adequados.",
  "voice": "alice",
  "response_format": "wav"
}

Envie a requisição e verifique se os cabeçalhos da resposta incluem o tipo de conteúdo audio/wav
Salve a resposta como um arquivo WAV para verificar a qualidade do áudio

Testar o endpoint ASR

Para APIs de fala para texto:

Configure uma requisição POST com multipart/form-data
Anexe seu arquivo de áudio como um campo de formulário
Verifique se a resposta JSON estruturada inclui IDs de locutor, carimbos de data/hora e texto transcrito

Validar contratos de API de áudio

APIs de IA de voz lidam com dados binários (arquivos de áudio) junto com metadados JSON. O construtor de requisições do Apidog lida com ambos:

Uploads de arquivos binários para endpoints ASR
Formatação de corpo JSON para endpoints TTS
Validação de resposta para saída de transcrição estruturada
Variáveis de ambiente para alternar entre endpoints locais e de nuvem

Baixe o Apidog para testar suas integrações de IA de voz antes de implantar em produção.

botão

Segurança e uso responsável

A Microsoft adicionou várias salvaguardas após os incidentes iniciais de uso indevido:

Aviso sonoro de IA: Todo áudio gerado inclui uma mensagem automática "Este segmento foi gerado por IA"
Marca d'água imperceptível: Marcadores ocultos permitem a verificação por terceiros do conteúdo gerado pelo VibeVoice
Registro de inferência: Logs com hash detectam padrões de abuso com estatísticas agregadas trimestrais
Licença MIT: Permite uso comercial, mas a Microsoft recomenda contra a implantação em produção sem testes adicionais

O que é permitido

Uso para pesquisa e acadêmico
Prototipagem e testes internos
Geração de podcast com divulgação apropriada de IA
Aplicativos de acessibilidade (texto-para-fala para usuários com deficiência visual)

O que não é permitido

Falsa identidade de voz sem consentimento explícito gravado
Deepfakes ou apresentação de áudio de IA como gravações humanas genuínas
Conversão de voz em tempo real para aplicativos de deepfake ao vivo
Geração de áudio não-fala (música, efeitos sonoros)

Limitações a serem observadas

O suporte a idiomas é restrito para TTS. VibeVoice-1.5B suporta inglês e chinês. Outros idiomas produzem saída ininteligível. VibeVoice-ASR tem cobertura mais ampla em mais de 50 idiomas.

Os requisitos de hardware são altos para ASR. O modelo ASR precisa de mais de 24 GB de VRAM (GPUs da classe A100/H100). Os modelos TTS rodam em GPUs de consumidor com 7-8 GB de VRAM.

Não há tratamento de fala sobreposta. O modelo TTS não modela locutores falando um sobre o outro. Todo o diálogo é baseado em turnos.

Vieses herdados do modelo. Ambos os modelos herdam vieses de sua base Qwen2.5. As saídas podem conter conteúdo inesperado, enviesado ou impreciso.

Software de nível de pesquisa. Não está pronto para produção. Espere arestas em casos extremos, tratamento de erros e saída não-Inglês.

Implantando VibeVoice-ASR no Azure AI Foundry

Para equipes que não desejam gerenciar infraestrutura de GPU, a Microsoft disponibilizou o VibeVoice-ASR através do Azure AI Foundry. Isso oferece um endpoint de API gerenciado sem a necessidade de provisionar hardware.

A implantação do Azure cuida do dimensionamento, atualizações de modelos e manutenção da infraestrutura. Você obtém um endpoint HTTPS que aceita arquivos de áudio e retorna transcrições estruturadas no mesmo formato Quem/Quando/O quê do modelo local.

Isso é particularmente útil para cargas de trabalho de produção onde você precisa de tempo de atividade consistente e garantias de SLA que a inferência de GPU auto-hospedada não pode fornecer. Verifique o catálogo de modelos do Azure AI Foundry para preços e opções de implantação atuais.

Para testar seu endpoint VibeVoice hospedado no Azure antes de integrá-lo ao seu aplicativo, configure a URL do endpoint e os cabeçalhos de autenticação no Apidog e execute transcrições de teste contra arquivos de áudio de exemplo.

Comunidade e ecossistema

VibeVoice possui uma comunidade ativa:

Mais de 62.630 downloads mensais no HuggingFace para o modelo 1.5B
Mais de 2.280 curtidas no HuggingFace
Mais de 79 HuggingFace Spaces executando o modelo
12 variantes ajustadas da comunidade
4 versões quantizadas para implantação com menor VRAM
Fork da comunidade em vibevoice-community/VibeVoice com manutenção ativa

Projetos notáveis da comunidade:

VibeVoice-FastAPI: Wrapper de API REST de produção com suporte a Docker
VibeVoice MCP Server: Integração com ferramentas de codificação de IA via Model Context Protocol
Suporte a Apple Silicon: Scripts da comunidade para inferência em Macs da série M
Modelos quantizados: GGUF e outros formatos para uso reduzido de VRAM

FAQ

VibeVoice é gratuito para usar?

Sim. Todos os três modelos (TTS 1.5B, Realtime 0.5B, ASR) são licenciados sob MIT. Você pode usá-los para fins comerciais e não comerciais. A hospedagem no Azure AI Foundry tem preços separados para inferência gerenciada na nuvem.

VibeVoice pode rodar em Macs Apple Silicon?

A comunidade contribuiu com scripts para inferência em Macs da série M. Verifique as discussões no HuggingFace para o modelo VibeVoice-1.5B. O desempenho é mais lento que as GPUs CUDA, mas funcional.

Como o VibeVoice se compara ao ElevenLabs?

VibeVoice roda localmente sem custos de API e sem dados saindo da sua máquina. ElevenLabs oferece maior qualidade, mais vozes e configuração mais fácil, mas requer uma assinatura paga e processamento em nuvem. Para aplicações sensíveis à privacidade ou uso offline, VibeVoice é superior. Para qualidade de produção e facilidade de uso, ElevenLabs está à frente.

Por que o repositório GitHub foi temporariamente desativado?

A Microsoft descobriu pessoas usando clonagem de voz para personificação e deepfakes. Eles desativaram o repositório, adicionaram recursos de segurança (avisos audíveis, marca d'água) e o reativaram. O fork da comunidade manteve o desenvolvimento em andamento durante o período de inatividade.

Posso ajustar o VibeVoice com vozes personalizadas?

Sim. A comunidade produziu 12 variantes ajustadas no HuggingFace. Você precisa de amostras de voz (30-60 segundos de áudio WAV mono claro a 24kHz) e recursos de GPU para treinamento.

Quais formatos de áudio o VibeVoice gera?

WAV a 24.000 Hz mono. Você pode converter para MP3, OGG, FLAC ou outros formatos com ffmpeg após a geração.

Posso usar VibeVoice-ASR como um substituto para o Whisper?

Para áudio de longa duração com identificação de locutor, sim. VibeVoice-ASR lida com gravações de 60 minutos em uma única passagem com diarização integrada. O Whisper precisa de ferramentas externas para identificação de locutor e tem dificuldades com gravações acima de 30 minutos sem segmentação. Para clipes curtos e ruidosos ou implantação em dispositivos edge, o Whisper continua sendo a melhor escolha.

VibeVoice suporta chat de voz em tempo real?

VibeVoice-Realtime-0.5B suporta entrada de texto em streaming com latência de primeiro chunk de ~300ms. É utilizável para aplicações quase em tempo real, mas não é projetado para conversação de voz full-duplex. Para isso, procure o GPT-Realtime do Azure OpenAI ou soluções hospedadas semelhantes.

botão