TL;DR
VibeVoice é a família de IA de voz de código aberto da Microsoft com três modelos: VibeVoice-1.5B para texto-para-fala (até 90 minutos, 4 locutores), VibeVoice-Realtime-0.5B para TTS em streaming e VibeVoice-ASR para reconhecimento de fala (áudio de 60 minutos, mais de 50 idiomas, WER de 7,77%). Todos os modelos são licenciados sob MIT e rodam localmente. Este guia cobre instalação, uso e integração de API.
Introdução
A Microsoft lançou VibeVoice como um framework de IA de voz de código aberto no início de 2026. Ele inclui modelos tanto para síntese de fala (texto-para-fala) quanto para reconhecimento de fala (reconhecimento automático de fala), todos rodando localmente em seu hardware sem dependência de nuvem.

O framework possui três modelos:
- VibeVoice-1.5B gera áudio conversacional expressivo e multi-locutor a partir de scripts de texto. Pode sintetizar até 90 minutos de fala com 4 locutores distintos em uma única passagem.
- VibeVoice-Realtime-0.5B é uma variante leve de streaming que produz áudio com latência de primeira parte de ~300ms.
- VibeVoice-ASR transcreve até 60 minutos de áudio contínuo com identificação de locutor, carimbos de data/hora e saída estruturada em mais de 50 idiomas.

Os modelos TTS causaram controvérsia após o lançamento. A Microsoft desativou temporariamente o repositório principal do GitHub quando descobriu o uso indevido de clonagem de voz. A comunidade fez um fork do código, e a Microsoft posteriormente reativou o repositório com salvaguardas adicionais: um aviso sonoro de IA incorporado ao áudio gerado e uma marca d'água imperceptível para verificação de proveniência.
VibeVoice-ASR agora está disponível no Azure AI Foundry para implantação na nuvem. Os modelos TTS permanecem focados em pesquisa com licença MIT.
Este guia aborda a instalação, geração de texto-para-fala, reconhecimento de fala, integração de API e como testar endpoints de IA de voz com o Apidog.
Como VibeVoice funciona: visão geral da arquitetura
O avanço do tokenizador
O principal avanço do VibeVoice são seus tokenizadores de fala contínua operando em uma taxa de quadros ultrabaixa de 7,5 Hz. Para comparação, a maioria dos modelos de fala processa áudio a 50-100 Hz. Essa redução de 7-13x na taxa de quadros significa que o modelo lida com sequências longas (90 minutos de áudio) sem esgotar o contexto.


O sistema usa dois tokenizadores:
- Tokenizador Acústico: Uma variante sigma-VAE com ~340M parâmetros em um codificador-decodificador com simetria espelhada. Ele faz um downsample de 3.200x a partir de áudio de entrada de 24kHz.
- Tokenizador Semântico: Espelha a arquitetura do tokenizador acústico, mas é treinado com uma tarefa proxy ASR para capturar o significado linguístico.
Difusão de próximo token
O modelo combina um backbone LLM (Qwen2.5-1.5B) com uma cabeça de difusão leve (~123M parâmetros). O LLM lida com o contexto textual e o fluxo do diálogo. A cabeça de difusão gera detalhes acústicos de alta fidelidade usando DDPM (Denoising Diffusion Probabilistic Models) com Classifificador-Free Guidance.
Contagem total de parâmetros: 3B (incluindo tokenizadores e cabeça de difusão).
Abordagem de treinamento
VibeVoice usa aprendizado curricular, treinando progressivamente em sequências mais longas: 4K, 16K, 32K, depois 64K tokens. Os tokenizadores pré-treinados permanecem congelados durante esta fase; apenas os parâmetros do LLM e da cabeça de difusão são atualizados. Isso permite que o modelo aprenda a lidar com áudio cada vez mais longo sem esquecer as capacidades de formato curto.
Especificações do modelo VibeVoice
| Modelo | Parâmetros | Propósito | Comprimento máximo | Idiomas | Licença |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3B (total) | Texto-para-fala | 90 minutos | Inglês, Chinês | MIT |
| VibeVoice-Realtime-0.5B | ~0.5B | TTS em Streaming | Longo formato | Inglês, Chinês | MIT |
| VibeVoice-ASR | ~9B | Reconhecimento de fala | 60 minutos | 50+ idiomas | MIT |
VibeVoice-1.5B (TTS)
| Especificação | Valor |
|---|---|
| Base LLM | Qwen2.5-1.5B |
| Comprimento do contexto | 64K tokens |
| Máx. locutores | 4 simultâneos |
| Saída de áudio | WAV mono 24kHz |
| Tipo de tensor | BF16 |
| Formato | Safetensors |
| Downloads HuggingFace | 62.630/mês |
| Forks da comunidade | 12 variantes ajustadas |
VibeVoice-ASR
| Especificação | Valor |
|---|---|
| Base da arquitetura | Qwen2.5 |
| Parâmetros | ~9B |
| Processamento de áudio | Até 60 minutos em uma única passagem |
| Taxa de quadros | 7.5 Hz |
| WER médio | 7.77% (em 8 conjuntos de dados em inglês) |
| WER LibriSpeech Clean | 2.20% |
| WER TED-LIUM | 2.57% |
| Idiomas | 50+ |
| Saída | Estruturada (Quem + Quando + O quê) |
| Áudio suportado | WAV, FLAC, MP3 a 16kHz+ |
Instalação e configuração
Pré-requisitos
- Python 3.8+
- GPU NVIDIA com suporte a CUDA
- Mínimo de 7-8 GB de VRAM para modelos TTS
- Mínimo de 24 GB de VRAM para o modelo ASR (A100/H100 recomendado)
- Mínimo de 32 GB de RAM (64 GB recomendado para ASR)
- CUDA 11.8+ (CUDA 12.0+ recomendado)
Instalar VibeVoice TTS
# Clonar o repositório
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# Instalar dependências
pip install -r requirements.txt
Os modelos são baixados automaticamente do HuggingFace na primeira execução. Você também pode baixá-los previamente:
from huggingface_hub import snapshot_download
# Baixar o modelo TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
Instalar via pip (pacote da comunidade)
pip install vibevoice
Instalar para ASR
VibeVoice-ASR usa uma configuração separada:
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
Ou implante via Azure AI Foundry para inferência gerenciada na nuvem.
Gerando fala com VibeVoice-1.5B
Geração de locutor único
Crie um arquivo de texto com seu script:
Alice: Bem-vindos ao podcast de desenvolvedores Apidog. Hoje vamos cobrir as estratégias de teste de API para 2026.
Execute a inferência:
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path script.txt \
--speaker_names Alice \
--cfg_scale 1.5
A saída é salva como um arquivo .wav no diretório outputs/.
Geração de podcast multi-locutor
VibeVoice lida com até 4 locutores com identidades de voz consistentes durante toda a gravação:
Alice: De volta ao programa. Hoje temos dois especialistas em API conosco.
Bob: Obrigado por me receber. Tenho trabalhado em padrões de design de REST API nos últimos cinco anos.
Carol: E eu me concentro na otimização de desempenho do GraphQL. Feliz em estar aqui.
Alice: Vamos começar com o debate que todos querem ouvir. REST versus GraphQL para microsserviços.
Bob: REST oferece limites claros de recursos. Cada endpoint mapeia para um recurso específico.
Carol: GraphQL oferece flexibilidade. Um endpoint, e o cliente decide quais dados precisa.
python VibeVoice \
--model_path microsoft/VibeVoice-1.5B \
--txt_path podcast_script.txt \
--speaker_names Alice Bob Carol \
--cfg_scale 1.5
O modelo mantém características de voz distintas para cada locutor em toda a conversa, mesmo em durações de 90 minutos.
Clonagem de voz (zero-shot)
Clonar uma voz a partir de uma amostra de áudio de referência:
Requisitos de áudio:
- Formato: WAV (mono)
- Taxa de amostragem: 24.000 Hz
- Duração: 30-60 segundos de fala clara
Converta o áudio existente para o formato correto:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav
Use a interface de demonstração do Gradio para clonagem de voz:
python demo/gradio_demo.py
Isso inicia uma interface web em http://127.0.0.1:7860 onde você carrega seu áudio de referência, seleciona a voz clonada e gera a fala.
Streaming com VibeVoice-Realtime-0.5B
Para aplicativos que necessitam de saída de áudio com baixa latência (~300ms do primeiro chunk):
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
O modelo Realtime é menor e mais rápido, mas produz áudio de fidelidade inferior ao modelo completo de 1.5B. Use-o para aplicativos interativos; use o 1.5B para conteúdo pré-gerado.
Usando VibeVoice com Python
API de Pipeline
from transformers import pipeline
from huggingface_hub import snapshot_download
# Baixar modelo
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# Carregar pipeline
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# Preparar script multi-locutor
script = [
{"role": "Alice", "content": "Como você lida com o versionamento de API?"},
{"role": "Bob", "content": "Usamos o versionamento do caminho da URL. v1, v2 e assim por diante."},
]
# Aplicar template de chat
input_data = pipe.processor.apply_chat_template(script)
# Gerar áudio
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
Wrapper FastAPI para produção
A comunidade construiu um wrapper FastAPI que expõe o VibeVoice como uma API TTS compatível com OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
Isso fornece um endpoint de API compatível com o formato TTS da OpenAI:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Sua documentação de API deve ser uma conversa, não um monólogo.",
"voice": "alice"
}' \
--output speech.wav
Este endpoint compatível com OpenAI significa que você pode testar sua integração da API VibeVoice com Apidog usando o mesmo formato de requisição que você usaria para a API TTS da OpenAI. Importe o endpoint, configure o corpo da sua requisição e teste a geração de voz sem escrever código de aplicativo.
Usando VibeVoice-ASR para reconhecimento de fala
Transcrições básicas
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
Formato de saída estruturado
VibeVoice-ASR produz transcrições estruturadas com três campos por segmento:
- Quem: Identidade do locutor (Locutor 1, Locutor 2, etc.)
- Quando: Carimbos de data/hora de início e fim
- O quê: Conteúdo do texto transcrito
Exemplo de saída:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Vamos revisar os endpoints da API para o novo lançamento."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "Adicionei três novos endpoints para o módulo de faturamento."
}
]
}
ASR como um servidor MCP
VibeVoice-ASR pode rodar como um servidor MCP (Model Context Protocol), conectando-se diretamente ao Claude Code, Cursor e outras ferramentas de codificação de IA:
# Instalar o servidor MCP
pip install vibevoice-mcp-server
# Executar
vibevoice-mcp serve
Isso permite que seu agente de codificação transcreva reuniões, notas de voz ou gravações de áudio como parte de seu fluxo de trabalho. Você dita os requisitos, o servidor MCP os transcreve e o agente de codificação processa o texto.
Quando usar VibeVoice-ASR vs Whisper
| Caso de uso | Melhor opção | Por quê |
|---|---|---|
| Reuniões longas (30-60 min) | VibeVoice-ASR | Processamento de 60 min em uma única passagem, identificação de locutor |
| Entrevistas com múltiplos locutores | VibeVoice-ASR | Diarização integrada |
| Podcasts que precisam de carimbos de data/hora | VibeVoice-ASR | Saída estruturada Quem/Quando/O quê |
| Conteúdo multilíngue (50+ idiomas) | VibeVoice-ASR | Maior suporte a idiomas |
| Clipes curtos em ambientes barulhentos | Whisper | Melhor robustez a ruído |
| Implantação em edge/mobile | Whisper | Menor tamanho de modelo, maior suporte a dispositivos |
| Idiomas não-Inglês (especializados) | Whisper | Ajuste multilíngue mais maduro |
Testando APIs de IA de voz com Apidog
Quer você esteja usando o wrapper FastAPI do VibeVoice, o endpoint do Azure AI Foundry, ou construindo sua própria API de IA de voz, o Apidog ajuda a testar e depurar essas integrações.

Testar o endpoint TTS
- Crie uma nova requisição POST no Apidog apontando para o seu servidor VibeVoice FastAPI
- Defina o corpo da requisição para o formato compatível com OpenAI:
{
"model": "vibevoice-1.5b",
"input": "Testar a síntese de fala com entonação e ritmo adequados.",
"voice": "alice",
"response_format": "wav"
}
- Envie a requisição e verifique se os cabeçalhos da resposta incluem o tipo de conteúdo
audio/wav - Salve a resposta como um arquivo WAV para verificar a qualidade do áudio
Testar o endpoint ASR
Para APIs de fala para texto:
- Configure uma requisição POST com
multipart/form-data - Anexe seu arquivo de áudio como um campo de formulário
- Verifique se a resposta JSON estruturada inclui IDs de locutor, carimbos de data/hora e texto transcrito
Validar contratos de API de áudio
APIs de IA de voz lidam com dados binários (arquivos de áudio) junto com metadados JSON. O construtor de requisições do Apidog lida com ambos:
- Uploads de arquivos binários para endpoints ASR
- Formatação de corpo JSON para endpoints TTS
- Validação de resposta para saída de transcrição estruturada
- Variáveis de ambiente para alternar entre endpoints locais e de nuvem
Baixe o Apidog para testar suas integrações de IA de voz antes de implantar em produção.
Segurança e uso responsável
A Microsoft adicionou várias salvaguardas após os incidentes iniciais de uso indevido:
- Aviso sonoro de IA: Todo áudio gerado inclui uma mensagem automática "Este segmento foi gerado por IA"
- Marca d'água imperceptível: Marcadores ocultos permitem a verificação por terceiros do conteúdo gerado pelo VibeVoice
- Registro de inferência: Logs com hash detectam padrões de abuso com estatísticas agregadas trimestrais
- Licença MIT: Permite uso comercial, mas a Microsoft recomenda contra a implantação em produção sem testes adicionais
O que é permitido
- Uso para pesquisa e acadêmico
- Prototipagem e testes internos
- Geração de podcast com divulgação apropriada de IA
- Aplicativos de acessibilidade (texto-para-fala para usuários com deficiência visual)
O que não é permitido
- Falsa identidade de voz sem consentimento explícito gravado
- Deepfakes ou apresentação de áudio de IA como gravações humanas genuínas
- Conversão de voz em tempo real para aplicativos de deepfake ao vivo
- Geração de áudio não-fala (música, efeitos sonoros)
Limitações a serem observadas
O suporte a idiomas é restrito para TTS. VibeVoice-1.5B suporta inglês e chinês. Outros idiomas produzem saída ininteligível. VibeVoice-ASR tem cobertura mais ampla em mais de 50 idiomas.

Os requisitos de hardware são altos para ASR. O modelo ASR precisa de mais de 24 GB de VRAM (GPUs da classe A100/H100). Os modelos TTS rodam em GPUs de consumidor com 7-8 GB de VRAM.
Não há tratamento de fala sobreposta. O modelo TTS não modela locutores falando um sobre o outro. Todo o diálogo é baseado em turnos.
Vieses herdados do modelo. Ambos os modelos herdam vieses de sua base Qwen2.5. As saídas podem conter conteúdo inesperado, enviesado ou impreciso.
Software de nível de pesquisa. Não está pronto para produção. Espere arestas em casos extremos, tratamento de erros e saída não-Inglês.
Implantando VibeVoice-ASR no Azure AI Foundry
Para equipes que não desejam gerenciar infraestrutura de GPU, a Microsoft disponibilizou o VibeVoice-ASR através do Azure AI Foundry. Isso oferece um endpoint de API gerenciado sem a necessidade de provisionar hardware.
A implantação do Azure cuida do dimensionamento, atualizações de modelos e manutenção da infraestrutura. Você obtém um endpoint HTTPS que aceita arquivos de áudio e retorna transcrições estruturadas no mesmo formato Quem/Quando/O quê do modelo local.
Isso é particularmente útil para cargas de trabalho de produção onde você precisa de tempo de atividade consistente e garantias de SLA que a inferência de GPU auto-hospedada não pode fornecer. Verifique o catálogo de modelos do Azure AI Foundry para preços e opções de implantação atuais.
Para testar seu endpoint VibeVoice hospedado no Azure antes de integrá-lo ao seu aplicativo, configure a URL do endpoint e os cabeçalhos de autenticação no Apidog e execute transcrições de teste contra arquivos de áudio de exemplo.
Comunidade e ecossistema
VibeVoice possui uma comunidade ativa:
- Mais de 62.630 downloads mensais no HuggingFace para o modelo 1.5B
- Mais de 2.280 curtidas no HuggingFace
- Mais de 79 HuggingFace Spaces executando o modelo
- 12 variantes ajustadas da comunidade
- 4 versões quantizadas para implantação com menor VRAM
- Fork da comunidade em
vibevoice-community/VibeVoicecom manutenção ativa
Projetos notáveis da comunidade:
- VibeVoice-FastAPI: Wrapper de API REST de produção com suporte a Docker
- VibeVoice MCP Server: Integração com ferramentas de codificação de IA via Model Context Protocol
- Suporte a Apple Silicon: Scripts da comunidade para inferência em Macs da série M
- Modelos quantizados: GGUF e outros formatos para uso reduzido de VRAM
FAQ
VibeVoice é gratuito para usar?
Sim. Todos os três modelos (TTS 1.5B, Realtime 0.5B, ASR) são licenciados sob MIT. Você pode usá-los para fins comerciais e não comerciais. A hospedagem no Azure AI Foundry tem preços separados para inferência gerenciada na nuvem.
VibeVoice pode rodar em Macs Apple Silicon?
A comunidade contribuiu com scripts para inferência em Macs da série M. Verifique as discussões no HuggingFace para o modelo VibeVoice-1.5B. O desempenho é mais lento que as GPUs CUDA, mas funcional.
Como o VibeVoice se compara ao ElevenLabs?
VibeVoice roda localmente sem custos de API e sem dados saindo da sua máquina. ElevenLabs oferece maior qualidade, mais vozes e configuração mais fácil, mas requer uma assinatura paga e processamento em nuvem. Para aplicações sensíveis à privacidade ou uso offline, VibeVoice é superior. Para qualidade de produção e facilidade de uso, ElevenLabs está à frente.
Por que o repositório GitHub foi temporariamente desativado?
A Microsoft descobriu pessoas usando clonagem de voz para personificação e deepfakes. Eles desativaram o repositório, adicionaram recursos de segurança (avisos audíveis, marca d'água) e o reativaram. O fork da comunidade manteve o desenvolvimento em andamento durante o período de inatividade.
Posso ajustar o VibeVoice com vozes personalizadas?
Sim. A comunidade produziu 12 variantes ajustadas no HuggingFace. Você precisa de amostras de voz (30-60 segundos de áudio WAV mono claro a 24kHz) e recursos de GPU para treinamento.
Quais formatos de áudio o VibeVoice gera?
WAV a 24.000 Hz mono. Você pode converter para MP3, OGG, FLAC ou outros formatos com ffmpeg após a geração.
Posso usar VibeVoice-ASR como um substituto para o Whisper?
Para áudio de longa duração com identificação de locutor, sim. VibeVoice-ASR lida com gravações de 60 minutos em uma única passagem com diarização integrada. O Whisper precisa de ferramentas externas para identificação de locutor e tem dificuldades com gravações acima de 30 minutos sem segmentação. Para clipes curtos e ruidosos ou implantação em dispositivos edge, o Whisper continua sendo a melhor escolha.
VibeVoice suporta chat de voz em tempo real?
VibeVoice-Realtime-0.5B suporta entrada de texto em streaming com latência de primeiro chunk de ~300ms. É utilizável para aplicações quase em tempo real, mas não é projetado para conversação de voz full-duplex. Para isso, procure o GPT-Realtime do Azure OpenAI ou soluções hospedadas semelhantes.
