Apidog

All-in-one Collaborative API Development Platform

Design de API

Documentação de API

Depuração de API

Mock de API

Testes Automatizados de API

Inscreva-se gratuitamente
Home / Ponto de vista / API Whisper | Converter Áudio e Vídeo em Transcrições de Texto

API Whisper | Converter Áudio e Vídeo em Transcrições de Texto

A API Whisper da OpenAI desbloqueia o reconhecimento automático de fala (ASR) através da nuvem, permitindo que empresas utilizem essa poderosa ferramenta para converter arquivos de áudio/vídeo em transcrições de texto com alta precisão, mesmo em ambientes ruidosos.

O sempre crescente reino da inteligência artificial continua a revolucionar numerosas indústrias, e a API Whisper da OpenAI é um exemplo primário dentro do campo do reconhecimento automático de fala (ASR).

💡
A API Whisper da OpenAI é extremamente precisa e útil para criadores de conteúdo que desejam automatizar a criação de legendas para seus vídeos. No entanto, se você deseja ser um desenvolvedor de aplicativos cujo software fornece a funcionalidade da API Whisper, certamente precisará de uma ferramenta de API para auxiliá-lo no processo.

Considere fortemente usar Apidog, uma plataforma abrangente de desenvolvimento de API que permite que você observe, modifique e projete APIs. Se você deseja saber mais sobre a Apidog, certifique-se de clicar no botão abaixo.
button

Este serviço baseado em nuvem capacita os usuários com a habilidade de converter arquivos de áudio ou vídeo em transcrições de texto abrangentes, ostentando precisão excepcional mesmo em condições de escuta menos que ideais, caracterizadas por ruído de fundo ou vários falantes.

O que é a API Whisper?

whisper api website

A API Whisper da OpenAI é um serviço baseado em nuvem que utiliza aprendizado de máquina para converter arquivos de áudio ou vídeo em transcrições de texto, enquadrando-se na categoria de Reconhecimento Automático de Fala (ASR).

Principais Recursos da API Whisper

Reconhecimento Automático de Fala (ASR)

Este recurso central está no coração das capacidades do Whisper. Ele permite que os usuários transcrevam linguagem falada a partir de arquivos de áudio ou vídeo para o formato de texto. O Whisper se destaca nesse domínio, alcançando alta precisão mesmo com áudio desafiador contendo ruído de fundo, sotaques ou jargão técnico.

Suporte Multilíngue

O Whisper não se limita apenas ao inglês. Ele conta com suporte para uma ampla gama de idiomas, tornando-o ideal para aplicações globais. Os usuários podem transcrever áudio em sua língua nativa ou traduzir a fala para o inglês para maior acessibilidade.

Modos de Transcrição

A API oferece dois modos principais de transcrição – Transcrição e Tradução. O modo de transcrição entrega o conteúdo falado na língua original em que foi gravado, enquanto o modo de tradução converte a fala em texto em inglês. Essa flexibilidade atende a diversas necessidades de uso.

Escalabilidade e Eficiência

A infraestrutura baseada em nuvem da API Whisper permite o processamento eficiente de grandes arquivos de áudio/vídeo. Isso a torna uma ferramenta valiosa para empresas que lidam com volumes significativos de dados de fala, como centrais de atendimento ou empresas de mídia.

Diarização Opcional (Identificação de Falantes)

Para gravações com múltiplos falantes, o Whisper oferece uma funcionalidade opcional de diarização. Este recurso separa a fala de cada falante em transcrições distintas, permitindo uma identificação e análise mais fácil das contribuições individuais dentro de uma conversa.

Facilidade de Integração

A API emprega uma interface RESTful, um padrão amplamente adotado para comunicação entre aplicações. Isso simplifica a integração para os desenvolvedores, permitindo que eles incorporem funcionalidades de fala para texto de maneira fluida em seus projetos.

Segurança e Privacidade

Embora os detalhes específicos possam variar, a OpenAI prioriza a privacidade dos usuários e a segurança dos dados. Os desenvolvedores podem esperar acesso seguro à API e manuseio responsável dos arquivos de áudio/vídeo enviados.

Em resumo, a API Whisper oferece um conjunto abrangente de recursos para reconhecimento automático de fala, atendendo a diversas necessidades. Com sua alta precisão, suporte multilíngue, escalabilidade e funcionalidades opcionais como a diarização, o Whisper capacita desenvolvedores e empresas a desbloquear o potencial dos dados de fala e otimizar fluxos de trabalho.

Preços da API Whisper

A OpenAI tornou a API Whisper paga, a uma taxa de $0,006 por minuto. Isso significa que não é gratuita para uso.

Guia Passo a Passo sobre como Usar a API Whisper com Apidog

Esta seção apresenta um guia simples sobre como você pode começar a utilizar a API Whisper para converter fala em texto. No entanto, antes de avançar, certifique-se de saber como obter a Chave da API OpenAI, pois é necessária para implementar a API Whisper.

Passo 1 - Decida Qual Endpoint Usar

whsiper api transcription

A API Whisper está integrada com outras funcionalidades, como criar fala a partir de texto, converter fala em texto e fornecer tradução de áudio para o inglês. Este artigo mostrará a principal força da API Whisper, que é converter arquivos de áudio em transcrições de texto.

Passo 2 - Baixar e Configurar a Solicitação API no Apidog

Agora usaremos Apidog, uma ferramenta de API, para visualizar a transcrição de texto produzida pela API Whisper. A Apidog fornece aos desenvolvedores uma interface de usuário simples e intuitiva para trabalhar com APIs - não poderia ser mais fácil e agradável!

apidog interface
button

Você pode imediatamente copiar o código cURL fornecido pela OpenAI e importá-lo no Apidog.

apidog import curl code

Comece clicando no botão + e clique no botão "Importar cURL", conforme mostrado na imagem acima.

apidog import whisper api curl code

Em seguida, copie e cole o código cURL para transcrição de texto fornecido pela OpenAI. Se você não conseguir encontrá-lo no site, aqui está o mesmo código:

curl https://api.openai.com/v1/audio/translations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/german.m4a" \
  -F model="whisper-1"
apidog change method to post

Agora você deve ter uma nova solicitação de API na sua tela. Continue mudando o método de GET para POST. Se você tiver o arquivo que deseja substituir em um lugar diferente, você também pode modificar a linha file para o caminho correto do arquivo em seu dispositivo.

apidog insert bearer token

Continue pressionando a seção Headers e role para baixo até Authorization. Nesta linha, substitua $OPENAI_API_KEY pela sua Chave da API OpenAI.

Uma vez que você tenha finalizado tudo, pode clicar em enviar. Se feito corretamente, Apidog deverá produzir uma resposta como:

{
  "text": "Olá, meu nome é Wolfgang e eu venho da Alemanha. Para onde você está indo hoje?"
}

Usando o Hub de API da Apidog para Ver Mais Projetos Relacionados à OpenAI

apidog api hub

Como a OpenAI é uma plataforma de IA muito poderosa, você pode visualizar uma biblioteca cheia de APIs com API Hub.

Isso também inclui as APIs mais desejadas da OpenAI. Usar a plataforma Apidog permite que você experimente algumas das APIs da OpenAI gratuitamente, para que você não tenha que gastar dinheiro apenas para testar suas funcionalidades.

apidog openai apis

Conclusão

A API Whisper da OpenAI representa um avanço significativo no campo do reconhecimento automático de fala. Sua capacidade de fornecer transcrições de alta fidelidade com uma precisão excepcional, mesmo em situações desafiadoras, abre portas para uma infinidade de aplicações. Desde transcrições de aulas e reuniões até melhorias na acessibilidade para conteúdo multimídia, o potencial do Whisper para otimizar fluxos de trabalho e melhorar a eficiência é inegável.

À medida que a tecnologia continua a evoluir e se tornar mais amplamente adotada, podemos esperar que emergam ainda mais casos de uso inovadores, consolidando ainda mais a posição do Whisper como uma ferramenta poderosa para aproveitar os valiosos insights incorporados nos dados de fala.

Junte-se à Newsletter da Apidog

Inscreva-se para ficar atualizado e receber os últimos pontos de vista a qualquer momento.