API Whisper | Convertir l'audio et la vidéo en transcriptions textuelles

Le domaine en constante expansion de l'intelligence artificielle continue de révolutionner de nombreuses industries, et l'API Whisper d'OpenAI en est un excellent exemple dans le domaine de la reconnaissance automatique de la parole (ASR).

💡

L'API Whisper d'OpenAI est extrêmement précise et utile pour les créateurs de contenu qui souhaitent automatiser la création de sous-titres pour leurs vidéos. Cependant, si vous souhaitez être un développeur d'applications dont le logiciel fournit la fonctionnalité de l'API Whisper, vous aurez certainement besoin d'un outil d'API pour vous aider dans le processus.

Envisagez sérieusement d'utiliser Apidog, une plateforme de développement d'API complète qui vous permet d'observer, de modifier et de concevoir des API. Si vous souhaitez en savoir plus sur Apidog, assurez-vous de cliquer sur le bouton ci-dessous.

button

Ce service basé sur le cloud permet aux utilisateurs de convertir facilement des fichiers audio ou vidéo en transcriptions textuelles complètes, offrant une précision exceptionnelle, même dans des conditions d'écoute moins qu'idéales caractérisées par le bruit de fond ou plusieurs locuteurs.

Qu'est-ce que l'API Whisper ?

L'API OpenAI Whisper est un service basé sur le cloud qui utilise l'apprentissage automatique pour convertir des fichiers audio ou vidéo en transcriptions textuelles, relevant de la catégorie de la reconnaissance automatique de la parole (ASR).

Principales fonctionnalités de l'API Whisper

Reconnaissance automatique de la parole (ASR)

Cette fonctionnalité de base est au cœur des capacités de Whisper. Elle permet aux utilisateurs de transcrire le langage parlé à partir de fichiers audio ou vidéo au format texte. Whisper excelle dans ce domaine, atteignant une grande précision, même avec un son difficile contenant du bruit de fond, des accents ou du jargon technique.

Prise en charge multilingue

Whisper ne se limite pas à l'anglais. Il prend en charge un large éventail de langues, ce qui le rend idéal pour les applications mondiales. Les utilisateurs peuvent transcrire de l'audio dans leur langue maternelle ou traduire la parole en anglais pour une accessibilité plus large.

Modes de transcription

L'API propose deux principaux modes de transcription : Transcription et Traduction. Le mode Transcription fournit le contenu parlé dans la langue d'origine dans laquelle il a été enregistré, tandis que le mode Traduction convertit la parole en texte anglais. Cette flexibilité répond à divers cas d'utilisation.

Évolutivité et efficacité

L'infrastructure basée sur le cloud de l'API Whisper permet un traitement efficace des fichiers audio/vidéo volumineux. Cela en fait un outil précieux pour les entreprises traitant d'importants volumes de données vocales, telles que les centres d'appels ou les sociétés de médias.

Diarisation facultative (identification de l'orateur)

Pour les enregistrements avec plusieurs locuteurs, Whisper propose une fonctionnalité de diarisation facultative. Cette fonctionnalité sépare la parole de chaque locuteur en transcriptions distinctes, ce qui permet d'identifier et d'analyser plus facilement les contributions individuelles au sein d'une conversation.

Facilité d'intégration

L'API utilise une interface RESTful, une norme largement adoptée pour la communication entre les applications. Cela simplifie l'intégration pour les développeurs, leur permettant d'incorporer de manière transparente des fonctionnalités de synthèse vocale dans leurs projets.

Sécurité et confidentialité

Bien que les détails spécifiques puissent varier, OpenAI donne la priorité à la confidentialité des utilisateurs et à la sécurité des données. Les développeurs peuvent s'attendre à un accès sécurisé à l'API et à une gestion responsable des fichiers audio/vidéo téléchargés.

En résumé, l'API Whisper offre une suite complète de fonctionnalités pour la reconnaissance automatique de la parole, répondant à divers besoins. Avec sa grande précision, sa prise en charge multilingue, son évolutivité et ses fonctionnalités optionnelles comme la diarisation, Whisper permet aux développeurs et aux entreprises de libérer le potentiel des données vocales et de rationaliser les flux de travail.

Tarification de l'API Whisper

OpenAI a rendu l'IA Whisper payante, au tarif de 0,006 $ par minute. Cela signifie qu'elle n'est pas gratuite à utiliser.

Guide étape par étape sur l'utilisation de l'API Whisper avec Apidog

Cette section présente un guide simple sur la façon dont vous pouvez commencer à utiliser l'API Whisper pour convertir la parole en texte. Cependant, avant d'aller plus loin, assurez-vous de savoir comment obtenir la clé API OpenAI, car elle est nécessaire pour implémenter l'API Whisper.

Étape 1 - Décidez quel point de terminaison utiliser

L'API Whisper est intégrée à d'autres fonctionnalités, telles que la création de parole à partir de texte, la conversion de la parole en texte et la fourniture de traduction audio en anglais. Cet article présentera le principal atout de l'API Whisper, qui est de convertir des fichiers audio en transcriptions textuelles.

Étape 2 - Téléchargez et configurez la requête API sur Apidog

Nous allons maintenant utiliser Apidog, un outil d'API, pour afficher la transcription textuelle produite par l'API Whisper. Apidog fournit aux développeurs une interface utilisateur simple et intuitive pour travailler avec les API - cela ne peut pas être plus simple et plus agréable que cela !

button

Vous pouvez immédiatement copier le code cURL fourni par OpenAI et l'importer dans Apidog.

Commencez par cliquer sur le bouton +, puis cliquez sur le bouton "Importer cURL", comme indiqué dans l'image ci-dessus.

Ensuite, copiez et collez le code cURL pour la transcription de texte fourni par OpenAI. Si vous ne le trouvez pas sur le site Web, voici le même code :

curl https://api.openai.com/v1/audio/translations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/german.m4a" \
  -F model="whisper-1"

Vous devriez maintenant avoir une nouvelle requête API devant votre écran. Continuez en changeant la méthode de GET à POST. Si vous avez le fichier que vous souhaitez remplacer à un autre endroit, vous pouvez également modifier la ligne file vers le bon chemin de fichier dans votre appareil.

Continuez en appuyant sur la section Headers, et faites défiler jusqu'à Authorization. Sur cette ligne, remplacez le $OPENAI_API_KEY par votre clé API OpenAI.

Une fois que vous avez tout finalisé, vous pouvez cliquer sur envoyer. Si cela est fait correctement, Apidog devrait produire une réponse telle que :

{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"
}

Utilisation du Hub API d'Apidog pour afficher d'autres projets liés à OpenAI

Comme OpenAI est une plateforme d'IA très puissante, vous pouvez afficher une bibliothèque d'API avec API Hub.

Cela inclut également les API les plus recherchées d'OpenAI. L'utilisation de la plateforme Apidog vous permet d'essayer gratuitement certaines des API d'OpenAI, afin de ne pas avoir à dépenser de l'argent juste pour essayer leurs fonctionnalités.

Conclusion

L'API Whisper d'OpenAI représente une avancée significative dans le domaine de la reconnaissance automatique de la parole. Sa capacité à fournir des transcriptions haute fidélité avec une précision exceptionnelle, même dans des situations difficiles, ouvre les portes à une multitude d'applications. De la transcription de conférences et de réunions à l'amélioration de l'accessibilité du contenu multimédia, le potentiel de Whisper pour rationaliser les flux de travail et améliorer l'efficacité est indéniable.

Alors que la technologie continue d'évoluer et de se généraliser, nous pouvons nous attendre à ce que des cas d'utilisation encore plus innovants émergent, consolidant davantage la position de Whisper en tant qu'outil puissant pour exploiter les précieuses informations intégrées aux données vocales.