Whisper API | Ubah Audio dan Video Menjadi Transkrip Teks

Ranah kecerdasan buatan yang terus berkembang terus merevolusi banyak industri, dan Whisper API dari OpenAI adalah contoh utama dalam bidang pengenalan ucapan otomatis (ASR).

💡

Whisper API dari OpenAI sangat akurat dan berguna bagi pembuat konten yang ingin mengotomatiskan pembuatan subtitle untuk video mereka. Namun, jika Anda ingin menjadi pengembang aplikasi yang perangkat lunaknya menyediakan fungsionalitas Whisper API, Anda pasti memerlukan alat API untuk membantu Anda dalam proses tersebut.

Pertimbangkan untuk menggunakan Apidog, platform pengembangan API komprehensif yang memungkinkan Anda untuk mengamati, memodifikasi, dan mendesain API. Jika Anda ingin mempelajari lebih lanjut tentang Apidog, pastikan untuk mengklik tombol di bawah ini.

button

Layanan berbasis cloud ini memberdayakan pengguna dengan kemampuan untuk dengan mulus mengonversi file audio atau video menjadi transkrip teks yang komprehensif, yang menawarkan akurasi luar biasa bahkan dalam kondisi mendengarkan yang kurang ideal yang ditandai dengan kebisingan latar belakang atau banyak pembicara.

Apa itu Whisper API?

OpenAI Whisper API adalah layanan berbasis cloud yang menggunakan pembelajaran mesin untuk mengonversi file audio atau video menjadi transkrip teks, yang termasuk dalam kategori Pengenalan Ucapan Otomatis (ASR).

Fitur Utama Whisper API

Pengenalan Ucapan Otomatis (ASR)

Fitur inti ini terletak di jantung kemampuan Whisper. Ini memungkinkan pengguna untuk mentranskripsi bahasa lisan dari file audio atau video ke dalam format teks. Whisper unggul dalam domain ini, mencapai akurasi tinggi bahkan dengan audio yang menantang yang mengandung kebisingan latar belakang, aksen, atau jargon teknis.

Dukungan Multibahasa

Whisper tidak terbatas hanya pada bahasa Inggris. Ia menawarkan dukungan untuk berbagai bahasa, menjadikannya ideal untuk aplikasi global. Pengguna dapat mentranskripsi audio dalam bahasa asli mereka atau menerjemahkan ucapan ke bahasa Inggris untuk aksesibilitas yang lebih luas.

Mode Transkripsi

API ini menawarkan dua mode transkripsi utama – Transkripsi dan Terjemahan. Mode Transkripsi memberikan konten lisan dalam bahasa aslinya direkam, sementara mode Terjemahan mengonversi ucapan menjadi teks bahasa Inggris. Fleksibilitas ini melayani berbagai kasus penggunaan.

Skalabilitas dan Efisiensi

Infrastruktur berbasis cloud dari Whisper API memungkinkan pemrosesan file audio/video besar yang efisien. Ini menjadikannya alat yang berharga bagi bisnis yang berurusan dengan volume data ucapan yang signifikan, seperti pusat panggilan atau perusahaan media.

Diarisasi Opsional (Identifikasi Pembicara)

Untuk rekaman dengan banyak pembicara, Whisper menawarkan fungsionalitas diarisasi opsional. Fitur ini memisahkan ucapan setiap pembicara ke dalam transkrip yang berbeda, memungkinkan identifikasi dan analisis kontribusi individu yang lebih mudah dalam percakapan.

Kemudahan Integrasi

API ini menggunakan antarmuka RESTful, standar yang banyak diadopsi untuk komunikasi antar aplikasi. Ini menyederhanakan integrasi untuk pengembang, memungkinkan mereka untuk memasukkan fungsionalitas ucapan-ke-teks dengan mulus ke dalam proyek mereka.

Keamanan dan Privasi

Meskipun detail spesifik dapat bervariasi, OpenAI memprioritaskan privasi pengguna dan keamanan data. Pengembang dapat mengharapkan akses aman ke API dan penanganan file audio/video yang diunggah secara bertanggung jawab.

Singkatnya, Whisper API menawarkan serangkaian fitur komprehensif untuk pengenalan ucapan otomatis, yang melayani berbagai kebutuhan. Dengan akurasi tinggi, dukungan multibahasa, skalabilitas, dan fungsionalitas opsional seperti diarisasi, Whisper memberdayakan pengembang dan bisnis untuk membuka potensi data ucapan dan merampingkan alur kerja.

Harga Whisper API

OpenAI telah membuat Whisper AI menjadi berbayar, dengan tarif $0,006 per menit. Ini berarti bahwa itu tidak gratis untuk digunakan.

Panduan Langkah demi Langkah Tentang Menggunakan Whisper API Dengan Apidog

Bagian ini menampilkan panduan sederhana tentang bagaimana Anda dapat mulai memanfaatkan Whisper API untuk mengonversi ucapan menjadi teks. Namun, sebelum melangkah lebih jauh, pastikan Anda tahu cara mendapatkan OpenAI API Key, karena diperlukan untuk mengimplementasikan Whisper API.

Langkah 1 - Tentukan Endpoint Mana yang Akan Digunakan

Whisper API terintegrasi dengan fungsionalitas lain, seperti membuat ucapan dari teks, mengonversi ucapan menjadi teks, dan menyediakan terjemahan audio ke dalam bahasa Inggris. Artikel ini akan menampilkan kekuatan utama Whisper API, yaitu mengonversi file audio menjadi transkrip teks.

Langkah 2 - Unduh dan Siapkan Permintaan API di Apidog

Kita sekarang akan menggunakan Apidog, alat API, untuk melihat transkrip teks yang dihasilkan oleh Whisper API. Apidog menyediakan pengembang dengan antarmuka pengguna yang sederhana dan intuitif untuk bekerja dengan API - tidak bisa lebih mudah dan lebih menyenangkan dari ini!

button

Anda dapat segera menyalin kode cURL yang disediakan oleh OpenAI, dan mengimpornya ke Apidog.

Mulailah dengan mengklik tombol +, dan klik tombol "Impor cURL", seperti yang ditunjukkan pada gambar di atas.

Selanjutnya, salin dan tempel kode cURL untuk transkripsi teks yang disediakan oleh OpenAI. Jika Anda tidak dapat menemukannya di situs web, berikut adalah kode yang sama:

curl https://api.openai.com/v1/audio/translations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/german.m4a" \
  -F model="whisper-1"

Anda sekarang seharusnya memiliki permintaan API baru di depan layar Anda. Lanjutkan dengan mengubah metode dari GET ke POST. Jika Anda memiliki file yang ingin Anda ganti di tempat yang berbeda, Anda juga dapat memodifikasi baris file ke jalur file yang benar di dalam perangkat Anda.

Lanjutkan dengan menekan bagian Headers, dan gulir ke bawah ke Authorization. Pada baris ini, ganti $OPENAI_API_KEY dengan OpenAI API Key Anda.

Setelah Anda menyelesaikan semuanya, Anda dapat mengklik kirim. Jika dilakukan dengan benar, Apidog akan menghasilkan respons seperti:

{
  "text": "Halo, nama saya Wolfgang dan saya berasal dari Jerman. Ke mana Anda menuju hari ini?"
}

Menggunakan API Hub Apidog untuk Melihat Lebih Banyak Proyek Terkait OpenAI

Karena OpenAI adalah platform AI yang sangat kuat, Anda dapat melihat perpustakaan API yang bernilai dengan API Hub.

Ini juga termasuk API OpenAI yang paling dicari. Menggunakan platform Apidog memungkinkan Anda untuk mencoba beberapa API OpenAI secara gratis, sehingga Anda tidak perlu mengeluarkan uang hanya untuk mencoba fungsionalitasnya.

Kesimpulan

Whisper API dari OpenAI menandakan kemajuan signifikan di bidang pengenalan ucapan otomatis. Kemampuannya untuk memberikan transkrip dengan fidelitas tinggi dengan akurasi luar biasa, bahkan dalam situasi yang menantang, membuka pintu bagi banyak aplikasi. Dari mentranskripsi kuliah dan rapat hingga meningkatkan aksesibilitas untuk konten multimedia, potensi Whisper untuk merampingkan alur kerja dan meningkatkan efisiensi tidak dapat disangkal.

Saat teknologi terus berkembang dan menjadi lebih banyak diadopsi, kita dapat mengharapkan lebih banyak kasus penggunaan inovatif yang muncul, yang semakin memperkuat posisi Whisper sebagai alat yang ampuh untuk memanfaatkan wawasan berharga yang tertanam dalam data ucapan.