API การกระซิบ | แปลงเสียงและวิดีโอเป็นบทถอดเสียง

ขอบเขตของปัญญาประดิษฐ์ที่ขยายตัวอย่างต่อเนื่องยังคงปฏิวัติอุตสาหกรรมต่างๆ มากมาย และ OpenAI's Whisper API เป็นตัวอย่างสำคัญในสาขาการรู้จำเสียงพูดอัตโนมัติ (ASR)

💡

OpenAI's Whisper API มีความแม่นยำและมีประโยชน์อย่างยิ่งสำหรับผู้สร้างเนื้อหาที่ต้องการสร้างคำบรรยายสำหรับวิดีโอของตนโดยอัตโนมัติ อย่างไรก็ตาม หากคุณต้องการเป็นนักพัฒนาแอปพลิเคชันที่ซอฟต์แวร์มีฟังก์ชันการทำงานของ Whisper API คุณจะต้องมีเครื่องมือ API เพื่อช่วยคุณในกระบวนการนี้อย่างแน่นอน

พิจารณาใช้ Apidog ซึ่งเป็นแพลตฟอร์มการพัฒนา API ที่ครอบคลุมซึ่งช่วยให้คุณสามารถสังเกต ปรับเปลี่ยน และออกแบบ API ได้ หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Apidog อย่าลืมคลิกปุ่มด้านล่าง

button

บริการบนคลาวด์นี้ช่วยให้ผู้ใช้มีความสามารถในการแปลงไฟล์เสียงหรือวิดีโอเป็นข้อความถอดเสียงที่ครอบคลุมได้อย่างราบรื่น โดยมีความแม่นยำเป็นพิเศษแม้ในสภาพการฟังที่ไม่เหมาะสมซึ่งมีเสียงรบกวนรอบข้างหรือลำโพงหลายตัว

Whisper API คืออะไร

OpenAI Whisper API เป็นบริการบนคลาวด์ที่ใช้การเรียนรู้ของเครื่องเพื่อแปลงไฟล์เสียงหรือวิดีโอเป็นข้อความถอดเสียง โดยอยู่ในหมวดหมู่การรู้จำเสียงพูดอัตโนมัติ (ASR)

คุณสมบัติหลักของ Whisper API

การรู้จำเสียงพูดอัตโนมัติ (ASR)

คุณสมบัติหลักนี้เป็นหัวใจสำคัญของความสามารถของ Whisper ช่วยให้ผู้ใช้สามารถถอดเสียงภาษาพูดจากไฟล์เสียงหรือวิดีโอเป็นรูปแบบข้อความ Whisper ทำได้ดีในโดเมนนี้ โดยมีความแม่นยำสูงแม้จะมีเสียงที่ท้าทายซึ่งมีเสียงรบกวนรอบข้าง สำเนียง หรือศัพท์เฉพาะทาง

การสนับสนุนหลายภาษา

Whisper ไม่ได้จำกัดอยู่แค่ภาษาอังกฤษเท่านั้น รองรับภาษาต่างๆ มากมาย ทำให้เหมาะสำหรับแอปพลิเคชันระดับโลก ผู้ใช้สามารถถอดเสียงในภาษาแม่ของตนเองหรือแปลคำพูดเป็นภาษาอังกฤษเพื่อการเข้าถึงที่กว้างขึ้น

โหมดการถอดเสียง

API มีโหมดการถอดเสียงหลักสองโหมด ได้แก่ การถอดเสียงและการแปล โหมดการถอดเสียงจะส่งมอบเนื้อหาที่พูดในภาษาต้นฉบับที่บันทึกไว้ ในขณะที่โหมดการแปลจะแปลงคำพูดเป็นข้อความภาษาอังกฤษ ความยืดหยุ่นนี้ตอบสนองการใช้งานที่หลากหลาย

ความสามารถในการปรับขนาดและประสิทธิภาพ

โครงสร้างพื้นฐานบนคลาวด์ของ Whisper API ช่วยให้ประมวลผลไฟล์เสียง/วิดีโอขนาดใหญ่ได้อย่างมีประสิทธิภาพ ทำให้เป็นเครื่องมือที่มีคุณค่าสำหรับธุรกิจที่จัดการกับข้อมูลเสียงจำนวนมาก เช่น ศูนย์บริการข้อมูลหรือบริษัทสื่อ

Diarization ทางเลือก (การระบุผู้พูด)

สำหรับการบันทึกที่มีผู้พูดหลายคน Whisper มีฟังก์ชัน diarization ทางเลือก คุณสมบัตินี้จะแยกคำพูดของผู้พูดแต่ละคนออกเป็นข้อความถอดเสียงที่แตกต่างกัน ทำให้ง่ายต่อการระบุและวิเคราะห์การมีส่วนร่วมของแต่ละบุคคลในการสนทนา

ความง่ายในการรวม

API ใช้ RESTful interface ซึ่งเป็นมาตรฐานที่ใช้กันอย่างแพร่หลายสำหรับการสื่อสารระหว่างแอปพลิเคชัน สิ่งนี้ทำให้การรวมสำหรับนักพัฒนาง่ายขึ้น ทำให้พวกเขาสามารถรวมฟังก์ชันการทำงานแบบพูดเป็นข้อความเข้ากับโครงการของตนได้อย่างราบรื่น

ความปลอดภัยและความเป็นส่วนตัว

ในขณะที่รายละเอียดเฉพาะอาจแตกต่างกันไป OpenAI ให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้และความปลอดภัยของข้อมูล นักพัฒนาสามารถคาดหวังการเข้าถึง API ที่ปลอดภัยและการจัดการไฟล์เสียง/วิดีโอที่อัปโหลดอย่างมีความรับผิดชอบ

โดยสรุป Whisper API นำเสนอชุดคุณสมบัติที่ครอบคลุมสำหรับการรู้จำเสียงพูดอัตโนมัติ ซึ่งตอบสนองความต้องการที่หลากหลาย ด้วยความแม่นยำสูง การสนับสนุนหลายภาษา ความสามารถในการปรับขนาด และฟังก์ชันการทำงานเสริม เช่น diarization Whisper ช่วยให้นักพัฒนาและธุรกิจสามารถปลดล็อกศักยภาพของข้อมูลเสียงและปรับปรุงเวิร์กโฟลว์

ราคา Whisper API

OpenAI ได้ทำให้ Whisper AI ต้องชำระเงินในอัตรา $0.006 ต่อนาที ซึ่งหมายความว่าจะไม่สามารถใช้งานได้ฟรี

คู่มือทีละขั้นตอนเกี่ยวกับการใช้ Whisper API กับ Apidog

ส่วนนี้แสดงคู่มืออย่างง่ายเกี่ยวกับวิธีที่คุณสามารถเริ่มใช้ Whisper API เพื่อแปลงคำพูดเป็นข้อความ อย่างไรก็ตาม ก่อนที่จะดำเนินการต่อ ตรวจสอบให้แน่ใจว่าคุณรู้ วิธีรับ OpenAI API Key เนื่องจากจำเป็นต้องใช้ Whisper API

ขั้นตอนที่ 1 - ตัดสินใจว่าจะใช้ Endpoint ใด

Whisper API ถูกรวมเข้ากับฟังก์ชันการทำงานอื่นๆ เช่น การสร้างคำพูดจากข้อความ การแปลงคำพูดเป็นข้อความ และการแปลเสียงเป็นภาษาอังกฤษ บทความนี้จะแสดงให้เห็นถึงจุดแข็งหลักของ Whisper API ซึ่งก็คือการแปลงไฟล์เสียงเป็นข้อความถอดเสียง

ขั้นตอนที่ 2 - ดาวน์โหลดและตั้งค่าคำขอ API บน Apidog

ตอนนี้เราจะใช้ Apidog ซึ่งเป็นเครื่องมือ API เพื่อดูข้อความถอดเสียงที่สร้างโดย Whisper API Apidog มอบส่วนต่อประสานผู้ใช้ที่เรียบง่ายและใช้งานง่ายสำหรับทำงานกับ API - มันจะไม่ง่ายและสนุกไปกว่านี้แล้ว!

button

คุณสามารถคัดลอกโค้ด cURL ที่ OpenAI ให้มาได้ทันที และนำเข้าลงใน Apidog

เริ่มต้นด้วยการคลิกปุ่ม + และคลิกปุ่ม "นำเข้า cURL" ดังที่แสดงในภาพด้านบน

ถัดไป คัดลอกและวางโค้ด cURL สำหรับการถอดเสียงที่ OpenAI ให้มา หากคุณไม่พบในเว็บไซต์ นี่คือโค้ดเดียวกัน:

curl https://api.openai.com/v1/audio/translations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/german.m4a" \
  -F model="whisper-1"

ตอนนี้คุณควรมีคำขอ API ใหม่ปรากฏขึ้นบนหน้าจอของคุณ ดำเนินการโดยเปลี่ยนเมธอดจาก GET เป็น POST หากคุณมีไฟล์ที่คุณต้องการแทนที่ในตำแหน่งอื่น คุณยังสามารถแก้ไขแถว file เป็นเส้นทางไฟล์ที่ถูกต้องภายในอุปกรณ์ของคุณได้

ดำเนินการต่อโดยกดส่วน Headers และเลื่อนลงไปที่ Authorization ในแถวนี้ ให้แทนที่ $OPENAI_API_KEY ด้วย OpenAI API Key ของคุณ

เมื่อคุณดำเนินการทุกอย่างเสร็จสิ้นแล้ว คุณสามารถคลิกส่งได้ หากทำถูกต้อง Apidog ควรสร้างการตอบสนองเช่น:

{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"
}

การใช้ API Hub ของ Apidog เพื่อดูโปรเจกต์ที่เกี่ยวข้องกับ OpenAI เพิ่มเติม

เนื่องจาก OpenAI เป็นแพลตฟอร์ม AI ที่ทรงพลังมาก คุณสามารถดู API ได้มากมายด้วย API Hub

ซึ่งรวมถึง API ที่ต้องการมากที่สุดของ OpenAI ด้วย การใช้แพลตฟอร์ม Apidog ช่วยให้คุณสามารถทดลองใช้ API บางส่วนของ OpenAI ได้ฟรี เพื่อที่คุณจะไม่ต้องเสียเงินเพียงเพื่อทดลองใช้ฟังก์ชันการทำงาน

บทสรุป

OpenAI's Whisper API แสดงถึงความก้าวหน้าที่สำคัญในสาขาการรู้จำเสียงพูดอัตโนมัติ ความสามารถในการส่งมอบข้อความถอดเสียงที่มีความเที่ยงตรงสูงด้วยความแม่นยำเป็นพิเศษ แม้ในสถานการณ์ที่ท้าทาย จะเปิดประตูสู่แอปพลิเคชันมากมาย ตั้งแต่การถอดเสียงบรรยายและการประชุม ไปจนถึงการปรับปรุงการเข้าถึงเนื้อหามัลติมีเดีย ศักยภาพของ Whisper ในการปรับปรุงเวิร์กโฟลว์และปรับปรุงประสิทธิภาพนั้นปฏิเสธไม่ได้

เนื่องจากเทคโนโลยียังคงพัฒนาและได้รับการยอมรับอย่างแพร่หลายมากขึ้น เราคาดหวังว่าจะมีกรณีการใช้งานที่เป็นนวัตกรรมใหม่ๆ เกิดขึ้นอีก ซึ่งจะช่วยเสริมสร้างตำแหน่งของ Whisper ให้เป็นเครื่องมืออันทรงพลังสำหรับการใช้ประโยชน์จากข้อมูลเชิงลึกอันมีค่าที่ฝังอยู่ในข้อมูลเสียง