واجهة برمجة تطبيقات وسبير | تحويل الصوت والفيديو إلى نصوص مكتوبة

حقل الذكاء الاصطناعي المتوسع باستمرار لا يزال يغير العديد من الصناعات، وOpenAI's Whisper API هو مثال رئيسي في مجال التعرف التلقائي على الكلام (ASR).

💡

OpenAI's Whisper API دقيق للغاية ومفيد لمنشئي المحتوى الذين يرغبون في أتمتة إنشاء الترجمة النصية لمقاطع الفيديو الخاصة بهم. ومع ذلك، إذا كنت ترغب في أن تكون مطور تطبيقات يوفر برامجه وظيفة Whisper API، فستحتاج بالتأكيد إلى أداة API لمساعدتك في هذه العملية.

فكر بشدة في استخدام Apidog، وهي منصة شاملة لتطوير API تتيح لك مراقبة وتعديل وتصميم APIs. إذا كنت ترغب في معرفة المزيد عن Apidog، تأكد من النقر على الزر أدناه.

زر

تمكن هذه الخدمة المعتمدة على السحابة المستخدمين من تحويل ملفات الصوت أو الفيديو بسلاسة إلى نصوص شاملة، مع دقة استثنائية حتى في ظروف الاستماع التي تقلل من الجودة، مثل الضوضاء الخلفية أو وجود عدة متحدثين.

ما هو Whisper API؟

OpenAI Whisper API هي خدمة تعتمد على السحابة تستخدم التعلم الآلي لتحويل ملفات الصوت أو الفيديو إلى نصوص، وتندرج تحت فئة التعرف التلقائي على الكلام (ASR).

الميزات الرئيسية لـ Whisper API

التعرف التلقائي على الكلام (ASR)

تعد هذه الميزة الأساسية في قلب قدرات Whisper. إنها تتيح للمستخدمين نسخ اللغة المنطوقة من ملفات الصوت أو الفيديو إلى تنسيق نصي. يتميز Whisper في هذا المجال، حيث يحقق دقة عالية حتى مع الصوتيات الصعبة التي تحتوي على ضوضاء خلفية، لهجات، أو مصطلحات تقنية.

الدعم متعدد اللغات

Whisper ليس مقتصرًا فقط على اللغة الإنجليزية. فهو يدعم مجموعة واسعة من اللغات، مما يجعله مثاليًا للتطبيقات العالمية. يمكن للمستخدمين نسخ الصوت في لغتهم الأم أو ترجمة الكلام إلى الإنجليزية لتسهيل الوصول بشكل أوسع.

أوضاع النسخ

يوفر API وضعين رئيسيين للنسخ - النسخ والترجمة. يوفر وضع النسخ المحتوى المنطوق باللغة الأصلية التي تم تسجيله بها، في حين يقوم وضع الترجمة بتحويل الكلام إلى نص باللغة الإنجليزية. هذه المرونة تلبي احتياجات متنوعة.

القابلية للتوسع والفعالية

تتيح البنية التحتية المعتمدة على السحابة لـ Whisper API معالجة فعالة لملفات الصوت/video الكبيرة. مما يجعلها أداة قيمة للشركات التي تتعامل مع أحجام كبيرة من بيانات الكلام، مثل مراكز الاتصال أو شركات الإعلام.

تحديد المتحدث (التمييز الاختياري)

للسجلات التي تحتوي على عدة متحدثين، يقدم Whisper ميزة التمييز الاختياري. تفصل هذه الميزة كلام كل متحدث إلى نصوص متميزة، مما يسهل التعرف والتحليل للمساهمات الفردية ضمن المحادثة.

سهولة التكامل

يستخدم API واجهة RESTful، وهو معيار معتمد على نطاق واسع للتواصل بين التطبيقات. هذا يبسط التكامل للمطورين، مما يمكنهم من دمج وظائف الكلام إلى نص بسهولة في مشاريعهم.

الأمان والخصوصية

على الرغم من أن التفاصيل المحددة قد تختلف، إلا أن OpenAI تعطي الأولوية لخصوصية المستخدم وأمان البيانات. يمكن للمطورين توقع الوصول الآمن إلى API والمعالجة المسؤولة للملفات الصوتية/video المرفوعة.

باختصار، يوفر Whisper API مجموعة شاملة من الميزات للتعرف التلقائي على الكلام، تلبي الاحتياجات المتنوعة. مع دقته العالية، دعم متعدد اللغات، القابلية للتوسع، وميزاته الاختيارية مثل التمييز، يمكّن Whisper المطورين والشركات من فتح إمكانيات بيانات الكلام وتبسيط سير العمل.

أسعار Whisper API

جعلت OpenAI Whisper AI مدفوعًا، بمعدل 0.006 دولار في الدقيقة. وهذا يعني أنه غير مجاني للاستخدام.

دليل خطوة بخطوة لاستخدام Whisper API مع Apidog

تظهر هذه القسم دليل بسيط حول كيفية البدء في استخدام Whisper API لتحويل الكلام إلى نص. ومع ذلك، قبل التقدم، تأكد من أنك تعرف كيفية الحصول على مفتاح OpenAI API، حيث إنه مطلوب لتنفيذ Whisper API.

الخطوة 1 - قرر أي نقطة نهاية لاستخدامها

تم دمج Whisper API مع وظائف أخرى، مثل إنشاء الكلام من النص، وتحويل الكلام إلى نص، وتوفير ترجمة الصوت إلى الإنجليزية. ستعرض هذه المقالة القوة الأساسية لـ Whisper API، وهي تحويل ملفات الصوت إلى نصوص.

الخطوة 2 - قم بتنزيل وإعداد طلب API على Apidog

سنستخدم الآن Apidog، وهي أداة API، لمشاهدة النص الذي تم إنتاجه بواسطة Whisper API. توفر Apidog للمطورين واجهة مستخدم بسيطة وبديهية للعمل مع APIs - لا يمكن أن تكون أسهل وأكثر متعة من ذلك!

زر

يمكنك نسخ كود cURL المقدم من OpenAI على الفور، واستيراده إلى Apidog.

ابدأ بالنقر على زر +، ثم انقر على زر "استيراد cURL"، كما هو موضح في الصورة أعلاه.

بعد ذلك، انسخ والصق كود cURL لنسخ النص المقدم من OpenAI. إذا لم تتمكن من إيجاده على الموقع، إليك نفس الكود:

curl https://api.openai.com/v1/audio/translations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/german.m4a" \
  -F model="whisper-1"

يجب أن يكون لديك الآن طلب API جديد أمام شاشتك. تابع بتغيير الطريقة من GET إلى POST. إذا كان لديك الملف الذي تريد استبداله في مكان آخر، يمكنك أيضًا تعديل صف file إلى مسار الملف الصحيح في جهازك.

تابع بالنقر على قسم الرؤوس، وقم بالتمرير لأسفل إلى مصادقة. في هذه الصف، استبدل $OPENAI_API_KEY بمفتاح OpenAI API الخاص بك.

بمجرد الانتهاء من كل شيء، يمكنك النقر على إرسال. إذا تم بشكل صحيح، ينبغي أن تنتج Apidog استجابة مثل:

{
  "text": "مرحبًا، اسمي وولفغانغ وأنا من ألمانيا. إلى أين تتوجه اليوم؟"
}

استخدام مركز API الخاص بـ Apidog لعرض المزيد من المشاريع المتعلقة بـ OpenAI

نظرًا لأن OpenAI هي منصة ذكاء اصطناعي قوية جدًا، يمكنك مشاهدة مكتبة من APIs من خلال API Hub.

هذا يشمل أيضًا أشهر APIs التابعة لـ OpenAI. من خلال استخدام منصة Apidog، يمكنك تجربة بعض APIs الخاصة بـ OpenAI مجانًا، لذلك لا داعي لإنفاق المال فقط لتجربة وظائفها.

الخاتمة

يشير OpenAI's Whisper API إلى تقدم كبير في مجال التعرف التلقائي على الكلام. قدرته على تقديم نصوص عالية الدقة مع دقة استثنائية، حتى في الظروف الصعبة، تفتح الأبواب لعدد ضخم من التطبيقات. من نسخ المحاضرات والاجتماعات إلى تعزيز الوصول إلى المحتوى متعدد الوسائط، فإن إمكانيات Whisper في تبسيط سير العمل وتحسين الكفاءة لا يمكن إنكارها.

نظرًا لأن التقنية تستمر في التطور وتصبح أكثر انتشارًا، يمكننا توقع ظهور حالات استخدام مبتكرة أخرى، مما يعزز موقف Whisper كأداة قوية للاستفادة من الرؤى القيمة المدمجة داخل بيانات الكلام.