تقديم في-4: نموذج الذكاء الاصطناعي الصغير الذي يتفوق على أكبر الأسماء

إذا كنت مطورًا أو عالم بيانات أو مهتمًا بالذكاء الاصطناعي، فمن المحتمل أنك كنت تراقب التطورات السريعة في نماذج اللغة. العنوان الجديد في مجتمع الذكاء الاصطناعي يتعلق بـ Phi-4، نموذج متقدم يعد بدفع حدود ما يمكن تحقيقه في معالجة اللغة الطبيعية (NLP). في هذه المقالة، سنتعمق في ما هو Phi-4، نستكشف معاييره، ونناقش لماذا يثير كل هذا الحماس. على طول الطريق، سنشير أيضًا إلى Apidog، منصة تطوير واجهة برمجة التطبيقات القوية التي أصبحت مفضلة بين المطورين كبديل أفضل لـ Postman.

ما هو Phi-4؟

Phi-4 هو النسخة الرابعة من سلسلة Phi لنماذج اللغة، التي تم تطويرها بواسطة فريق من الباحثين والمهندسين المركزين على إنشاء أنظمة ذكاء اصطناعي عالية الكفاءة وقابلة للتوسع في مختبرات أبحاث مايكروسوفت. بناءً على أساس أسلافه، يقدم Phi-4 العديد من الابتكارات المعمارية وتقنيات التدريب التي تجعله أسرع، وأكثر دقة، وأكثر تنوعًا من أي وقت مضى. ما يثير الحماس بشكل خاص بشأن Phi-4 هو أنه يأتي في نسختين متميزتين: Phi-4 Mini و Phi-4 Multimodal، وكل نسخة مصممة لتناسب حالات استخدام محددة، مما يوفر نقاط قوة وقدرات فريدة.

في جوهره، يعد Phi-4 نموذجًا مبنيًا على التحويلات مصممًا للتعامل مع مجموعة واسعة من مهام معالجة اللغة الطبيعية، من توليد النصوص والتلخيص إلى إكمال الكود والإجابة على الأسئلة. ما يميز Phi-4 هو قدرته على تقديم أداء رائد في المجال مع الحفاظ على حجم صغير نسبيًا، مما يجعله أكثر سهولة للنشر في البيئات ذات القيود على الموارد.

Phi-4 ميني مقابل Phi-4 متعدد الوسائط

Phi-4 Mini هو نسخة مدمجة وخفيفة من نموذج Phi-4، مصممة للمطورين والمؤسسات التي تحتاج إلى حل ذكاء اصطناعي عالي الأداء دون الأعباء الحسابية للنماذج الأكبر. على الرغم من حجمه الأصغر، يقدم Phi-4 Mini أداءً عصريًا في المهام المستندة إلى النص، مما يجعله مثاليًا لتطبيقات مثل: توليد النصوص، التلخيص، إكمال الكود، و الإجابة على الأسئلة. من ناحية أخرى، Phi-4 Multimodal هو النسخة الرائدة من سلسلة Phi-4، مصممة للتعامل مع مدخلات متعددة الوسائط، بما في ذلك النصوص والصور والصوت. هذا يجعلها أداة متعددة الاستخدامات للمهام المعقدة التي تتطلب التفكير عبر أنواع البيانات المختلفة. تشمل التطبيقات الرئيسية: الإجابة على الأسئلة المرئية، فهم الوثائق، التعرف على الكلام والترجمة، و التفكير في الرسوم البيانية والجداول.

الميزات الرئيسية لـ Phi-4

1. عمارة محسنة

يعتمد Phi-4 على آلية انتباه متفرق، مما يقلل من الأعباء الحسابية مع الحفاظ على أداء عالي. يتيح ذلك للنموذج معالجة تسلسلات النصوص الأطول بكفاءة أكبر، مما يجعله مثاليًا لمهام مثل تلخيص الوثائق وتوليد الكود.

2. قدرات متعددة الوسائط

على عكس أسلافه، تم تصميم Phi-4 للتعامل مع مدخلات متعددة الوسائط، بما في ذلك النصوص والصور وحتى البيانات الهيكلية. هذا يفتح آفاق جديدة لتطبيقات مثل الإجابة على الأسئلة المرئية وتحليل الوثائق.

3. مرونة الضبط الدقيق

يدعم Phi-4 تقنيات الضبط الدقيق الفعالة للمعلمات مثل LoRA (التكيف ذو الرتبة المنخفضة) وضبط العوامل. يعني ذلك أن المطورين يمكنهم تعديل النموذج لمهام محددة دون الحاجة إلى إعادة تدريب الهيكل بأكمله، مما يوفر الوقت والموارد الحسابية.

4. مفتوح المصدر وقائم على المجتمع

يعد Phi-4 جزءًا من مبادرة مفتوحة المصدر، تشجع التعاون والابتكار داخل مجتمع الذكاء الاصطناعي. يمكن للمطورين الوصول إلى نماذج مدربة مسبقًا، ونصوص ضبط دقيق، وتوثيق موسع للبدء بسرعة.

المعايير: كيف يعمل Phi-4؟

وضعت Phi-4 معايير جديدة في أداء الذكاء الاصطناعي، وخصوصًا في المهام متعددة الوسائط التي تجمع بين المدخلات المرئية والصوتية والنصية. قدرته على معالجة والتفكير عبر عدة أنماط تجعلها نموذجًا بارزًا في مشهد الذكاء الاصطناعي. أدناه، سنستعرض أداء Phi-4 عبر معايير مرئية وصوتية ومتعددة الوسائط، مع تسليط الضوء على نقاط قوته ومجالات التميز.

معايير Phi-4 المرئية والصوتية

1. الأداء متعدد الوسائط

Phi-4 المدمج قادر على معالجة كل من المدخلات المرئية والصوتية في الوقت نفسه، مما يجعلها أداة متعددة الاستخدامات لمهام معقدة مثل فهم الرسوم البيانية/الجداول والتفكير في الوثائق. عند اختباره على المدخلات الصوتية الاصطناعية للمهام المتعلقة بالرؤية، يتفوق Phi-4 المدمج على نماذج أخرى متطورة مثل InternOmni-7B و Gemini-2.0-Flash في العديد من المعايير. على سبيل المثال:

SAi2D: حقق Phi-4 المدمج نتيجة 93.2، متجاوزًا نتيجة Gemini-2.0-Flash البالغة 91.2.
SChartQA: سجل 95.7، متفوقًا على نتيجة Gemini-2.0-Flash-Lite البالغة 92.1.
SDocVQA: حقق درجة 82.6، متجاوزًا نتيجة Gemini-2.0-Flash البالغة 77.8.
SInfoVQA: حصل على 77.1، مقارنةً بـ Gemini-2.0-Flash والتي سجلت 73.

تظهر هذه النتائج قدرة Phi-4 على التعامل مع المهام متعددة الوسائط المعقدة بدقة وكفاءة.

2. المهام المتعلقة بالكلام

أظهر Phi-4 المدمج أيضًا قدرات رائعة في المهام المتعلقة بالكلام، ما جعله نموذجًا بارزًا مفتوح المصدر في مجالات مثل التعرف التلقائي على الكلام (ASR) و ترجمة الكلام (ST). يتفوق على النماذج المتخصصة مثل WhisperV3 و SeamlessM4T-v2-Large في كل من مهام ASR و ST. على سبيل المثال:

قائمة OpenASR: يحتل Phi-4 المدمج المركز الأول مع معدل خطأ الكلمات (WER) قدره 6.14%، متجاوزًا أفضل نتيجة سابقة قدرها 6.5% في فبراير 2025.
تلخيص الكلام: يحقق مستويات أداء قابلة للمقارنة مع GPT-4o، مما يجعله واحدًا من النماذج المفتوحة القليلة التي نجحت في تنفيذ هذه القدرة.

ومع ذلك، هناك فجوة طفيفة بين Phi-4 المدمج ونماذج مثل Gemini-2.0-Flash و GPT-4o-realtime-preview في مهام الإجابة على الأسئلة حول الكلام (QA)، ويرجع ذلك أساسًا إلى حجمه النموذجي الأصغر، مما يحد من قدرته على الاحتفاظ بمعرفة QA الأساسية.

3. قدرات الرؤية

على الرغم من حجمه الأصغر (فقط 5.6 مليار معلمة), يظهر Phi-4 المدمج قدرات قوية في الرؤية عبر معايير مختلفة. يتفوق في التفكير الرياضي والعلوم، فضلاً عن المهام متعددة الوسائط العامة مثل فهم الوثائق، التفكير في الرسوم البيانية، و التعرف البصري على الأحرف (OCR). على سبيل المثال:

MMMU (val): سجل Phi-4 55.1، متجاوزًا Qwen 2.5-VL-7B-Instruct (51.8) و Intern VL 2.5-8B (50.6).
DocVQA: حقق 93.2، مما يتطابق مع Gemini-2.0-Flash (92.1) و Claude-3.5-Sonnet (95.2).

تسلط هذه النتائج الضوء على قدرة Phi-4 على الحفاظ على أداء تنافسي في المهام المتعلقة بالرؤية على الرغم من حجمه المدمج.

النقاط الرئيسية

التفوق متعدد الوسائط: يتفوق Phi-4 المدمج في المهام التي تتطلب معالجة متزامنة للمدخلات المرئية والصوتية، متجاوزًا النماذج الأكبر مثل Gemini-2.0-Flash و InternOmni-7B.
الهيمنة في الكلام: يتصدر قائمة المعايير المتعلقة بالكلام، خصوصًا في ASR وترجمة الكلام، مع WER قدره 6.14% على قائمة OpenASR.
براعة الرؤية: على الرغم من حجمه الأصغر، فإن Phi-4 المدمج يتساوى أو يتجاوز النماذج الأكبر في مهام الرؤية مثل فهم الوثائق و OCR.

يؤكد أداء Phi-4 عبر هذه المعايير على تعدد استخداماته وكفاءته، مما يجعله أداة قوية للمطورين والباحثين الذين يعملون على تطبيقات الذكاء الاصطناعي متعددة الوسائط.

لماذا يُعتبر Phi-4 مهمًا

Phi-4 ليس مجرد تحسين تدريجي آخر في عالم الذكاء الاصطناعي—إنه رائد وإليك لماذا:

الكفاءة: تجعل الحجم المدمج وآلية الانتباه المتفرق في Phi-4 أكثر كفاءة في التدريب والنشر، مما يقلل التكاليف وتأثير البيئة.
تعدد الاستخدامات: تفتح قدراته متعددة الوسائط ومرونة الضبط الدقيق آفاق جديدة للتطبيقات عبر الصناعات.
سهولة الوصول: كنموذج مفتوح المصدر، يمكّن Phi-4 المطورين والباحثين من التجربة والابتكار دون حواجز.

Apidog: أفضل أداة مجانية لتطوير واجهة برمجة التطبيقات

بينما نحن في موضوع الأدوات المتطورة، دعونا نتحدث عن Apidog، منصة تحدث ثورة في تطوير واجهات برمجة التطبيقات. إذا كنت متعبًا من إدارة أدوات متعددة لتصميم واجهة برمجة التطبيقات، واختبارها، وتوثيقها، فإن Apidog هنا لتبسيط سير العمل الخاص بك.

لماذا يتميز Apidog

منصة موحدة: يجمع Apidog بين تصميم واجهة برمجة التطبيقات، واختبارها، وتوثيقها، والمحاكاة في منصة واحدة، مما يلغي الحاجة إلى أدوات مثل Postman.
اختبار آلي: إنشاء حالات اختبار مباشرة من مواصفات واجهة برمجة التطبيقات وتشغيلها مع التحقق المدمج.
خادم المحاكاة الذكي: إنشاء بيانات محاكاة واقعية دون الحاجة إلى البرمجة اليدوية.
دعم متعدد البروتوكولات: العمل مع REST، GraphQL، SOAP، WebSocket وغيرها من البروتوكولات بسلاسة.
محور واجهة برمجة التطبيقات: استكشاف ونشر واجهات برمجة التطبيقات في مجتمع تعاوني لرؤية أفضل.

للمطورين الذين يبحثون عن تبسيط سير عمل واجهات برمجة التطبيقات الخاصة بهم، فإن Apidog هو بديل يجب تجربته بدلاً من Postman.

button

بدء استخدام Phi-4

هل أنت مستعد للغوص في Phi-4؟ إليك كيفية البدء باستخدام واجهة برمجة تطبيقات NVIDIA للمهام متعددة الوسائط:

تثبيت المكتبات المطلوبة:
تأكد من أن لديك مكتبة requests مثبتة. يمكنك تثبيتها باستخدام pip:

pip install requests

تحضير الملفات الخاصة بك:
تأكد من أن لديك صورة (image.png) وملف صوتي (audio.wav) جاهزين لعملية المعالجة.

تشغيل الكود:
استخدم البرنامج النصي التالي بلغة بايثون للتفاعل مع Phi-4 عبر واجهة برمجة التطبيقات الخاصة بـ NVIDIA:

import requests, base64

invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
stream = True

# ترميز صورة وملفات صوتية
with open("image.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()
with open("audio.wav", "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode()

# تأكد من أن الحجم المدمج للملفات ضمن الحدود
assert len(image_b64) + len(audio_b64) < 180_000, \
    "لرفع الصور و/أو الصوتيات الأكبر، استخدم واجهة برمجة التطبيقات للأصول (انظر الوثائق)"

# إعداد الرؤوس والحمل
headers = {
    "Authorization": "Bearer $API_KEY",  # استبدل بمفتاح واجهة برمجة التطبيقات الخاص بك
    "Accept": "text/event-stream" if stream else "application/json"
}

payload = {
    "model": 'microsoft/phi-4-multimodal-instruct',
    "messages": [
        {
            "role": "user",
            "content": f'أجب عن الاستفسار المنطوق حول الصورة.<img src="data:image/png;base64,{image_b64}" /><audio src="data:audio/wav;base64,{audio_b64}" />'
        }
    ],
    "max_tokens": 512,
    "temperature": 0.10,
    "top_p": 0.70,
    "stream": stream
}

# إرسال الطلب
response = requests.post(invoke_url, headers=headers, json=payload)

# التعامل مع الاستجابة
if stream:
    for line in response.iter_lines():
        if line:
            print(line.decode("utf-8"))
else:
    print(response.json())

استبدل $API_KEY بمفتاح واجهة برمجة التطبيقات الفعلي الخاص بك.

تفسير النتائج:
سيقوم البرنامج النصي ببث الاستجابة من Phi-4، موفرًا رؤى أو إجابات بناءً على مدخلات الصورة والصوت.

اللغات المدعومة لكل نمط

يدعم Phi-4 مجموعة واسعة من اللغات عبر أنماطه:

النص: العربية، الصينية، التشيكية، الدنماركية، الهولندية، الإنجليزية، الفنلندية، الفرنسية، الألمانية، العبرية، المجرية، الإيطالية، اليابانية، الكورية، النرويجية، البولندية، البرتغالية، الروسية، الإسبانية، السويدية، التايلندية، التركية، الأوكرانية
الصورة: الإنجليزية
الصوت: الإنجليزية، الصينية، الألمانية، الفرنسية، الإيطالية، اليابانية، الإسبانية، البرتغالية

أفكار نهائية

مع المعايير التي تتحدث عن نفسها، يعتبر إصدار Phi-4 بمثابة قفزة كبيرة إلى الأمام في نماذج اللغة الاصطناعية، مما يوفر كفاءة معززة، وتنوعًا، وسهولة الوصول إلى المقدمة. نسختاه، Phi-4 Mini و Phi-4 Multimodal، تلبي حالات الاستخدام المتنوعة، من المهام التقليدية في NLP إلى التفكير المعقد متعدد الوسائط عبر النص والرؤية والصوت. وهذا يجعل Phi-4 أداة مثيرة للمطورين والباحثين والشركات التي تهدف إلى استغلال الذكاء الاصطناعي المتطور دون تكاليف حسابية مفرطة.

واثناء قيامك بذلك، لا تنسَ إلقاء نظرة على Apidog—المنصة النهائية لتطوير واجهات برمجة التطبيقات، التي تحدث موجات كبديل أفضل لـ Postman. معًا، Phi-4 و Apidog يمكّنان المطورين من بناء أنظمة أكثر ذكاءً وسرعة وكفاءة.

button