دولفين غما: نموذج لغوي كبير، ولكن للدلافين

لقد أحدث انتشار نماذج اللغة الكبيرة (LLMs) ثورة في معالجة اللغة الطبيعية، ومع ذلك فإن الميل إلى إنتاج محتوى غير موضوعي أو "هلوسة" لا يزال عقبة رئيسية أمام النشر الموثوق. غالبًا ما تمزج نماذج LLM القياسية بين معرفتها الواسعة، ولكنها غير واضحة، مع السياق المقدم من المستخدمين، مما يؤدي إلى مخرجات يصعب التحقق منها. لمعالجة ذلك، قدمت Google DolphinGemma، نسخة متخصصة ضمن عائلة نماذج Gemma المفتوحة، مصممة بدقة لـ التوليد القائم على الحقائق مع الاستشهاد الصريح. يوفر هذا المقال استكشافًا تقنيًا لهيكل DolphinGemma المحتمل، وطرق التدريب، ومعايير التقييم، وموقعه ضمن مشهد الذكاء الاصطناعي الموثوق.

💡

هل تريد أداة رائعة لاختبار واجهة برمجة التطبيقات تنتج وثائق واجهة برمجة التطبيقات جميلة؟

هل تحتاج إلى منصة متكاملة، شاملة لفريق المطورين لديك للعمل معًا بكفاءة قصوى ؟

تقدم Apidog جميع مطالبك، وتستبدل Postman بسعر أكثر ملاءمة بكثير!

زر

الهندسة الأساسية: تراث جيمّا

تبني DolphinGemma على الهيكل المعتمد لنماذج Gemma من Google. تستفيد Gemma نفسها من معماريات Transformer التي تعتمد على فك الترميز فقط، والتي تم الترويج لها من قبل نماذج مثل GPT.

من المتوقع أن تشمل الخصائص الرئيسية التي ورثتها DolphinGemma:

كتل Transformer: تتكون من طبقات انتباه ذاتي متعدد الرأس وشبكات تغذية أمامية، مما يمكن النموذج من تقييم أهمية الرموز المختلفة في تسلسل الإدخال. تستخدم Gemma انتباه متعدد الاستعلام لكي يكون الاستنتاج أسرع ويقلل الحمل في الذاكرة، وهو ما يكون مفيدًا بشكل خاص للنماذج الكبيرة.
أحجام المعلمات: من المتوقع أن تتوافق تنويعات DolphinGemma مع أحجام Gemma الصادرة، وخاصة 2B (حوالي 2.5 مليار معلمة) و7B/8B (حوالي 8.5 مليار معلمة فعالة). تمثل هذه الأحجام مقايضة مدروسة، حيث تقدم قدرات كبيرة بينما تظل قابلة للنشر على وحدات معالجة رسومات بمستوى المستهلك (مثل سلسلة NVIDIA RTX) ووحدات المعالجة المركزية، أو مستضافة بكفاءة في بيئات سحابية (مثل Google Cloud Vertex AI، Kaggle).
المفردات وترميز الرموز: تستخدم مُركب جمل (SentencePiece) مُدرب على مجموعة نصية كبيرة، يُحتمل أن يكون بنفس حجم المفردات 256k المستخدم لنموذج Gemma. يسمح ذلك بترميز فعال لنصوص متنوعة وأكواد.
وظائف التفعيل: تستخدم وظائف تفعيل حديثة مثل GeGLU (وحدات الخطية المغلقة مع تفعيل GELU) لتحسين ديناميكيات التدريب والأداء.
التطبيع: تستخدم RMSNorm (تطبيع الجذور التربيعية للمتوسط) بدلاً من تطبيع الطبقة القياسي من أجل الكفاءة الحسابية دون التضحية بالأداء.
ترميز المواقع الدوارة (RoPE): تطبق المعلومات الموضعية مباشرة داخل آلية الانتباه، مما يوفر معالجة أفضل لطول التسلسل وقدرات استقراء محتملة محسنة مقارنة بالترميز الموضعية المطلقة أو المتعلمة.

توفر هذه الأساس نموذجًا قادرًا وفعالًا نسبيًا يبنى عليه قدرات DolphinGemma المتخصصة.

تعرف على DolphinGemma، الذكاء الاصطناعي الذي يساعدنا على الغوص أعمق في عالم تواصل الدلافين. 🐬 pic.twitter.com/2wYiSSXMnn
— Google DeepMind (@GoogleDeepMind) 14 أبريل 2025

التحدي الفني: التغلب على هيمنة المعلمات

غالبًا ما تُظهر نماذج LLM القياسية، حتى عندما تتوفر على سياق عبر التوليد المعزز بالاسترجاع (RAG)، ظاهرة "تسرب المعرفة". حيث تشفر المعلمات الداخلية كميات هائلة من المعرفة العالمية المكتسبة خلال التدريب المسبق. خلال عملية التوليد، تتأثر توقعات النموذج للرمز التالي بكل من السياق المقدّم (المستندات المسترجعة) وهذه المعرفة الداخلية للمعلمات. يمكن أن يؤدي ذلك إلى:

الهلوسة متجاهلة السياق: توليد حقائق تعلمت خلال التدريب المسبق حتى لو كانت تتناقض مع المستندات المصدر المقدمة.
الهلوسة المدمجة بالسياق: نسج معلومات من السياق المقدم والمعرفة الداخلية، مما يُنتج بيانات تبدو معقولة ولكنها غير مؤكدة.
نقص الاستشهاد: صعوبة في الربط الدقيق بين البيانات المولدة والمقاطع المحددة في المستندات المصدر.

الهدف الفني الأساسي لـ DolphinGemma هو تحيز العملية التوليدية بقوة نحو السياق المقدم وتوليد الاستشهادات الصريحة بالمصادر.

حل DolphinGemma: التعديل المتخصص الدقيق

تحقق DolphinGemma سلوكها القائم على الحقائق ليس من خلال تجديد الهيكل (من المحتمل وجود تغييرات ضئيلة، إن وجدت، على كتل Transformer الأساسية) ولكن من خلال التعديل الدقيق الموجه (SFT) ومن المحتمل أن تحتوي على مراحل من التعلم المعزز الموجه بشكل خاص نحو الاستناد والاقتران بالمصادر.

هدف التعديل الدقيق: يتحول الهدف الأساسي للتدريب من اتباع التعليمات العامة أو القدرات الحوارية (مثل تنويعات Gemma-IT) إلى: بالنظر إلى استعلام Q ومجموعة المستندات المصدر {D1، D2، ...، Dn}، إنتاج إجابة A تكون متسقة موضوعيًا فقط مع المعلومات الموجودة في {Di} وتستند إلى روابط ربط المقاطع في A بالعودة إلى محددات Di المحددة.
مجموعة بيانات التعديل الدقيق: يتطلب ذلك مجموعة بيانات متخصصة مختلفة عن مجموعات بيانات ضبط التعليمات التقليدية. من المحتمل أن تحتوي هذه المجموعة على أمثلة من الشكل:

الإدخال: استعلام المستخدم + [SEP] + نص المستند 1 + [SEP] + نص المستند 2 + ...
الإخراج: إجابة مصنعة تحتوي فقط على المعلومات المستمدة من المستندات، مع تداخل مع علامات الاقتباس (مثل [1]، [2]) التي تعود إلى المستند 1، المستند 2، إلخ.
مصادر البيانات: إنشاء هذه البيانات على نطاق واسع يمثل تحديًا. تشمل المصادر المحتملة:
التحليل البشري: عالي الجودة ولكنه مكلف. يقوم الخبراء بكتابة إجابات موثوقة بناءً على المصادر المقدمة.
توليد البيانات الاصطناعية: باستخدام نماذج أكبر وأكثر قدرة (قد تكون نماذج Google الداخلية مثل Gemini Pro/Ultra) والتي تحفز خصيصًا لإنتاج إجابات قائمة على الحقائق والاستشهادات من المستندات المعطاة. يتطلب ذلك تحكمًا دقيقًا في الجودة والتصفية. قد تُستخدم القواعد العامة، مثل استخراج الجمل من المستندات المصدر ومزجها مع الاقتراحات.
تحويل بيانات الويب: معالجة مجموعات بيانات موجودة مثل الأسئلة الطبيعية (التي تزاوج بين الأسئلة والمقتطفات ذات الصلة من الويب) أو ELI5 (اشرح لي كأنني في الخامسة) وتحويلها إلى التنسيق المطلوب (استعلام + مستندات السياق -> إجابة مُقتبسة). قد يتطلب ذلك التعرف التلقائي على الجمل الداعمة وإضافة علامات الاقتباس.
حجم البيانات: من المرجح أن يتطلب التعديل الدقيق ملايين، إن لم يكن مليارات، الرموز من هذه البيانات المتخصصة ليوجه سلوك النموذج بعيدًا عن ميله المحدد مسبقًا.

طريقة التدريب:

التعديل الدقيق المش supervised (SFT): يتم تدريب نموذج Gemma الأساسي على مجموعة البيانات المتخصصة باستخدام فقدان تسلسل قياسي (مثل الانتروبيا المتقاطعة) للتنبؤ بالإجابة المستندة والاستشهاد.
معالجة الاستشهاد: قد تُعامل الاستشهادات كرموز خاصة داخل المفردات أو تُنتج كجزء من تسلسل النص. يتعلم النموذج وضع هذه العلامات بشكل مناسب استنادًا إلى بيانات التدريب. قد تشمل الآليات الأكثر تعقيدًا التنبؤ بمساحات الاقتباس بشكل منفصل.
التدريب السلبي (احتمالي): قد تتضمن بيانات التدريب أمثلة تنص على أن المخرج المطلوب هو مؤشر على أن الإجابة لا يمكن العثور عليها في المصادر المقدمة، أو أمثلة متباينة تعاقب المخرجات التي تستخدم المعرفة الخارجية.
التعلم المعزز من التغذيات (RLHF/RLAIF - اختياري ولكنه محتمل): لمزيد من تحسين جودة الاستناد والاستشهاد بصرف النظر عن SFT، يمكن استخدام التعلم المعزز. يمكن تدريب نماذج المكافأة لتقييم:
الإخلاص: هل تعكس الإجابة المولدة بدقة المستندات المصدر؟ (مكافأة عالية للإخلاص، عقوبة على التناقض أو الادعاءات غير المدعومة).
صحة الاستشهاد: هل وضعت الاستشهادات بشكل صحيح وهل تشير إلى المقاطع المصدر ذات الصلة؟
تغطية الاستشهاد: هل تم الاستشهاد بجميع الأجزاء الضرورية من الإجابة؟
الطلاقة والاتساق: هل تمت كتابة الإجابة بشكل جيد وسهلة الفهم؟

معايير التقييم والأداء

يتطلب تقييم DolphinGemma معايير تتجاوز درجات توليد اللغة القياسية (مثل BLEU أو ROUGE) التي تقيس في المقام الأول الطلاقة وتداخل النماذج. تشمل أبعاد التقييم الرئيسية:

التأسيس/الأمانة:

المعايير الآلية: باستخدام نماذج الاستدلال باللغة الطبيعية (NLI) للتحقق من الاستنتاج/التناقض بين البيانات المولدة والمستندات المصدر. نقاط فحص الحقائق المعدلة لهذه المهمة.
التقييم البشري: يقوم المقيمون بتقييم ما إذا كانت كل قطعة من المعلومات في الإجابة المولدة مدعومة بالسياق المقدم. وغالباً ما تكون هذه هي المعايير الذهبية.
الأداء الافتراضي: قد تقارير Google أن DolphinGemma تحقق درجات أمانة أعلى بكثير (مثل >90-95٪ دقة واقعية استنادًا إلى تقييم بشري) مقارنة بنموذج Gemma الأساسي + التوجيهات القياسية لـ RAG (التي قد تتراوح في نطاق 70-85٪ اعتمادًا على المهمة والتوجيه). يمكن أن يُزعم تقليل معدل الهلوسة (مثل قياسه كنسبة من البيانات غير المدعومة) بنسبة قد تصل إلى 50-75٪ مقارنةً بـ RAG القياسي.

جودة الاقتباس:

دقة الاقتباس: من الاستشهادات المولدة، ما النسبة التي تشير إلى المستند/المقطع المصدر الصحيح الذي يدعم الادعاء؟
استرجاع الاقتباس: ما النسبة من الادعاءات في الإجابة التي تتطلب اقتباسًا تُوجد بالفعل؟
الأداء الافتراضي: من المتوقع أن يظهر DolphinGemma دقة عالية واسترجاعًا (مثل >90%) في مهام الاقتباس، مما يتجاوز بكثير قدرات الاقتباس العشوائية للنماذج العامة المستهدفة لـ RAG.

الطلاقة والملاءمة: لا تزال يمكن استخدام المعايير القياسية مثل ROUGE لضمان أن الناتج قابل للقراءة وملائم للاستعلام، على الرغم من أنه ثانوي بالنسبة للتأسيس.
المعايير المرجعية: من المحتمل أن يتم التقييم على نسخ معدلة من مجموعات بيانات الأسئلة والأجوبة (الأسئلة الطبيعية، أسئلة الويب، TriviaQA) حيث يجب أن تُشتق الإجابات فقط من المقتطفات المقدمة، ومن المحتمل أن يتم التقييم على معايير مصممة خصيصًا لاختبار التأسيس والاستشهاد في ظروف معارضة (مثل المعلومات المتعارضة في المصادر).

الاعتبارات الفنية والمقايضات

طول الإدخال: تحدد حجم نافذة السياق للنموذج الأساسي Gemma (مثل 8192 رمزًا) كمية المواد المصدر التي يمكن معالجتها في وقت واحد. لا تزال هناك حاجة لاستراتيجيات فعالة للتقسيم والاسترجاع لمجموعات المستندات الكبيرة.
فترة التأخير: قد تكون عملية التوليد أبطأ قليلاً من نموذج Gemma القياسي بسبب عملية فك الترميز الأكثر تقييدًا أو قد يكون رأس النتيجة أكثر تعقيدًا إذا كانت الاقتباسات تتم معالجتها بشكل خاص. ومع ذلك، يبقى المحرك الرئيسي للتأخير هو الخطوة الأولية للاسترخاء المتأصلة في أي نظام RAG.
اعتماد السحب: إن جودة مخرجات DolphinGemma مقيدة بشكل أساسي بجودة وملاءمة المستندات المقدمة من نظام الاسترجاع (مثل محرك البحث، قاعدة بيانات المتجهات). تبقى المخاطر موجودة في المدخلات الغير جيّدة ومخرجات الغير جيّدة.
التعامل مع الغموض والصراع: تدريب النموذج على التعامل المناسب مع المعلومات المتعارضة عبر المصادر (مثل توضيح النزاع، تفضيل مصدر واحد بناءً على بيانات التعريف إن وجدت، أو رفض الإجابة) هو تحدٍ معقد يتطلب بيانات تدريب متقدمة واستراتيجيات تحفيز خاصة.
التكلفة الحسابية: بينما تكون نماذج Gemma فعالة، يتطلب عملية التعديل الدقيق موارد حسابية كبيرة. تتطلب الاستدلال تحميل أوزان النموذج (مثل ~5GB لـ 2B FP16، ~17GB لـ 8B FP16) بالإضافة إلى التفعيلات.

الانفتاح والتوافر

جانب رئيسي من عائلة Gemma هو طبيعتها المفتوحة. عادة ما تطلق Google:

أوزان النموذج: أوزان مدربة مسبقًا ومعدلة (مثل تنويعات DolphinGemma) بموجب تراخيص مرنة.
شفرة الاستنتاج: أمثلة وربما شفرة محسّنة لتشغيل النماذج.
مصادر الذكاء الاصطناعي المسؤولة: بطاقات نماذج توضح القيود والتحيزات والاستخدامات المقصودة.

يتيح ذلك للباحثين والمطورين نشر و تعديل والبناء على DolphinGemma مباشرة. قد يكون التوافر عبر منصات مثل Kaggle و Hugging Face و Vertex AI Model Garden.

الخاتمة: هندسة الثقة في نماذج اللغة

تمثل DolphinGemma جهدًا هندسيًا كبيرًا لتزويد LLMs بقدرات موثوقة للتحقق والاستشهاد. من خلال الاستفادة من هيكل Gemma الفعال وتطبيق تعديل خاص على نطاق واسع مع التركيز على الالتزام بالسياق ونسبة المصادر، تتجاوز التوجيه العام لـ RAG. على الرغم من اعتمادها على جودة الاسترجاع ومواجهتها تحديات في التعامل مع صراعات المصادر، تقدم DolphinGemma نهجًا فنيًا قويًا لتخفيف الهلوسات وبناء أنظمة ذكاء اصطناعي أكثر موثوقية. يعد توافرها كنموذج مفتوح وعدًا بتسريع البحث والتطوير في تطبيقات الذكاء الاصطناعي المستندة إلى الحقائق، مما يوفر عنصرًا حيويًا للأنظمة التي تعتبر الدقة وقابلية التحقق أمورًا لا تقبل المساومة.