باجل-7B-MoT: إنجاز بايت دانس في الابتكار بالذكاء الاصطناعي متعدد الوسائط

Ashley Innocent

Ashley Innocent

28 مايو 2025

باجل-7B-MoT: إنجاز بايت دانس في الابتكار بالذكاء الاصطناعي متعدد الوسائط

تدفع ByteDance حدود الذكاء الاصطناعي بإصدارها الأخير، BAGEL-7B-MoT، وهو نموذج أساسي متعدد الوسائط يعيد تعريف كيفية فهم الآلات للمحتوى وتوليده عبر النصوص والصور والمزيد. هذا النموذج مفتوح المصدر، الذي طوره فريق Seed في ByteDance، يدمج قدرات متقدمة مثل توليد النصوص إلى صور، وتحرير الصور، ونمذجة العالم، مما يجعله متميزًا في مجال الذكاء الاصطناعي. مع 7 مليارات معلمة نشطة فقط (14 مليار إجمالي)، يقدم BAGEL-7B-MoT أداءً ينافس نماذج من الدرجة الأولى مثل Qwen2.5-VL وSD3، كل ذلك تحت ترخيص Apache 2.0 المتساهل.

💡
للمطورين الذين يتطلعون إلى دمج هذا النموذج عبر واجهات برمجة التطبيقات (APIs)، توفر أدوات مثل Apidog طريقة سلسة لاختبار ونشر التطبيقات المدفوعة بالذكاء الاصطناعي. قم بتنزيل Apidog مجانًا لتبسيط سير عمل واجهات برمجة التطبيقات الخاصة بك وتسخير إمكانيات BAGEL-7B-MoT بسهولة. 
زر

ما هو BAGEL-7B-MoT؟ نظرة فنية عامة

BAGEL-7B-MoT هو نموذج متعدد الوسائط مفتوح المصدر، يعتمد على فك التشفير فقط، ومصمم لتوحيد الفهم والتوليد عبر وسائط بيانات متعددة، بما في ذلك النصوص والصور ومقاطع الفيديو وبيانات الويب. على عكس نماذج الذكاء الاصطناعي التقليدية التي تعتمد على بنى معمارية منفصلة لمهام محددة (مثل DALL-E لتوليد الصور أو GPT-4V للفهم البصري)، يجمع BAGEL-7B-MoT هذه القدرات في إطار عمل واحد وفعال. وبالتالي، فإنه يقلل التعقيد مع تحقيق أداء فائق.

يستفيد النموذج من بنية Mixture-of-Transformer-Experts (MoT)، والتي تعزز قدرته على معالجة معلومات متعددة الوسائط متنوعة. باستخدام مشفرين منفصلين - أحدهما لميزات مستوى البكسل والآخر لميزات مستوى الدلالة - يلتقط BAGEL-7B-MoT كلاً من التفاصيل المرئية الدقيقة والمعنى السياقي عالي المستوى. يتيح هذا النهج المزدوج للمشفر، جنبًا إلى جنب مع نموذج Next Group of Token Prediction، للنموذج التنبؤ بتسلسلات من الرموز اللغوية أو المرئية، مما يمكنه من مهام مثل تحرير الصور الحرة والتلاعب ثلاثي الأبعاد. علاوة على ذلك، تم ضبط النموذج بدقة من أسس قوية، بما في ذلك Qwen2.5-7B-Instruct و siglip-so400m-14-384-flash-attn2، مع نموذج FLUX.1-schnell VAE الذي يعزز قدراته على توليد الصور. جميع المكونات مرخصة بموجب Apache 2.0، مما يضمن إمكانية الوصول للمطورين والباحثين.

للمهتمين باستكشاف BAGEL-7B-MoT، تتوفر أوزان النموذج والوثائق التفصيلية على Hugging Face ومستودع GitHub. توفر هذه الموارد نقطة انطلاق قوية للتنفيذ والتجريب.

البنية المعمارية: Mixture-of-Transformer-Experts (MoT)

تعد بنية BAGEL-7B-MoT حجر الزاوية في نجاحه. على وجه التحديد، يزيد إطار عمل Mixture-of-Transformer-Experts (MoT) من قدرة النموذج على التعامل مع بيانات متعددة الوسائط غنية ومتنوعة. على عكس نماذج المحولات التقليدية التي تعتمد على بنية معمارية أحادية متجانسة، يستخدم MoT "خبراء" محولات متعددة ومتخصصة تتعاون لمعالجة جوانب مختلفة من بيانات الإدخال. يعزز هذا النهج الكفاءة وقابلية التوسع، مما يسمح لـ BAGEL-7B-MoT بمعالجة المهام المعقدة دون الحاجة إلى زيادات هائلة في الموارد الحسابية.

يستخدم النموذج مشفرين متميزين لمعالجة المدخلات المرئية:

تغذي هذه المشفرات إطار عمل MoT، الذي يخصص مهام المعالجة ديناميكيًا للخبراء المناسبين بناءً على وسيلة الإدخال. على سبيل المثال، عند توليد صورة من موجه نصي، يفسر المشفر الدلالي الوصف النصي، بينما يضمن مشفر مستوى البكسل احتفاظ الصورة الناتجة بالدقة البصرية. يتيح هذا التآزر لـ BAGEL-7B-MoT التفوق في مهام مثل توليد النصوص إلى صور، حيث ينافس نماذج متخصصة مثل SD3.

علاوة على ذلك، يستخدم النموذج نموذج Next Group of Token Prediction. بدلاً من التنبؤ بالرموز الفردية، يتنبأ BAGEL-7B-MoT بمجموعات من الرموز، مما يقلل الحمل الحسابي مع الحفاظ على الدقة. هذا النهج فعال بشكل خاص للمهام متعددة الوسائط، حيث يجب على النموذج التبديل بسلاسة بين معالجة النصوص والبيانات المرئية. نتيجة لذلك، يحقق BAGEL-7B-MoT أداءً متقدمًا في معايير الفهم والتوليد متعدد الوسائط.

منهجية التدريب: توسيع نطاق التعلم متعدد الوسائط

عملية تدريب BAGEL-7B-MoT هي نموذج في توسيع نطاق الذكاء الاصطناعي متعدد الوسائط. تم تدريب النموذج مسبقًا على تريليونات من الرموز المتداخلة متعددة الوسائط التي تشمل النصوص والصور ومقاطع الفيديو وبيانات الويب. تتيح مجموعة البيانات الضخمة هذه لـ BAGEL-7B-MoT تطوير فهم عميق لأنواع البيانات المتنوعة، مما يعزز القدرات الناشئة التي تتجاوز نماذج الذكاء الاصطناعي التقليدية.

يتكون خط أنابيب التدريب من ثلاث مراحل رئيسية:

  1. التدريب المسبق (Pre-training): يتعلم النموذج المهارات الأساسية عن طريق معالجة البيانات المتداخلة واسعة النطاق. هذه المرحلة تؤسس قدرات الفهم والتوليد الأساسية متعددة الوسائط.
  2. التدريب المستمر (Continued Training): التدريب الإضافي يحسن قدرة النموذج على التعامل مع المهام المعقدة، مثل تحرير الصور والتفكير التسلسلي.
  3. الضبط الدقيق تحت الإشراف (Supervised Fine-Tuning): الضبط الدقيق المستهدف على مجموعات بيانات محددة يعزز الأداء في مهام المعايير، مما يضمن تفوق BAGEL-7B-MoT على المنافسين مثل Qwen2.5-VL وInternVL-2.5.

تكشف دراسات الاستئصال التي أجرتها ByteDance أن الجمع بين ميزات Variational Autoencoder (VAE) و Vision Transformer (ViT) يعزز بشكل كبير قدرات التحرير الذكية. على سبيل المثال، يضمن مكون VAE، المستمد من FLUX.1-schnell، مخرجات بصرية عالية الجودة، بينما يوفر مشفر ViT سياقًا دلاليًا قويًا. هذا المزيج حاسم لمهام مثل التلاعب بالصور الحرة، حيث يجب على النموذج الموازنة بين الدقة البصرية والدقة السياقية.

علاوة على ذلك، تسلط عملية التدريب الضوء على تقدم مرحلي في القدرات. في وقت مبكر من التدريب، يتقن BAGEL-7B-MoT الفهم والتوليد متعدد الوسائط. مع تقدم التدريب، يطور مهارات التحرير الأساسية، تليها قدرات متقدمة مثل التلاعب ثلاثي الأبعاد والملاحة في العالم. يؤكد هذا النمط الناشئ على أهمية مجموعات البيانات الكبيرة والمتنوعة في إطلاق العنان للتفكير المعقد متعدد الوسائط.

القدرات الرئيسية لـ BAGEL-7B-MoT

يتميز BAGEL-7B-MoT بتنوعه عبر مجموعة من المهام. أدناه، نستكشف قدراته الرئيسية، التي يضعه كل منها كقائد في مجال الذكاء الاصطناعي متعدد الوسائط مفتوح المصدر.

1. توليد النصوص إلى صور

يقدم BAGEL-7B-MoT جودة تحويل النصوص إلى صور تنافس المولدات المتخصصة مثل SD3. من خلال الاستفادة من بنيته المعمارية ذات المشفر المزدوج وإطار عمل MoT، يولد النموذج صورًا عالية الدقة من الموجهات النصية. على سبيل المثال، موجه مثل "منظر طبيعي جبلي هادئ عند غروب الشمس" ينتج نتائج بصرية مذهلة بإضاءة وتفاصيل دقيقة. يمكن للمطورين تجربة هذه الميزة باستخدام واجهة Gradio WebUI المتوفرة في مستودع GitHub.

2. تحرير الصور المتقدم

على عكس نماذج تحرير الصور التقليدية، يدعم BAGEL-7B-MoT التلاعب البصري الحر. يمكن للمستخدمين تقديم تعليمات بلغة طبيعية، مثل "غيّر السماء إلى ليلة مليئة بالنجوم" أو "حوّل هذا إلى صورة قديمة من عشرينيات القرن الماضي"، ويقوم النموذج بتنفيذ هذه التعديلات بدقة. يضمن الجمع بين ميزات VAE وViT أن التعديلات تحافظ على كل من الجودة البصرية والملاءمة السياقية.

3. نمذجة العالم والملاحة

إحدى أكثر الميزات الرائدة في BAGEL-7B-MoT هي قدرته على أداء مهام "نمذجة العالم"، مثل تركيب المشاهد المتعددة والملاحة في العالم. تتيح هذه القدرات للنموذج فهم بيئات ثلاثية الأبعاد والتلاعب بها، مما يجعله مناسبًا للتطبيقات في الواقع الافتراضي والألعاب والروبوتات. على سبيل المثال، يمكن للنموذج التنبؤ بالإطارات المستقبلية في تسلسل فيديو أو توليد مشاهد متسقة لكائن من زوايا متعددة.

4. التفكير متعدد الوسائط

يتفوق BAGEL-7B-MoT في المهام التي تتطلب تفكيرًا معقدًا متعدد الوسائط، مثل التفكير التسلسلي ومعالجة سلسلة الأفكار. من خلال تمكين علامة "enable_thinking" في تنفيذ Cog، يمكن للمطورين مطالبة النموذج بالتفكير في المهام المعقدة قبل توليد المخرجات. هذه الميزة ذات قيمة خاصة للتطبيقات التي تتطلب فهمًا سياقيًا عميقًا، مثل الأنظمة المستقلة أو المساعدين الافتراضيين التفاعليين.

5. أداء المعايير

يتجاوز النموذج المنافسين مفتوحي المصدر مثل Qwen2.5-VL وInternVL-2.5 في معايير الفهم والتوليد القياسية متعددة الوسائط. قدرته على التعامل مع مهام متنوعة ضمن بنية معمارية واحدة يجعله حلاً فعالاً من حيث التكلفة وقويًا للمطورين.

التنفيذ والنشر

نشر BAGEL-7B-MoT أمر بسيط، بفضل توفره كمصدر مفتوح ووثائقه الشاملة. يتم استضافة أوزان النموذج على Hugging Face، ويوفر مستودع GitHub سكربتات للتثبيت والاستدلال والتقييم. فيما يلي سكربت نموذجي لتنزيل وإعداد BAGEL-7B-MoT:

import os
from huggingface_hub import snapshot_download

# Define paths
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"

# Download model weights
snapshot_download(
    cache_dir=cache_dir,
    local_dir=save_dir,
    repo_id=repo_id,
    local_dir_use_symlinks=False,
    resume_download=True,
    allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"]
)

# Install dependencies
os.system("conda create -n bagel python=3.10 -y")
os.system("conda activate bagel")
os.system("pip install -r requirements.txt")

بعد الإعداد، يمكن للمطورين استخدام دفتر ملاحظات inference.ipynb أو واجهة Gradio WebUI للتفاعل مع النموذج. على سبيل المثال، لتوليد صورة، قم بتشغيل:

cog predict -i prompt="A futuristic city floating in the clouds" -i enable_thinking=true

لتحرير الصور، استخدم:

cog predict -i prompt="Make it look like it’s underwater with fish swimming around" -i image=@your_photo.jpg -i task="image-editing" -i cfg_img_scale=2.0

تستفيد هذه الأوامر من تنفيذ Cog، الذي يحسن BAGEL-7B-MoT للاستخدام في الإنتاج. يمكن للمطورين أيضًا دمج النموذج مع واجهات برمجة التطبيقات باستخدام أدوات مثل Apidog لتبسيط النشر في التطبيقات الواقعية.

التحديات والاعتبارات

بينما يعد BAGEL-7B-MoT نموذجًا قويًا، إلا أنه يحتوي على بعض القيود. يتطلب النموذج موارد حسابية كبيرة، حيث أبلغ المستخدمون عن نشر ناجح على وحدات معالجة الرسومات مثل RTX 3090 بذاكرة VRAM بسعة 24 جيجابايت. قد يواجه أصحاب ذاكرة VRAM الأقل (مثل 6 جيجابايت) صعوبة، على الرغم من أن الإصدارات الكمية مثل BAGEL-7B-MoT-INT8 و BAGEL-7B-MoT-FP8 تقدم بدائل للبيئات محدودة الموارد. بالإضافة إلى ذلك، قد يتطلب أداء النموذج في بعض الحالات الحافة، مثل التلاعب بالصور شديد التحديد، المزيد من الضبط الدقيق.

دعت ByteDance إلى ردود فعل من المجتمع لتحديد ومعالجة هذه المشكلات. يمكن للمطورين مشاركة الحالات السيئة عبر متتبع المشكلات في مستودع GitHub أو قناة Discord، مما يساهم في التحسين المستمر للنموذج.

التأثير المجتمعي وتأثير المصدر المفتوح

يعد إصدار BAGEL-7B-MoT بموجب ترخيص Apache 2.0 خطوة مهمة نحو إضفاء الطابع الديمقراطي على الذكاء الاصطناعي. من خلال إتاحة النموذج والرمز البرمجي والوثائق مجانًا، تمكن ByteDance المطورين والباحثين من بناء تطبيقات مبتكرة دون قيود ملكية. كانت استجابة المجتمع إيجابية للغاية، حيث لاحظ المستخدمون قدرته على التفوق على نماذج اللغة المرئية الرائدة (VLMs) وإمكانية منافسة النماذج مغلقة المصدر مثل Veo 3 من Google.

كما أن طبيعة النموذج مفتوح المصدر تعزز التعاون. تظهر النسخ المتفرعة مثل DFloat11/BAGEL-7B-MoT-DF11 كيف يقوم المجتمع بتحسين BAGEL-7B-MoT لتحقيق الكفاءة، حيث حقق تخفيضًا بنسبة 70% في الحجم دون التضحية بالدقة. تسلط مثل هذه الجهود الضوء على قوة الذكاء الاصطناعي مفتوح المصدر في دفع الابتكار.

الخلاصة

يمثل BAGEL-7B-MoT إنجازًا ضخمًا في مجال الذكاء الاصطناعي متعدد الوسائط، حيث يجمع بين توليد النصوص إلى صور، وتحرير الصور المتقدم، ونمذجة العالم في نموذج واحد مفتوح المصدر. بنيته المعمارية Mixture-of-Transformer-Experts، وتصميمه المزدوج للمشفر، وتدريبه على نطاق واسع يجعله أداة متعددة الاستخدامات وقوية للمطورين والباحثين. من خلال التفوق على نماذج اللغة المرئية الرائدة ومنافسة المولدات المتخصصة، يثبت BAGEL-7B-MoT أن النماذج الموحدة يمكنها تحقيق نتائج استثنائية دون التضحية بالكفاءة. مع توفر الموارد على Hugging Face وGitHub، وأدوات مثل Apidog لتبسيط دمج واجهات برمجة التطبيقات، الآن هو الوقت المثالي لاستكشاف إمكانيات BAGEL-7B-MoT. يضمن التزام ByteDance بالذكاء الاصطناعي مفتوح المصدر أن هذا النموذج سيستمر في التطور، مما يدفع الابتكار عبر الصناعات ويمكّن مجتمع الذكاء الاصطناعي العالمي.

زر

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات