نظرة سريعة على BitNet b1.58 2B4T من مايكروسوفت: صغير لكنه قوي

نموذج اللغة الكبير (LLMs) قد فتح إمكانيات رائعة، مما يمكّن كل شيء من الدردشات المتقنة إلى توليد الشفرات المعقدة. ومع ذلك، تأتي هذه التقدمات بسعر باهظ. يتطلب تدريب وتشغيل النماذج التي تحتوي على عشرات أو مئات المليارات من المعاملات موارد حسابية هائلة، وذاكرة كبيرة، واستهلاك طاقة كبير. هذا يخلق حواجز للوصول، ويحد من سيناريوهات النشر (خاصة على الأجهزة الطرفية)، ويثير قضايا بيئية. استجابة لذلك، يُركز مجال حيوي من البحث على كفاءة النماذج، مستكشفًا تقنيات مثل التجهيز، وتقطير المعرفة، والأهم من ذلك، التكميم.

يمثل إصدار microsoft/bitnet-b1.58-2B-4T من مايكروسوفت على Hugging Face خطوة قد تكون رائدة في هذه السعي من أجل الكفاءة. إنه يجسد مبادئ BitNet، وهو هيكل نموذج مصمم للعمل بأوزان منخفضة للغاية، مما يدفع حدود التكميم بعيدًا عما هو تقليدي. تغوص هذه "النظرة السريعة" فيما هو BitNet b1.58، وأهمية معاملاته (2B) وبيانات التدريب (4T)، والتداعيات المحتملة، والمفاهيم الأساسية التي تقود تطويره.

💡

هل ترغب في أداة اختبار API رائعة تولد توثيق API جميل?

هل ترغب في منصة متكاملة وشاملة لفريق المطورين الخاص بك للعمل مع أقصى إنتاجية?

تقدم Apidog جميع احتياجاتك، وتحل محل Postman بسعر أكثر توفيرًا بكثير!

زر

استبداد الدقة: لماذا يهم التكميم

تخزن نماذج التعلم العميق التقليدية عادةً معاملاً (الأوزان) وتقوم بإجراء العمليات الحسابية باستخدام أرقام عائمة بدقة 32-بت (FP32) أو 16-بت (FP16 أو BF16). توفر هذه الصيغ دقة عالية، مما يسمح للنماذج بالتقاط الفروق الدقيقة في البيانات. ومع ذلك، تأتي هذه الدقة على حساب استخدام الذاكرة وشدة العمليات الحسابية.

يهدف التكميم إلى تقليل هذا التكلفة من خلال تمثيل الأوزان و/أو التنشيطات باستخدام عدد أقل من البتات. تشمل الأساليب الشائعة:

تكميم INT8: استخدام أعداد صحيحة بعمق 8 بت. هذا يقلل بشكل كبير من استخدام الذاكرة (أقل بمقدار 4 مرات مقارنةً بـ FP32) ويمكن أن يسرع الحسابات، خاصة على الأجهزة التي تدعم INT8 بشكل مخصص (مثل وحدات المعالجة الرسومية ووحدات المعالجة المركزية الحديثة). غالبًا ما يؤدي ذلك إلى فقدان دقة ضئيل لمعظم النماذج.
تكميم bبت منخفضة (INT4 ، INT2 ، إلخ.): دفع الدقة إلى أسفل يقدم مكاسب نظرية أكبر في الكفاءة ولكنها تاريخياً جاءت مع خطر كبير من انخفاض الأداء. يصبح الحفاظ على دقة النموذج أكثر تحديًا كلما انخفضت الدقة.

الحد النظري النهائي للتكميم هو 1-بت، حيث تقتصر الأوزان على قيمتين فقط (مثل +1 و -1). هذا هو مجال الشبكات العصبية الثنائية (BNNs).

رؤية BitNet: نحو LLMs ببت واحد

الفكرة الأساسية وراء BitNet، التي نشأت من أبحاث مايكروسوفت، هي تقليل التكلفة الحسابية لنماذج LLM بشكل جذري من خلال التحول نحو تمثيلات أوزان بعمق بت واحد. إذا كانت الأوزان ثنائية (+1/-1)، فإن العملية الحسابية الأكثر كثافة في Transformers - ضرب المصفوفات - يمكن أن تُستبدل إلى حد كبير بجمع وطرح بسيطين. هذا يعد بـ:

تقليص هائل للذاكرة: يتطلب تخزين وزن بتًا واحدًا فقط بدلاً من 16 أو 32.
زيادة ملحوظة في السرعة: الجمع أقل تكلفة حسابيًا من ضرب الأعداد العائمة.
تقليل استهلاك الطاقة: العمليات الأبسط تستهلك طاقة أقل.

ومع ذلك، فإن تدريب الشبكات العصبية الثنائية المستقرة والدقيقة، خاصة على نطاق LLMs، قد أثبت أنه صعب للغاية. التكميم المباشر للأوزان إلى مجرد +1/-1 أثناء التدريب يمكن أن يعيق عملية التعلم، مما يؤدي إلى فقدان جودة كبير مقارنةً بنظيراتها ذات الدقة الكاملة.

إدخال BitNet b1.58: الحل الثلاثي

يوفر اسم النموذج bitnet-b1.58-2B-4T دلائل حاسمة. بينما قد يكون المفهوم الأصلي لـ BitNet قد استهدف أوزانًا بعمق بت واحد، فإن "b1.58" تشير إلى نظام تكميم محدد، مختلف قليلاً. يتوافق هذا التسمية مع تمثيل بعمق 1.58 بت، الذي ينشأ رياضياً من استخدام أوزان ثلاثية القيمة. بدلاً من جعلها قيمتين فقط (+1، -1)، يسمح التكميم الثلاثي بأن تكون الأوزان واحدة من ثلاث قيم: +1، 0، أو -1.

لماذا الثلاثي؟

تقديم التفرع: تمثل القدرة على تمثيل وزن على أنه "0" أن النموذج يمكنه "إيقاف" اتصالات معينة، مما يقدم التفرع. يمكن أن يكون disso مفيدًا لسعة النموذج وقد يسهل تدريبه مقارنةً بالشبكات الثنائية النقية حيث يجب أن تكون كل اتصالية إيجابية أو سلبية.
تحسين السعة التمثيلية (مقارنة بـ 1-بت): بينما لا تزال بدقة منخفضة للغاية، فإن وجود ثلاث حالات ممكنة (+1، 0، -1) يوفر مرونة أكبر قليلاً من مجرد حالتين (+1، -1). قد يكون هذا الزيادة الصغيرة حاسمة للحفاظ على الأداء في المهام اللغوية المعقدة.
الحفاظ على الكفاءة: مثل الأوزان الثنائية، لا تزال الأوزان الثلاثية تسمح أن تكون ضرب المصفوفات مهيمنة من خلال الجمع/الطرح (ضرب +1 أو -1 أو 0 هو تافه). تبقى فوائد الكفاءة الأساسية على FP16 إلى حد كبير سليمة.

يجري حساب "1.58 بت" من حساب نظرية المعلومات: log₂(3) ≈ 1.58. يتطلب كل معامل حوالي 1.58 بت من المعلومات لتخزين حالته (+1، 0، أو -1).

من المحتمل أن يتضمن التنفيذ استبدال طبقات nn.Linear القياسية داخل هيكل Transformer بطبقة مخصصة BitLinear التي تفرض هذا القيد الثلاثي على أوزانها خلال كلاً من التحويلات الأمامية والخلفية (باستخدام تقنيات مثل مقدر "Straight-Through" للتعامل مع الانحدارات من خلال خطوة التكميم غير القابلة للاختلاف).

أهمية معاملات "2B"

تشير "2B" إلى أن نموذج BitNet هذا يحتوي على حوالي 2 مليار معامل. يضعه ذلك في فئة النماذج الصغيرة إلى المتوسطة من LLMs الحديثة، مقارنةً بالنماذج مثل Phi-2، Gemma 2B، أو إصدارات صغيرة من Llama.

هذه الحجم مهم لأن الادعاء الرئيسي المرتبط غالبًا بـ BitNet هو تحقيق أداء مماثل لنماذج FP16 الأكبر بكثير مع كونها أكثر كفاءة بشكل دراماتيكي. إذا كان نموذج BitNet b1.58 بعمق 2B يمكنه فعلاً منافسة أداء، على سبيل المثال، نموذج Llama 2 7B أو 13B FP16 على المعايير الرئيسية، فهذا يمثل قفزة هائلة في الكفاءة. فهذا يعني تحقيق فهم لغوي مشابه وقدرات استنتاجية مع:

~3-6 مرات أقل من المعاملات (ما يعني تعقيد حسابي أساسي أقل).
~10 مرات أقل من الذاكرة المطلوبة للأوزان (1.58 بت مقابل 16 بت).
زمن شهود استدلال أسرع بشكل كبير، خاصةً على الأجهزة المتوافقة.
سحب طاقة أقل بكثير أثناء التشغيل.

قوة رموز "4T"

ربما تكون واحدة من أكثر جوانب اسم النموذج لفتًا للنظر هي "4T"، مما يشير إلى أنه تم تدريبه على مذهل 4 تريليون رمز. هذا حجم مجموعة بيانات ضخم، قابل للمقارنة أو حتى يتجاوز البيانات التدريبية المستخدمة لبعض من أكبر نماذج الأساس المتاحة حاليًا.

لماذا تدريب نموذج نسبي صغير (2B معامل) على مجموعة بيانات شاسعة مثل هذه، خاصة واحدة تستخدم التكميم العدواني؟

تعويض انخفاض الدقة: إحدى الفرضيات هي أن قدرة المعلومات المخفضة لكل وزن فردي (1.58 بت مقابل 16/32 بت) تحتاج إلى التعويض من خلال تعرض النموذج لكمية أكبر بكثير وتنوع من البيانات. قد يسمح التدريب الشامل للنموذج بتعلم أنماط وتمثيلات قوية على الرغم من القيود المفروضة على معاماته.
تجاوز تحديات التدريب: تدريب الشبكات المكممة بشكل كبير أمر دقيق. قد توفر مجموعة بيانات ضخمة انحدارات أقوى وأكثر ثباتًا وتساعد النموذج على التقارب إلى حالة أداء خلال مجموعة بيانات أصغر قد تفشل في ذلك.
زيادة القدرات ضمن القيود: قد تكون مايكروسوفت تستكشف حدود ما يمكن تحقيقه ضمن بنية فعالة للغاية من خلال دفع أبعاد البيانات إلى أقصى حد. إنها مقايضة: قيود كبيرة على معاماته ولكن تقديم بيانات شبه غير محدودة للتعلم منها.

من المحتمل أن تتضمن مجموعة بيانات 4T هذه مزيجًا متنوعًا من نصوص الويب، والكتب، والشفرات، وبيانات أخرى متخصصة لضمان القدرات الشاملة على الرغم من الهيكل غير المعتاد للنموذج.

ادعاءات الأداء والمعايير

بينما لا يزال من الضروري إجراء تقييمات دقيقة ومستقلة عبر مجموعة واسعة من المهام مع زيادة اعتماد النموذج، تتركز الادعاءات الأساسية المحيطة بـ BitNet b1.58 على الكفاءة والأداء المقارن. نتوقع أن يتم رؤية تقييمات تركز على:

معايير نموذج اللغة القياسية: سيتم مقارنة الأداء على المعايير مثل MMLU (المعرفة العامة)، HellaSwag (التفكير السليم)، ARC (تحدي العقل)، وربما GSM8K (مشكلات الرياضيات) مع نماذج FP16 المعروفة (مثل Llama 2 7B/13B، Mistral 7B). ستكون المقياس الرئيس هو مدى اقتراب نموذج BitNet 2B من أداء هذه النماذج الكبيرة بشكل ملحوظ.
استهلاك الذاكرة: قياس مباشر لحمولة الذاكرة للنموذج أثناء الاستدلال. يجب أن يكون هذا أقل بكثير مقارنةً بنماذج FP16 مع قدرات مماثلة (ليس بالضرورة عدد المعاملات). توقع تقليصات في حدود 8-10 مرات مقارنةً بنموذج 16-بت مع أداء مماثل.
زمن الاستدلال: قياس الوقت المستغرق لتوليد الرموز. على الأجهزة القياسية (وحدات المعالجة المركزية، وحدات المعالجة الرسومية)، قد يكون زمن الاستدلال أقل بالفعل بفضل متطلبات نطاق الذاكرة المنخفض. على الأجهزة المستقبلية المهيأة بصورة محتملة لعمليات بت، قد تكون السرعة أعلى بكثير.
كفاءة الطاقة: قياس استهلاك الطاقة أثناء الاستدلال. من المتوقع أن تكون هذه ميزة رئيسية لـ BitNet، مما يمكّن المهام المعقدة للذكاء الاصطناعي على الأجهزة المحمولة التي تعمل بالبطاريات حيث ستكون نماذج FP16 غير عملية.

إذا كانت الادعاءات صحيحة (على سبيل المثال، BitNet b1.58 2B يتطابق مع أداء Llama 2 7B)، فإن ذلك سيؤكد أن النهج الثلاثي هو مسار قابل للتطبيق نحو نماذج LLMs عالية الكفاءة.

تداعيات الأجهزة ومستقبل الحوسبة

لا يُعتبر BitNet b1.58 مجرد ابتكار برمجي؛ بل له تداعيات عميقة على الأجهزة.

قابلية وصول CPU: الانتقال من عمليات الضرب العائم إلى الجمع يجعل نماذج BitNet أسرع بكثير على وحدات المعالجة المركزية مقارنةً بالنماذج التقليدية من LLMs، التي تعتمد بشكل كبير على تسريع GPU للرياضيات المصفوفة. يمكن أن يؤدي ذلك إلى ديمقراطية الوصول إلى نماذج LLMs القوية.
الذكاء الاصطناعي الطرفي: تجعل الذاكرة المنخفضة واستهلاك الطاقة نماذج مثل BitNet b1.58 من المرشحين الأساسيين للنشر على الأجهزة الطرفية مثل الهواتف الذكية، وأجهزة الكمبيوتر المحمولة، وأجهزة الاستشعار، والأنظمة المدمجة، مما يمكّن قدرات الذكاء الاصطناعي القوية بدون اتصال دائم بالسحابة.
إمكانات الـ ASIC/FPGA المخصصة: الهيكل قابل للتطبيق عالٍ على الأجهزة المخصصة (ASICs أو FPGAs) المصممة خصيصًا للعمليات بت. يمكن أن يفتح هذا الأجهزة تحسينات كبيرة في السرعة والكفاءة الطاقية تتجاوز ما هو ممكن مع الأجهزة العامة الحالية.

التحديات المحتملة والأسئلة المفتوحة

على الرغم من الحماس، لا تزال هناك أسئلة وتحديات محتملة:

فروق الجودة: بينما توفر المعايير مقاييس كمية، تحتاج الجوانب الدقيقة من جودة التوليد (التماسك، الإبداع، تجنب التكرار) مقارنةً بالنماذج عالية الدقة إلى تقييم شامل. هل يقدم التكميم المتطرف أوضاع فشل معينة؟
التدريب الدقيق: إلى أي مدى يمكن تكييف نماذج BitNet بسهولة للمهام التحليلية المحددة؟ قد تعقد القيود الثلاثية عملية التدريب الدقيق مقارنةً بالنماذج القياسية FP16.
استقرار التدريب والتكلفة: بينما يكون الاستدلال فعالًا، هل كان تدريب هذا النموذج بعمق 4T فعالًا، أم احتاج إلى تقنيات خاصة وموارد كبيرة، مما قد يعوض بعض مكاسب الاستدلال؟
نظام البرمجيات: قد يتطلب تحقيق الإمكانات الكاملة للسرعة مكتبات برمجية محسّنة ونوى يمكن أن تستفيد بشكل فعال من العمليات بت، والتي قد تستغرق وقتًا لتطويرها ونضوجها.

الخاتمة: خطوة هامة نحو الذكاء الاصطناعي المستدام

يعتبر BitNet b1.58 2B4T من مايكروسوفت أكثر من مجرد إصدار آخر من LLM؛ بل هو بيان جريء حول الاتجاه المستقبلي لتطوير الذكاء الاصطناعي. من خلال اعتماد التكميم الثلاثي العنيف بعمق 1.58 بت وربطه ببيانات التدريب ذات النطاق الكبير، يتحدى النموذج الفرضية السائدة "الأكبر دائمًا أفضل". ويقترح أن المكاسب الجذرية في الكفاءة (الذاكرة، السرعة، الطاقة) ممكنة من دون التضحية بمستويات الأداء التي تحققها نماذج تقليدية أكبر بكثير.

إذا وفى BitNet b1.58 بوعده، يمكن أن:

يجعل نماذج LLM القوية متاحة على مجموعة أوسع من الأجهزة، بما في ذلك الأجهزة الاستهلاكية.
يقلل بشكل كبير من تكاليف التشغيل والأثر البيئي لنشر الذكاء الاصطناعي على نطاق واسع.
يحفز الابتكار في تصميم الأجهزة المُحسَنة لعمليات البت المنخفضة.

بينما تكون المزيد من الاختبارات وتقييم المجتمع ضرورية، يُمثل BitNet b1.58 2B4T تطورًا مثيرًا وقد يكون محوريًا. إنه يمثل تنفيذًا ملموسًا على نطاق واسع لأفكار قد تعيد تشكيل مشهد LLM بشكل جذري، تمهيدًا لمستقبل أكثر كفاءة وإمكانية وصولا واستدامة في الذكاء الاصطناعي. إنها إشارة واضحة إلى أن الموجة التالية من الابتكار في الذكاء الاصطناعي قد لا تتعلق فقط بالنطاق، بل بالتحسين غير المسبوق.