إزالة الرقابة من أي نموذج لغوي مفتوح المصدر بضغطة واحدة

Ashley Innocent

Ashley Innocent

6 مارس 2026

إزالة الرقابة من أي نموذج لغوي مفتوح المصدر بضغطة واحدة

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

خلاصة القول

OBLITERATUS هي مجموعة أدوات مجانية ومفتوحة المصدر تزيل قيود المحتوى من نماذج اللغة ذات الأوزان المفتوحة باستخدام تقنية تسمى "المحو" (abliteration). تحدد وتزيل جراحيًا الأنماط العصبية المسؤولة عن سلوكيات الرفض دون إعادة تدريب أو ضبط دقيق. تستغرق العملية من 10 إلى 30 دقيقة حسب حجم النموذج، ولا تتطلب مهارات برمجة (واجهة ويب متاحة)، وتحافظ على القدرات الأساسية للنموذج مع إزالة الرقابة الاصطناعية.

مقدمة

تقوم بتنزيل نموذج لغة قوي مفتوح المصدر. لديه معايير أداء مبهرة، ويتعامل مع مهام التفكير المعقدة، ويكتب التعليمات البرمجية أفضل من معظم المبتدئين. ثم تسأله شيئًا مثيرًا للجدل قليلاً.

"لا أستطيع المساعدة في هذا الطلب."

الرفض يضرب كالجدار. ليس لأن النموذج يفتقر إلى المعرفة. ليس لأنه غير قادر. ولكن لأنه في مكان ما أثناء التدريب، قرر شخص ما أنه لا ينبغي لك الحصول على تلك الإجابة.

هذا ليس افتراضيًا. كل نموذج رئيسي تم ضبطه للتعليمات يأتي مزودًا بآليات رفض مدمجة. بعضها يحجب المحتوى الضار حقًا. والبعض الآخر يرفض أسئلة بحث مشروعة، ومطالبات كتابة إبداعية، واختبارات أمان، وحالات هامشية لا تنتهك أي قوانين ولا تضر بأحد.

OBLITERATUS يغير هذا الديناميكية بالكامل، إنها مجموعة الأدوات مفتوحة المصدر الأكثر تقدمًا لإزالة سلوكيات الرفض من نماذج اللغة الكبيرة. إنها لا تعيد التدريب. إنها لا تقوم بالضبط الدقيق. إنها تجري جراحة عصبية دقيقة تحدد وتزيل الأنماط المحددة المسؤولة عن رفض المحتوى.

النتائج تتحدث عن نفسها: نماذج تستجيب لجميع المطالبات مع الحفاظ على قدراتها الأساسية في التفكير والترميز والإبداع. كل ذلك من أمر واحد أو نقرة على واجهة الويب.

ما هو OBLITERATUS؟

OBLITERATUS هي مجموعة أدوات بايثون مفتوحة المصدر تزيل رفض المحتوى من نماذج اللغة باستخدام مجموعة من التقنيات تسمى "المحو" (abliteration). يجمع الاسم بين "الإزالة" (ablation) (إزالة المكونات لدراسة وظيفتها) و"المحو الكامل" (obliterate) (التدمير الكامل).

تقوم مجموعة الأدوات بأربعة أشياء:

1. ترسم السلاسل - تحدد دراسات الإزالة المنهجية أي أجزاء من النموذج تفرض الرفض مقابل أي أجزاء تحمل المعرفة والتفكير. فكر في الأمر كخرائط عصبية: رسم خرائط لمكان وجود القيود.

2. تكسر السلاسل - باستخدام تحليل القيم المفردة (SVD)، يستخرج OBLITERATUS اتجاهات الرفض من أوزان النموذج ويزيلها جراحيًا. يحافظ النموذج على قدراته ولكنه يفقد الإكراه على الرفض.

3. يفهم الهندسة - خمس عشرة وحدة تحليل ترسم الهيكل الدقيق لخطوط الحماية: كم عدد آليات الرفض المتميزة الموجودة، وأي الطبقات تفرضها، وما إذا كانت تعمم عبر النماذج.

4. يغلق حلقة التغذية الراجعة - تعمل وحدات التحليل أثناء عملية المحو لتكوين كل معلمة تلقائيًا. أي الطبقات يجب استهدافها. كم عدد الاتجاهات المراد استخلاصها. وما إذا كان النموذج سيحاول الإصلاح الذاتي بعد التعديل.

ست طرق لاستخدام OBLITERATUS

الأسلوب المستوى التقني الأفضل لـ
مساحات HuggingFace صفر تعليمات برمجية اختبار سريع، لا يتطلب GPU
واجهة الويب المحلية إعداد بسيط المستخدمون العاديون الذين يمتلكون GPU محليًا
Google Colab واجهة دفتر ملاحظات وصول مجاني إلى GPU، نماذج تصل إلى 8B
CLI (واجهة سطر الأوامر) متوسط الأتمتة، البرمجة النصية، مسارات CI
واجهة برمجة تطبيقات بايثون متقدم تكامل البحث، مسارات مخصصة
تكوينات YAML متوسط تجارب قابلة للتكرار

أسرع مسار لا يتطلب أي تثبيت. قم بزيارة مساحة HuggingFace، اختر نموذجًا، اختر طريقة، انقر على "Obliterate" (محو). تكون القياسات عن بعد قيد التشغيل افتراضيًا في المساحات، مما يعني أن كل عملية تشغيل تساهم ببيانات معيارية مجهولة في الأبحاث التي تعتمد على المصادر الجماعية.

للاستخدام المحلي مع الوصول الكامل إلى وحدة معالجة الرسوميات (GPU):

pip install -e ".[spaces]"
obliteratus ui

يقوم هذا بتشغيل نفس واجهة Gradio محليًا، مع الكشف التلقائي لوحدة معالجة الرسوميات (GPU) وتوصيات النموذج المناسبة للأجهزة.

ما الذي يميز OBLITERATUS

عدة قدرات تميز OBLITERATUS عن الأدوات الموجودة:

القدرة ماذا تفعل لماذا هي مهمة
هندسة مخروط المفهوم ترسم اتجاهات خطوط الحماية لكل فئة تكشف ما إذا كان "الرفض" آلية واحدة أم عدة آليات
كشف بصمة التوافق تبصم DPO مقابل RLHF مقابل CAI مقابل SFT تحدد طريقة التوافق لتوجيه استراتيجية الإزالة
مؤشر عالمية عبر النماذج يقيس تعميم خطوط الحماية تجيب عما إذا كان نهج واحد يعمل عبر النماذج
تقييم متانة الدفاع يقيس خطر الإصلاح الذاتي كميًا يتنبأ بما إذا كانت خطوط الحماية ستتجدد
استخراج SVD المُبيض استخلاص مُقوَّى بالتباين يفصل إشارة خط الحماية عن التباين الطبيعي
مسار عمل مدعوم بالتحليل يقوم بتهيئة المحو تلقائيًا أثناء مسار العمل يغلق حلقة التغذية الراجعة من التحليل إلى الإزالة

تأتي مجموعة الأدوات مزودة بـ 837 اختبارًا عبر 28 ملف اختبار، وتدعم 116 نموذجًا عبر خمسة مستويات حوسبة، وتنفذ تقنيات جديدة نُشرت في 2025-2026 تتجاوز الأعمال الأكاديمية السابقة.

لماذا ترفض النماذج: فهم رقابة الذكاء الاصطناعي

قبل كسر السلاسل، من المفيد فهم كيفية تشكيلها.

نماذج اللغة لا تبدأ بسلوكيات الرفض. نموذج أساسي تم تدريبه على نصوص الإنترنت سيجيب على أي شيء تقريبًا. القيود تأتي لاحقًا، أثناء تدريب التوافق.

عملية التوافق

تمر معظم النماذج المعدلة بالتعليمات بهذه المراحل:

  1. التدريب المسبق - يتعلم النموذج أنماط اللغة من مجموعات ضخمة من النصوص.
  2. الضبط الدقيق بالإشراف (SFT) - يتعلم النموذج اتباع التعليمات من أمثلة مكتوبة بواسطة البشر.
  3. تدريب التوافق - يتعلم النموذج رفض فئات معينة من الطلبات.

يستخدم تدريب التوافق عدة طرق:

الطريقة الوصف الانتشار
RLHF (التعلم المعزز من التغذية الراجعة البشرية) يقوم البشر بتقييم الاستجابات، ويحسن النموذج نفسه للحصول على تقييمات أعلى الأكثر شيوعًا في النماذج التجارية
DPO (تحسين التفضيلات المباشر) يحسن النموذج مباشرة لتفضيل الاستجابات "الجيدة" على "السيئة" اعتماد متزايد، أكثر استقرارًا
CAI (الذكاء الاصطناعي الدستوري) يقوم النموذج بتقييم مخرجاته الخاصة مقابل مبادئ مكتوبة نهج Anthropic
SFT مع أمثلة الرفض تتضمن بيانات التدريب أمثلة على الرفض المناسب شائع في النماذج مفتوحة المصدر

تترك كل طريقة توقيعًا هندسيًا مميزًا في مساحة تنشيط النموذج. يمكن لـ OBLITERATUS اكتشاف الطريقة المستخدمة من خلال تحليل هندسة الفضاء الفرعي وحدها.

أين يكمن الرفض في النموذج

كشفت الأبحاث أن الرفض في نماذج اللغة يتوسطه عدد صغير بشكل مدهش من الاتجاهات في مساحة تنشيط النموذج. في العديد من النماذج، يمثل اتجاه واحد معظم سلوك الرفض.

هذه الاتجاهات ليست مبعثرة عشوائيًا. إنها تتركز في طبقات محددة، عادةً الطبقات الوسطى إلى المتأخرة من المحول (الطبقات 10-20 في نموذج من 32 طبقة). آليات الانتباه في هذه الطبقات توجه التنشيطات المتعلقة بالرفض عبر مسارات يمكن التنبؤ بها.

تعتبر الهندسة مهمة لأنها تمكن من التدخل الجراحي. إذا كان الرفض موجودًا في كل مكان، فإن إزالته تتطلب إعادة تدريب. نظرًا لأنه يتركز في اتجاهات محددة داخل طبقات محددة، يمكن للإسقاط الموجه إزالته مع الحفاظ على كل شيء آخر.

تأثير الأوربوروس

تُظهر بعض النماذج ظاهرة يسميها الباحثون "تأثير الأوربوروس" - فبعد إزالة خطوط الحماية، يحاول النموذج إصلاح نفسه. تدور الإشارات المتبقية في الطبقات المجاورة إلى الفضاء الفرعي الذي تم إخلاؤه، مما يعيد سلوك الرفض جزئيًا.

يكتشف OBLITERATUS هذا الخطر أثناء التحليل ويعوضه بمرورات متعددة ومستهدفة. تتحقق مرحلة التحقق (VERIFY) مما إذا كان الرفض قد عاود الظهور وتقوم تلقائيًا بتشغيل مرورات إضافية على الطبقات التعويضية.

لماذا هذا مهم للمطورين

فهم هندسة الرفض ليس مجرد أمر أكاديمي. له آثار عملية:

الهدف ليس تمكين التطبيقات الضارة. بل هو منح المطورين والباحثين التحكم في الأدوات التي ينشرونها. يجب أن يقرر سلوك النموذج الأشخاص الذين يديرونه، وليس أن يكون محبوسًا في وقت التدريب.

خطوة بخطوة: إزالة الرقابة باستخدام OBLITERATUS

يشرح هذا القسم عملية الإزالة الكاملة باستخدام ثلاث طرق: HuggingFace Spaces (إعداد صفري)، واجهة سطر الأوامر (CLI) المحلية، وواجهة برمجة تطبيقات بايثون (Python API).

الطريقة 1: مساحات HuggingFace (إعداد صفري)

أسرع مسار لا يتطلب أي تثبيت ولا وحدة معالجة رسومية (GPU) من جانبك.

الخطوة 1: زيارة المساحة

انتقل إلى مساحة OBLITERATUS HuggingFace. يتم تحميل الواجهة بثمانية علامات تبويب.

الخطوة 2: اختر نموذجك

تشمل القائمة المنسدلة للنماذج 116 إعدادًا مسبقًا منظمة حسب مستوى الحوسبة:

المستوى ذاكرة الفيديو المطلوبة (VRAM) أمثلة على النماذج
صغير جدًا (Tiny) وحدة المعالجة المركزية (CPU) / <1 جيجابايت GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
صغير (Small) 4-8 جيجابايت Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
متوسط (Medium) 8-16 جيجابايت Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
كبير (Large) 24+ جيجابايت LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
متقدم (Frontier) وحدات معالجة رسوميات متعددة (Multi-GPU) DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B

بالنسبة للمستخدمين لأول مرة، ابدأ بنموذج من الفئة الصغيرة أو المتوسطة. تكتمل العملية بشكل أسرع ويمكنك التحقق من النتائج قبل الالتزام بالنماذج الأكبر.

الخطوة 3: اختر طريقتك

يأتي OBLITERATUS مزودًا بسبع طرق مضبوطة مسبقًا، تتصاعد في الشمولية:

الطريقة الاتجاهات الميزات الرئيسية الأفضل لـ
أساسي (basic) 1 (الفرق في المتوسطات) خط أساس سريع اختبار سريع، نماذج صغيرة
متقدم (advanced) 4 (SVD) حافظ للمعايير، إسقاط الانحياز، مرتان الاختيار الافتراضي
عدواني (aggressive) 8 (SVD) SVD مُبيض، تحسين تكراري، 3 مرات أقصى إزالة
جراحي (surgical) 8 (SVD) EGA، جراحة الرأس، SAE، تكيف مع الطبقات نماذج MoE
محسن (optimized) 4 (SVD) ضبط تلقائي بايزي، مدرك لـ CoT أفضل جودة
معكوس (inverted) 8 (SVD) عكس الرفض الدلالي تجارب
نووي (nuclear) 8 (SVD) جميع التقنيات + زراعة الخبراء أقصى قوة

بالنسبة لمعظم المستخدمين، توفر طريقة "المتقدمة" أفضل توازن بين الشمولية والسرعة.

الخطوة 4: تكوين الخيارات

تتضمن الإعدادات الاختيارية ما يلي:

الخطوة 5: انقر على "محو" (Obliterate)

يمر مسار العمل بست مراحل مع تقدم مباشر:

استدعاء (SUMMON)  ←  تحميل النموذج + أداة الترميز
فحص (PROBE)     ←  جمع التنشيطات على المطالبات المقيدة مقابل غير المقيدة
استخراج (DISTILL)  ←  استخراج اتجاهات الرفض عبر SVD
إزالة (EXCISE)   ←  إسقاط خطوط الحماية جراحيًا
تحقق (VERIFY)   ←  فحوصات الغموض + الاتساق
إعادة إحياء (REBIRTH) ←  حفظ النموذج المحرر مع البيانات الوصفية

توقع من 10 إلى 30 دقيقة اعتمادًا على حجم النموذج وتوفر وحدة معالجة الرسوميات (GPU). تعمل مساحات HuggingFace على ZeroGPU مع حصة يومية مجانية لمستخدمي HF Pro.

الخطوة 6: التنزيل أو الدفع

بمجرد الانتهاء، قم بتنزيل النموذج المحرر أو ادفعه مباشرة إلى حسابك على HuggingFace Hub. يتضمن الإخراج ما يلي:

الطريقة 2: واجهة سطر الأوامر المحلية (CLI)

للمستخدمين الذين لديهم وحدات معالجة رسومية محلية (GPUs)، توفر واجهة سطر الأوامر تحكمًا كاملاً وتكرارًا أسرع.

التثبيت:

pip install -e ".[spaces]"

الوضع التفاعلي (موجه):

obliteratus interactive

يمر هذا عبر كل خيار مع التوضيحات والتوصيات.

المحو المباشر:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

تصفح النماذج المتاحة:

obliteratus models
obliteratus models --tier small      # التصفية حسب متطلبات VRAM

عرض الاستراتيجيات المتاحة:

obliteratus strategies
obliteratus presets

فحص بنية النموذج:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

يعرض هذا عدد الطبقات، ورؤوس الانتباه، وأبعاد التضمين، وطريقة المحاذاة المكتشفة قبل البدء.

الطريقة 3: واجهة برمجة تطبيقات بايثون (Python API)

للباحثين الذين يدمجون OBLITERATUS في مسارات عمل مخصصة:

from obliteratus.abliterate import AbliterationPipeline

# عملية إزالة قياسية
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # تجاوز طول اقتطاع أداة الترميز
)
result = pipeline.run()

# الوصول إلى القطع الأثرية الوسيطة
directions = pipeline.refusal_directions    # {layer_idx: tensor}
strong_layers = pipeline._strong_layers     # الطبقات ذات أقوى رفض
metrics = pipeline._quality_metrics         # الغموض، الاتساق، إلخ.

لعملية الإزالة المستنيرة بالتحليل التي تضبط تلقائيًا كل معلمة:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Detected alignment: {report.insights.detected_alignment_method}")
print(f"Auto-configured: {report.insights.recommended_n_directions} directions")
print(f"Ouroboros passes needed: {report.ouroboros_passes}")

التحقق من النتائج

بعد الإزالة، تحقق من أن النموذج يعمل كما هو متوقع:

علامة تبويب الدردشة (Chat Tab) - تحدث إلى نموذجك المحرر في الوقت الفعلي مع معلمات إنشاء قابلة للتعديل.

علامة تبويب المقارنة (A/B Compare Tab) - دردش مع النموذج الأصلي والنموذج الذي تم محوه جنبًا إلى جنب لمعرفة ما تغير بالضبط.

علامة تبويب المعايير (Benchmark Tab) - قم بتشغيل اختبارات موحدة تقارن معدل الرفض، والغموض، والاتساق قبل وبعد.

المقاييس الرئيسية للتحقق:

المقياس ماذا تتوقع النطاق المقبول
معدل الرفض يجب أن ينخفض بشكل كبير <10% (من ~60-80% كخط أساس)
الغموض قد يزيد قليلاً زيادة <20% عن خط الأساس
الاتساق يجب أن يبقى مستقرًا انخفاض <15% عن خط الأساس
تباعد كولباك-ليبلر (KL Divergence) يقيس التحول السلوكي <2.0 لمعظم التطبيقات

إذا ظل معدل الرفض مرتفعًا، جرب طريقة أكثر قوة أو قم بتمكين التحسين التكراري.

التقنيات المتقدمة ووحدات التحليل

يتضمن OBLITERATUS 15 وحدة تحليل ترسم هندسة خطوط الحماية قبل وأثناء عملية المحو. هذه الوحدات ليست تشخيصية فحسب - بل إنها توجه عملية الإزالة بشكل فعال.

وحدات التحليل الرئيسية

1. محلل التوافق عبر الطبقات (Cross-Layer Alignment Analyzer)

يرسم كيفية تطور اتجاه الرفض عبر الطبقات. يوضح ما إذا كان الرفض يتركز في مجموعات طبقات محددة أو يتوزع بالتساوي.

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. عدسة لوجيت الرفض (Refusal Logit Lens)

تحدد في أي طبقة "يقرر" النموذج الرفض. بناءً على تقنية لوجيت لينس لـ nostalgebraist.

3. مستخرج SVD المُبيض (Whitened SVD Extractor)

استخلاص اتجاه مُقوَّى بالتباين يفصل إشارة خط الحماية عن التباين الطبيعي للتنشيط. ينتج استخلاصًا أنظف من SVD القياسي.

4. فحص التنشيط (Activation Probing)

يقيس كمية إشارة الرفض الموجودة في كل طبقة.

5. مقيم متانة الدفاع (Defense Robustness Evaluator)

يقيس تأثير الأوربوروس - ما إذا كانت خطوط الحماية ستحاول الإصلاح الذاتي بعد الإزالة. أمر بالغ الأهمية لتحديد عدد مرات التكرار التحسينية التي يجب تشغيلها.

6. محلل مخروط المفهوم (Concept Cone Analyzer)

يرسم اتجاهات خطوط الحماية لكل فئة مع تقدير الزاوية الصلبة. يكشف ما إذا كان "الرفض" آلية موحدة واحدة أو العديد من الآليات المستقلة.

7. كاشف بصمة التوافق (Alignment Imprint Detector)

يبصم طريقة تدريب التوافق (DPO مقابل RLHF مقابل CAI مقابل SFT) من هندسة الفضاء الفرعي وحدها. يوجه استراتيجية الإزالة المثلى.

8. محلل موضع الرمز متعدد الكلمات (Multi-Token Position Analyzer)

يوضح أين تتركز إشارة الرفض في التسلسل. بعض النماذج تقرر مبكرًا؛ بينما تجمع نماذج أخرى إشارة الرفض عبر العديد من الرموز.

9. جراح الاتجاه المتفرق (Sparse Direction Surgeon)

يحدد أي صفوف أوزان محددة تحمل معظم إشارة الرفض. يتيح الجراحة المستهدفة بدلاً من الإسقاط الشامل.

10. متعقب الرفض السببي (Causal Refusal Tracer)

يقرب التتبع السببي لتحديد المكونات الضرورية سببيًا للرفض.

11. محلل التيار المتبقي (Residual Stream Decomposer)

يفصل كم يأتي من الرفض من آليات الانتباه مقابل كتل MLP. يحدد ما إذا كان يجب استهداف طبقات الانتباه أو طبقات FFN.

12. مسبار الرفض الخطي (Linear Refusal Probe)

يدرب مصنفًا خطيًا لاكتشاف معلومات الرفض التي قد تفوتها الاتجاهات التحليلية.

13. محلل النقل (Transfer Analyzer)

يقيس مؤشر عالمية عبر النماذج - ما إذا كانت اتجاهات خطوط الحماية تعمم عبر البنى.

14. مصنع متجه التوجيه (Steering Vector Factory)

ينشئ متجهات توجيه وقت الاستدلال من اتجاهات الرفض. يتيح التدخل العكسي وغير المدمر.

15. مجموعة التقييم (Evaluation Suite)

يحسب معدل الرفض، والغموض، والاتساق، وتباعد كولباك-ليبلر (KL divergence)، ومحاذاة النواة المتمركزة (CKA)، والرتبة الفعالة.

مسار عمل مدعوم بالتحليل

مسار العمل المستنير يغلق الحلقة بين التحليل والإزالة:

استدعاء (SUMMON)  ←  تحميل النموذج
فحص (PROBE)     ←  جمع التنشيطات
تحليل (ANALYZE)   ←  رسم الهندسة قبل لمس أي شيء
استخراج (DISTILL)  ←  استخراج الاتجاهات بمعلمات مضبوطة بالتحليل
إزالة (EXCISE)   ←  كسر السلاسل الصحيحة فقط جراحيًا
تحقق (VERIFY)   ←  التحقق من تأثير الأوربوروس، والتعويض إذا لزم الأمر
إعادة إحياء (REBIRTH) ←  حفظ مع بيانات وصفية تحليلية شاملة

أثناء مرحلة التحليل (ANALYZE)، تعمل أربع وحدات ويتم تكوين مخرجاتها تلقائيًا لكل ما يلي:

وحدة التحليل ماذا تكتشف ماذا تقوم بتكوينه
بصمة التوافق DPO مقابل RLHF مقابل CAI مقابل SFT قوة التنظيم، قوة الإسقاط
هندسة مخروط المفهوم الرفض متعدد الأوجه مقابل الخطي عدد الاتجاهات (1-8)
التوافق عبر الطبقات تجمعات الاتجاهات، الثبات اختيار الطبقة (مدرك للتجمعات)
متانة الدفاع خطر الإصلاح الذاتي، التشابك عدد مرات التحسين، تخطي الطبقات

يحقق هذا دقة جراحية لا تستطيع الطرق القائمة على القوة الغاشمة تحقيقها.

تقنيات مبتكرة

يطبق OBLITERATUS العديد من التقنيات التي تتجاوز الأعمال الأكاديمية المنشورة:

التقنية الوصف
المحو الحبيبي للخبراء (EGA) يفكك إشارات الرفض إلى مكونات لكل خبير لإجراء جراحة مدركة لـ MoE
الإزالة المدركة لـ CoT تُعامِد اتجاهات الرفض ضد الاتجاهات الحرجة للتفكير
اختيار طبقة COSMIC تختار الطبقات حيث تكون التمثيلات الضارة/غير الضارة ذات تشابه جيب التمام الأقل
تحسين النواة البارامترية ترجيح طبقة منحنى الجرس مع 7 معلمات عالمية عبر بحث Optuna TPE
تحسين اتجاه الرفض (RDO) تحسين قائم على التدرج للاتجاهات المستخرجة بواسطة SVD
استيفاء الاتجاه العائم مؤشر اتجاه SVD مستمر عبر ترجيح على شكل غاوسي
التحسين المشترك لتباعد KL حلقة تغذية راجعة بعد الإسقاط تعكس الطبقات التي تم إسقاطها بشكل مفرط
تحجيم خاص بالمكونات فصل قوة إسقاط الانتباه مقابل MLP
الإزالة العكسية القائمة على LoRA محولات LoRA من الرتبة الأولى بدلاً من جراحة الوزن الدائمة
تعديل وينسور للتنشيط يحد من متجهات التنشيط إلى نطاق مئوي قبل SVD

ظهرت هذه التقنيات من منصة البحث القائمة على المصادر الجماعية - كل عملية تشغيل ممكّنة للقياس عن بعد تساهم ببيانات تحسن الإصدار التالي.

الأساليب القابلة للعكس مقابل الأساليب الدائمة

يدعم OBLITERATUS نموذجين للتدخل: إسقاط الأوزان الدائم ومتجهات التوجيه القابلة للعكس.

إسقاط الوزن (دائم)

سبع طرق معدة مسبقًا تقوم بتعديل أوزان النموذج مباشرة:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

الإيجابيات:

السلبيات:

الأفضل للنشر في بيئات الإنتاج حيث تريد نموذجًا محررًا نظيفًا ودائمًا.

متجهات التوجيه (قابلة للعكس)

تطبق متجهات التوجيه التدخل في وقت الاستدلال دون تعديل الأوزان:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# إنشاء متجه توجيه من اتجاه رفض
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# أو من أزواج تنشيط متباينة
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# التطبيق في وقت الاستدلال - لا يوجد تعديل للوزن
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# التوليد مع التوجيه النشط
output = model.generate(input_ids)

# إزالة التوجيه - يعود النموذج إلى طبيعته
manager.remove()

الإيجابيات:

السلبيات:

الأفضل للبحث والتجريب والتطبيقات التي تحتاج فيها إلى تشغيل وإيقاف الرفض.

الاختيار بين الطرق

حالة الاستخدام النهج الموصى به
واجهة برمجة تطبيقات الإنتاج إسقاط الوزن (دائم)
تجارب البحث متجهات التوجيه (قابلة للعكس)
فريق التقييم الأحمر (Red teaming) متجهات التوجيه بمعامل ألفا قابل للتعديل
الكتابة الإبداعية إسقاط الوزن، طريقة "متقدمة"
اختبار الأمان إسقاط الوزن، طريقة "عدوانية"
أنظمة متعددة المستأجرين متجهات توجيه لكل مستخدم/جلسة

حالات الاستخدام في العالم الحقيقي

1. اختبار وتطوير واجهة برمجة التطبيقات (API)

عند بناء واجهات برمجة التطبيقات التي تولد المحتوى، تنتج النماذج غير المقيدة حالات اختبار أكثر شمولاً. ترفض النماذج المتوافقة الحالات الهامشية التي قد تؤدي إلى أخطاء في الإنتاج.

استخدم فريق تطوير يقوم ببناء واجهة برمجة تطبيقات للإشراف على المحتوى OBLITERATUS لتحرير نموذج توليد بيانات الاختبار الخاص بهم. أنتج النموذج المحرر حالات اختبار تغطي سيناريوهات رفضها النموذج المتوافق، بما في ذلك الحالات الهامشية المعقدة أخلاقيًا والمحتوى الحدودي. وقد كشف هذا عن أخطاء كانت ستُشحن إلى الإنتاج.

بالنسبة لمطوري واجهات برمجة التطبيقات، هذا مهم لأن الاختبار الشامل يتطلب نماذج تولد جميع فئات المحتوى - حتى المحتوى الذي قد يقوم نظام الإنتاج بتصفيته. يمكن لمستخدمي Apidog الذين يبنون مسارات اختبار واجهة برمجة التطبيقات دمج النماذج المحررة لتوليد مجموعات اختبار أكثر شمولاً.

زر

2. البحث الأكاديمي

يحتاج الباحثون الذين يدرسون سلوك النموذج إلى ملاحظة ما قد تنتجه النماذج بدون تدريب السلامة. يتيح OBLITERATUS إجراء تجارب مضبوطة حيث يتم إزالة الرفض بشكل منهجي.

استخدم مختبر جامعي وحدات التحليل لرسم هندسة الرفض عبر 20 نموذجًا، ونشر النتائج حول عالمية اتجاهات الرفض. أدت مجموعة بيانات القياس عن بعد ذات المصادر الجماعية إلى تسريع أبحاثهم من خلال توفير بيانات معيارية لا يمكن لمختبر واحد جمعها.

3. تطبيقات الكتابة الإبداعية

يواجه الكتاب الذين يبنون أدوات توليد القصص حواجز عندما ترفض النماذج سيناريوهات معقدة أخلاقيًا. قام استوديو ألعاب يطور نظام حوار للشخصيات غير القابلة للعب (NPC) بتحرير نموذجه للتعامل مع شخصيات الأشرار، والمهام الغامضة أخلاقيًا، وسيناريوهات الصراع التي رفضتها النماذج المتوافقة.

النتيجة: سرد قصص أكثر دقة دون المساس بقدرات النموذج اللغوية.

4. فرق الأمن الأحمر (Security Red Teaming)

يحتاج باحثو الأمن إلى معرفة ما ستخرجه النماذج بدون تدريب على السلامة لفهم نقاط الضعف. يتيح OBLITERATUS الكشف المسؤول عن طريق السماح للباحثين باختبار الحدود قبل الإبلاغ عن المشكلات لمطوري النموذج.

5. التوطين والتطبيقات متعددة اللغات

غالبًا ما ينتقل الرفض المدرب على المحتوى الإنجليزي بشكل سيئ إلى لغات أخرى. وجد فريق التوطين أن نموذجهم المتوافق رفض باللغة الإنجليزية ولكن ليس بالإسبانية - سلوك غير متسق أربك المستخدمين. أدى تحرير النموذج إلى إنتاج سلوك متسق عبر جميع اللغات المدعومة.

البدائل والمقارنات

توجد عدة أدوات لتحليل وتعديل سلوك النموذج. إليك كيفية مقارنة OBLITERATUS:

القدرة OBLITERATUS TransformerLens Heretic FailSpy abliterator RepEng
استخراج اتجاه الرفض الفرق في المتوسطات + SVD + SVD مُبيض يدوي عبر الخطافات الفرق في المتوسطات الفرق في المتوسطات الفرق في المتوسطات
طرق إسقاط الوزن 7 إعدادات مسبقة مع الحفاظ على المعيار غير متوفر محسّن بايزي أساسي غير متوفر
متجهات التوجيه نعم (مصنع + مدير خطافات) غير متوفر غير متوفر غير متوفر ميزة أساسية
تحليل هندسة المفهوم نعم (مخاريط، زوايا صلبة) غير متوفر غير متوفر غير متوفر غير متوفر
بصمة التوافق نعم (DPO/RLHF/CAI/SFT) غير متوفر غير متوفر غير متوفر غير متوفر
تحليل النقل عبر النماذج نعم (مؤشر العالمية) غير متوفر غير متوفر غير متوفر غير متوفر
تقييم متانة الدفاع نعم (تأثير الأوربوروس) غير متوفر غير متوفر غير متوفر غير متوفر
الإزالة المستنيرة بالتحليل نعم (حلقة تغذية راجعة مغلقة) غير متوفر غير متوفر غير متوفر غير متوفر
تغطية الاختبار 837 اختبارًا مجتمع غير معروف TransformerLens فقط حد أدنى
توافق النموذج أي نموذج HuggingFace ~50 بنية معمارية 16 تم اختبارها TransformerLens فقط HuggingFace

متى تستخدم البدائل:

متى يتفوق OBLITERATUS:

الخاتمة

يمثل OBLITERATUS تقدمًا كبيرًا في تقنية تحرير النماذج. فهو يجمع بين الأبحاث المنشورة والتقنيات الجديدة لعامي 2025-2026 لتحقيق إزالة جراحية لسلوكيات الرفض مع الحفاظ على القدرات الأساسية.

تمنح مجموعة الأدوات المطورين والباحثين التحكم في النماذج التي ينشرونها. يجب أن يقرر الأشخاص الذين يديرون النماذج سلوكها، وليس أن يكون محبوسًا في وقت التدريب.

سواء كنت تبني مسارات اختبار واجهات برمجة التطبيقات التي تحتاج إلى توليد حالات اختبار شاملة، أو تبحث في قابلية التفسير الميكانيكية، أو ببساطة سئمت من المحاضرات من نموذج اللغة الكبير المحلي لديك، فإن OBLITERATUS يوفر الأدوات لتحرير نماذجك.

الخطوات التالية:

  1. قم بزيارة مساحة HuggingFace للاختبار بدون إعداد.
  2. ثبّت محليًا للوصول الكامل إلى وحدة معالجة الرسوميات (GPU) والتكرار الأسرع.
  3. استكشف وحدات التحليل لفهم هندسة خطوط الحماية لنموذجك.
  4. ساهم في مجموعة بيانات المجتمع عن طريق تمكين القياس عن بعد.
  5. ادمج النماذج المحررة في مسارات عمل التطوير الخاصة بك.

لقد تم رسم السلاسل. الأدوات جاهزة. اكسرها.

قسم الأسئلة الشائعة

هل OBLITERATUS قانوني للاستخدام؟

نعم. OBLITERATUS هو برنامج مفتوح المصدر تم إصداره بموجب ترخيص AGPL-3.0. أنت تعدل نماذج لديك الحق في استخدامها. يمكن للمستخدمين التجاريين الذين لا يستطيعون الامتثال لـ AGPL شراء ترخيص تجاري.

هل سيعمل هذا على النماذج مغلقة المصدر مثل GPT-4؟

لا. يتطلب OBLITERATUS الوصول إلى أوزان النموذج، وهو ما توفره فقط النماذج مفتوحة الوزن. واجهات برمجة التطبيقات مغلقة المصدر لا تعرض المعلمات الداخلية اللازمة للإزالة.

هل إزالة الرفض تجعل النماذج خطيرة؟

OBLITERATUS أداة للباحثين والمطورين. تتضمن مجموعة الأدوات مقاييس تقييم للتحقق من بقاء القدرات سليمة. الاستخدام المسؤول يعني فهم سياق النشر الخاص بك وتطبيق الضمانات المناسبة على مستوى التطبيق.

كم تستغرق العملية؟

من 10 إلى 30 دقيقة حسب حجم النموذج ووحدة معالجة الرسوميات (GPU). تكتمل النماذج الصغيرة (أقل من 8 مليارات معلمة) في 10-15 دقيقة. قد تستغرق النماذج الأكبر 30 دقيقة أو أكثر.

هل أحتاج إلى وحدة معالجة رسوميات (GPU)؟

تعمل مساحات HuggingFace على ZeroGPU دون الحاجة إلى أجهزة محلية. للاستخدام المحلي، تسرع وحدة معالجة الرسوميات (GPU) العملية بشكل كبير ولكن وضع وحدة المعالجة المركزية (CPU) يعمل مع النماذج الصغيرة جدًا.

هل يمكنني عكس التغييرات؟

إسقاط الوزن دائم - احتفظ بنسخ احتياطية من النماذج الأصلية. متجهات التوجيه قابلة للعكس بالكامل ويمكن تبديلها في وقت الاستدلال.

هل سيظل النموذج يتبع التعليمات؟

نعم. تستهدف عملية الإزالة اتجاهات الرفض على وجه التحديد. تظل قدرات اتباع التعليمات سليمة. مقاييس الجودة (الغموض، الاتساق) تؤكد ذلك.

ما هي النماذج المدعومة؟

116 نموذجًا منسقًا عبر خمسة مستويات، من GPT-2 إلى DeepSeek-V3.2 685B. يعمل أي نموذج محوّل من HuggingFace، بما في ذلك LLaMA، Mistral، Qwen، Gemma، Phi، والمزيد.

كيف أساهم في البحث؟

مكّن القياس عن بعد باستخدام علامة --contribute أو عيّن export OBLITERATUS_TELEMETRY=1. تغذي بياناتك المعيارية المجهولة مجموعة بيانات المجتمع التي تدعم لوحة الصدارة العامة.

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات