يحلل هذا التحليل التقني إطار عمل ZeroSearch من مختبر تونغي التابع لشركة علي بابا، وهو منهج جديد للتعلم المعزز يمكّن نماذج اللغة الكبيرة (LLMs) من إجراء عمليات شبيهة بالبحث دون الحاجة إلى استدعاء واجهات برمجة تطبيقات خارجية (API). من خلال توظيف منهجية تدريب متطورة قائمة على المناهج الدراسية، يحول ZeroSearch نماذج اللغة الكبيرة القياسية إلى أنظمة قادرة على محاكاة استرجاع المستندات مع الحفاظ على قدرات الاستدلال. تقدم هذه الورقة تحليلاً تقنياً لهيكلية ZeroSearch ومنهجية تدريبه وخصائص أدائه، مع تسليط الضوء على إمكاناته في إحداث تغيير جذري في نماذج البحث التقليدية.
هل تريد منصة متكاملة وشاملة لفريق المطورين لديك للعمل معاً بأقصى قدر من الإنتاجية؟
Apidog يلبي جميع متطلباتك، ويحل محل Postman بسعر معقول جداً!
هيكلية النظام والتنفيذ
يرتكز الأساس التقني لـ ZeroSearch على هيكلية متعددة المكونات مصممة لتدريب نماذج اللغة الكبيرة على استيعاب قدرات الاسترجاع داخلياً.

على عكس المناهج التقليدية التي تدمج واجهات برمجة تطبيقات البحث الخارجية مع نماذج اللغة الكبيرة، ينفذ ZeroSearch إطار عمل محاكاة مستقل بذاته مع العديد من المكونات التقنية الرئيسية:
اختيار ونشر نموذج اللغة الكبيرة للمحاكاة
يستخدم إطار العمل نماذج محاكاة مدربة مسبقاً بأعداد مختلفة من المعلمات (3B، 7B، و 14B) لتوليد نتائج بحث اصطناعية. يتم نشر هذه النماذج باستخدام sglang
، وهو إطار عمل متخصص للتقديم مُحسّن لاستدلال نماذج اللغة الكبيرة. يتضمن تكوين النشر إعدادات التوازي الموتر (tensor parallelism) وتوازي البيانات (data parallelism) لتحسين أداء الاستدلال:
python -m sglang.launch_server --model-path SearchSimulation_14B --host 0.0.0.0 --tp 2 --dp 2 --port 6001
تشير إعدادات التوازي الموتر (--tp 2
) وتوازي البيانات (--dp 2
) إلى منهج حوسبة موزعة يقسم أوزان النموذج والطلبات المجمعة عبر وحدات معالجة رسومية متعددة، مما يعزز الإنتاجية ويقلل زمن الاستجابة خلال مرحلة المحاكاة.
منهجية المحاكاة ثنائية الوضع
ينفذ ZeroSearch منهجيتين مختلفتين للمحاكاة، لكل منهما خصائص تقنية محددة:
المحاكاة القائمة على المطالبة (Prompt-Based Simulation): تستخدم نماذج مضبوطة بالتعليمات مثل Qwen2.5-14B-Instruct لتوليد نتائج بحث محاكاة بناءً على تقنيات مطالبة متخصصة. يستفيد هذا المنهج من قدرات النماذج المضبوطة بالتعليمات دون الحاجة إلى ضبط إضافي.
المحاكاة القائمة على الضبط الدقيق (Fine-Tuning-Based Simulation): تستخدم نماذج متخصصة (SearchSimulation_3B/7B/14B) خضعت لضبط دقيق تحت الإشراف خصيصاً لتوليد نتائج البحث. تتعلم هذه النماذج محاكاة توزيع مخرجات محرك البحث، بما في ذلك توليد كل من المستندات ذات الصلة والضوضاء.
يظهر التمييز التقني بين هذين المنهجين في معلمات التنفيذ كما يظهر في سكربتات التدريب:
SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct
مقابل:
SEARCH_MODE simulate_sft SIMULATION_LLM SearchSimulation_14B
حلقة تدريب التعلم المعزز
الابتكار التقني الأساسي في ZeroSearch يكمن في منهجية تدريب التعلم المعزز (RL). ينفذ النظام خوارزميات تحسين سياسة المكافأة المعممة (GRPO) وتحسين السياسة التقريبية (PPO)، حيث أظهرت GRPO خصائص استقرار متفوقة وفقاً للنتائج التجريبية.
يتم التحكم في عملية التدريب بواسطة عدة معلمات تقنية:
- عتبات الصعوبة (Difficulty Thresholds): يستخدم منهج التعلم المنهجي معلمات
START_THRESHOLD
وEND_THRESHOLD
للتحكم في التعقيد التدريجي لمهام الاسترجاع:
START_THRESHOLD 0.25 END_THRESHOLD 0.5
تمثل هذه القيم الصعوبة النسبية لمهام الاسترجاع، حيث يزيد النظام تدريجياً التعقيد أثناء التدريب لتطوير قدرات بحث قوية.
- تكوين خطوات التدريب (Training Steps Configuration): يستخدم إطار العمل معلمة إجمالي عدد الخطوات للتحكم في مدى تدريب التعلم المعزز:
TOTAL_STEPS 203
يتوافق هذا مع عدد تحديثات السياسة التي يتم إجراؤها أثناء التدريب، حيث تتضمن كل خطوة تفاعلات دفعات متعددة مع بيئة المحاكاة.
تفاصيل التنفيذ التقني
مسار هندسة البيانات
يبدأ مسار تدريب ZeroSearch بالحصول على مجموعات البيانات من مستودع مجموعات بيانات Hugging Face. من المحتمل أن تحتوي بنية مجموعة البيانات على أزواج استعلام-مستند تُستخدم لكل من تدريب المحاكاة والتقييم. يتضمن سير عمل هندسة البيانات ما يلي:
- تنزيل ومعالجة مجموعات البيانات مسبقاً:
huggingface-cli download --repo-type dataset --resume-download sunhaonlp/ZeroSearch_dataset --local-dir ZeroSearch_dataset
- الحصول على نقاط فحص النموذج:
huggingface-cli download --resume-download sunhaonlp/SearchSimulation_14B --local-dir SearchSimulation_14B
المتطلبات الحسابية والتحسين
يستفيد التنفيذ من عدة تقنيات تحسين لإدارة المتطلبات الحسابية:
Flash Attention 2: يشير الاعتماد على flash-attn
إلى استخدام آليات انتباه محسّنة لتقليل استخدام الذاكرة وزيادة الإنتاجية أثناء التدريب.
التوزيع متعدد وحدات معالجة الرسوميات (Multi-GPU Distribution): تم تصميم كل من مرحلتي التدريب والمحاكاة لبيئات متعددة وحدات معالجة الرسوميات، مع استراتيجيات توازي محددة لتحسين الأداء.
تكامل vLLM: يشير استخدام vLLM (v0.6.3) إلى تنفيذ التجميع المستمر و PagedAttention لتقديم نماذج المحاكاة بكفاءة.
تحليل مقارن: مقاييس الأداء التقني


يمكن تقييم الأداء التقني لـ ZeroSearch عبر عدة أبعاد:
1. كفاءة استرجاع المعلومات
تستخدم محركات البحث التقليدية مثل Google الفهارس المقلوبة (inverted indices) و PageRank وخوارزميات استرجاع المعلومات الأخرى لجلب المستندات ذات الصلة. يستبدل ZeroSearch هذا الاسترجاع الخارجي بمحاكاة داخلية، مما يؤدي إلى خصائص أداء مختلفة بشكل أساسي:
مقارنة زمن الاستجابة (Latency Comparison): بينما تواجه محركات البحث التقليدية زمن استجابة الشبكة وواجهة برمجة التطبيقات، يتم تحديد زمن استجابة ZeroSearch بسرعة استدلال النموذج، والتي تعتمد بشكل أساسي على وحدة معالجة الرسوميات بدلاً من الشبكة.
مفاضلات الاستدعاء-الدقة (Recall-Precision Tradeoffs): يجب على الاسترجاع المحاكي لـ ZeroSearch تحقيق التوازن بين توليد المستندات ذات الصلة ومخاطر الهلوسة، مما يقدم مجموعة مختلفة من تحديات التحسين مقارنة بالاسترجاع القائم على الفهرس.
2. تحليل التكلفة الحسابية
يختلف الملف الحسابي لـ ZeroSearch بشكل كبير عن المناهج القائمة على واجهة برمجة التطبيقات:
- حساب التدريب (Training Compute): استثمار أولي في حساب تدريب تعلم معزز عالٍ (وحدات معالجة رسوميات متعددة لـ 203 خطوات)
- حساب الاستدلال (Inference Compute): حساب أعلى لكل استعلام أثناء الاستدلال (تنفيذ النموذج بالكامل) مقابل استدعاءات واجهة برمجة تطبيقات خفيفة الوزن
- متطلبات التخزين (Storage Requirements): تقليل مساحة التخزين دون الحاجة إلى فهارس مستندات واسعة
3. أداء هيكلية النموذج
تشير وثائق المستودع إلى اختلاف الأداء عبر هياكل نماذج المحاكاة:
- نماذج المحاكاة ذات المعلمات 14B تتفوق على المتغيرات الأصغر
- يظهر تدريب GRPO استقراراً متفوقاً مقارنة بـ PPO
- معلمات التعلم المنهجي تؤثر بشكل كبير على أداء النموذج النهائي
القيود التقنية وتحديات البحث
تقدم العديد من القيود التقنية تحديات بحث مستمرة:
1. قيود حد المعرفة
على عكس أنظمة الاسترجاع القائمة على واجهة برمجة التطبيقات التي تصل إلى بيانات الويب في الوقت الفعلي، يقتصر ZeroSearch على حد المعرفة لنماذج اللغة الكبيرة الأساسية. يمثل هذا تحديات تقنية كبيرة للمعلومات التي تتغير بسرعة أو تظهر بعد تدريب النموذج.
2. التخفيف من الهلوسة
يجب على الإطار تنفيذ تقنيات متطورة لمنع الهلوسة أثناء توليد المستندات. يمثل التوازن بين التوليف الإبداعي للمستندات والدقة الواقعية تحدياً تقنياً رئيسياً في الهيكلية.
3. تحسين كفاءة المعلمات
يتطلب التنفيذ الحالي نماذج كبيرة نسبياً (3B-14B معلمات) للمحاكاة الفعالة. يمكن أن تقلل الأبحاث في الهياكل ذات المعلمات الفعالة من المتطلبات الحسابية مع الحفاظ على الأداء.
الاتجاهات التقنية المستقبلية
تنبثق عدة اتجاهات تقنية واعدة من هيكلية ZeroSearch:
1. مناهج هجينة لتوليد معزز بالاسترجاع
يمكن أن تنفذ التكرارات المستقبلية مناهج هجينة تجمع بين الاسترجاع المحاكي واستدعاءات واجهة برمجة تطبيقات حقيقية متفرقة عندما تقل الثقة عن عتبات معينة. سيؤدي هذا إلى إنشاء نظام تكيفي يستفيد من نقاط القوة في كلا المنهجين.
2. ضبط المحاكاة الخاص بالمجال
تدعم هيكلية الإطار الضبط الدقيق لنماذج المحاكاة لمجالات محددة، مما قد يؤدي إلى إنشاء قدرات بحث متخصصة للمجالات التقنية، استرجاع المستندات القانونية، أو الوصول إلى المعلومات الطبية.
3. التكميم والتحسين
يمكن أن يؤدي تنفيذ تقنيات التكميم مثل GPTQ أو AWQ إلى تقليل المتطلبات الحسابية لكل من نماذج المحاكاة والنماذج المستهدفة، مما يتيح النشر على الأجهزة الطرفية أو البيئات ذات الموارد المحدودة.
تحليل شيفرة التنفيذ التقني
يكشف تنفيذ سكربت التدريب عن عدة قرارات هيكلية رئيسية:
bash train_grpo.sh NUM_GPUS_PER_NODE 4 MODEL_PATH Llama-3.2-3B DATA_PATH ZeroSearch_dataset TOTAL_STEPS 203 IP localhost SEARCH_MODE simulate_prompt SIMULATION_LLM Qwen2.5-14B-Instruct START_THRESHOLD 0.25 END_THRESHOLD 0.5
يوضح هذا التنفيذ ما يلي:
- التدريب متعدد وحدات معالجة الرسوميات (4 وحدات معالجة رسوميات لكل عقدة)
- استخدام Llama-3.2-3B كنموذج مستهدف
- محاكاة قائمة على المطالبة باستخدام Qwen2.5-14B-Instruct
- التعلم المنهجي بصعوبة تدريجية (0.25 ← 0.5)
يشير وجود سكربتات تنفيذ لكل من GRPO و PPO إلى أن الهيكلية تم تقييمها عبر خوارزميات تعلم معزز متعددة قبل تحديد خصائص استقرار GRPO المتفوقة.
الخلاصة
يمثل ZeroSearch ابتكاراً تقنياً هاماً في مجال البحث، حيث ينفذ هيكلية تعلم معزز متطورة تمكن نماذج اللغة الكبيرة من محاكاة استرجاع المستندات دون الحاجة إلى استدعاء واجهات برمجة تطبيقات خارجية. من خلال الاستفادة من التعلم المنهجي، المحاكاة ثنائية الوضع، وخوارزميات التعلم المعزز المتقدمة، يحقق الإطار أداءً يتفوق على النماذج القائمة على محركات البحث الحقيقية مع التخلص من الاعتماد على واجهات برمجة التطبيقات.
تظهر الهيكلية التقنية العديد من المزايا، بما في ذلك عدم وجود تكلفة لواجهة برمجة التطبيقات، قدرات خصوصية محسنة، وخيارات نشر مرنة. ومع ذلك، لا تزال التحديات قائمة في معالجة حدود المعرفة، مخاطر الهلوسة، والكفاءة الحسابية.
مع تطور المجال، يقدم منهج ZeroSearch التقني رؤى قيمة حول كيفية استيعاب قدرات الاسترجاع داخل نماذج اللغة، مما قد يعيد تشكيل فهمنا لهياكل البحث. يوفر التنفيذ مفتوح المصدر أساساً لمزيد من البحث والتحسين، لا سيما في المجالات المتخصصة حيث قد يكون أداء محركات البحث التقليدية ضعيفاً أو يثير مخاوف تتعلق بالخصوصية.
بالنسبة للباحثين والممارسين المهتمين بأنظمة استرجاع المعلومات من الجيل التالي، يقدم ZeroSearch مخططاً تقنياً مقنعاً يستحق دراسة متأنية وتطويراً مستمراً.