كيفية استخدام نماذج Qwen3 الكمية محليًا: دليل خطوة بخطوة

تُحدث نماذج اللغات الكبيرة (LLMs) مثل Qwen3 ثورة في مشهد الذكاء الاصطناعي بقدراتها الرائعة في البرمجة، الاستنتاج، وفهم اللغة الطبيعية. تم تطوير Qwen3 بواسطة فريق Qwen في Alibaba، وتقدم نماذج مقننة تتيح النشر المحلي الفعال، مما يجعلها متاحة للمطورين والباحثين والمتحمسين لتشغيل هذه النماذج القوية على أجهزتهم الخاصة. سواء كنت تستخدم Ollama، LM Studio، أو vLLM، سيرشدك هذا الدليل خلال عملية إعداد وتشغيل نماذج Qwen3 المقننة محليًا.

💡

قبل البدء، تأكد من أن لديك الأدوات المناسبة لاختبار وتفاعل مع إعداد Qwen3 المحلي الخاص بك. **Apidog** أداة ممتازة لاختبار واجهات برمجة التطبيقات (API) يمكنها مساعدتك في التحقق من نقاط نهاية API لنموذجك المحلي بسهولة. **قم بتنزيل Apidog مجانًا** لتبسيط سير عمل اختبار API الخاص بك أثناء العمل مع Qwen3!

button

في هذا الدليل التقني، سنستكشف عملية الإعداد، اختيار النموذج، طرق النشر، وتكامل واجهة برمجة التطبيقات (API). لنبدأ.

ما هي نماذج Qwen3 المقننة؟

Qwen3 هو أحدث جيل من نماذج اللغات الكبيرة (LLMs) من Alibaba، مصمم لأداء عالٍ عبر مهام مثل البرمجة، الرياضيات، والاستنتاج العام. النماذج المقننة، مثل تلك الموجودة بتنسيقات BF16، FP8، GGUF، AWQ، و GPTQ، تقلل من متطلبات الحوسبة والذاكرة، مما يجعلها مثالية للنشر المحلي على الأجهزة الاستهلاكية.

تشمل عائلة Qwen3 نماذج متنوعة:

Qwen3-235B-A22B (MoE): نموذج خليط من الخبراء بتنسيقات BF16، FP8، GGUF، و GPTQ-int4.
Qwen3-30B-A3B (MoE): متغير آخر من MoE مع خيارات تقنين مماثلة.
Qwen3-32B, 14B, 8B, 4B, 1.7B, 0.6B (Dense): نماذج كثيفة متوفرة بتنسيقات BF16، FP8، GGUF، AWQ، و GPTQ-int8.

تدعم هذه النماذج النشر المرن من خلال منصات مثل Ollama، LM Studio، و vLLM، والتي سنتناولها بالتفصيل. بالإضافة إلى ذلك، يقدم Qwen3 ميزات مثل "وضع التفكير"، والذي يمكن تبديله لتحسين الاستنتاج، ومعلمات التوليد لضبط جودة المخرجات.

الآن بعد أن فهمنا الأساسيات، دعنا ننتقل إلى المتطلبات الأساسية لتشغيل Qwen3 محليًا.

المتطلبات الأساسية لتشغيل Qwen3 محليًا

قبل نشر نماذج Qwen3 المقننة، تأكد من أن نظامك يفي بالمتطلبات التالية:

الأجهزة:

وحدة معالجة مركزية (CPU) أو وحدة معالجة رسومات (GPU) حديثة (يوصى بوحدات معالجة الرسومات NVIDIA لـ vLLM).
ذاكرة وصول عشوائي (RAM) لا تقل عن 16 جيجابايت للنماذج الأصغر مثل Qwen3-4B؛ 32 جيجابايت أو أكثر للنماذج الأكبر مثل Qwen3-32B.
مساحة تخزين كافية (على سبيل المثال، قد يتطلب Qwen3-235B-A22B GGUF حوالي 150 جيجابايت).

البرامج:

نظام تشغيل متوافق (Windows، macOS، أو Linux).
Python 3.8+ لـ vLLM وتفاعلات API.
Docker (اختياري، لـ vLLM).
Git لاستنساخ المستودعات.

التبعيات:

قم بتثبيت المكتبات المطلوبة مثل torch، transformers، و vllm (لـ vLLM).
قم بتنزيل ملفات Ollama أو LM Studio الثنائية من مواقعها الرسمية.

مع توفر هذه المتطلبات الأساسية، دعنا ننتقل إلى تنزيل نماذج Qwen3 المقننة.

الخطوة 1: تنزيل نماذج Qwen3 المقننة

أولاً، تحتاج إلى تنزيل النماذج المقننة من مصادر موثوقة. يوفر فريق Qwen نماذج Qwen3 على Hugging Face و ModelScope

Hugging Face: مجموعة Qwen3
ModelScope: مجموعة Qwen3

كيفية التنزيل من Hugging Face

قم بزيارة مجموعة Qwen3 على Hugging Face.
اختر نموذجًا، مثل Qwen3-4B بتنسيق GGUF للنشر الخفيف.
انقر على زر "Download" أو استخدم أمر git clone لجلب ملفات النموذج:

git clone https://huggingface.co/Qwen/Qwen3-4B-GGUF

قم بتخزين ملفات النموذج في دليل، مثل /models/qwen3-4b-gguf.

كيفية التنزيل من ModelScope

انتقل إلى مجموعة Qwen3 على ModelScope.
اختر النموذج وتنسيق التقنين المطلوب (مثل AWQ أو GPTQ).
قم بتنزيل الملفات يدويًا أو استخدم واجهة برمجة التطبيقات الخاصة بهم للوصول البرمجي.

بمجرد تنزيل النماذج، دعنا نستكشف كيفية نشرها باستخدام Ollama.

الخطوة 2: نشر Qwen3 باستخدام Ollama

Ollama يوفر طريقة سهلة الاستخدام لتشغيل نماذج اللغات الكبيرة (LLMs) محليًا بأقل قدر من الإعداد. يدعم تنسيق GGUF الخاص بـ Qwen3، مما يجعله مثاليًا للمبتدئين.

تثبيت Ollama

قم بزيارة الموقع الرسمي لـ Ollama وقم بتنزيل الملف الثنائي لنظام التشغيل الخاص بك.
قم بتثبيت Ollama عن طريق تشغيل المثبت أو اتباع تعليمات سطر الأوامر:

curl -fsSL https://ollama.com/install.sh | sh

تحقق من التثبيت:

ollama --version

تشغيل Qwen3 باستخدام Ollama

ابدأ النموذج:

ollama run qwen3:235b-a22b-q8_0

بمجرد تشغيل النموذج، يمكنك التفاعل معه عبر سطر الأوامر:

>>> Hello, how can I assist you today?

يوفر Ollama أيضًا نقطة نهاية API محلية (عادةً http://localhost:11434) للوصول البرمجي، والتي سنختبرها لاحقًا باستخدام Apidog.

بعد ذلك، دعنا نستكشف كيفية استخدام LM Studio لتشغيل Qwen3.

الخطوة 3: نشر Qwen3 باستخدام LM Studio

LM Studio أداة شائعة أخرى لتشغيل نماذج اللغات الكبيرة (LLMs) محليًا، وتقدم واجهة رسومية لإدارة النماذج.

تثبيت LM Studio

قم بتنزيل LM Studio من موقعه الرسمي.
قم بتثبيت التطبيق باتباع التعليمات التي تظهر على الشاشة.
قم بتشغيل LM Studio وتأكد من أنه يعمل.

تحميل Qwen3 في LM Studio

في LM Studio، انتقل إلى قسم "Local Models" (النماذج المحلية).

انقر على "Add Model" (إضافة نموذج) وابحث عن النموذج لتنزيله:

قم بتكوين إعدادات النموذج، مثل:

Temperature (درجة الحرارة): 0.6
Top-P: 0.95
Top-K: 20
تطابق هذه الإعدادات معلمات وضع التفكير الموصى بها لـ Qwen3.

ابدأ تشغيل خادم النموذج بالنقر على "Start Server" (بدء الخادم). سيوفر LM Studio نقطة نهاية API محلية (على سبيل المثال، http://localhost:1234).

التفاعل مع Qwen3 في LM Studio

استخدم واجهة الدردشة المدمجة في LM Studio لاختبار النموذج.
بدلاً من ذلك، يمكنك الوصول إلى النموذج عبر نقطة نهاية API الخاصة به، والتي سنستكشفها في قسم اختبار API.

مع إعداد LM Studio، دعنا ننتقل إلى طريقة نشر أكثر تقدمًا باستخدام vLLM.

الخطوة 4: نشر Qwen3 باستخدام vLLM

vLLM هو حل تقديم عالي الأداء محسّن لنماذج اللغات الكبيرة (LLMs)، ويدعم نماذج Qwen3 المقننة بتنسيقات FP8 و AWQ. إنه مثالي للمطورين الذين يبنون تطبيقات قوية.

تثبيت vLLM

تأكد من تثبيت Python 3.8+ على نظامك.
قم بتثبيت vLLM باستخدام pip:

pip install vllm

تحقق من التثبيت:

python -c "import vllm; print(vllm.__version__)"

تشغيل Qwen3 باستخدام vLLM

ابدأ تشغيل خادم vLLM باستخدام نموذج Qwen3 الخاص بك

# Load and run the model:
vllm serve "Qwen/Qwen3-235B-A22B"

العلامة --enable-thinking=False تعطل وضع التفكير في Qwen3.

بمجرد بدء تشغيل الخادم، سيوفر نقطة نهاية API على http://localhost:8000.

تكوين vLLM للحصول على الأداء الأمثل

يدعم vLLM تكوينات متقدمة، مثل:

Tensor Parallelism (موازاة الموترات): اضبط --tensor-parallel-size بناءً على إعداد وحدة معالجة الرسومات (GPU) الخاصة بك.
Context Length (طول السياق): يدعم Qwen3 ما يصل إلى 32,768 رمزًا، والذي يمكن تعيينه عبر --max-model-len 32768.
Generation Parameters (معلمات التوليد): استخدم API لتعيين temperature، top_p، و top_k (على سبيل المثال، 0.7، 0.8، 20 لوضع عدم التفكير).

مع تشغيل vLLM، دعنا نختبر نقطة نهاية API باستخدام Apidog.

الخطوة 5: اختبار Qwen3 API باستخدام Apidog

Apidog أداة قوية لاختبار نقاط نهاية API، مما يجعلها مثالية للتفاعل مع نموذج Qwen3 المنشور محليًا.

إعداد Apidog

قم بتنزيل وتثبيت Apidog من الموقع الرسمي.
قم بتشغيل Apidog وإنشاء مشروع جديد.

اختبار Ollama API

أنشئ طلب API جديدًا في Apidog.
عيّن نقطة النهاية إلى http://localhost:11434/api/generate.
قم بتكوين الطلب:

Method (الأسلوب): POST
Body (الجسم) (JSON):

{
  "model": "qwen3-4b",
  "prompt": "Hello, how can I assist you today?",
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20
}

أرسل الطلب وتحقق من الاستجابة.

اختبار vLLM API

أنشئ طلب API آخر في Apidog.
عيّن نقطة النهاية إلى http://localhost:8000/v1/completions.
قم بتكوين الطلب:

Method (الأسلوب): POST
Body (الجسم) (JSON):

{
  "model": "qwen3-4b-awq",
  "prompt": "Write a Python script to calculate factorial.",
  "max_tokens": 512,
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20
}

أرسل الطلب وتحقق من المخرجات.

يجعل Apidog من السهل التحقق من نشر Qwen3 الخاص بك والتأكد من أن API يعمل بشكل صحيح. الآن، دعنا نضبط أداء النموذج.

الخطوة 6: ضبط أداء Qwen3

لتحسين أداء Qwen3، اضبط الإعدادات التالية بناءً على حالة الاستخدام الخاصة بك:

وضع التفكير

يدعم Qwen3 "وضع التفكير" لتعزيز الاستنتاج، كما هو موضح في صورة منشور X. يمكنك التحكم فيه بطريقتين:

تبديل ناعم: أضف /think أو /no_think إلى طلبك.

مثال: Solve this math problem /think.

تبديل صارم: عطل التفكير تمامًا في vLLM باستخدام --enable-thinking=False.

معلمات التوليد

اضبط معلمات التوليد للحصول على جودة مخرجات أفضل:

Temperature (درجة الحرارة): استخدم 0.6 لوضع التفكير أو 0.7 لوضع عدم التفكير.
Top-P: اضبطه على 0.95 (تفكير) أو 0.8 (عدم تفكير).
Top-K: استخدم 20 لكلا الوضعين.
تجنب فك التشفير الجشع (greedy decoding)، كما أوصى به فريق Qwen.

قم بتجربة هذه الإعدادات لتحقيق التوازن المطلوب بين الإبداع والدقة.

استكشاف الأخطاء الشائعة وإصلاحها

أثناء نشر Qwen3، قد تواجه بعض المشكلات. فيما يلي حلول للمشاكل الشائعة:

فشل تحميل النموذج في Ollama:

تأكد من أن مسار ملف GGUF في Modelfile صحيح.
تحقق مما إذا كان نظامك يحتوي على ذاكرة كافية لتحميل النموذج.

خطأ موازاة الموترات في vLLM:

إذا رأيت خطأ مثل "output_size is not divisible by weight quantization block_n"، قم بتقليل --tensor-parallel-size (على سبيل المثال، إلى 4).

فشل طلب API في Apidog:

تحقق من أن الخادم (Ollama، LM Studio، أو vLLM) قيد التشغيل.
تحقق مرة أخرى من عنوان URL لنقطة النهاية وحمولة الطلب.

من خلال معالجة هذه المشكلات، يمكنك ضمان تجربة نشر سلسة.

الخلاصة

يعد تشغيل نماذج Qwen3 المقننة محليًا عملية مباشرة باستخدام أدوات مثل Ollama، LM Studio، و vLLM. سواء كنت مطورًا يبني تطبيقات أو باحثًا يجرب نماذج اللغات الكبيرة (LLMs)، يقدم Qwen3 المرونة والأداء الذي تحتاجه. باتباع هذا الدليل، تعلمت كيفية تنزيل النماذج من Hugging Face و ModelScope، ونشرها باستخدام أطر عمل مختلفة، واختبار نقاط نهاية API الخاصة بها باستخدام Apidog.

ابدأ استكشاف Qwen3 اليوم واطلق العنان لقوة نماذج اللغات الكبيرة المحلية لمشاريعك!

button