ملخص سريع
سلسلة نماذج Qwen 3.5 الصغيرة من Alibaba Cloud تقدم أربعة نماذج لغوية كبيرة مدمجة (0.8 مليار، 2 مليار، 4 مليار، و 9 مليار معلمة) مصممة للنشر المحلي الفعال، والحوسبة الطرفية، وتطبيقات الذكاء الاصطناعي الفعالة من حيث التكلفة. توفر هذه النماذج ميزات Qwen 3.5 القوية في أحجام أصغر، مما يجعلها مثالية للمطورين الذين يحتاجون إلى قدرات الذكاء الاصطناعي دون الحاجة إلى الأعباء الحسابية للنماذج الأكبر. يمكنك الوصول إليها عبر ModelScope، HuggingFace، أو خدمات API الخاصة بـ Alibaba Cloud.
مقدمة
أصبحت النماذج اللغوية الصغيرة (SLMs) ذات أهمية متزايدة للمطورين والشركات التي تسعى إلى حلول ذكاء اصطناعي فعالة من حيث الكفاءة والتكلفة. تمثل سلسلة نماذج Qwen 3.5 الصغيرة من Alibaba تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي المدمجة، حيث تقدم أربعة أحجام مختلفة من النماذج التي توازن بين الأداء والكفاءة الحسابية.
تنزيل التطبيق
سواء كنت تقوم بإنشاء تطبيقات للأجهزة الطرفية، أو تحتاج إلى قدرات الذكاء الاصطناعي المحلية للعمليات الحساسة للخصوصية، أو ترغب في تقليل تكاليف واجهة برمجة التطبيقات السحابية، فإن نماذج Qwen 3.5 الصغيرة توفر خيارات مقنعة. هذه النماذج متاحة عبر منصات متعددة بما في ذلك ModelScope و HuggingFace، مما يجعلها سهلة الوصول لسيناريوهات التطوير المختلفة.
فهم النماذج اللغوية الصغيرة
النماذج اللغوية الصغيرة هي نسخ مدمجة من معماريات النماذج اللغوية الكبيرة (LLM) الأكبر حجمًا، مصممة للعمل بكفاءة على موارد حوسبة محدودة مع الاحتفاظ بالقدرات الأساسية.

تشمل المزايا الرئيسية:
متطلبات موارد أقل
- تعمل على أجهزة المستخدم العادية
- لا حاجة لمجموعات وحدات معالجة الرسوميات (GPU) باهظة الثمن
- تعمل على الأجهزة الطرفية وإنترنت الأشياء (IoT)
كفاءة التكلفة
- تكاليف استدلال أقل بكثير
- لا توجد رسوم لكل رمز (token) لواجهة برمجة التطبيقات عند التشغيل محليًا
- تستهلك كهرباء وتبريدًا أقل
الخصوصية والأمان
- تبقى البيانات محلية
- لا توجد مكالمات لواجهة برمجة التطبيقات الخارجية للعمليات الحساسة
- أنت تتحكم في بياناتك
فوائد وقت الاستجابة
- أوقات استجابة أسرع بدون تأخير الشبكة
- معالجة في الوقت الفعلي
- تجربة مستخدم أفضل للتطبيقات التفاعلية
تحتفظ نماذج Qwen 3.5 الصغيرة بالقدرات الأساسية لبنية Qwen 3.5 الكاملة ولكنها تعمل في هذه البيئات المقيدة.
نظرة عامة على سلسلة نماذج Qwen 3.5 الصغيرة
تتألف سلسلة نماذج Qwen 3.5 الصغيرة من أربعة نماذج، كل منها مصمم لحالات استخدام وسيناريوهات نشر مختلفة:

Qwen3.5-0.8B
النموذج الأكثر إحكامًا في السلسلة بمعلمات تبلغ 800 مليون. صُمم هذا النموذج خصيصًا لـ:
- البيئات ذات الموارد المحدودة للغاية
- الأنظمة المدمجة
- تطبيقات الهاتف المحمول
- النمذجة الأولية السريعة
على الرغم من صغر حجمه، يحافظ Qwen3.5-0.8B على قدرات فهم لغوي معقولة مناسبة للمهام الأساسية مثل تصنيف النصوص، والمحادثات البسيطة، والأتمتة الخفيفة.
Qwen3.5-2B
خيار متوازن بمعلمات تبلغ 2 مليار، يقدم قفزة كبيرة في القدرات مقارنة بـ نموذج 0.8B. مثالي لـ:
- تطبيقات سطح المكتب القياسية
- حالات الاستخدام للشركات الصغيرة
- بيئات التطوير والاختبار
- التطبيقات التي تتطلب تعقيدًا متوسطًا
يمنحك هذا النموذج توازنًا جيدًا بين القدرة واستخدام الموارد، مما يجعله الخيار الأكثر تنوعًا في السلسلة.
Qwen3.5-4B
بـ 4 مليارات معلمة، يوفر هذا النموذج قدرات كبيرة مع إمكانية النشر على أجهزة المستهلك. مناسب لـ:
- مهام اللغة الطبيعية الأكثر تعقيدًا
- الذكاء الاصطناعي المحادثاتي المحسّن
- متطلبات توليد المحتوى
- مهام الاستنتاج والتحليل
يقترب نموذج 4B مما يمكن أن تفعله النماذج الأكبر بكثير بينما يظل عمليًا للتشغيل.
Qwen3.5-9B
النموذج الصغير الرائد بمعلمات تبلغ 9 مليارات. يقدم هذا النموذج:
- قدرات Qwen 3.5 شبه كاملة
- استنتاج وتحليل معقد
- توليد محتوى عالي الجودة
- إنجاز مهام متقدمة
الأفضل عندما تحتاج إلى أعلى جودة من المخرجات ولكنك لا تزال ترغب في تشغيل الأشياء محليًا.
مواصفات وقدرات النموذج
يساعد فهم المواصفات الفنية في اختيار النموذج المناسب لاحتياجاتك:
| النموذج | المعلمات | طول السياق | الاستخدام الموصى به | متطلبات الأجهزة |
|---|---|---|---|---|
| Qwen3.5-0.8B | 800 مليون | 8K-32K | مهام أساسية، نمذجة أولية | 2 جيجابايت+ ذاكرة عشوائية، CPU |
| Qwen3.5-2B | 2 مليار | 8K-32K | تطبيقات قياسية | 4 جيجابايت+ ذاكرة عشوائية، CPU/iGPU |
| Qwen3.5-4B | 4 مليار | 8K-32K | مهام معقدة | 8 جيجابايت+ ذاكرة عشوائية، GPU مخصصة |
| Qwen3.5-9B | 9 مليار | 8K-32K | تطبيقات متقدمة | 16 جيجابايت+ ذاكرة عشوائية، GPU موصى بها |
تشمل جميع النماذج:
- دعم متعدد اللغات (الإنجليزية، الصينية، وأكثر من 20 لغة أخرى)
- توليد وفهم الأكواد
- الاستدلال الرياضي
- اتباع التعليمات
- استخدام الأدوات (الإصدارات الأحدث)
- استدعاء الدوال
كيفية الوصول إلى نماذج Qwen 3.5 الصغيرة
ModelScope
ModelScope يوفر أسهل وصول للمطورين الصينيين ويقدم وثائق شاملة باللغة الصينية.
from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{"role": "user", "content": "Give me a short introduction to large language models."},
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-2B",
messages=messages,
max_tokens=32768,
temperature=1.0,
top_p=1.0,
presence_penalty=2.0,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)HuggingFace
HuggingFace يوفر وصولاً عالميًا مع موارد مجتمعية واسعة.
from openai import OpenAI
# Configured by environment variables
client = OpenAI()
messages = [
{"role": "user", "content": "Type \"I love Qwen3.5\" backwards"},
]
chat_response = client.chat.completions.create(
model="Qwen/Qwen3.5-9B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=1.5,
extra_body={
"top_k": 20,
},
)
print("Chat response:", chat_response)
واجهة برمجة تطبيقات Alibaba Cloud
للوصول المستند إلى السحابة دون نشر محلي:
# Using DashScope API (Alibaba Cloud)
from dashscope import Generation
# Set API key
import os
os.environ["DASHSCOPE_API_KEY"] = "your-api-key"
response = Generation.call(
model="qwen-turbo",
prompt="Write a Python function to calculate factorial",
max_tokens=500
)
print(response.output.text)
خيارات النشر
النشر المحلي
وحدة المعالجة المركزية (CPU) فقط (لنماذج 0.8 مليار و 2 مليار):
# Using Ollama for easy local deployment
ollama pull qwen3.5:9b
ollama run qwen3.5:9b
مع تسريع وحدة معالجة الرسوميات (GPU):
# With CUDA support
pip install torch torchvision torchaudio
pip install transformers accelerate
# Run with GPU acceleration
python qwen_inference.py --model qwen3.5:9b --device cuda
نشر Docker
FROM python:3.11-slim
WORKDIR /app
RUN pip install transformers torch accelerate
COPY inference.py .
CMD ["python", "inference.py"]
نشر الحافة
بالنسبة للأجهزة الطرفية، فكر في استخدام:
- llama.cpp بتنسيق GGUF للاستدلال الكمي
- MLC-LLM للنشر على الأجهزة المحمولة
- TensorFlow Lite للأنظمة المدمجة
دليل تكامل واجهة برمجة التطبيقات
خادم API من نوع REST
أنشئ خادم API بسيطًا لنموذجك المنشور:
from flask import Flask, request, jsonify
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = Flask(__name__)
# Load model (adjust based on your hardware)
MODEL_NAME = "Qwen/qwen3.5:9b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
torch_dtype=torch.float16
)
@app.route('/generate', methods=['POST'])
def generate():
data = request.json
prompt = data.get('prompt', '')
max_tokens = data.get('max_tokens', 512)
temperature = data.get('temperature', 0.7)
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=max_tokens,
temperature=temperature,
do_sample=True
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return jsonify({"response": response})
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
اختبار تكاملك باستخدام Apidog
عند بناء تطبيقات مدعومة بالذكاء الاصطناعي، يعد الاختبار الشامل أمرًا ضروريًا. استخدم Apidog للتحقق من تكاملات واجهة برمجة التطبيقات الخاصة بك:
- أنشئ طلب POST إلى خادمك المحلي (على سبيل المثال،
http://localhost:5000/generate) - قم بتعيين Content-Type إلى
application/json

3. أضف نص الطلب:
{
"prompt": "Hello, world!",
"max_tokens": 100,
"temperature": 0.7
}

4. أضف تأكيدات الاختبار في Apidog:
- تحقق من أن الاستجابة تحتوي على حقل "response"
- تأكد من أن وقت الاستجابة أقل من الحد المقبول
- تحقق من صحة هيكل JSON
- تحقق من أن الاستجابة ليست فارغة
يتيح لك Apidog إنشاء حالات اختبار تلقائية، وإعداد مراقبة مجدولة، واكتشاف المشكلات قبل أن تؤثر على المستخدمين. هذا مهم بشكل خاص عند التكامل مع LLMs المحلية حيث يمكن أن تختلف جودة الاستجابة بناءً على تكوين الأجهزة والنموذج.
حالات الاستخدام ودليل الاختيار
متى تستخدم Qwen3.5-0.8B
- أنظمة إنترنت الأشياء (IoT) والأنظمة المدمجة ذات الموارد القليلة
- المشاريع التعليمية والتعلم
- النمذجة الأولية السريعة قبل التوسع
- نصوص الأتمتة البسيطة
- تطبيقات الجوال ذات القدرات غير المتصلة بالإنترنت
متى تستخدم Qwen3.5-2B
- روبوتات الدردشة ذات الأغراض العامة
- أدوات مساعدة المحتوى
- تطبيقات الشركات الصغيرة
- بيئات التطوير والتجهيز
- أتمتة دعم العملاء
متى تستخدم Qwen3.5-4B
- الإجابة على الأسئلة المعقدة
- توليد ومراجعة الأكواد
- مساعدة في الوثائق الفنية
- دعم التحليلات المتقدمة
- مهام الاستنتاج متعددة الخطوات
متى تستخدم Qwen3.5-9B
- إنشاء محتوى عالي الجودة
- حل المشكلات المعقدة
- مساعدة في البحث
- مساعدي الذكاء الاصطناعي المتقدمين
- تطبيقات جاهزة للإنتاج
أفضل الممارسات والتحسين
التكميم (Quantization)
تقليل حجم النموذج وتحسين سرعة الاستدلال:
from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen2.5-4B",
quantization_config=quantization_config,
device_map="auto"
)
المعالجة الدفعية
لتحقيق إنتاجية أعلى:
# Process multiple prompts efficiently
prompts = [
"What is machine learning?",
"Explain neural networks",
"Define deep learning"
]
inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
responses = tokenizer.batch_decode(outputs, skip_special_tokens=True)
إدارة الذاكرة
# Clear GPU cache when needed
import torch
# Only keep necessary tensors in memory
model.eval()
# Use gradient checkpointing for long sequences
from transformers import GradientCheckpointingAuto
# Monitor memory usage
print(f"GPU Memory: {torch.cuda.memory_allocated() / 1e9:.2f} GB")
الخلاصة
تقدم سلسلة نماذج Qwen 3.5 الصغيرة خيارات جذابة للمطورين والشركات التي تسعى إلى قدرات ذكاء اصطناعي فعالة. سواء كنت تحتاج إلى نموذج 0.8 مليار المدمج للغاية للأجهزة الطرفية أو نموذج 9 مليارات الأكبر للمهام المعقدة، فإن هذه النماذج توفر المرونة دون التضحية بالوظائف الأساسية.
النقاط الرئيسية:
- اختر حجم النموذج المناسب بناءً على أجهزتك وما تحتاج إلى القيام به
- استخدم ModelScope أو HuggingFace لسهولة الوصول والمساعدة المجتمعية
- جرب التكميم إذا كنت بحاجة إلى أداء أفضل على الأجهزة المحدودة
- اختبر واجهة برمجة التطبيقات الخاصة بك بدقة قبل النشر
- ابدأ صغيرًا وتوسع مع نمو احتياجاتك
إن توفر هذه النماذج على منصات متعددة يعني أنه يمكنك إضافة ذكاء اصطناعي قوي إلى تطبيقاتك مع الحفاظ على التكاليف والبيانات تحت سيطرتك.
الخطوات التالية: عند دمج نماذج Qwen 3.5 في سير عملك، استخدم Apidog لإعداد اختبارات API شاملة تتحقق من الاستجابات، وتقيس وقت الاستجابة، وتكتشف المشكلات مبكرًا. جرب Apidog مجانًا لتبسيط اختبار API الخاص بالذكاء الاصطناعي.
تنزيل التطبيق
الأسئلة الشائعة
ما الفرق بين نماذج Qwen 3.5 ونماذج Qwen 2.5 الصغيرة؟
Qwen 3.5 هو أحدث إصدار مع تحسين الاستنتاج، ودعم أفضل للغات المتعددة، وقدرات محسنة لاستخدام الأدوات. تتضمن سلسلة 3.5 أيضًا تحسينات في اتباع التعليمات وإجراءات السلامة.
هل يمكن لنماذج Qwen 3.5 الصغيرة أن تعمل على وحدة المعالجة المركزية (CPU) فقط؟
نعم، يمكن للنماذج الأصغر (0.8 مليار و 2 مليار) أن تعمل بكفاءة على الأنظمة التي تعتمد على وحدة المعالجة المركزية (CPU) فقط. ستكون نماذج 4 مليارات و 9 مليارات أبطأ ولكن لا يزال بإمكانها العمل على وحدة المعالجة المركزية مع ذاكرة وصول عشوائي كافية.
كيف أختار بين أحجام النماذج المختلفة؟
ضع في اعتبارك قيود أجهزتك، وتعقيد المهمة، ومتطلبات وقت الاستجابة. ابدأ بأصغر نموذج يلبي احتياجات أدائك وتوسع إذا لزم الأمر.
هل هذه النماذج مناسبة للاستخدام التجاري؟
نعم، نماذج Qwen من Alibaba متاحة بموجب تراخيص مفتوحة المصدر تسمح بالاستخدام التجاري. تحقق من شروط الترخيص المحددة على ModelScope أو HuggingFace.
هل يمكنني ضبط نماذج Qwen 3.5 الصغيرة؟
نعم، تدعم جميع النماذج الضبط الدقيق (fine-tuning). استخدم تقنيات مثل LoRA أو QLoRA للضبط الدقيق الفعال على أجهزة المستهلك.
كيف تُقارن نماذج Qwen 3.5 الصغيرة بالنماذج اللغوية الصغيرة الأخرى مثل Phi أو Gemma؟
تقدم نماذج Qwen 3.5 أداءً تنافسيًا مع دعم قوي للغات المتعددة. قم بإجراء مقارنة مع حالة استخدامك المحددة لتحديد الأنسب.
ما هي نافذة السياق لهذه النماذج؟
يتراوح طول السياق الأساسي عادةً من 8 آلاف إلى 32 ألف رمز (token) حسب متغير النموذج وتكوينه المحدد.
أين يمكنني العثور على المزيد من الموارد والدعم المجتمعي؟
تحقق من صفحات ModelScope و HuggingFace الرسمية للحصول على الوثائق والأمثلة والمناقشات المجتمعية. يحتوي مستودع Qwen على GitHub أيضًا على موارد واسعة.
