كيفية استخدام سلسلة نماذج Qwen 3.5 الصغيرة

Ashley Innocent

Ashley Innocent

3 مارس 2026

كيفية استخدام سلسلة نماذج Qwen 3.5 الصغيرة

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

ملخص سريع

سلسلة نماذج Qwen 3.5 الصغيرة من Alibaba Cloud تقدم أربعة نماذج لغوية كبيرة مدمجة (0.8 مليار، 2 مليار، 4 مليار، و 9 مليار معلمة) مصممة للنشر المحلي الفعال، والحوسبة الطرفية، وتطبيقات الذكاء الاصطناعي الفعالة من حيث التكلفة. توفر هذه النماذج ميزات Qwen 3.5 القوية في أحجام أصغر، مما يجعلها مثالية للمطورين الذين يحتاجون إلى قدرات الذكاء الاصطناعي دون الحاجة إلى الأعباء الحسابية للنماذج الأكبر. يمكنك الوصول إليها عبر ModelScope، HuggingFace، أو خدمات API الخاصة بـ Alibaba Cloud.

مقدمة

أصبحت النماذج اللغوية الصغيرة (SLMs) ذات أهمية متزايدة للمطورين والشركات التي تسعى إلى حلول ذكاء اصطناعي فعالة من حيث الكفاءة والتكلفة. تمثل سلسلة نماذج Qwen 3.5 الصغيرة من Alibaba تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي المدمجة، حيث تقدم أربعة أحجام مختلفة من النماذج التي توازن بين الأداء والكفاءة الحسابية.

💡
عند دمج نماذج Qwen 3.5 في تطبيقاتك، تساعدك منصة Apidog لاختبار واجهات برمجة التطبيقات (API) في إنشاء اختبارات تلقائية لنقاط نهاية API لنموذجك، مما يضمن صحة الاستجابات وعمل التكامل بشكل موثوق. قم بإعداد تأكيدات الاختبار لهيكل الاستجابة، وقت الاستجابة، ومعالجة الأخطاء.

تنزيل التطبيق

سواء كنت تقوم بإنشاء تطبيقات للأجهزة الطرفية، أو تحتاج إلى قدرات الذكاء الاصطناعي المحلية للعمليات الحساسة للخصوصية، أو ترغب في تقليل تكاليف واجهة برمجة التطبيقات السحابية، فإن نماذج Qwen 3.5 الصغيرة توفر خيارات مقنعة. هذه النماذج متاحة عبر منصات متعددة بما في ذلك ModelScope و HuggingFace، مما يجعلها سهلة الوصول لسيناريوهات التطوير المختلفة.

فهم النماذج اللغوية الصغيرة

النماذج اللغوية الصغيرة هي نسخ مدمجة من معماريات النماذج اللغوية الكبيرة (LLM) الأكبر حجمًا، مصممة للعمل بكفاءة على موارد حوسبة محدودة مع الاحتفاظ بالقدرات الأساسية.

صورة توضيحية للنماذج اللغوية الكبيرة والصغيرة

تشمل المزايا الرئيسية:

متطلبات موارد أقل

كفاءة التكلفة

الخصوصية والأمان

فوائد وقت الاستجابة

تحتفظ نماذج Qwen 3.5 الصغيرة بالقدرات الأساسية لبنية Qwen 3.5 الكاملة ولكنها تعمل في هذه البيئات المقيدة.

نظرة عامة على سلسلة نماذج Qwen 3.5 الصغيرة

تتألف سلسلة نماذج Qwen 3.5 الصغيرة من أربعة نماذج، كل منها مصمم لحالات استخدام وسيناريوهات نشر مختلفة:

صورة توضيحية لسلسلة نماذج Qwen 3.5 الصغيرة مع أحجامها المختلفة

Qwen3.5-0.8B

النموذج الأكثر إحكامًا في السلسلة بمعلمات تبلغ 800 مليون. صُمم هذا النموذج خصيصًا لـ:

على الرغم من صغر حجمه، يحافظ Qwen3.5-0.8B على قدرات فهم لغوي معقولة مناسبة للمهام الأساسية مثل تصنيف النصوص، والمحادثات البسيطة، والأتمتة الخفيفة.

Qwen3.5-2B

خيار متوازن بمعلمات تبلغ 2 مليار، يقدم قفزة كبيرة في القدرات مقارنة بـ نموذج 0.8B. مثالي لـ:

يمنحك هذا النموذج توازنًا جيدًا بين القدرة واستخدام الموارد، مما يجعله الخيار الأكثر تنوعًا في السلسلة.

Qwen3.5-4B

بـ 4 مليارات معلمة، يوفر هذا النموذج قدرات كبيرة مع إمكانية النشر على أجهزة المستهلك. مناسب لـ:

يقترب نموذج 4B مما يمكن أن تفعله النماذج الأكبر بكثير بينما يظل عمليًا للتشغيل.

Qwen3.5-9B

النموذج الصغير الرائد بمعلمات تبلغ 9 مليارات. يقدم هذا النموذج:

الأفضل عندما تحتاج إلى أعلى جودة من المخرجات ولكنك لا تزال ترغب في تشغيل الأشياء محليًا.

مواصفات وقدرات النموذج

يساعد فهم المواصفات الفنية في اختيار النموذج المناسب لاحتياجاتك:

النموذج المعلمات طول السياق الاستخدام الموصى به متطلبات الأجهزة
Qwen3.5-0.8B 800 مليون 8K-32K مهام أساسية، نمذجة أولية 2 جيجابايت+ ذاكرة عشوائية، CPU
Qwen3.5-2B 2 مليار 8K-32K تطبيقات قياسية 4 جيجابايت+ ذاكرة عشوائية، CPU/iGPU
Qwen3.5-4B 4 مليار 8K-32K مهام معقدة 8 جيجابايت+ ذاكرة عشوائية، GPU مخصصة
Qwen3.5-9B 9 مليار 8K-32K تطبيقات متقدمة 16 جيجابايت+ ذاكرة عشوائية، GPU موصى بها

تشمل جميع النماذج:

كيفية الوصول إلى نماذج Qwen 3.5 الصغيرة

ModelScope

ModelScope يوفر أسهل وصول للمطورين الصينيين ويقدم وثائق شاملة باللغة الصينية.

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Give me a short introduction to large language models."},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-2B",
    messages=messages,
    max_tokens=32768,
    temperature=1.0,
    top_p=1.0,
    presence_penalty=2.0,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

HuggingFace

HuggingFace يوفر وصولاً عالميًا مع موارد مجتمعية واسعة.

from openai import OpenAI
# Configured by environment variables
client = OpenAI()

messages = [
    {"role": "user", "content": "Type \"I love Qwen3.5\" backwards"},
]

chat_response = client.chat.completions.create(
    model="Qwen/Qwen3.5-9B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=1.5,
    extra_body={
        "top_k": 20,
    }, 
)
print("Chat response:", chat_response)

واجهة برمجة تطبيقات Alibaba Cloud

للوصول المستند إلى السحابة دون نشر محلي:

# Using DashScope API (Alibaba Cloud)
from dashscope import Generation

# Set API key
import os
os.environ["DASHSCOPE_API_KEY"] = "your-api-key"

response = Generation.call(
    model="qwen-turbo",
    prompt="Write a Python function to calculate factorial",
    max_tokens=500
)

print(response.output.text)

خيارات النشر

النشر المحلي

وحدة المعالجة المركزية (CPU) فقط (لنماذج 0.8 مليار و 2 مليار):

# Using Ollama for easy local deployment
ollama pull qwen3.5:9b
ollama run qwen3.5:9b

مع تسريع وحدة معالجة الرسوميات (GPU):

# With CUDA support
pip install torch torchvision torchaudio
pip install transformers accelerate

# Run with GPU acceleration
python qwen_inference.py --model qwen3.5:9b --device cuda

نشر Docker

FROM python:3.11-slim

WORKDIR /app
RUN pip install transformers torch accelerate

COPY inference.py .
CMD ["python", "inference.py"]

نشر الحافة

بالنسبة للأجهزة الطرفية، فكر في استخدام:

دليل تكامل واجهة برمجة التطبيقات

خادم API من نوع REST

أنشئ خادم API بسيطًا لنموذجك المنشور:

from flask import Flask, request, jsonify
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

app = Flask(__name__)

# Load model (adjust based on your hardware)
MODEL_NAME = "Qwen/qwen3.5:9b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    device_map="auto",
    torch_dtype=torch.float16
)

@app.route('/generate', methods=['POST'])
def generate():
    data = request.json
    prompt = data.get('prompt', '')
    max_tokens = data.get('max_tokens', 512)
    temperature = data.get('temperature', 0.7)

    messages = [{"role": "user", "content": prompt}]
    text = tokenizer.apply_chat_template(
        messages, tokenize=False, add_generation_prompt=True
    )
    inputs = tokenizer([text], return_tensors="pt").to(model.device)

    outputs = model.generate(
        **inputs,
        max_new_tokens=max_tokens,
        temperature=temperature,
        do_sample=True
    )

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return jsonify({"response": response})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

اختبار تكاملك باستخدام Apidog

عند بناء تطبيقات مدعومة بالذكاء الاصطناعي، يعد الاختبار الشامل أمرًا ضروريًا. استخدم Apidog للتحقق من تكاملات واجهة برمجة التطبيقات الخاصة بك:

  1. أنشئ طلب POST إلى خادمك المحلي (على سبيل المثال، http://localhost:5000/generate)
  2. قم بتعيين Content-Type إلى application/json
لقطة شاشة لإنشاء طلب POST في Apidog

3. أضف نص الطلب:

{
  "prompt": "Hello, world!",
  "max_tokens": 100,
  "temperature": 0.7
}
لقطة شاشة لنص طلب JSON في Apidog

4. أضف تأكيدات الاختبار في Apidog:

يتيح لك Apidog إنشاء حالات اختبار تلقائية، وإعداد مراقبة مجدولة، واكتشاف المشكلات قبل أن تؤثر على المستخدمين. هذا مهم بشكل خاص عند التكامل مع LLMs المحلية حيث يمكن أن تختلف جودة الاستجابة بناءً على تكوين الأجهزة والنموذج.

حالات الاستخدام ودليل الاختيار

متى تستخدم Qwen3.5-0.8B

متى تستخدم Qwen3.5-2B

متى تستخدم Qwen3.5-4B

متى تستخدم Qwen3.5-9B

أفضل الممارسات والتحسين

التكميم (Quantization)

تقليل حجم النموذج وتحسين سرعة الاستدلال:

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16
)

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-4B",
    quantization_config=quantization_config,
    device_map="auto"
)

المعالجة الدفعية

لتحقيق إنتاجية أعلى:

# Process multiple prompts efficiently
prompts = [
    "What is machine learning?",
    "Explain neural networks",
    "Define deep learning"
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
responses = tokenizer.batch_decode(outputs, skip_special_tokens=True)

إدارة الذاكرة

# Clear GPU cache when needed
import torch

# Only keep necessary tensors in memory
model.eval()

# Use gradient checkpointing for long sequences
from transformers import GradientCheckpointingAuto

# Monitor memory usage
print(f"GPU Memory: {torch.cuda.memory_allocated() / 1e9:.2f} GB")

الخلاصة

تقدم سلسلة نماذج Qwen 3.5 الصغيرة خيارات جذابة للمطورين والشركات التي تسعى إلى قدرات ذكاء اصطناعي فعالة. سواء كنت تحتاج إلى نموذج 0.8 مليار المدمج للغاية للأجهزة الطرفية أو نموذج 9 مليارات الأكبر للمهام المعقدة، فإن هذه النماذج توفر المرونة دون التضحية بالوظائف الأساسية.

النقاط الرئيسية:

  1. اختر حجم النموذج المناسب بناءً على أجهزتك وما تحتاج إلى القيام به
  2. استخدم ModelScope أو HuggingFace لسهولة الوصول والمساعدة المجتمعية
  3. جرب التكميم إذا كنت بحاجة إلى أداء أفضل على الأجهزة المحدودة
  4. اختبر واجهة برمجة التطبيقات الخاصة بك بدقة قبل النشر
  5. ابدأ صغيرًا وتوسع مع نمو احتياجاتك

إن توفر هذه النماذج على منصات متعددة يعني أنه يمكنك إضافة ذكاء اصطناعي قوي إلى تطبيقاتك مع الحفاظ على التكاليف والبيانات تحت سيطرتك.

الخطوات التالية: عند دمج نماذج Qwen 3.5 في سير عملك، استخدم Apidog لإعداد اختبارات API شاملة تتحقق من الاستجابات، وتقيس وقت الاستجابة، وتكتشف المشكلات مبكرًا. جرب Apidog مجانًا لتبسيط اختبار API الخاص بالذكاء الاصطناعي.

تنزيل التطبيق

الأسئلة الشائعة

ما الفرق بين نماذج Qwen 3.5 ونماذج Qwen 2.5 الصغيرة؟

Qwen 3.5 هو أحدث إصدار مع تحسين الاستنتاج، ودعم أفضل للغات المتعددة، وقدرات محسنة لاستخدام الأدوات. تتضمن سلسلة 3.5 أيضًا تحسينات في اتباع التعليمات وإجراءات السلامة.

هل يمكن لنماذج Qwen 3.5 الصغيرة أن تعمل على وحدة المعالجة المركزية (CPU) فقط؟

نعم، يمكن للنماذج الأصغر (0.8 مليار و 2 مليار) أن تعمل بكفاءة على الأنظمة التي تعتمد على وحدة المعالجة المركزية (CPU) فقط. ستكون نماذج 4 مليارات و 9 مليارات أبطأ ولكن لا يزال بإمكانها العمل على وحدة المعالجة المركزية مع ذاكرة وصول عشوائي كافية.

كيف أختار بين أحجام النماذج المختلفة؟

ضع في اعتبارك قيود أجهزتك، وتعقيد المهمة، ومتطلبات وقت الاستجابة. ابدأ بأصغر نموذج يلبي احتياجات أدائك وتوسع إذا لزم الأمر.

هل هذه النماذج مناسبة للاستخدام التجاري؟

نعم، نماذج Qwen من Alibaba متاحة بموجب تراخيص مفتوحة المصدر تسمح بالاستخدام التجاري. تحقق من شروط الترخيص المحددة على ModelScope أو HuggingFace.

هل يمكنني ضبط نماذج Qwen 3.5 الصغيرة؟

نعم، تدعم جميع النماذج الضبط الدقيق (fine-tuning). استخدم تقنيات مثل LoRA أو QLoRA للضبط الدقيق الفعال على أجهزة المستهلك.

كيف تُقارن نماذج Qwen 3.5 الصغيرة بالنماذج اللغوية الصغيرة الأخرى مثل Phi أو Gemma؟

تقدم نماذج Qwen 3.5 أداءً تنافسيًا مع دعم قوي للغات المتعددة. قم بإجراء مقارنة مع حالة استخدامك المحددة لتحديد الأنسب.

ما هي نافذة السياق لهذه النماذج؟

يتراوح طول السياق الأساسي عادةً من 8 آلاف إلى 32 ألف رمز (token) حسب متغير النموذج وتكوينه المحدد.

أين يمكنني العثور على المزيد من الموارد والدعم المجتمعي؟

تحقق من صفحات ModelScope و HuggingFace الرسمية للحصول على الوثائق والأمثلة والمناقشات المجتمعية. يحتوي مستودع Qwen على GitHub أيضًا على موارد واسعة.

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات