كيفية استخدام Qwen 3.5 مع Ollama

Ashley Innocent

Ashley Innocent

3 مارس 2026

كيفية استخدام Qwen 3.5 مع Ollama

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

ملخص سريع

يوفر Ollama أسهل طريقة لتشغيل نماذج Qwen 3.5 الصغيرة (0.8B، 2B، 4B، و 9B) محليًا على جهاز Mac أو Linux أو Windows الخاص بك. باستخدام أمر بسيط ollama run، يمكنك الوصول إلى ميزات الذكاء الاصطناعي القوية دون تكاليف واجهة برمجة التطبيقات السحابية. قم بتنزيل Ollama، اسحب نموذجًا، وابدأ الدردشة في أقل من 5 دقائق.

Ollama provides the easiest way to run Qwen 3.5 models locally on your Mac, Linux, or Windows machine.

مقدمة

لقد أصبح تشغيل نماذج اللغات الكبيرة محليًا شائعًا جدًا، و Ollama يجعل الأمر مباشرًا. إذا كنت ترغب في استخدام نماذج Qwen 3.5 من Alibaba دون إرسال البيانات إلى السحابة أو الدفع مقابل الرمز، فإن Ollama هو الحل.

💡
عند بناء تطبيقات تستدعي LLMs محلية مثل Qwen 3.5 عبر واجهة برمجة تطبيقات Ollama، ستحتاج إلى طريقة موثوقة لاختبار الاستجابات والتحقق من صحتها. تسمح لك أدوات اختبار API من Apidog بإعداد اختبارات تلقائية لنقاط نهاية Ollama API الخاصة بك، مما يضمن أن الاستجابات صحيحة وتلبي توقعاتك. أنشئ تأكيدات اختبار لوقت الاستجابة وهيكل المحتوى ومعالجة الأخطاء—انتقل إلى قسم Ollama API لترى كيفية اختبار إعدادك.
button

يرشدك هذا الدليل عبر كل ما تحتاج لمعرفته حول تشغيل نماذج Qwen 3.5 الصغيرة باستخدام Ollama. سواء كنت بحاجة إلى نموذج 0.8B المدمج للمهام السريعة أو نموذج 9B الأكبر للاستدلال المعقد، سنغطي التثبيت والاستخدام والتكامل.

لماذا تستخدم Ollama لـ Qwen 3.5

أصبح Ollama الحل الأمثل لنشر LLM المحلي:

إعداد بسيط
لا توجد إعدادات Docker أو Python معقدة. قم بتنزيل تطبيق واحد وستكون جاهزًا.

الخصوصية أولاً
تبقى بياناتك على جهازك. هذا مهم لبيانات الأعمال أو أي شيء حساس.

لا توجد تكاليف API
بعد تنزيل النماذج، تشغيلها مجاني. لا توجد رسوم لكل رمز مميز أو اشتراكات.

القدرة على العمل دون اتصال
استخدم الذكاء الاصطناعي في أي مكان، حتى بدون الإنترنت.

تسريع الأجهزة
يستخدم Ollama تسريع GPU تلقائيًا عند توفره، مما يجعل الاستدلال المحلي سريعًا.

تثبيت Ollama

تثبيت على Mac

إذا كان لديك جهاز Mac، يستغرق التثبيت ثوانٍ:

# قم بالتنزيل من ollama.com أو استخدم Homebrew
brew install ollama

هذا كل شيء. سيكتشف Ollama تلقائيًا Apple Silicon (M1/M2/M3) ويستخدم Metal لتسريع GPU.

تثبيت على Linux

لخوادم Linux أو WSL:

# تثبيت سريع
curl -fsSL https://ollama.com/install.sh | sh

تثبيت على Windows

يمكن لمستخدمي Windows تنزيل برنامج التثبيت. يدعم إصدار Windows تسريع GPU عبر DirectML.

Windows users can download the installer for Ollama to get started with local LLM deployment.

التحقق

بعد التثبيت، تحقق من أن كل شيء يعمل:

ollama --version

يجب أن ترى رقم الإصدار. الآن دعنا نسحب بعض نماذج Qwen.

تشغيل نماذج Qwen 3.5

سحب أول نموذج لك

يجعل Ollama تنزيل النماذج بسيطًا:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

يستغرق تنزيل كل نموذج بضع دقائق حسب سرعة الإنترنت لديك. نموذج 2B حوالي 1.5 جيجابايت، بينما نموذج 9B حوالي 5 جيجابايت.

بدء جلسة محادثة

بمجرد السحب، ابدأ الدردشة على الفور:

ollama run qwen3.5:9b

سترى موجهًا يمكنك الكتابة فيه مباشرة:

>>> ما هو الحوسبة الكمومية بعبارات بسيطة؟
الحوسبة الكمومية هي نوع من الحوسبة حيث...

اكتب أسئلتك واضغط على Enter. اضغط على Ctrl+D للخروج.

سرد النماذج المتاحة

انظر ما قمت بتثبيته:

ollama list

يعرض الإخراج كل نموذج وحجمه ومتى استخدمته آخر مرة.

إزالة النماذج

قم بتحرير مساحة القرص عن طريق إزالة النماذج التي لا تحتاجها:

ollama remove qwen3.5:9b

مقارنة النماذج واختيارها

يعتمد اختيار النموذج المناسب على أجهزتك وحالة الاستخدام:

النموذج المعاملات حجم النموذج التقريبي (BF16، دقة كاملة) الذاكرة العشوائية المطلوبة (BF16، دليل Unsloth) الأفضل لـ
Qwen3.5-0.8B 0.8B ~1.6 جيجابايت ~9 جيجابايت الحافة الفائقة الخفة والمتنقلة: إكمال تلقائي سريع، روبوتات دردشة بسيطة، أدوات صغيرة، رؤية/تعرف ضوئي أساسي على الأجهزة منخفضة المواصفات جدًا.
Qwen3.5-2B 2B ~4 جيجابايت ~9 جيجابايت مساعدون خفيفو الوزن، وكلاء صغار، مساعدة أساسية في البرمجة، متعدد الوسائط جيد على أجهزة الكمبيوتر المحمولة ذات الذاكرة العشوائية المتواضعة.
Qwen3.5-4B 4B ~8 جيجابايت ~14 جيجابايت مساعد مطور "إكمال تلقائي ذكي"، وكلاء خفيفو الوزن، استدلال متعدد الوسائط أفضل من 2B مع سهولة التشغيل محليًا.
Qwen3.5-9B 9B ~18 جيجابايت ~19 جيجابايت مساعد عام قوي، متعدد اللغات ورؤية جيدة، يمكن استخدامه كذكاء اصطناعي محلي رئيسي على جهاز بذاكرة وصول عشوائي/فيديو 16-24 جيجابايت.

توصية لمعظم المستخدمين: ابدأ بـ qwen2.5:2b. يوفر أفضل توازن بين القدرة والسرعة. قم بالترقية إلى 4B أو 9B فقط إذا كنت بحاجة إلى قوة استدلال أكبر.

واجهة برمجة تطبيقات Ollama للمطورين

يقوم Ollama بتشغيل خادم API محلي يمكن لتطبيقاتك استدعاؤه. هذا مثالي لدمج Qwen 3.5 في مشاريعك.

بدء تشغيل خادم API

يعمل Ollama كخدمة خلفية افتراضيًا. API متاح على:

http://localhost:11434

إكمال الدردشة الأساسي

أرسل الطلبات إلى نقطة نهاية الدردشة:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "What is Python?"}
    ],
    "stream": false
  }'

الاستجابة:

This is how the JSON response from Ollama API looks like.

تدفق الاستجابات

للحصول على إخراج في الوقت الفعلي، قم بتمكين التدفق:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Count to 5"}],
    "stream": true
  }'

يقوم هذا بتدفق الرموز المميزة عند إنشائها.

نقطة نهاية التوليد

لمطالبات غير الدردشة:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Write a haiku about coding",
    "stream": false
  }'

الدمج مع تطبيقاتك

تكامل بايثون

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explain recursion"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

تكامل جافاسكريبت/نود.جي إس

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'What is an API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

اختبار التكامل الخاص بك مع Apidog

عند بناء تطبيقات تستدعي Ollama، استخدم أدوات اختبار API للتحقق من صحة الاستجابات. إليك كيفية اختبار Ollama API الخاص بك مع Apidog:

  1. أنشئ طلب POST جديد إلى http://localhost:11434/api/chat
  2. عيّن Content-Type إلى application/json
  3. أضف نص الطلب:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Hello"}],
  "stream": false
}
Testing your Ollama API with Apidog

يتيح لك Apidog إنشاء حالات اختبار تلقائية تتحقق من جودة الاستجابة، وتختبر مطالبات مختلفة، وتراقب نقاط نهاية LLM المحلية الخاصة بك. هذا يضمن عمل تكاملك بشكل موثوق في الإنتاج.

متطلبات الأداء والأجهزة

تسريع GPU

يستخدم Ollama GPU تلقائيًا عند توفره:

الأداء المتوقع

النموذج GPU رموز/ثانية (تقريبي)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

سيكون الاستدلال باستخدام وحدة المعالجة المركزية فقط أبطأ بكثير (5-10 أضعاف).

متطلبات الذاكرة

الحد الأدنى من ذاكرة الوصول العشوائي (RAM) حسب النموذج:

وجود ذاكرة وصول عشوائي أكبر من الحد الأدنى يساعد في الاستجابة.

استكشاف المشاكل الشائعة وإصلاحها

"Ollama غير موجود"

تأكد من أن Ollama موجود في مسارك (PATH). على Mac/Linux، أعد تشغيل المحطة الطرفية بعد التثبيت.

الأداء البطيء

  1. تحقق مما إذا كان GPU قيد الاستخدام: ollama list يعرض معلومات النموذج
  2. لوحدة المعالجة المركزية فقط: توقع سرعات أبطأ
  3. أغلق تطبيقات GPU الأخرى

فشل تنزيل النموذج

حاول مرة أخرى باتصال إنترنت أسرع. إذا كنت تستخدم VPN، فحاول بدونه.

رفض اتصال API

تأكد من أن Ollama قيد التشغيل: ollama serve (عادةً ما يعمل تلقائيًا)

نفاد الذاكرة

استخدم نموذجًا أصغر. نموذج 9B يحتاج إلى ذاكرة وصول عشوائي كبيرة. أغلق التطبيقات الأخرى.

الخلاصة

يجعل Ollama تشغيل نماذج Qwen 3.5 محليًا أمرًا مباشرًا. سواء كنت مطورًا يقوم ببناء تطبيقات الذكاء الاصطناعي أو ترغب فقط في تجربة LLMs المحلية، تستغرق العملية دقائق بدلاً من ساعات.

إن الجمع بين قدرات Qwen 3.5 القوية متعددة اللغات وواجهة Ollama البسيطة يجعل هذا أحد أسهل الطرق للبدء بالذكاء الاصطناعي المحلي.

الخطوات التالية: بمجرد إعداد Ollama API الخاص بك، استخدم Apidog لإنشاء حالات اختبار آلية تتحقق من جودة الاستجابة، وتختبر مطالبات مختلفة، وتراقب نقاط نهاية LLM المحلية الخاصة بك. ابدأ مع Apidog مجانًا.

button

الأسئلة الشائعة

ما الفرق بين Ollama وطرق النشر الأخرى؟

تم تصميم Ollama للبساطة. على عكس Docker أو النشر اليدوي للنموذج، فإنه يتعامل مع كل شيء (تنزيل النموذج، تسريع GPU، تقديم API) بأوامر بسيطة.

هل يمكنني استخدام Ollama مع نماذج Qwen أخرى؟

نعم، يدعم Ollama العديد من النماذج. تحقق من ollama.com/library للقائمة الكاملة.

كيف أقوم بتحديث نماذج Qwen في Ollama؟

اسحب أحدث إصدار: ollama pull qwen2.5:2b. يقوم هذا بتنزيل التحديثات إذا كانت متاحة.

هل يمكنني تشغيل نماذج متعددة في وقت واحد؟

نعم، ولكن كل نموذج يستخدم الذاكرة. يمكن لمعظم الأنظمة تشغيل 1-2 نموذج في وقت واحد.

هل بياناتي آمنة مع Ollama؟

نعم. كل شيء يعمل محليًا. لا يتم إرسال أي بيانات إلى خوادم خارجية.

هل يمكنني ضبط نماذج Qwen باستخدام Ollama؟

Ollama مخصص للاستدلال فقط. للضبط الدقيق، ستحتاج إلى أدوات أخرى مثل محولات LoRA.

كيف أغير المنفذ الذي يستخدمه Ollama؟

عيّن متغير البيئة OLLAMA_HOST قبل التشغيل: export OLLAMA_HOST=0.0.0.0:8080

ممارسة تصميم API في Apidog

اكتشف طريقة أسهل لبناء واستخدام واجهات برمجة التطبيقات