ملخص سريع
يوفر Ollama أسهل طريقة لتشغيل نماذج Qwen 3.5 الصغيرة (0.8B، 2B، 4B، و 9B) محليًا على جهاز Mac أو Linux أو Windows الخاص بك. باستخدام أمر بسيط ollama run، يمكنك الوصول إلى ميزات الذكاء الاصطناعي القوية دون تكاليف واجهة برمجة التطبيقات السحابية. قم بتنزيل Ollama، اسحب نموذجًا، وابدأ الدردشة في أقل من 5 دقائق.

مقدمة
لقد أصبح تشغيل نماذج اللغات الكبيرة محليًا شائعًا جدًا، و Ollama يجعل الأمر مباشرًا. إذا كنت ترغب في استخدام نماذج Qwen 3.5 من Alibaba دون إرسال البيانات إلى السحابة أو الدفع مقابل الرمز، فإن Ollama هو الحل.
يرشدك هذا الدليل عبر كل ما تحتاج لمعرفته حول تشغيل نماذج Qwen 3.5 الصغيرة باستخدام Ollama. سواء كنت بحاجة إلى نموذج 0.8B المدمج للمهام السريعة أو نموذج 9B الأكبر للاستدلال المعقد، سنغطي التثبيت والاستخدام والتكامل.
لماذا تستخدم Ollama لـ Qwen 3.5
أصبح Ollama الحل الأمثل لنشر LLM المحلي:
إعداد بسيط
لا توجد إعدادات Docker أو Python معقدة. قم بتنزيل تطبيق واحد وستكون جاهزًا.
الخصوصية أولاً
تبقى بياناتك على جهازك. هذا مهم لبيانات الأعمال أو أي شيء حساس.
لا توجد تكاليف API
بعد تنزيل النماذج، تشغيلها مجاني. لا توجد رسوم لكل رمز مميز أو اشتراكات.
القدرة على العمل دون اتصال
استخدم الذكاء الاصطناعي في أي مكان، حتى بدون الإنترنت.
تسريع الأجهزة
يستخدم Ollama تسريع GPU تلقائيًا عند توفره، مما يجعل الاستدلال المحلي سريعًا.
تثبيت Ollama
تثبيت على Mac
إذا كان لديك جهاز Mac، يستغرق التثبيت ثوانٍ:
# قم بالتنزيل من ollama.com أو استخدم Homebrew
brew install ollama
هذا كل شيء. سيكتشف Ollama تلقائيًا Apple Silicon (M1/M2/M3) ويستخدم Metal لتسريع GPU.
تثبيت على Linux
لخوادم Linux أو WSL:
# تثبيت سريع
curl -fsSL https://ollama.com/install.sh | sh
تثبيت على Windows
يمكن لمستخدمي Windows تنزيل برنامج التثبيت. يدعم إصدار Windows تسريع GPU عبر DirectML.

التحقق
بعد التثبيت، تحقق من أن كل شيء يعمل:
ollama --version
يجب أن ترى رقم الإصدار. الآن دعنا نسحب بعض نماذج Qwen.
تشغيل نماذج Qwen 3.5
سحب أول نموذج لك
يجعل Ollama تنزيل النماذج بسيطًا:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bيستغرق تنزيل كل نموذج بضع دقائق حسب سرعة الإنترنت لديك. نموذج 2B حوالي 1.5 جيجابايت، بينما نموذج 9B حوالي 5 جيجابايت.
بدء جلسة محادثة
بمجرد السحب، ابدأ الدردشة على الفور:
ollama run qwen3.5:9b
سترى موجهًا يمكنك الكتابة فيه مباشرة:
>>> ما هو الحوسبة الكمومية بعبارات بسيطة؟
الحوسبة الكمومية هي نوع من الحوسبة حيث...
اكتب أسئلتك واضغط على Enter. اضغط على Ctrl+D للخروج.
سرد النماذج المتاحة
انظر ما قمت بتثبيته:
ollama list
يعرض الإخراج كل نموذج وحجمه ومتى استخدمته آخر مرة.
إزالة النماذج
قم بتحرير مساحة القرص عن طريق إزالة النماذج التي لا تحتاجها:
ollama remove qwen3.5:9b
مقارنة النماذج واختيارها
يعتمد اختيار النموذج المناسب على أجهزتك وحالة الاستخدام:
| النموذج | المعاملات | حجم النموذج التقريبي (BF16، دقة كاملة) | الذاكرة العشوائية المطلوبة (BF16، دليل Unsloth) | الأفضل لـ |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 جيجابايت | ~9 جيجابايت | الحافة الفائقة الخفة والمتنقلة: إكمال تلقائي سريع، روبوتات دردشة بسيطة، أدوات صغيرة، رؤية/تعرف ضوئي أساسي على الأجهزة منخفضة المواصفات جدًا. |
| Qwen3.5-2B | 2B | ~4 جيجابايت | ~9 جيجابايت | مساعدون خفيفو الوزن، وكلاء صغار، مساعدة أساسية في البرمجة، متعدد الوسائط جيد على أجهزة الكمبيوتر المحمولة ذات الذاكرة العشوائية المتواضعة. |
| Qwen3.5-4B | 4B | ~8 جيجابايت | ~14 جيجابايت | مساعد مطور "إكمال تلقائي ذكي"، وكلاء خفيفو الوزن، استدلال متعدد الوسائط أفضل من 2B مع سهولة التشغيل محليًا. |
| Qwen3.5-9B | 9B | ~18 جيجابايت | ~19 جيجابايت | مساعد عام قوي، متعدد اللغات ورؤية جيدة، يمكن استخدامه كذكاء اصطناعي محلي رئيسي على جهاز بذاكرة وصول عشوائي/فيديو 16-24 جيجابايت. |
توصية لمعظم المستخدمين: ابدأ بـ qwen2.5:2b. يوفر أفضل توازن بين القدرة والسرعة. قم بالترقية إلى 4B أو 9B فقط إذا كنت بحاجة إلى قوة استدلال أكبر.
واجهة برمجة تطبيقات Ollama للمطورين
يقوم Ollama بتشغيل خادم API محلي يمكن لتطبيقاتك استدعاؤه. هذا مثالي لدمج Qwen 3.5 في مشاريعك.
بدء تشغيل خادم API
يعمل Ollama كخدمة خلفية افتراضيًا. API متاح على:
http://localhost:11434
إكمال الدردشة الأساسي
أرسل الطلبات إلى نقطة نهاية الدردشة:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "What is Python?"}
],
"stream": false
}'
الاستجابة:

تدفق الاستجابات
للحصول على إخراج في الوقت الفعلي، قم بتمكين التدفق:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Count to 5"}],
"stream": true
}'
يقوم هذا بتدفق الرموز المميزة عند إنشائها.
نقطة نهاية التوليد
لمطالبات غير الدردشة:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Write a haiku about coding",
"stream": false
}'
الدمج مع تطبيقاتك
تكامل بايثون
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Explain recursion"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
تكامل جافاسكريبت/نود.جي إس
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'What is an API?'}]
})
});
const data = await response.json();
console.log(data.message.content);
اختبار التكامل الخاص بك مع Apidog
عند بناء تطبيقات تستدعي Ollama، استخدم أدوات اختبار API للتحقق من صحة الاستجابات. إليك كيفية اختبار Ollama API الخاص بك مع Apidog:
- أنشئ طلب POST جديد إلى
http://localhost:11434/api/chat - عيّن Content-Type إلى
application/json - أضف نص الطلب:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": false
}
يتيح لك Apidog إنشاء حالات اختبار تلقائية تتحقق من جودة الاستجابة، وتختبر مطالبات مختلفة، وتراقب نقاط نهاية LLM المحلية الخاصة بك. هذا يضمن عمل تكاملك بشكل موثوق في الإنتاج.
متطلبات الأداء والأجهزة
تسريع GPU
يستخدم Ollama GPU تلقائيًا عند توفره:
- Apple Silicon (M1/M2/M3): يستخدم Metal، فعال جدًا
- وحدات معالجة الرسوميات NVIDIA: يستخدم CUDA، أداء ممتاز
- وحدات معالجة الرسوميات AMD: يستخدم ROCm على Linux
- وحدة المعالجة المركزية فقط: يعمل ولكن أبطأ
الأداء المتوقع
| النموذج | GPU | رموز/ثانية (تقريبي) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
سيكون الاستدلال باستخدام وحدة المعالجة المركزية فقط أبطأ بكثير (5-10 أضعاف).
متطلبات الذاكرة
الحد الأدنى من ذاكرة الوصول العشوائي (RAM) حسب النموذج:
- 0.8B: 2 جيجابايت من ذاكرة الوصول العشوائي المتاحة
- 2B: 4 جيجابايت من ذاكرة الوصول العشوائي المتاحة
- 4B: 8 جيجابايت من ذاكرة الوصول العشوائي المتاحة
- 9B: 16 جيجابايت من ذاكرة الوصول العشوائي المتاحة
وجود ذاكرة وصول عشوائي أكبر من الحد الأدنى يساعد في الاستجابة.
استكشاف المشاكل الشائعة وإصلاحها
"Ollama غير موجود"
تأكد من أن Ollama موجود في مسارك (PATH). على Mac/Linux، أعد تشغيل المحطة الطرفية بعد التثبيت.
الأداء البطيء
- تحقق مما إذا كان GPU قيد الاستخدام:
ollama listيعرض معلومات النموذج - لوحدة المعالجة المركزية فقط: توقع سرعات أبطأ
- أغلق تطبيقات GPU الأخرى
فشل تنزيل النموذج
حاول مرة أخرى باتصال إنترنت أسرع. إذا كنت تستخدم VPN، فحاول بدونه.
رفض اتصال API
تأكد من أن Ollama قيد التشغيل: ollama serve (عادةً ما يعمل تلقائيًا)
نفاد الذاكرة
استخدم نموذجًا أصغر. نموذج 9B يحتاج إلى ذاكرة وصول عشوائي كبيرة. أغلق التطبيقات الأخرى.
الخلاصة
يجعل Ollama تشغيل نماذج Qwen 3.5 محليًا أمرًا مباشرًا. سواء كنت مطورًا يقوم ببناء تطبيقات الذكاء الاصطناعي أو ترغب فقط في تجربة LLMs المحلية، تستغرق العملية دقائق بدلاً من ساعات.
إن الجمع بين قدرات Qwen 3.5 القوية متعددة اللغات وواجهة Ollama البسيطة يجعل هذا أحد أسهل الطرق للبدء بالذكاء الاصطناعي المحلي.
الخطوات التالية: بمجرد إعداد Ollama API الخاص بك، استخدم Apidog لإنشاء حالات اختبار آلية تتحقق من جودة الاستجابة، وتختبر مطالبات مختلفة، وتراقب نقاط نهاية LLM المحلية الخاصة بك. ابدأ مع Apidog مجانًا.
الأسئلة الشائعة
ما الفرق بين Ollama وطرق النشر الأخرى؟
تم تصميم Ollama للبساطة. على عكس Docker أو النشر اليدوي للنموذج، فإنه يتعامل مع كل شيء (تنزيل النموذج، تسريع GPU، تقديم API) بأوامر بسيطة.
هل يمكنني استخدام Ollama مع نماذج Qwen أخرى؟
نعم، يدعم Ollama العديد من النماذج. تحقق من ollama.com/library للقائمة الكاملة.
كيف أقوم بتحديث نماذج Qwen في Ollama؟
اسحب أحدث إصدار: ollama pull qwen2.5:2b. يقوم هذا بتنزيل التحديثات إذا كانت متاحة.
هل يمكنني تشغيل نماذج متعددة في وقت واحد؟
نعم، ولكن كل نموذج يستخدم الذاكرة. يمكن لمعظم الأنظمة تشغيل 1-2 نموذج في وقت واحد.
هل بياناتي آمنة مع Ollama؟
نعم. كل شيء يعمل محليًا. لا يتم إرسال أي بيانات إلى خوادم خارجية.
هل يمكنني ضبط نماذج Qwen باستخدام Ollama؟
Ollama مخصص للاستدلال فقط. للضبط الدقيق، ستحتاج إلى أدوات أخرى مثل محولات LoRA.
كيف أغير المنفذ الذي يستخدمه Ollama؟
عيّن متغير البيئة OLLAMA_HOST قبل التشغيل: export OLLAMA_HOST=0.0.0.0:8080
