تشغيل GPT-OSS مجانًا باستخدام Ollama

إن تشغيل نماذج اللغة الكبيرة (LLMs) محليًا يمكّن المطورين من تحقيق الخصوصية والتحكم وتوفير التكاليف. تقدم نماذج OpenAI مفتوحة الوزن، والمعروفة إجمالاً باسم GPT-OSS (gpt-oss-120b و gpt-oss-20b)، قدرات استدلال قوية لمهام مثل البرمجة وسير العمل الوكيل وتحليل البيانات. باستخدام Ollama، وهي منصة مفتوحة المصدر، يمكنك نشر هذه النماذج على أجهزتك الخاصة دون الاعتماد على السحابة. يرشدك هذا الدليل الفني خلال تثبيت Ollama، وتكوين نماذج GPT-OSS، وتصحيح الأخطاء باستخدام Apidog، وهي أداة تبسط اختبار واجهة برمجة التطبيقات (API) لـ LLMs المحلية.

💡

لتصحيح أخطاء واجهة برمجة التطبيقات (API) بسلاسة، قم بتنزيل Apidog مجانًا لتصور وتحسين تفاعلاتك مع GPT-OSS.

زر

لماذا تشغل GPT-OSS محليًا باستخدام Ollama؟

يوفر تشغيل GPT-OSS محليًا باستخدام Ollama مزايا واضحة للمطورين والباحثين. أولاً، يضمن خصوصية البيانات، حيث تبقى مدخلاتك ومخرجاتك على جهازك. ثانيًا، يلغي تكاليف واجهة برمجة التطبيقات السحابية المتكررة، مما يجعله مثاليًا لحالات الاستخدام عالية الحجم أو التجريبية. ثالثًا، يسمح توافق Ollama مع بنية واجهة برمجة تطبيقات OpenAI بالتكامل السلس مع الأدوات الموجودة، بينما يضمن دعمها للنماذج الكمية مثل gpt-oss-20b (التي تتطلب ذاكرة 16 جيجابايت فقط) إمكانية الوصول على الأجهزة المتواضعة.

علاوة على ذلك، تبسط Ollama تعقيدات نشر نماذج اللغة الكبيرة (LLM). تتعامل مع أوزان النموذج والتبعيات والتكوينات من خلال ملف Modelfile واحد، يشبه حاوية Docker للذكاء الاصطناعي. بالاقتران مع Apidog، الذي يوفر تصورًا في الوقت الفعلي لاستجابات الذكاء الاصطناعي المتدفقة، تحصل على نظام بيئي قوي لتطوير الذكاء الاصطناعي المحلي. بعد ذلك، دعنا نستكشف المتطلبات الأساسية لإعداد هذه البيئة.

المتطلبات الأساسية لتشغيل GPT-OSS محليًا

قبل المتابعة، تأكد من أن نظامك يلبي المتطلبات التالية:

الأجهزة:
لـ gpt-oss-20b: ذاكرة وصول عشوائي (RAM) لا تقل عن 16 جيجابايت، ويفضل أن تكون مع وحدة معالجة رسوميات (GPU) (مثل NVIDIA 1060 4GB).
لـ gpt-oss-120b: ذاكرة وحدة معالجة رسوميات (GPU) بحجم 80 جيجابايت (مثل وحدة معالجة رسوميات واحدة بحجم 80 جيجابايت أو إعداد مركز بيانات متطور).
20-50 جيجابايت مساحة تخزين خالية لأوزان النموذج والتبعيات.
البرمجيات:
نظام التشغيل: يوصى بـ Linux أو macOS؛ Windows مدعوم بإعدادات إضافية.
Ollama: قم بالتنزيل من ollama.com.
اختياري: Docker لتشغيل Open WebUI أو Apidog لاختبار واجهة برمجة التطبيقات (API).
الإنترنت: اتصال مستقر للتنزيلات الأولية للنموذج.
التبعيات: برامج تشغيل NVIDIA/AMD GPU إذا كنت تستخدم تسريع GPU؛ وضع CPU فقط يعمل ولكنه أبطأ.

مع توفر هذه المتطلبات، أنت جاهز لتثبيت Ollama ونشر GPT-OSS. دعنا ننتقل إلى عملية التثبيت.

الخطوة 1: تثبيت Ollama على نظامك

تثبيت Ollama مباشر وسهل، ويدعم macOS و Linux و Windows. اتبع هذه الخطوات لإعداده:

تنزيل Ollama:

قم بزيارة ollama.com وقم بتنزيل المثبت لنظام التشغيل الخاص بك.
بالنسبة لنظامي Linux/macOS، استخدم أمر الطرفية:

curl -fsSL https://ollama.com/install.sh | sh

يقوم هذا السكريبت بأتمتة عملية التنزيل والإعداد.

التحقق من التثبيت:

قم بتشغيل ollama --version في الطرفية الخاصة بك. يجب أن ترى رقم إصدار (مثل 0.1.44). إذا لم يكن كذلك، تحقق من Ollama GitHub لاستكشاف الأخطاء وإصلاحها.

بدء تشغيل خادم Ollama:

نفّذ ollama serve لتشغيل الخادم، الذي يستمع على http://localhost:11434. أبقِ هذه الطرفية تعمل أو قم بتكوين Ollama كخدمة خلفية للاستخدام المستمر.

بمجرد التثبيت، يصبح Ollama جاهزًا لتنزيل وتشغيل نماذج GPT-OSS. دعنا ننتقل إلى تنزيل النماذج.

الخطوة 2: تنزيل نماذج GPT-OSS

نماذج GPT-OSS من OpenAI (gpt-oss-120b و gpt-oss-20b) متاحة على Hugging Face ومحسّنة لـ Ollama بتقنية MXFP4 quantization، مما يقلل من متطلبات الذاكرة. اتبع هذه الخطوات لتنزيلها:

اختر النموذج:

gpt-oss-20b: مثالي لأجهزة الكمبيوتر المكتبية/المحمولة التي تحتوي على ذاكرة وصول عشوائي (RAM) بحجم 16 جيجابايت. يقوم بتنشيط 3.6 مليار معلمة لكل رمز، وهو مناسب للأجهزة الطرفية.

gpt-oss-120b: مصمم لمراكز البيانات أو وحدات معالجة الرسوميات (GPUs) المتطورة بذاكرة 80 جيجابايت، يقوم بتنشيط 5.1 مليار معلمة لكل رمز.

التنزيل عبر Ollama:

في الطرفية الخاصة بك، قم بالتشغيل:

ollama pull gpt-oss-20b

أو

ollama pull gpt-oss-120b

اعتمادًا على جهازك، قد يستغرق التنزيل (20-50 جيجابايت) بعض الوقت. تأكد من وجود اتصال إنترنت مستقر.

التحقق من التنزيل:

لإدراج النماذج المثبتة، استخدم:

ollama list

ابحث عن gpt-oss-20b:latest أو gpt-oss-120b:latest.

بعد تنزيل النموذج، يمكنك الآن تشغيله محليًا. دعنا نستكشف كيفية التفاعل مع GPT-OSS.

الخطوة 3: تشغيل نماذج GPT-OSS باستخدام Ollama

توفر Ollama طرقًا متعددة للتفاعل مع نماذج GPT-OSS: واجهة سطر الأوامر (CLI)، أو واجهة برمجة التطبيقات (API)، أو الواجهات الرسومية مثل Open WebUI. دعنا نبدأ بواجهة سطر الأوامر للتبسيط.

بدء جلسة تفاعلية:

قم بالتشغيل:

ollama run gpt-oss-20b

يفتح هذا جلسة دردشة في الوقت الفعلي. اكتب استعلامك (على سبيل المثال، "اكتب دالة بايثون للبحث الثنائي") واضغط على Enter. استخدم /help للأوامر الخاصة.

استعلامات لمرة واحدة:

للحصول على استجابات سريعة بدون وضع تفاعلي، استخدم:

ollama run gpt-oss-20b "Explain quantum computing in simple terms"

تعديل المعلمات:

عدّل سلوك النموذج بمعلمات مثل درجة الحرارة (الإبداع) و top-p (تنوع الاستجابة). على سبيل المثال:

ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Write a factual summary of blockchain technology"

تضمن درجة الحرارة المنخفضة (على سبيل المثال، 0.1) مخرجات حتمية وواقعية، مثالية للمهام الفنية.

بعد ذلك، دعنا نخصص سلوك النموذج باستخدام Modelfiles لحالات استخدام محددة.

الخطوة 4: تخصيص GPT-OSS باستخدام ملفات Ollama Modelfiles

تسمح لك ملفات Modelfiles الخاصة بـ Ollama بتكييف سلوك GPT-OSS دون إعادة التدريب. يمكنك تعيين مطالبات النظام، أو ضبط حجم السياق، أو ضبط المعلمات بدقة. إليك كيفية إنشاء نموذج مخصص:

إنشاء ملف Modelfile:

أنشئ ملفًا باسم Modelfile يحتوي على:

FROM gpt-oss-20b
SYSTEM "You are a technical assistant specializing in Python programming. Provide concise, accurate code with comments."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096

يقوم هذا بتكوين النموذج كمساعد يركز على بايثون مع إبداع معتدل ونافذة سياق بحجم 4 آلاف رمز.

بناء النموذج المخصص:

انتقل إلى الدليل الذي يحتوي على ملف Modelfile وقم بالتشغيل:

ollama create python-gpt-oss -f Modelfile

تشغيل النموذج المخصص:

قم بتشغيله باستخدام:

ollama run python-gpt-oss

الآن، يعطي النموذج الأولوية للاستجابات المتعلقة بلغة بايثون بالسلوك المحدد.

يعزز هذا التخصيص GPT-OSS لمجالات محددة، مثل البرمجة أو التوثيق الفني. الآن، دعنا ندمج النموذج في التطبيقات باستخدام واجهة برمجة تطبيقات Ollama.

الخطوة 5: دمج GPT-OSS مع واجهة برمجة تطبيقات Ollama

تتيح واجهة برمجة تطبيقات Ollama، التي تعمل على http://localhost:11434، الوصول البرمجي إلى GPT-OSS. وهذا مثالي للمطورين الذين يبنون تطبيقات مدعومة بالذكاء الاصطناعي. إليك كيفية استخدامها:

نقاط نهاية واجهة برمجة التطبيقات (API Endpoints):

POST /api/generate: ينشئ نصًا لمطالبة واحدة. مثال:

curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Write a Python script for a REST API"}'

POST /api/chat: يدعم التفاعلات الحوارية مع سجل الرسائل:

curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Explain neural networks"}]}'

POST /api/embeddings: ينشئ تضمينات متجهية للمهام الدلالية مثل البحث أو التصنيف.

توافق OpenAI:

تدعم Ollama تنسيق واجهة برمجة تطبيقات OpenAI Chat Completions. استخدم بايثون مع مكتبة OpenAI:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "What is machine learning?"}]
)
print(response.choices[0].message.content)

يتيح دمج واجهة برمجة التطبيقات هذا لـ GPT-OSS تشغيل روبوتات الدردشة، أو مولدات الأكواد، أو أدوات تحليل البيانات. ومع ذلك، قد يكون تصحيح أخطاء الاستجابات المتدفقة أمرًا صعبًا. دعنا نرى كيف يبسط Apidog هذا الأمر.

الخطوة 6: تصحيح أخطاء GPT-OSS باستخدام Apidog

Apidog هي أداة قوية لاختبار واجهة برمجة التطبيقات (API) تقوم بتصور الاستجابات المتدفقة من نقاط نهاية Ollama، مما يسهل تصحيح أخطاء مخرجات GPT-OSS. إليك كيفية استخدامها:

تثبيت Apidog:

قم بتنزيل Apidog من apidog.com وقم بتثبيته على نظامك.

تكوين واجهة برمجة تطبيقات Ollama في Apidog:

أنشئ طلب واجهة برمجة تطبيقات جديدًا في Apidog.
اضبط عنوان URL على http://localhost:11434/api/generate.
استخدم نص JSON مثل:

{
  "model": "gpt-oss-20b",
  "prompt": "Generate a Python function for sorting",
  "stream": true
}

تصور الاستجابات:

يدمج Apidog الرموز المتدفقة في تنسيق قابل للقراءة، على عكس مخرجات JSON الخام. يساعد هذا في تحديد مشكلات التنسيق أو الأخطاء المنطقية في استدلال النموذج.
استخدم تحليل استدلال Apidog لفحص عملية التفكير خطوة بخطوة لـ GPT-OSS، خاصة للمهام المعقدة مثل البرمجة أو حل المشكلات.

الاختبار المقارن:

أنشئ مجموعات مطالبات في Apidog لاختبار كيفية تأثير المعلمات المختلفة (مثل درجة الحرارة، top-p) على مخرجات GPT-OSS. يضمن هذا الأداء الأمثل للنموذج لحالة الاستخدام الخاصة بك.

يحول تصور Apidog تصحيح الأخطاء من مهمة شاقة إلى عملية واضحة وقابلة للتنفيذ، مما يعزز سير عمل التطوير الخاص بك. الآن، دعنا نتناول المشكلات الشائعة التي قد تواجهها.

الخطوة 7: استكشاف المشكلات الشائعة وإصلاحها

قد يواجه تشغيل GPT-OSS محليًا تحديات. إليك حلول للمشكلات المتكررة:

خطأ ذاكرة وحدة معالجة الرسوميات (GPU):

المشكلة: يفشل gpt-oss-120b بسبب عدم كفاية ذاكرة وحدة معالجة الرسوميات (GPU).
الحل: انتقل إلى gpt-oss-20b أو تأكد من أن نظامك يحتوي على وحدة معالجة رسوميات (GPU) بحجم 80 جيجابايت. تحقق من استخدام الذاكرة باستخدام nvidia-smi.

النموذج لا يبدأ التشغيل:

المشكلة: يفشل ollama run مع ظهور خطأ.
الحل: تحقق من تنزيل النموذج (ollama list) وأن خادم Ollama يعمل (ollama serve). تحقق من السجلات في ~/.ollama/logs.

واجهة برمجة التطبيقات لا تستجيب:

المشكلة: تفشل طلبات واجهة برمجة التطبيقات إلى localhost:11434.
الحل: تأكد من أن ollama serve نشط وأن المنفذ 11434 مفتوح. استخدم netstat -tuln | grep 11434 للتأكيد.

أداء بطيء:

المشكلة: الاستدلال المعتمد على وحدة المعالجة المركزية بطيء.
الحل: قم بتمكين تسريع وحدة معالجة الرسوميات (GPU) باستخدام برامج التشغيل المناسبة أو استخدم نموذجًا أصغر مثل gpt-oss-20b.

للمشكلات المستمرة، استشر Ollama GitHub أو مجتمع Hugging Face للحصول على دعم GPT-OSS.

الخطوة 8: تحسين GPT-OSS باستخدام Open WebUI

للحصول على واجهة سهلة الاستخدام، قم بإقران Ollama مع Open WebUI، وهي لوحة تحكم قائمة على المتصفح لـ GPT-OSS:

تثبيت Open WebUI:

استخدم Docker:

docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main

الوصول إلى الواجهة:

افتح http://localhost:3000 في متصفحك.
اختر gpt-oss-20b أو gpt-oss-120b وابدأ الدردشة. تشمل الميزات سجل الدردشة، وتخزين المطالبات، وتبديل النموذج.

تحميل المستندات:

قم بتحميل الملفات للحصول على استجابات واعية بالسياق (مثل مراجعات الكود أو تحليل البيانات) باستخدام التوليد المعزز بالاسترجاع (RAG).

تبسط Open WebUI التفاعل للمستخدمين غير التقنيين، وتكمل قدرات تصحيح الأخطاء التقنية لـ Apidog.

الخاتمة: إطلاق العنان لـ GPT-OSS باستخدام Ollama و Apidog

إن تشغيل GPT-OSS محليًا باستخدام Ollama يمكّنك من الاستفادة من نماذج OpenAI مفتوحة الوزن مجانًا، مع تحكم كامل في الخصوصية والتخصيص. باتباع هذا الدليل، تعلمت كيفية تثبيت Ollama، وتنزيل نماذج GPT-OSS، وتخصيص السلوك، والدمج عبر واجهة برمجة التطبيقات (API)، وتصحيح الأخطاء باستخدام Apidog. سواء كنت تبني تطبيقات مدعومة بالذكاء الاصطناعي أو تجرب مهام الاستدلال، فإن هذا الإعداد يوفر مرونة لا مثيل لها. يمكن للتعديلات الصغيرة، مثل ضبط المعلمات أو استخدام تصور Apidog، أن تعزز سير عملك بشكل كبير. ابدأ في استكشاف الذكاء الاصطناعي المحلي اليوم واطلق العنان لإمكانيات GPT-OSS!

زر