لقد انفجر عالم نماذج اللغات الكبيرة (LLMs)، وغالبًا ما يستحضر صورًا لأجهزة حاسوب عملاقة ضخمة مرتبطة بالسحابة تنتج النصوص. ولكن ماذا لو كان بإمكانك تسخير قوة كبيرة من الذكاء الاصطناعي مباشرة على جهاز الكمبيوتر الشخصي الخاص بك، دون الحاجة إلى اتصال إنترنت مستمر أو اشتراكات سحابية باهظة؟ الحقيقة المثيرة هي أنه يمكنك ذلك. بفضل التطورات في تقنيات التحسين، ظهر جيل جديد من "نماذج اللغات الكبيرة المحلية الصغيرة" (small local LLMs)، مما يوفر قدرات رائعة بينما يتناسب بشكل مريح مع قيود الذاكرة للأجهزة الاستهلاكية - وتحديداً، يتطلب أقل من 8 جيجابايت من ذاكرة الوصول العشوائي (RAM) أو ذاكرة الفيديو (VRAM).
هل تريد منصة متكاملة وشاملة لفريق المطورين الخاص بك للعمل معًا بأقصى قدر من الإنتاجية؟
Apidog يلبي جميع متطلباتك، ويحل محل Postman بسعر معقول أكثر بكثير!
دعنا نتحدث عن تكميم نماذج اللغات الكبيرة (LLM Quantizations) أولاً
للاستفادة بفعالية من نماذج اللغات الكبيرة المحلية الصغيرة، يعد الفهم الأساسي للمفاهيم التقنية الرئيسية أمرًا ضروريًا. التفاعل بين مكونات الأجهزة وتقنيات تحسين النموذج يحدد الأداء وإمكانية الوصول.
نقطة شائعة للخلط لدى المستخدمين الجدد هي الفرق بين ذاكرة الفيديو (VRAM) وذاكرة الوصول العشوائي للنظام (system RAM). ذاكرة الفيديو (VRAM) هي ذاكرة متخصصة وعالية السرعة تقع مباشرة على بطاقة الرسومات (GPU) الخاصة بك. تم تصميمها خصيصًا لمهام المعالجة المتوازية السريعة التي تتفوق فيها وحدات معالجة الرسومات، مثل عرض الرسومات أو إجراء عمليات ضرب المصفوفات الضخمة التي تعتبر أساسية لاستنتاج نماذج اللغات الكبيرة. في المقابل، ذاكرة الوصول العشوائي للنظام العادية أبطأ ولكنها عادةً ما تكون أكثر وفرة، وتعمل كذاكرة رئيسية لوحدة المعالجة المركزية (CPU) في الكمبيوتر والتطبيقات العامة. لتشغيل نماذج اللغات الكبيرة بكفاءة، يجب أن تقيم معلمات النموذج (الأوزان) والحسابات الوسيطة (التنشيطات) بشكل مثالي بالكامل داخل ذاكرة الفيديو السريعة، مما يسمح لوحدة معالجة الرسومات بالوصول إليها على الفور ومعالجة المعلومات بسرعة. إذا اضطرت مكونات النموذج إلى الإقامة في ذاكرة الوصول العشوائي للنظام الأبطأ، فسوف يتعرقل عملية الاستنتاج بشكل كبير، مما يؤدي إلى أوقات استجابة أبطأ بكثير.
التكنولوجيا الأساسية التي تجعل تشغيل نماذج اللغات الكبيرة ممكنًا على الأجهزة الاستهلاكية هي التكميم (quantization).

تقلل هذه العملية بشكل كبير من استهلاك الذاكرة لنماذج اللغات الكبيرة عن طريق تمثيل أوزان النموذج بعدد أقل من البتات، على سبيل المثال، باستخدام أعداد صحيحة 4 بت أو 8 بت بدلاً من الدقة القياسية ذات الفاصلة العائمة 16 بت أو 32 بت. تسمح هذه التقنية لنموذج يحتوي على 7 مليارات معلمة، والذي قد يتطلب عادةً حوالي 14 جيجابايت في FP16 (الدقة الكاملة)، بالعمل على ما يصل إلى 4-5 جيجابايت فقط باستخدام تكميم 4 بت. يعالج هذا الانخفاض في الذاكرة والحمل الحسابي بشكل مباشر عوائق تكلفة الأجهزة المرتفعة واستهلاك الطاقة، مما يجعل قدرات الذكاء الاصطناعي المتقدمة متاحة على الأجهزة الاستهلاكية القياسية.
ظهر تنسيق GGUF كمعيار لتخزين وتحميل النماذج المحلية المكمّاة، مما يوفر توافقًا واسعًا عبر محركات الاستنتاج المختلفة. ضمن نظام GGUF البيئي، توجد أنواع تكميم مختلفة، يقدم كل منها مفاضلة مميزة بين حجم الملف والجودة وسرعة الاستنتاج. للعديد من حالات الاستخدام العامة، يوصى غالبًا بـ Q4_K_M لأنه يحقق توازنًا بين الجودة وكفاءة الذاكرة. في حين أن التكميم فعال للغاية، فإن الدفع إلى معدلات بت منخفضة جدًا، مثل Q2_K أو IQ3_XS، يمكن أن يؤدي إلى تدهور ملحوظ في جودة النموذج.
من المهم أيضًا ملاحظة أن متطلبات ذاكرة الفيديو (VRAM) أو ذاكرة الوصول العشوائي (RAM) الفعلية لتشغيل نموذج لغة كبيرة (LLM) أعلى قليلاً من حجم ملف النموذج المكمّى. هذا لأن هناك حاجة إلى ذاكرة إضافية لتخزين بيانات الإدخال (المطالبات والسياق) ونتائج الحسابات الوسيطة (التنشيطات). عادةً، يمكن تقدير هذا الحمل الزائد بحوالي 1.2 مرة من حجم النموذج الأساسي.
البدء مع نماذج اللغات الكبيرة المحلية (Local LLMs) و Ollama
لقد نضج النظام البيئي لتشغيل نماذج اللغات الكبيرة المحلية بشكل كبير، حيث يقدم مجموعة متنوعة من الأدوات المصممة لتناسب تفضيلات المستخدمين المختلفة وكفاءاتهم التقنية. تبرز منصتان بارزتان لسهولة استخدامهما وقدراتهما القوية.

Ollama هي أداة قوية تركز على المطورين، مصممة لتشغيل نماذج اللغات الكبيرة محليًا ببساطة وكفاءة. واجهتها الأساسية هي واجهة سطر الأوامر (CLI)، والتي تسمح بإعداد وإدارة النماذج بسهولة. تتفوق Ollama في تغليف النماذج المدمج وميزة "Modelfile"، التي تمكن المستخدمين من تخصيص النماذج ودمجها بسلاسة في السكريبتات والتطبيقات المختلفة. المنصة خفيفة الوزن ومحسّنة الأداء، مما يجعلها مثالية للنشر السريع والقابل للتكرار في بيئات التطوير أو سير العمل الآلي.

للمستخدمين الذين يفضلون واجهة رسومية (GUI)، غالبًا ما يكون LM Studio هو الخيار المفضل. يقدم تطبيق سطح مكتب بديهي بتصميم نظيف، وواجهة دردشة مدمجة، ونظام سهل الاستخدام لتصفح وتنزيل النماذج بتنسيق GGUF مباشرة من Hugging Face. يبسّط LM Studio إدارة النماذج، مما يسمح للمستخدمين بالتبديل بسهولة بين نماذج اللغات الكبيرة المختلفة وضبط المعلمات مباشرة من واجهة المستخدم. هذه الملاحظات المرئية الفورية مفيدة بشكل خاص للمبتدئين والمستخدمين غير التقنيين، حيث تسهل التجربة السريعة واختبار المطالبات دون الحاجة إلى أي معرفة بسطر الأوامر.
العديد من الأدوات سهلة الاستخدام، بما في ذلك LM Studio، غالبًا ما تستفيد من Llama.cpp كمحرك استنتاج أساسي لها. Llama.cpp هو محرك استنتاج عالي الأداء مكتوب بلغة C++ يستخدم بشكل أساسي تنسيق GGUF ويدعم التسريع على كل من وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسومات (GPUs).
التحديد التالي يسلط الضوء على عشرة نماذج لغات كبيرة صغيرة عالية القدرة يمكن تشغيلها محليًا على أنظمة تحتوي على أقل من 8 جيجابايت من ذاكرة الفيديو (VRAM)، مما يوفر توازنًا بين الأداء والتنوع والكفاءة. تركز بصمات الذاكرة المقدمة على إصدارات GGUF المكمّاة، والتي تم تحسينها للأجهزة الاستهلاكية.
نماذج لغات كبيرة صغيرة يمكنك استكشافها
Llama 3.1 8B (مكمّم)
ollama run llama3.1:8b
نموذج Llama 3.1 8B من Meta هو نموذج مفتوح المصدر يحظى بتقدير كبير، ومعروف بأدائه العام القوي وكفاءته المذهلة من حيث التكلفة. إنه جزء من عائلة Llama 3.1، التي استفادت من تحسينات كبيرة في بيانات التدريب وتقنيات التحسين، بما في ذلك زيادة سبعة أضعاف في بيانات التدريب (أكثر من 15 تريليون رمز) مقارنة بأسلافها.

بينما يتطلب نموذج 8B الكامل عادةً المزيد من ذاكرة الفيديو (VRAM)، فإن إصداراته المكمّاة الأقل مصممة لتناسب حد 8 جيجابايت من ذاكرة الفيديو/الوصول العشوائي. على سبيل المثال، تكميم Q2_K له حجم ملف يبلغ 3.18 جيجابايت ويتطلب حوالي 7.20 جيجابايت من الذاكرة. وبالمثل، فإن Q3_K_M (حجم ملف 4.02 جيجابايت، وذاكرة مطلوبة 7.98 جيجابايت) هو خيار قابل للتطبيق للأنظمة ذات الذاكرة المحدودة.
يتفوق Llama 3.1 8B في أداء الذكاء الاصطناعي للمحادثة، كما تم قياسه بمعدل فوز AlpacaEval 2.0. يظهر قدرات قوية في توليد الكود (HumanEval Pass@1)، وتلخيص النصوص (CNN/DailyMail Rouge-L-Sum لمعالجة مراجعات المنتجات ورسائل البريد الإلكتروني)، ومهام التوليد المعزز بالاسترجاع (RAG) (MS Marco Rouge-L-Sum للإجابة الدقيقة على الأسئلة وتلخيص البحث باللغة الطبيعية). كما أنه فعال لتوليد مخرجات منظمة من النص، مثل استخراج المفاهيم إلى حمولة JSON، ولتقديم نظرات عامة على مقتطفات الكود القصيرة. كفاءته تجعله مناسبًا للمعالجة الدفعية وسير عمل الوكلاء.
Mistral 7B (مكمّم)
ollama run mistral:7b
Mistral 7B هو نموذج محول (transformer) كثيف بالكامل يحظى بثناء واسع لكفاءته وسرعته واستهلاكه المنخفض لذاكرة الفيديو (VRAM). يدمج تقنيات معمارية متقدمة مثل Grouped-Query Attention (GQA) و Sliding Window Attention (SWA) لتعزيز أدائه.

هذا النموذج محسّن بشكل كبير لبيئات ذاكرة الفيديو (VRAM) المنخفضة. الإصدارات المكمّاة مثل Q4_K_M (حجم ملف 4.37 جيجابايت، وذاكرة مطلوبة 6.87 جيجابايت) و Q5_K_M (حجم ملف 5.13 جيجابايت، وذاكرة مطلوبة 7.63 جيجابايت) تتناسب بشكل مريح ضمن ميزانية ذاكرة الفيديو البالغة 8 جيجابايت. Mistral 7B هو خيار ممتاز للاستنتاج السريع والمستقل للذكاء الاصطناعي والتطبيقات في الوقت الفعلي حيث تكون الاستجابة المنخفضة حاسمة. يظهر أداءً قويًا في المعرفة العامة ومهام الاستدلال المنظم. استهلاكه المنخفض لذاكرة الفيديو يجعله مناسبًا للنشر على الأجهزة الطرفية (edge devices). إنه فعال للدردشة متعددة الأدوار ويمكن استخدامه في حلول روبوتات الدردشة للذكاء الاصطناعي للاستفسارات العامة. ترخيصه Apache 2.0 مفضل بشكل خاص لحالات الاستخدام التجاري.
Gemma 3:4b (مكمّم)
ollama run gemma3:4b
نموذج Gemma 3:4B معلمة هو عضو في عائلة Gemma من Google DeepMind، تم تصميمه خصيصًا لتحقيق الكفاءة والأداء المتطور ضمن حزمة خفيفة الوزن. استهلاكه للذاكرة صغير للغاية، مما يجعله متاحًا بشكل كبير لمجموعة واسعة من الأجهزة.

على سبيل المثال، تكميم Q4_K_M له حجم ملف يبلغ 1.71 جيجابايت ويوصى به للأنظمة التي تحتوي على 4 جيجابايت من ذاكرة الفيديو (VRAM). هذا الاستخدام الأدنى للذاكرة يجعله مرشحًا مثاليًا للنماذج الأولية السريعة والنشر على الأجهزة المنخفضة جدًا، بما في ذلك الأجهزة المحمولة. Gemma 3:4B مناسب تمامًا لمهام توليد النصوص الأساسية، والإجابة على الأسئلة، والتلخيص. يمكن أن يكون فعالًا لاسترجاع المعلومات السريع وتطبيقات التعرف الضوئي على الأحرف (OCR). على الرغم من صغر حجمه، يظهر Gemma 3:4B أداءً قويًا.
Gemma 7B (مكمّم)
ollama run gemma:7b
بصفته الشقيق الأكبر في عائلة Gemma، يقدم نموذج 7B قدرات محسّنة مع بقائه قابلاً للتشغيل على الأجهزة الاستهلاكية. يشارك المكونات التقنية والبنية التحتية مع نماذج Gemini الأوسع من Google، مما يسمح له بتحقيق أداء عالٍ مباشرة على أجهزة الكمبيوتر المحمولة أو المكتبية للمطورين.

الإصدارات المكمّاة من Gemma 7B، مثل Q5_K_M (حجم ملف 6.14 جيجابايت) و Q6_K (حجم ملف 7.01 جيجابايت)، تتناسب بشكل مريح ضمن حد 8 جيجابايت من ذاكرة الفيديو (VRAM). يتطلب بشكل عام 8 جيجابايت على الأقل من ذاكرة الوصول العشوائي للنظام (system RAM) لتحقيق الأداء الأمثل. Gemma 7B هو نموذج متعدد الاستخدامات، قادر على التعامل مع مجموعة واسعة من مهام معالجة اللغة الطبيعية، بما في ذلك توليد النصوص، والإجابة على الأسئلة، والتلخيص، والاستدلال. يظهر قدرات في توليد الكود وتفسيره، بالإضافة إلى معالجة الاستفسارات الرياضية. بنيته، المشتركة مع نماذج Gemini الأكبر، تسمح بأداء عالٍ على أجهزة الكمبيوتر المحمولة أو المكتبية للمطورين، مما يجعله أداة قيمة لإنشاء المحتوى، والذكاء الاصطناعي للمحادثة، واستكشاف المعرفة.
Phi-3 Mini (3.8 مليار، مكمّم)
ollama run phi3
Phi-3 Mini من Microsoft هو نموذج خفيف الوزن ومتطور يتميز بكفاءته الاستثنائية وتركيزه القوي على الخصائص عالية الجودة والكثيفة بالاستدلال. يتحدى هذا النموذج الفكرة التقليدية بأن نماذج اللغات الكبيرة الأكبر فقط هي التي يمكنها التعامل بفعالية مع المهام المعقدة. Phi-3 Mini فعال بشكل ملحوظ في استخدام الذاكرة. على سبيل المثال، تكميم Q8_0 له حجم ملف يبلغ 4.06 جيجابايت ويتطلب حوالي 7.48 جيجابايت من الذاكرة، مما يضعه بشكل جيد ضمن حد 8 جيجابايت.

حتى إصدار FP16 (الدقة الكاملة) منه له حجم ملف يبلغ 7.64 جيجابايت، على الرغم من أنه يتطلب 10.82 جيجابايت من الذاكرة. يتفوق Phi-3 Mini في فهم اللغة، والاستدلال المنطقي، والبرمجة، وحل المشكلات الرياضية. حجمه وتصميمه المدمج يجعله مناسبًا للبيئات المقيدة بالذاكرة/الحوسبة والسيناريوهات المقيدة بزمن الاستجابة، بما في ذلك النشر على الأجهزة المحمولة. إنه مناسب بشكل خاص للمطالبات التي يتم تقديمها بتنسيق الدردشة ويمكن أن يكون بمثابة لبنة بناء للميزات المدعومة بالذكاء الاصطناعي التوليدي.
DeepSeek R1 7B/8B (مكمّم)
ollama run deepseek-r1:7b
نماذج DeepSeek، بما في ذلك متغيراتها 7B و 8B، معروفة بقدراتها القوية على الاستدلال وكفاءتها الحسابية. تم تسليط الضوء على متغير DeepSeek-R1-0528-Qwen3-8B باعتباره ربما أفضل نموذج استدلال بحجم 8B، حيث تم تقطيره من نموذج أكبر لتحقيق أداء عالٍ. تكميم DeepSeek R1 7B Q4_K_M له حجم ملف يبلغ 4.22 جيجابايت ويتطلب حوالي 6.72 جيجابايت من الذاكرة.

نموذج DeepSeek R1 8B له حجم نموذج عام يبلغ 4.9 جيجابايت، مع ذاكرة فيديو (VRAM) موصى بها تبلغ 6 جيجابايت. تتناسب هذه التكوينات بشكل مريح ضمن قيد 8 جيجابايت. نماذج DeepSeek قوية في فهم اللغة الطبيعية، وتوليد النصوص، والإجابة على الأسئلة، وتتفوق بشكل خاص في الاستدلال وتوليد الكود. بصمتها الحسابية المنخفضة نسبيًا تجعلها خيارًا جذابًا للشركات الصغيرة والمتوسطة (SMBs) والمطورين الذين يسعون لنشر حلول الذكاء الاصطناعي دون تكبد تكاليف سحابية ضخمة، وهي مناسبة لأنظمة دعم العملاء الذكية، وتحليل البيانات المتقدم، وتوليد المحتوى الآلي.
Qwen 1.5/2.5 7B (مكمّم)
ollama run qwen:7b
تقدم سلسلة Qwen من Alibaba مجموعة متنوعة من النماذج، حيث تعمل متغيرات 7B كقوة متوازنة لتطبيقات الذكاء الاصطناعي للأغراض العامة. Qwen 1.5، الذي يعتبر الإصدار التجريبي من Qwen2، يوفر دعمًا متعدد اللغات وطول سياق مستقر يبلغ 32 ألف رمز.

بالنسبة لاستهلاك الذاكرة، فإن تكميم Qwen 1.5 7B Q5_K_M له حجم ملف يبلغ 5.53 جيجابايت. Qwen2.5 7B له حجم نموذج عام يبلغ 4.7 جيجابايت، مع ذاكرة فيديو (VRAM) موصى بها تبلغ 6 جيجابايت. هذه النماذج تقع ضمن حد 8 جيجابايت من ذاكرة الفيديو. نماذج Qwen 7B متعددة الاستخدامات، ومناسبة للذكاء الاصطناعي للمحادثة، وتوليد المحتوى، ومهام الاستدلال الأساسية، وترجمة اللغات. على وجه التحديد، يظهر نموذج Qwen 7B Chat أداءً قويًا في فهم اللغتين الصينية والإنجليزية، والبرمجة، والرياضيات، ويدعم ReAct Prompting لاستخدام الأدوات. كفاءته تجعله مناسبًا لروبوتات الدردشة لدعم العملاء والمساعدة في البرمجة الأساسية.
Deepseek-coder-v2 6.7B (مكمّم)
ollama run deepseek-coder-v2:6.7b
Deepseek-coder-v2 6.7B هو نموذج متخصص من DeepSeek، مصمم بدقة لمهام البرمجة المحددة. يهدف هذا المتغير المعدّل بدقة إلى تعزيز كبير في قدرات توليد الكود وفهمه. بحجم نموذج يبلغ 3.8 جيجابايت وذاكرة فيديو (VRAM) موصى بها تبلغ 6 جيجابايت، يتناسب بشكل مريح ضمن قيد 8 جيجابايت، مما يجعله متاحًا للغاية للمطورين ذوي الأجهزة المحدودة. تشمل حالات الاستخدام الأساسية له إكمال الكود، وتوليد مقتطفات الكود، وتفسير الكود الموجود. للمطورين والمبرمجين الذين يعملون بذاكرة فيديو محدودة، يقدم Deepseek-coder-v2 6.7B قدرات متخصصة للغاية، مما يجعله الخيار الأفضل للمساعدة في البرمجة المحلية.
BitNet b1.58 2B4T
ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf
يمثل BitNet b1.58 2B4T من Microsoft نموذجًا ثوريًا مفتوح المصدر يستخدم تنسيق وزن 1.58 بت، مما يؤدي إلى تخفيضات جذرية في استهلاك الذاكرة والطاقة مع الحفاظ على أداء تنافسي. كفاءته غير المسبوقة في استخدام الذاكرة، حيث يتطلب 0.4 جيجابايت فقط من الذاكرة غير المدمجة، تجعله مناسبًا بشكل مثالي للبيئات المقيدة للغاية بالموارد، بما في ذلك أجهزة الذكاء الاصطناعي الطرفية مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة وأجهزة إنترنت الأشياء، وللاستنتاج الفعال باستخدام وحدة المعالجة المركزية فقط.

يجلب قدرات نماذج اللغات الكبيرة عالية الأداء إلى الأجهزة التي تفتقر إلى دعم وحدة معالجة رسومات مخصصة، مما يتيح الترجمة على الجهاز، وتوصية المحتوى، ومساعدي الصوت المحمولين الأكثر قدرة دون الحاجة إلى اتصال سحابي مستمر. بينما قد يظهر دقة أقل قليلاً مقارنة بالنماذج الأكبر بكثير، فإن أداءه بالنسبة لحجمه ملحوظ. كفاءته غير المسبوقة في استخدام الذاكرة وقدرته على العمل بفعالية على وحدات المعالجة المركزية يضعانه كعامل تغيير في اللعبة من حيث إمكانية الوصول والاستدامة في مشهد الذكاء الاصطناعي.
Orca-Mini 7B (مكمّم)
ollama run orca-mini:7b
Orca-Mini 7B هو نموذج للأغراض العامة مبني على معماريتي Llama و Llama 2، وتم تدريبه على مجموعات بيانات من نمط Orca. وهو متاح بأحجام مختلفة، حيث يثبت متغير 7B أنه خيار مناسب للأجهزة المبتدئة. نموذج orca-mini:7b له حجم ملف يبلغ 3.8 جيجابايت. الإصدارات المكمّاة مثل Q4_K_M (حجم ملف 4.08 جيجابايت، وذاكرة مطلوبة 6.58 جيجابايت) و Q5_K_M (حجم ملف 4.78 جيجابايت، وذاكرة مطلوبة 7.28 جيجابايت) تتناسب ضمن قيد 8 جيجابايت. يتطلب بشكل عام 8 جيجابايت على الأقل من ذاكرة الوصول العشوائي للنظام (system RAM) للتشغيل الأمثل. Orca-Mini 7B مناسب تمامًا لتوليد النصوص العامة، والإجابة على الأسئلة، ومهام المحادثة. يظهر اتباعًا قويًا للتعليمات ويمكن استخدامه بفعالية لبناء وكلاء الذكاء الاصطناعي. متغير Mistral-7B-OpenOrca المعدّل بدقة، والمبني على بحث Orca، يظهر أداءً استثنائيًا في توليد النصوص والكود، والإجابة على الأسئلة، والمشاركة في المحادثة.
الخلاصة
النماذج التي تم تسليط الضوء عليها في هذا التقرير - بما في ذلك Llama 3 8B، Mistral 7B، Gemma 2B و 7B، Phi-3 Mini، DeepSeek R1 7B/8B، Qwen 1.5/2.5 7B، Deepseek-coder-v2 6.7B، BitNet b1.58 2B4T، و Orca-Mini 7B - تمثل طليعة هذه الإمكانية الوصول. يقدم كل منها مزيجًا فريدًا من القدرات وكفاءة الذاكرة وحالات الاستخدام المثالية، مما يجعلها مناسبة لمجموعة متنوعة من المهام بدءًا من المحادثة العامة والكتابة الإبداعية وصولاً إلى المساعدة المتخصصة في البرمجة والاستدلال المعقد.
تعود فعالية هذه النماذج على الأنظمة ذات ذاكرة الفيديو (VRAM) المحدودة إلى حد كبير إلى تقنيات التكميم المتقدمة، والتي تقلل بشكل كبير من استهلاكها للذاكرة دون تدهور كبير في الجودة. تشير التطورات المستمرة في كفاءة النماذج والتركيز المتزايد على نشر الذكاء الاصطناعي على الأجهزة الطرفية إلى مستقبل حيث يتم دمج قدرات الذكاء الاصطناعي المتطورة بسلاسة في الأجهزة اليومية. يُشجع المستخدمون على تجربة النماذج الموصى بها، حيث أن الخيار "الأفضل" هو في النهاية شخصي ويعتمد على تكوينات الأجهزة الفردية ومتطلبات التطبيق المحددة. يواصل مجتمع المصادر المفتوحة النابض بالحياة المساهمة في هذا المشهد المتطور، مما يضمن مستقبلًا ديناميكيًا ومبتكرًا لنماذج اللغات الكبيرة المحلية.
هل تريد منصة متكاملة وشاملة لفريق المطورين الخاص بك للعمل معًا بأقصى قدر من الإنتاجية؟
Apidog يلبي جميع متطلباتك، ويحل محل Postman بسعر معقول أكثر بكثير!