Qwen-2.5-72b: أفضل نموذج مفتوح المصدر للتعرف على النصوص؟

تعتبر قدرات التعرف على الأحرف الضوئية (OCR) مهمة بشكل متزايد في صناعة الذكاء الاصطناعي لمعالجة الوثائق واستخراج البيانات وأتمتة سير العمل. من بين نماذج اللغة البصرية مفتوحة المصدر المتاحة اليوم، برز نموذج Qwen-2.5-72b كمرشح قوي، خاصة لمهام OCR.

يستكشف هذا الدليل سبب تميز Qwen-2.5-72b كأفضل نموذج مفتوح المصدر لمهام OCR، مع دراسة أدائه ومعاييره الفنية، وكيفية نشره محليًا باستخدام Ollama.

💡

هل تبحث عن وسيلة أكثر كفاءة لتطوير واختبار وتوثيق واجهات برمجة التطبيقات (APIs) الخاصة بك؟ يقدم Apidog بديلاً شاملاً لـ Postman، يجمع بين تصميم واجهات برمجة التطبيقات، وتصحيح الأخطاء، والمحاكاة، والاختبار، والتوثيق في منصة موحدة واحدة.

زر

مع واجهته البديهية وميزاته القوية في التعاون، يقوم Apidog بتبسيط دورة حياة تطوير واجهات برمجة التطبيقات بالكامل، مما يساعد الفرق على العمل بكفاءة أكبر مع الحفاظ على التناسق عبر المشاريع.

سواء كنت مطورًا فرديًا أو جزءًا من مؤسسة كبيرة، فإن التكامل السلس لخدمة Apidog ومجموعة الأدوات القوية الخاصة به يجعله الرفيق المثالي لتطوير واجهات برمجة التطبيقات الحديثة.

زر

معايير أداء نماذج Qwen-2.5: نظرة سريعة

يمثل Qwen-2.5 أحدث سلسلة من نماذج اللغة الكبيرة الخاصة بـ Alibaba Cloud، والتي أُصدرت في سبتمبر 2024. إنها تقدم تقدمًا كبيرًا على سابقتها، Qwen-2، مع عدة تحسينات رئيسية:

تم التدريب عليها باستخدام مجموعة بيانات ضخمة تصل إلى 18 تريليون رمز
قدرة معرفة محسّنة وخبرة في المجال
قدرات أفضل في اتباع التعليمات
معالجة متقدمة للنصوص الطويلة (حتى 8K من الرموز المتولدة)
تحسين فهم البيانات المهيكلة وتوليد المخرجات
دعم لامتدادات السياق تصل إلى 128K من الرموز
دعم متعدد اللغات عبر 29 لغة

تتضمن عائلة Qwen-2.5 نماذج تتراوح من 0.5B إلى 72B من المعلمات. بالنسبة لمهام OCR، فإن النموذج الأكبر الذي يبلغ 72B يقدم الأداء الأكثر إثارة للإعجاب، على الرغم من أن النموذج الفرعي 32B يقدم أيضًا أداءً استثنائيًا.

لماذا يعد Qwen-2.5-72B أفضل نموذج مفتوح المصدر لـ OCR

نتائج المعايير

وفقًا لمعايير شاملة أجرتها OmniAI التي قاست نماذج مفتوحة المصدر لـ OCR، أظهرت نماذج Qwen-2.5-VL (بما في ذلك متغيرات 72B و 32B) أداءً لافتًا:

الدقة: حققت كل من نماذج Qwen-2.5-VL دقة تصل إلى حوالي 75% في مهام استخراج JSON من الوثائق، مما يتطابق مع أداء GPT-4o.
المنافسة: تفوقت نماذج Qwen-2.5-VL على mistral-ocr (72.2%)، والتي تم تدريبها خصيصًا لمهام OCR.
أداء متفوق: تفوقت بشكل ملحوظ على نماذج مفتوحة المصدر الشائعة الأخرى بما في ذلك Gemma-3 (27B) التي حققت فقط 42.9% دقة، ونماذج Llama.

ما يجعل هذا مثيرًا للإعجاب بشكل خاص هو أن نماذج Qwen-2.5-VL لم تُصمم حصريًا لمهام OCR، ومع ذلك تجاوزت أداء نماذج OCR المتخصصة. وهذا يدل على قدراتها المتنوعة والقوية لمعالجة الرؤية.

المزايا الرئيسية لمهام OCR

تساهم عدة عوامل في أداء Qwen-2.5-72B الاستثنائي في OCR:

معالجة البيانات المهيكلة المعززة: تتفوق نماذج Qwen-2.5 في فهم تنسيقات البيانات المهيكلة مثل الجداول والنماذج، والتي تعتبر شائعة في الوثائق التي تتطلب OCR.
تحسين توليد بيانات JSON: تم تحسين النموذج تحديدًا لتوليد مخرجات مهيكلة في تنسيقات مثل JSON، مما يعد أمرًا حيويًا لاستخراج وتنظيم المعلومات من الوثائق الممسوحة.
نافذة سياقية كبيرة: مع دعم للسياق يصل إلى 128K من الرموز، يمكن للنموذج معالجة مستندات كاملة أو عدة صفحات في الوقت نفسه، مع الحفاظ على التماسك والفهم السياقي throughout.
قدرات OCR متعددة اللغات: دعم لـ 29 لغة يجعله متعدد الاستخدامات لاحتياجات معالجة الوثائق الدولية.
الدمج بين النصوص والصور: يستفيد النموذج 72B من عدد معلماته الضخم لربط العناصر البصرية بشكل أفضل مع الفهم النصي، مما يحسن من فهم تخطيطات الوثائق والجداول والمحتويات المختلطة من النصوص والصور.
المرونة تجاه تنوع الوثائق: يقدم النموذج أداءً ثابتًا عبر أنواع الوثائق المختلفة، والجودة، والتنسيقات، مما يظهر قدرات قوية في OCR في السيناريوهات الواقعية.

تشغيل Qwen-2.5-72B محليًا مع Ollama

يوفر Ollama وسيلة سهلة لتشغيل نماذج اللغة الكبيرة محليًا، بما في ذلك Qwen-2.5-72b. إليك دليل خطوة بخطوة لنشر هذا النموذج القوي لمهام OCR على جهاز الكمبيوتر الخاص بك:

متطلبات النظام

قبل المتابعة، تأكد من أن نظامك يلبي الحد الأدنى من المتطلبات التالية:

الذاكرة العشوائية (RAM): 64GB أو أكثر موصى بها (47GB حجم النموذج بالإضافة إلى الحمل الإضافي)
وحدة معالجة الرسومات (GPU): GPU من NVIDIA بحد أدنى 48GB VRAM للدقة الكاملة، أو 24GB مع الكمّ العقاري
التخزين: مساحة خالية تبلغ 50GB على الأقل للنموذج والملفات المؤقتة
نظام التشغيل: Linux أو macOS أو Windows (مع WSL2)

خطوات التثبيت

تثبيت Ollama

قم بزيارة ollama.com/download وحمّل النسخة المناسبة لنظام التشغيل الخاص بك. اتبع تعليمات التثبيت.

جلب نموذج Qwen-2.5-72b

افتح نافذة الأوامر أو الطرفية وقم بتشغيل:

ollama pull qwen2.5:72b

سيقوم هذا بتنزيل النموذج، الذي يبلغ حجمها حوالي 47GB مع كمّ العقاري Q4_K_M. قد يستغرق التنزيل بعض الوقت حسب اتصالك بالإنترنت.

ابدأ النموذج

بعد التنزيل، يمكنك بدء النموذج باستخدام:

ollama run qwen2.5:72b

استخدام النموذج لمهام OCR

يمكنك التفاعل مع النموذج مباشرةً من خلال سطر الأوامر أو استخدام واجهة برمجة التطبيقات (API) الخاصة بـ Ollama للتطبيقات الأكثر تعقيدًا. لمهام OCR، ستحتاج إلى إرسال الصور إلى النموذج.

تكامل واجهات برمجة التطبيقات لمهام OCR

لاستخدام Qwen-2.5-72b من أجل OCR عبر واجهة برمجة التطبيقات الخاصة بـ Ollama:

ابدأ خادم Ollama

إذا لم يكن قيد التشغيل بالفعل، ابدأ خدمة Ollama.

إعداد طلب API

إليك مثال باستخدام مكتبة requests في Python:

import requests
import base64

# دالة لترميز الصورة
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# مسار صورة الوثيقة الخاصة بك
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# بناء طلب API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "استخرج النص من هذه الوثيقة وصيغه كـ JSON.",
    "images": [base64_image],
    "stream": False
}

# إرسال الطلب
response = requests.post(api_url, json=payload)
result = response.json()

# طباعة النص المستخرج
print(result['response'])

تحسين مطالبات OCR

للحصول على نتائج OCR أفضل، استخدم مطالبات محددة تستهدف نوع الوثيقة لديك:

للفواتير: "استخرج جميع تفاصيل الفاتورة بما في ذلك رقم الفاتورة، التاريخ، البائع، العناصر والخدمات الإجمالية كمجموعة JSON مهيكلة."
للنماذج: "استخرج جميع الحقول والقيم من هذه النموذج وصيغه كـ JSON."
لجدوال: "استخرج بيانات هذا الجدول وحولها إلى بنية مصفوفة JSON."

سير عمل OCR المتقدمة

للحصول على سير عمل OCR أكثر تعقيدًا، يمكنك الجمع بين Qwen-2.5-72b مع أدوات المعالجة المسبقة:

المعالجة المسبقة للوثائق

استخدم OpenCV أو مكتبات معالجة الصور الأخرى لتحسين صور الوثائق.
تطبيق إزالة الميل، وتعزيز التباين، وتقليل الضوضاء.

2. تقسيم الصفحات

بالنسبة للوثائق متعددة الصفحات، قسمها وعلّم كل صفحة على حدة.
استخدم نافذة السياق للنموذج للحفاظ على التماسك عبر الصفحات.

3. المعالجة اللاحقة

قم بتنفيذ منطق التحقق والتنظيف للنص المستخرج.
استخدم التعابير النظامية أو تمريرات LLM الثانوية لإصلاح أخطاء OCR الشائعة.

تحسين أداء OCR

للحصول على أفضل نتائج OCR من Qwen-2.5-72b، عليك مراعاة هذه الممارسات الأفضل:

جودة الصورة مهمة: قدم أعلى جودة ممكنة للصور في حدود واجهة برمجة التطبيقات.
كن محددًا في المطالبات: أخبر النموذج بالضبط ما هي المعلومات التي تحتاج لاستخراجها وفي أي تنسيق.
استفد من الناتج المهيكل: اغتنم الإمكانيات لتوليد JSON الخاصة بالنموذج من خلال طلب تنسيقات مهيكلة بشكل صريح.
استخدم رسائل النظام: قم بإعداد رسائل نظام مناسبة لإرشاد سلوك OCR للنموذج.
إعدادات درجة الحرارة: القيم المنخفضة لدرجة الحرارة (0.0-0.3) عادة ما تنتج نتائج OCR أكثر دقة.

الخلاصة

يمثل Qwen-2.5-72b تقدمًا كبيرًا في قدرات OCR مفتوحة المصدر. إن أدائه الاستثنائي في المعايير، متفوقًا حتى على نماذج OCR المتخصصة، يجعله خيارًا مثيرًا للمطورين والمنظمات التي تبحث عن حلول قوية لمعالجة الوثائق.

تجمع تركيبة النموذج بين الفهم البصري، ومعالجة البيانات المهيكلة، والقدرات متعددة اللغات، مما يخلق حلاً متعدد الاستخدامات لـ OCR يمكنه التعامل مع أنواع الوثائق المتنوعة عبر لغات مختلفة. بينما يتطلب موارد حوسبة كبيرة، تبرر النتائج الاستثمار لجماعات المستخدمين الكثيرة.

من خلال الاستفادة من Ollama للنشر المحلي، يمكن للمطورين بسهولة دمج هذا النموذج القوي في سير العمل الخاص بهم دون الاعتماد على واجهات برمجة التطبيقات الخارجية. يتيح ذلك إمكانيات لحلول معالجة الوثائق المعتمدة محليًا التي تحافظ على خصوصية البيانات مع تقديم أداء OCR متطور.

سواء كنت تبني سلسلة معالجة مستندات آلية، أو تستخرج البيانات من النماذج والفواتير، أو تقوم برقمنة المواد المطبوعة، فإن Qwen-2.5-72b تقدم واحدة من أكثر الحلول مفتوحة المصدر قدرة المتاحة اليوم لمهام OCR.