Yapay Zeka Endüstrisi için, OCR yetenekleri belge işleme, veri çıkarma ve otomasyon iş akışları için giderek daha önemli hale geldi. Bugün mevcut olan açık kaynaklı vizyon dil modelleri (VLMs) arasında, Qwen-2.5-72b, özellikle OCR görevleri için güçlü bir rakip olarak ortaya çıktı.
Bu eğitim, Qwen-2.5-72b'nin OCR görevleri için neden potansiyel olarak en iyi açık kaynaklı model olarak öne çıktığını, performans ölçütlerini, teknik yeteneklerini ve Ollama kullanarak yerel olarak nasıl dağıtılacağını incelemektedir.

Sezgisel arayüzü ve güçlü işbirliği özellikleri ile Apidog, tüm API geliştirme yaşam döngüsünü kolaylaştırır, ekiplerin projeler arasında tutarlılığı korurken daha verimli çalışmasına yardımcı olur.

İster bireysel bir geliştirici olun, ister büyük bir kuruluşun parçası olun, Apidog'un sorunsuz iş akışı entegrasyonu ve sağlam araç seti, onu modern API geliştirme için mükemmel bir yol arkadaşı yapar.
Qwen-2.5 Modelleri Karşılaştırmaları: Hızlı Bir Bakış
Qwen-2.5, Alibaba Cloud'un Eylül 2024'te piyasaya sürülen en son büyük dil modelleri serisini temsil ediyor. Önceki modeli Qwen-2'ye göre önemli bir gelişme olup, birkaç önemli iyileştirme içeriyor:
- 18 trilyona kadar token'dan oluşan devasa bir veri kümesi üzerinde önceden eğitilmiş
- Geliştirilmiş bilgi kapasitesi ve alan uzmanlığı
- Üstün talimat takibi yetenekleri
- Uzun metinlerin gelişmiş işlenmesi (8K token üretimine kadar)
- Geliştirilmiş yapılandırılmış veri anlama ve çıktı üretimi
- 128K token'a kadar bağlam uzunlukları için destek
- 29 dilde çok dilli destek

Qwen-2.5 ailesi, 0.5B'den 72B parametreye kadar değişen modeller içerir. OCR görevleri için, en büyük 72B modeli en etkileyici performansı sunarken, 32B varyantı da olağanüstü performans gösterir.
Neden Qwen-2.5-72B En İyi Açık Kaynak OCR Modelidir?

Karşılaştırma Sonuçları
OmniAI tarafından OCR için açık kaynaklı modelleri değerlendiren kapsamlı karşılaştırmalara göre, Qwen-2.5-VL modelleri (hem 72B hem de 32B varyantları) dikkate değer bir performans sergiledi:
- Doğruluk: Her iki Qwen-2.5-VL modeli de belgelerden JSON çıkarma görevlerinde yaklaşık %75 doğruluk elde ederek GPT-4o'nun performansıyla eşleşti.
- Rekabet Avantajı: Qwen-2.5-VL modelleri, özellikle OCR görevleri için eğitilmiş olan mistral-ocr'den (%72,2) daha iyi performans gösterdi.
- Üstün Performans: Yalnızca %42,9 doğruluk elde eden Gemma-3 (27B) ve Llama modelleri dahil olmak üzere diğer popüler açık kaynaklı modellerden önemli ölçüde daha iyi performans gösterdiler.
Bunu özellikle etkileyici yapan şey, Qwen-2.5-VL modellerinin yalnızca OCR görevleri için tasarlanmamış olması, ancak yine de özel OCR modellerinden daha iyi performans göstermeleridir. Bu, çok yönlü ve sağlam vizyon işleme yeteneklerini göstermektedir.

OCR Görevleri için Temel Avantajlar
Qwen-2.5-72b'nin olağanüstü OCR performansına çeşitli faktörler katkıda bulunur:
- Geliştirilmiş Yapılandırılmış Veri İşleme: Qwen-2.5 modelleri, OCR gerektiren belgelerde yaygın olan tablolar ve formlar gibi yapılandırılmış veri formatlarını anlamada mükemmeldir.
- Geliştirilmiş JSON Çıktı Üretimi: Model, taranan belgelerden bilgi çıkarmak ve düzenlemek için çok önemli olan JSON gibi formatlarda yapılandırılmış çıktılar üretmek üzere özel olarak optimize edilmiştir.
- Geniş Bağlam Penceresi: 128K token'a kadar bağlam desteği ile model, bütünlük ve bağlamsal anlayışı koruyarak tüm belgeleri veya birden fazla sayfayı aynı anda işleyebilir.
- Çok Dilli OCR Yetenekleri: 29 dil desteği, onu uluslararası belge işleme ihtiyaçları için çok yönlü hale getirir.
- Görsel-Metinsel Entegrasyon: 72B modeli, belge düzenlerini, tabloları ve karışık metin-görüntü içeriğini daha iyi anlamayı sağlayarak, görsel öğeleri metinsel anlayışla daha iyi bağlamak için büyük parametre sayısından yararlanır.
- Belge Varyasyonuna Dayanıklılık: Model, çeşitli belge türlerinde, kalitelerinde ve formatlarında tutarlı bir şekilde performans göstererek, gerçek dünya senaryolarında sağlam OCR yetenekleri sergiler.
Qwen-2.5-72b'yi Ollama ile Yerel Olarak Çalıştırma
Ollama, Qwen-2.5-72b dahil olmak üzere büyük dil modellerini yerel olarak çalıştırmanın kolay bir yolunu sunar. Bu güçlü OCR modelini kendi makinenizde dağıtmak için adım adım bir kılavuz:
Sistem Gereksinimleri
Devam etmeden önce, sisteminizin bu minimum gereksinimleri karşıladığından emin olun:
- RAM: 64GB+ önerilir (47GB model boyutu artı ek yük)
- GPU: Tam hassasiyet için en az 48GB VRAM'e sahip NVIDIA GPU veya nicemleme ile 24GB+
- Depolama: Model ve geçici dosyalar için en az 50GB boş alan
- İşletim Sistemi: Linux, macOS veya Windows (WSL2 ile)
Kurulum Adımları
Ollama'yı Yükleyin
ollama.com/download adresini ziyaret edin ve işletim sisteminiz için uygun sürümü indirin. Kurulum talimatlarını izleyin.
Qwen-2.5-72b Modelini Çekin
Bir terminal veya komut istemi açın ve şunu çalıştırın:
ollama pull qwen2.5:72b
Bu, Q4_K_M nicemlemesi ile yaklaşık 47GB boyutunda olan modeli indirecektir. İndirme, internet bağlantınıza bağlı olarak biraz zaman alabilir.
Modeli Başlatın
İndirdikten sonra, modeli şunlarla başlatabilirsiniz:
ollama run qwen2.5:72b
OCR Görevleri için Modeli Kullanma
Model ile doğrudan komut satırından etkileşim kurabilir veya daha karmaşık uygulamalar için Ollama API'sini kullanabilirsiniz. OCR görevleri için, modele görüntüler göndermeniz gerekir.
OCR Görevleri için API Entegrasyonu
Ollama API'si aracılığıyla OCR için Qwen-2.5-72b'yi kullanmak için:
Ollama Sunucusunu Başlatın
Henüz çalışmıyorsa, Ollama hizmetini başlatın.
Bir API İsteği Ayarlayın
İşte requests kütüphanesini kullanan bir Python örneği:
import requests
import base64
# Görüntüyü kodlamak için fonksiyon
def encode_image(image_path):
with open(image_path, "rb") as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
# Belge görüntünüzün yolu
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)
# API isteğini oluşturun
api_url = "<http://localhost:11434/api/generate>"
payload = {
"model": "qwen2.5:72b",
"prompt": "Bu belgeden metni çıkarın ve JSON olarak biçimlendirin.",
"images": [base64_image],
"stream": False
}
# İsteği gönderin
response = requests.post(api_url, json=payload)
result = response.json()
# Çıkarılan metni yazdırın
print(result['response'])
OCR İsteklerini Optimize Edin
Daha iyi OCR sonuçları için, belge türünüze göre uyarlanmış özel istekler kullanın:
- Faturalar için: "Fatura numarası, tarihi, satıcı, kalemler ve toplam tutarlar dahil olmak üzere tüm fatura ayrıntılarını yapılandırılmış JSON olarak çıkarın."
- Formlar için: "Bu formdaki tüm alanları ve değerlerini çıkarın ve JSON olarak biçimlendirin."
- Tablolar için: "Bu tablo verilerini çıkarın ve bir JSON dizi yapısına dönüştürün."
Gelişmiş OCR İş Akışları
Daha gelişmiş OCR iş akışları için, Qwen-2.5-72b'yi ön işleme araçlarıyla birleştirebilirsiniz:
- Belge Ön İşlemesi
- Belge görüntülerini geliştirmek için OpenCV veya diğer görüntü işleme kütüphanelerini kullanın
- Düzeltme, kontrast iyileştirme ve gürültü azaltma uygulayın
2. Sayfa Bölümleme
- Çok sayfalı belgeler için, bunları bölün ve her sayfayı ayrı ayrı işleyin
- Sayfalar arasında tutarlılığı korumak için modelin bağlam penceresini kullanın
3. İşlem Sonrası
- Çıkarılan metin için doğrulama ve temizleme mantığı uygulayın
- Yaygın OCR hatalarını düzeltmek için düzenli ifadeler veya ikincil LLM geçişleri kullanın
OCR Performansını Optimize Etme
Qwen-2.5-72b'den en iyi OCR sonuçlarını almak için, bu en iyi uygulamaları göz önünde bulundurun:
- Görüntü Kalitesi Önemlidir: API sınırları dahilinde mümkün olan en yüksek çözünürlüklü görüntüleri sağlayın.
- İsteklerde Belirli Olun: Modele tam olarak hangi bilgileri hangi formatta çıkaracağını söyleyin.
- Yapılandırılmış Çıktıdan Yararlanın: Yapılandırılmış formatları açıkça talep ederek modelin JSON oluşturma yeteneklerinden yararlanın.
- Sistem Mesajları Kullanın: Modelin OCR davranışına rehberlik etmek için uygun sistem mesajları ayarlayın.
- Sıcaklık Ayarları: Daha düşük sıcaklık değerleri (0.0-0.3) tipik olarak daha doğru OCR sonuçları üretir.
Sonuç
Qwen-2.5-72b, açık kaynaklı OCR yeteneklerinde önemli bir ilerlemeyi temsil etmektedir. Karşılaştırmalardaki olağanüstü performansı, özel OCR modellerini bile geride bırakarak, güçlü belge işleme çözümleri arayan geliştiriciler ve kuruluşlar için cazip bir seçim haline getiriyor.
Modelin görsel anlama, yapılandırılmış veri işleme ve çok dilli yeteneklerinin kombinasyonu, çeşitli dillerde çeşitli belge türlerini işleyebilen çok yönlü bir OCR çözümü oluşturur. Önemli hesaplama kaynakları gerektirse de, sonuçlar birçok kullanım durumu için yatırımı haklı çıkarır.
Geliştiriciler, yerel dağıtım için Ollama'dan yararlanarak, bu güçlü modeli harici API'lere güvenmeden iş akışlarına kolayca entegre edebilirler. Bu, veri gizliliğini korurken son teknoloji OCR performansı sunan güvenli, şirket içi belge işleme çözümleri için olanakları açar.
İster otomatik bir belge işleme hattı oluşturuyor, ister formlardan ve faturalardan veri çıkarıyor, ister basılı materyalleri dijitalleştiriyor olun, Qwen-2.5-72b, OCR görevleri için bugün mevcut olan en yetenekli açık kaynaklı çözümlerden birini sunar.