Qwen-2.5-72b: VLM Sumber Terbuka Terbaik untuk OCR?

Untuk Industri AI, kemampuan OCR menjadi semakin penting untuk pemrosesan dokumen, ekstraksi data, dan alur kerja otomatisasi. Di antara model bahasa visi (VLMs) sumber terbuka yang tersedia saat ini, Qwen-2.5-72b telah muncul sebagai pesaing yang kuat, terutama untuk tugas-tugas OCR.

Tutorial ini membahas mengapa Qwen-2.5-72b menonjol sebagai model sumber terbuka yang berpotensi terbaik untuk tugas-tugas OCR, dengan memeriksa tolok ukur kinerja, kemampuan teknis, dan cara menyebarkannya secara lokal menggunakan Ollama.

💡

Mencari cara yang lebih efisien untuk mengembangkan, menguji, dan mendokumentasikan API Anda? Apidog menawarkan alternatif komprehensif untuk Postman, menggabungkan desain API, debugging, mocking, pengujian, dan dokumentasi dalam satu platform terpadu.

button

Dengan antarmuka yang intuitif dan fitur kolaborasi yang kuat, Apidog menyederhanakan seluruh siklus hidup pengembangan API, membantu tim bekerja lebih efisien sambil menjaga konsistensi di seluruh proyek.

Baik Anda seorang pengembang individu atau bagian dari perusahaan besar, integrasi alur kerja yang mulus dan perangkat alat yang kuat dari Apidog menjadikannya pendamping yang sempurna untuk pengembangan API modern.

button

Tolok Ukur Model Qwen-2.5: Sekilas

Qwen-2.5 mewakili seri terbaru model bahasa besar Alibaba Cloud, yang dirilis pada September 2024. Ini adalah kemajuan signifikan dibandingkan pendahulunya, Qwen-2, dengan beberapa peningkatan utama:

Dilatih sebelumnya pada dataset besar hingga 18 triliun token
Peningkatan kapasitas pengetahuan dan keahlian domain
Kemampuan mengikuti instruksi yang superior
Penanganan teks panjang yang canggih (hingga pembuatan 8K token)
Peningkatan pemahaman data terstruktur dan pembuatan output
Dukungan untuk panjang konteks hingga 128K token
Dukungan multibahasa di 29 bahasa

Keluarga Qwen-2.5 mencakup model mulai dari 0,5B hingga 72B parameter. Untuk tugas-tugas OCR, model 72B terbesar memberikan kinerja yang paling mengesankan, meskipun varian 32B juga berkinerja sangat baik.

Mengapa Qwen-2.5-72B adalah Model OCR Sumber Terbuka Terbaik

Hasil Tolok Ukur

Menurut tolok ukur komprehensif yang dilakukan oleh OmniAI yang mengevaluasi model sumber terbuka untuk OCR, model Qwen-2.5-VL (baik varian 72B maupun 32B) menunjukkan kinerja yang luar biasa:

Akurasi: Kedua model Qwen-2.5-VL mencapai akurasi sekitar 75% dalam tugas ekstraksi JSON dari dokumen, sesuai dengan kinerja GPT-4o.
Keunggulan Kompetitif: Model Qwen-2.5-VL mengungguli mistral-ocr (72,2%), yang secara khusus dilatih untuk tugas-tugas OCR.
Kinerja Superior: Mereka secara signifikan mengungguli model sumber terbuka populer lainnya termasuk Gemma-3 (27B) yang hanya mencapai akurasi 42,9%, dan model Llama.

Apa yang membuat ini sangat mengesankan adalah bahwa model Qwen-2.5-VL tidak dirancang secara eksklusif untuk tugas-tugas OCR, namun mereka mengungguli model OCR khusus. Ini menunjukkan kemampuan pemrosesan visi mereka yang serbaguna dan kuat.

Keunggulan Utama untuk Tugas-Tugas OCR

Beberapa faktor berkontribusi pada kinerja OCR Qwen-2.5-72b yang luar biasa:

Peningkatan Pemrosesan Data Terstruktur: Model Qwen-2.5 unggul dalam memahami format data terstruktur seperti tabel dan formulir, yang umum dalam dokumen yang memerlukan OCR.
Peningkatan Pembuatan Output JSON: Model ini telah dioptimalkan secara khusus untuk menghasilkan output terstruktur dalam format seperti JSON, yang sangat penting untuk mengekstrak dan mengatur informasi dari dokumen yang dipindai.
Jendela Konteks Besar: Dengan dukungan konteks hingga 128K token, model ini dapat memproses seluruh dokumen atau beberapa halaman secara bersamaan, menjaga koherensi dan pemahaman kontekstual di seluruhnya.
Kemampuan OCR Multibahasa: Dukungan untuk 29 bahasa membuatnya serbaguna untuk kebutuhan pemrosesan dokumen internasional.
Integrasi Visual-Tekstual: Model 72B memanfaatkan jumlah parameter yang besar untuk lebih menghubungkan elemen visual dengan pemahaman tekstual, meningkatkan pemahaman tata letak dokumen, tabel, dan konten campuran teks-gambar.
Ketahanan terhadap Variasi Dokumen: Model ini berkinerja konsisten di berbagai jenis, kualitas, dan format dokumen, menunjukkan kemampuan OCR yang kuat dalam skenario dunia nyata.

Menjalankan Qwen-2.5-72b Secara Lokal dengan Ollama

Ollama menyediakan cara mudah untuk menjalankan model bahasa besar secara lokal, termasuk Qwen-2.5-72b. Berikut adalah panduan langkah demi langkah untuk menyebarkan model OCR yang kuat ini di mesin Anda sendiri:

Persyaratan Sistem

Sebelum melanjutkan, pastikan sistem Anda memenuhi persyaratan minimum ini:

RAM: 64GB+ direkomendasikan (ukuran model 47GB ditambah overhead)
GPU: GPU NVIDIA dengan setidaknya 48GB VRAM untuk presisi penuh, atau 24GB+ dengan kuantisasi
Penyimpanan: Setidaknya 50GB ruang kosong untuk model dan file sementara
Sistem Operasi: Linux, macOS, atau Windows (dengan WSL2)

Langkah-Langkah Instalasi

Instal Ollama

Kunjungi ollama.com/download dan unduh versi yang sesuai untuk sistem operasi Anda. Ikuti petunjuk instalasi.

Tarik Model Qwen-2.5-72b

Buka terminal atau command prompt dan jalankan:

ollama pull qwen2.5:72b

Ini akan mengunduh model, yang berukuran sekitar 47GB dengan kuantisasi Q4_K_M. Pengunduhan mungkin memakan waktu beberapa saat tergantung pada koneksi internet Anda.

Mulai Model

Setelah diunduh, Anda dapat memulai model dengan:

ollama run qwen2.5:72b

Menggunakan Model untuk Tugas-Tugas OCR

Anda dapat berinteraksi dengan model secara langsung melalui baris perintah atau menggunakan API Ollama untuk aplikasi yang lebih kompleks. Untuk tugas-tugas OCR, Anda perlu mengirim gambar ke model.

Integrasi API untuk Tugas-Tugas OCR

Untuk menggunakan Qwen-2.5-72b untuk OCR melalui API Ollama:

Mulai Server Ollama

Jika belum berjalan, mulai layanan Ollama.

Siapkan Permintaan API

Berikut adalah contoh Python menggunakan pustaka requests:

import requests
import base64

# Fungsi untuk menyandikan gambar
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Jalur ke gambar dokumen Anda
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Buat permintaan API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Ekstrak teks dari dokumen ini dan format sebagai JSON.",
    "images": [base64_image],
    "stream": False
}

# Kirim permintaan
response = requests.post(api_url, json=payload)
result = response.json()

# Cetak teks yang diekstrak
print(result['response'])

Optimalkan Prompt OCR

Untuk hasil OCR yang lebih baik, gunakan prompt spesifik yang disesuaikan dengan jenis dokumen Anda:

Untuk faktur: "Ekstrak semua detail faktur termasuk nomor faktur, tanggal, vendor, item baris, dan jumlah total sebagai JSON terstruktur."
Untuk formulir: "Ekstrak semua bidang dan nilainya dari formulir ini dan format sebagai JSON."
Untuk tabel: "Ekstrak data tabel ini dan konversikan ke struktur array JSON."

Alur Kerja OCR Tingkat Lanjut

Untuk alur kerja OCR yang lebih canggih, Anda dapat menggabungkan Qwen-2.5-72b dengan alat pra-pemrosesan:

Pra-pemrosesan Dokumen

Gunakan OpenCV atau pustaka pemrosesan gambar lainnya untuk meningkatkan gambar dokumen
Terapkan deskewing, peningkatan kontras, dan pengurangan noise

2. Segmentasi Halaman

Untuk dokumen multi-halaman, pisahkan dan proses setiap halaman secara individual
Gunakan jendela konteks model untuk menjaga koherensi di seluruh halaman

3. Pasca-Pemrosesan

Terapkan logika validasi dan pembersihan untuk teks yang diekstrak
Gunakan ekspresi reguler atau lintasan LLM sekunder untuk memperbaiki kesalahan OCR umum

Mengoptimalkan Kinerja OCR

Untuk mendapatkan hasil OCR terbaik dari Qwen-2.5-72b, pertimbangkan praktik terbaik ini:

Kualitas Gambar Penting: Berikan gambar resolusi tertinggi yang mungkin dalam batas API.
Spesifik dalam Prompt: Beri tahu model persis informasi apa yang akan diekstrak dan dalam format apa.
Manfaatkan Output Terstruktur: Manfaatkan kemampuan pembuatan JSON model dengan secara eksplisit meminta format terstruktur.
Gunakan Pesan Sistem: Siapkan pesan sistem yang sesuai untuk memandu perilaku OCR model.
Pengaturan Suhu: Nilai suhu yang lebih rendah (0,0-0,3) biasanya menghasilkan hasil OCR yang lebih akurat.

Kesimpulan

Qwen-2.5-72b mewakili kemajuan signifikan dalam kemampuan OCR sumber terbuka. Kinerja luar biasanya dalam tolok ukur, bahkan mengungguli model OCR khusus, menjadikannya pilihan yang menarik bagi pengembang dan organisasi yang mencari solusi pemrosesan dokumen yang kuat.

Kombinasi pemahaman visual, pemrosesan data terstruktur, dan kemampuan multibahasa model ini menciptakan solusi OCR serbaguna yang dapat menangani beragam jenis dokumen di berbagai bahasa. Meskipun membutuhkan sumber daya komputasi yang besar, hasilnya membenarkan investasi untuk banyak kasus penggunaan.

Dengan memanfaatkan Ollama untuk penyebaran lokal, pengembang dapat dengan mudah mengintegrasikan model yang kuat ini ke dalam alur kerja mereka tanpa bergantung pada API eksternal. Ini membuka kemungkinan untuk solusi pemrosesan dokumen di tempat yang aman yang menjaga privasi data sambil memberikan kinerja OCR yang canggih.

Baik Anda membangun pipeline pemrosesan dokumen otomatis, mengekstrak data dari formulir dan faktur, atau mendigitalkan materi cetak, Qwen-2.5-72b menawarkan salah satu solusi sumber terbuka paling mumpuni yang tersedia saat ini untuk tugas-tugas OCR.