Qwen-2.5-72b: VLM Sumber Terbuka Terbaik untuk OCR?

Tutorial ini membahas mengapa Qwen-2.5-72b unggul sbg model open-source terbaik utk OCR.

Ardianto Nugroho

Ardianto Nugroho

15 April 2025

Qwen-2.5-72b: VLM Sumber Terbuka Terbaik untuk OCR?

Untuk Industri AI, kemampuan OCR menjadi semakin penting untuk pemrosesan dokumen, ekstraksi data, dan alur kerja otomatisasi. Di antara model bahasa visi (VLMs) sumber terbuka yang tersedia saat ini, Qwen-2.5-72b telah muncul sebagai pesaing yang kuat, terutama untuk tugas-tugas OCR.

Tutorial ini membahas mengapa Qwen-2.5-72b menonjol sebagai model sumber terbuka yang berpotensi terbaik untuk tugas-tugas OCR, dengan memeriksa tolok ukur kinerja, kemampuan teknis, dan cara menyebarkannya secara lokal menggunakan Ollama.

💡
Mencari cara yang lebih efisien untuk mengembangkan, menguji, dan mendokumentasikan API Anda? Apidog menawarkan alternatif komprehensif untuk Postman, menggabungkan desain API, debugging, mocking, pengujian, dan dokumentasi dalam satu platform terpadu. 
button

Dengan antarmuka yang intuitif dan fitur kolaborasi yang kuat, Apidog menyederhanakan seluruh siklus hidup pengembangan API, membantu tim bekerja lebih efisien sambil menjaga konsistensi di seluruh proyek.

Baik Anda seorang pengembang individu atau bagian dari perusahaan besar, integrasi alur kerja yang mulus dan perangkat alat yang kuat dari Apidog menjadikannya pendamping yang sempurna untuk pengembangan API modern.

button

Tolok Ukur Model Qwen-2.5: Sekilas

Qwen-2.5 mewakili seri terbaru model bahasa besar Alibaba Cloud, yang dirilis pada September 2024. Ini adalah kemajuan signifikan dibandingkan pendahulunya, Qwen-2, dengan beberapa peningkatan utama:

Keluarga Qwen-2.5 mencakup model mulai dari 0,5B hingga 72B parameter. Untuk tugas-tugas OCR, model 72B terbesar memberikan kinerja yang paling mengesankan, meskipun varian 32B juga berkinerja sangat baik.

Mengapa Qwen-2.5-72B adalah Model OCR Sumber Terbuka Terbaik

Hasil Tolok Ukur

Menurut tolok ukur komprehensif yang dilakukan oleh OmniAI yang mengevaluasi model sumber terbuka untuk OCR, model Qwen-2.5-VL (baik varian 72B maupun 32B) menunjukkan kinerja yang luar biasa:

Apa yang membuat ini sangat mengesankan adalah bahwa model Qwen-2.5-VL tidak dirancang secara eksklusif untuk tugas-tugas OCR, namun mereka mengungguli model OCR khusus. Ini menunjukkan kemampuan pemrosesan visi mereka yang serbaguna dan kuat.

Keunggulan Utama untuk Tugas-Tugas OCR

Beberapa faktor berkontribusi pada kinerja OCR Qwen-2.5-72b yang luar biasa:

  1. Peningkatan Pemrosesan Data Terstruktur: Model Qwen-2.5 unggul dalam memahami format data terstruktur seperti tabel dan formulir, yang umum dalam dokumen yang memerlukan OCR.
  2. Peningkatan Pembuatan Output JSON: Model ini telah dioptimalkan secara khusus untuk menghasilkan output terstruktur dalam format seperti JSON, yang sangat penting untuk mengekstrak dan mengatur informasi dari dokumen yang dipindai.
  3. Jendela Konteks Besar: Dengan dukungan konteks hingga 128K token, model ini dapat memproses seluruh dokumen atau beberapa halaman secara bersamaan, menjaga koherensi dan pemahaman kontekstual di seluruhnya.
  4. Kemampuan OCR Multibahasa: Dukungan untuk 29 bahasa membuatnya serbaguna untuk kebutuhan pemrosesan dokumen internasional.
  5. Integrasi Visual-Tekstual: Model 72B memanfaatkan jumlah parameter yang besar untuk lebih menghubungkan elemen visual dengan pemahaman tekstual, meningkatkan pemahaman tata letak dokumen, tabel, dan konten campuran teks-gambar.
  6. Ketahanan terhadap Variasi Dokumen: Model ini berkinerja konsisten di berbagai jenis, kualitas, dan format dokumen, menunjukkan kemampuan OCR yang kuat dalam skenario dunia nyata.

Menjalankan Qwen-2.5-72b Secara Lokal dengan Ollama

Ollama menyediakan cara mudah untuk menjalankan model bahasa besar secara lokal, termasuk Qwen-2.5-72b. Berikut adalah panduan langkah demi langkah untuk menyebarkan model OCR yang kuat ini di mesin Anda sendiri:

Persyaratan Sistem

Sebelum melanjutkan, pastikan sistem Anda memenuhi persyaratan minimum ini:

Langkah-Langkah Instalasi

Instal Ollama

Kunjungi ollama.com/download dan unduh versi yang sesuai untuk sistem operasi Anda. Ikuti petunjuk instalasi.

Tarik Model Qwen-2.5-72b

Buka terminal atau command prompt dan jalankan:

ollama pull qwen2.5:72b

Ini akan mengunduh model, yang berukuran sekitar 47GB dengan kuantisasi Q4_K_M. Pengunduhan mungkin memakan waktu beberapa saat tergantung pada koneksi internet Anda.

Mulai Model

Setelah diunduh, Anda dapat memulai model dengan:

ollama run qwen2.5:72b

Menggunakan Model untuk Tugas-Tugas OCR

Anda dapat berinteraksi dengan model secara langsung melalui baris perintah atau menggunakan API Ollama untuk aplikasi yang lebih kompleks. Untuk tugas-tugas OCR, Anda perlu mengirim gambar ke model.

Integrasi API untuk Tugas-Tugas OCR

Untuk menggunakan Qwen-2.5-72b untuk OCR melalui API Ollama:

Mulai Server Ollama

Jika belum berjalan, mulai layanan Ollama.

Siapkan Permintaan API

Berikut adalah contoh Python menggunakan pustaka requests:

import requests
import base64

# Fungsi untuk menyandikan gambar
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Jalur ke gambar dokumen Anda
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Buat permintaan API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Ekstrak teks dari dokumen ini dan format sebagai JSON.",
    "images": [base64_image],
    "stream": False
}

# Kirim permintaan
response = requests.post(api_url, json=payload)
result = response.json()

# Cetak teks yang diekstrak
print(result['response'])

Optimalkan Prompt OCR

Untuk hasil OCR yang lebih baik, gunakan prompt spesifik yang disesuaikan dengan jenis dokumen Anda:

Alur Kerja OCR Tingkat Lanjut

Untuk alur kerja OCR yang lebih canggih, Anda dapat menggabungkan Qwen-2.5-72b dengan alat pra-pemrosesan:

  1. Pra-pemrosesan Dokumen

2. Segmentasi Halaman

3. Pasca-Pemrosesan

Mengoptimalkan Kinerja OCR

Untuk mendapatkan hasil OCR terbaik dari Qwen-2.5-72b, pertimbangkan praktik terbaik ini:

  1. Kualitas Gambar Penting: Berikan gambar resolusi tertinggi yang mungkin dalam batas API.
  2. Spesifik dalam Prompt: Beri tahu model persis informasi apa yang akan diekstrak dan dalam format apa.
  3. Manfaatkan Output Terstruktur: Manfaatkan kemampuan pembuatan JSON model dengan secara eksplisit meminta format terstruktur.
  4. Gunakan Pesan Sistem: Siapkan pesan sistem yang sesuai untuk memandu perilaku OCR model.
  5. Pengaturan Suhu: Nilai suhu yang lebih rendah (0,0-0,3) biasanya menghasilkan hasil OCR yang lebih akurat.

Kesimpulan

Qwen-2.5-72b mewakili kemajuan signifikan dalam kemampuan OCR sumber terbuka. Kinerja luar biasanya dalam tolok ukur, bahkan mengungguli model OCR khusus, menjadikannya pilihan yang menarik bagi pengembang dan organisasi yang mencari solusi pemrosesan dokumen yang kuat.

Kombinasi pemahaman visual, pemrosesan data terstruktur, dan kemampuan multibahasa model ini menciptakan solusi OCR serbaguna yang dapat menangani beragam jenis dokumen di berbagai bahasa. Meskipun membutuhkan sumber daya komputasi yang besar, hasilnya membenarkan investasi untuk banyak kasus penggunaan.

Dengan memanfaatkan Ollama untuk penyebaran lokal, pengembang dapat dengan mudah mengintegrasikan model yang kuat ini ke dalam alur kerja mereka tanpa bergantung pada API eksternal. Ini membuka kemungkinan untuk solusi pemrosesan dokumen di tempat yang aman yang menjaga privasi data sambil memberikan kinerja OCR yang canggih.

Baik Anda membangun pipeline pemrosesan dokumen otomatis, mengekstrak data dari formulir dan faktur, atau mendigitalkan materi cetak, Qwen-2.5-72b menawarkan salah satu solusi sumber terbuka paling mumpuni yang tersedia saat ini untuk tugas-tugas OCR.

Explore more

Cara Menggunakan OpenAI Sora Secara Gratis: Panduan Lengkap untuk Microsoft Bing Video Creator

Cara Menggunakan OpenAI Sora Secara Gratis: Panduan Lengkap untuk Microsoft Bing Video Creator

💡Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah? Ingin platform Terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum? Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!tombol Model teks-ke-video mutakhir OpenAI, Sora, telah mengubah pembuatan konten yang dihasilkan AI dengan kemampuannya menciptakan video yang sangat realistis dari instruksi teks sederhana. Namun, biaya

3 June 2025

Apa itu Ollama? Cara Menginstal Ollama?

Apa itu Ollama? Cara Menginstal Ollama?

💡Ingin alat Pengujian API yang hebat yang menghasilkan Dokumentasi API yang indah? Ingin platform terintegrasi, All-in-One untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum? Apidog memenuhi semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau! button Lanskap kecerdasan buatan (AI) terus berkembang dengan kecepatan tinggi, dan Model Bahasa Besar (LLM) menjadi semakin kuat dan mudah diakses. Meskipun banyak orang berinteraksi dengan model

28 April 2025

Di Mana Unduh Swagger UI Bahasa Indonesia Gratis?

Di Mana Unduh Swagger UI Bahasa Indonesia Gratis?

Ingin Swagger UI dalam Bahasa Indonesia? Artikel ini menjelaskan mengapa tidak ada unduhan resmi gratis dan cara mengaktifkan terjemahan. Jelajahi fitur Swagger dan lihat mengapa Apidog adalah alternatif Swagger superior untuk desain, pengujian, dan dokumentasi API yang terintegrasi.

23 April 2025

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.