Qwen-2.5-72b: OCR向けのベストオープンソースVLM?

AI産業において、OCR機能は文書処理、データ抽出、自動化ワークフローにおいてますます重要になってきています。今日利用可能なオープンソースの視覚言語モデル（VLM）の中で、Qwen-2.5-72bは特にOCRタスクにおいて強力な競争者として浮上しています。

このチュートリアルでは、Qwen-2.5-72bがOCRタスクにおいて最も優れたオープンソースモデルである可能性がある理由を探り、その性能ベンチマーク、技術的能力、およびOllamaを使用してローカルに展開する方法を検討します。

💡

APIの開発、テスト、文書化をより効率的に行う方法を探していますか？Apidogは、API設計、デバッグ、モック、テスト、文書化を一つの統合プラットフォームで提供するPostmanの包括的な代替手段です。

ボタン

直感的なインターフェースと強力なコラボレーション機能を備えたApidogは、API開発ライフサイクル全体を効率化し、チームがプロジェクト間で一貫性を保ちながらより効率的に作業できるよう支援します。

個人開発者であろうと大企業の一員であろうと、Apidogのシームレスなワークフロー統合と堅牢なツールセットは、現代のAPI開発に最適な伴侶となります。

ボタン

Qwen-2.5モデルのベンチマーク：簡単な概要

Qwen-2.5は、2024年9月にリリースされたAlibaba Cloudの最新の大規模言語モデルシリーズを代表しています。これは前のモデルQwen-2に対する重要な進展であり、いくつかの重要な改善が施されています：

最大で18兆トークンの膨大なデータセットで事前学習
強化された知識容量とドメイン専門性
優れた指示従従性
長文の処理における高度な能力（最大8Kトークン生成）
構造化データの理解と出力生成の改善
最大128Kトークンのコンテキスト長のサポート
29言語の多言語サポート

Qwen-2.5ファミリーには、0.5Bから72Bのパラメータを持つモデルが含まれています。OCRタスクにおいては、最大の72Bモデルが最も印象的な性能を発揮しますが、32Bバリアントも非常に優れた性能を示します。

なぜQwen-2.5-72Bが最良のオープンソースOCRモデルなのか

ベンチマーク結果

オープンソースモデルのOCRを評価したOmniAIによる包括的なベンチマークによると、Qwen-2.5-VLモデル（72Bおよび32Bバリアント）は驚くべき性能を示しました：

精度：Qwen-2.5-VLモデルは、文書からのJSON抽出タスクで約75％の精度を達成し、GPT-4oのパフォーマンスと一致しました。
競争力のある優位性：Qwen-2.5-VLモデルは特にOCRタスクのために訓練されたmistral-ocr（72.2％）を上回りました。
優れた性能：人気のある他のオープンソースモデル、例えば、42.9％の精度しか達成できなかったGemma-3（27B）やLlamaモデルを大きく上回りました。

特に印象的なのは、Qwen-2.5-VLモデルがOCRタスク専用に設計されていないにも関わらず、特化したOCRモデルを上回ったことです。これは彼らの多才で堅牢な視覚処理能力を示しています。

OCRタスクのための主要な利点

Qwen-2.5-72bの卓越したOCR性能に寄与する要素はいくつかあります：

強化された構造化データ処理：Qwen-2.5モデルは表やフォームなどの構造化データフォーマットの理解に優れています。これはOCRを必要とする文書に共通しています。
改善されたJSON出力生成：このモデルは、スキャンした文書から情報を抽出し整理するために重要なJSONなどの構造化出力を生成するように特別に最適化されています。
大きなコンテキストウィンドウ：最大128Kトークンのコンテキストサポートにより、モデルは全体の文書や複数のページを同時に処理し、一貫性とコンテキストの理解を維持します。
多言語OCR機能：29言語のサポートにより、国際的な文書処理ニーズに対して多様性を持ちます。
視覚とテキストの統合：72Bモデルは、その膨大なパラメータ数を利用して視覚要素とテキスト理解をより良く結びつけ、文書のレイアウト、表、混在したテキストと画像のコンテンツの理解を向上させます。
文書の変化に対する耐性：このモデルは、さまざまな文書タイプ、品質、形式の中で一貫してパフォーマンスを発揮し、実際のシナリオにおける堅牢なOCR機能を示しています。

Ollamaを使用してローカルでQwen-2.5-72bを実行する

Ollamaは、Qwen-2.5-72bを含む大規模言語モデルをローカルで実行する簡単な方法を提供します。以下は、この強力なOCRモデルを自身のマシンで展開するためのステップバイステップのガイドです：

システム要件

進む前に、システムが以下の最小要件を満たしていることを確認してください：

RAM：推奨64GB以上（47GBのモデルサイズに加えオーバーヘッド）
GPU：フル精度のために最低48GBのVRAMを持つNVIDIA GPU、または量子化用に24GB以上
ストレージ：モデルと一時ファイル用に最低50GBの空き容量
オペレーティングシステム：Linux、macOS、またはWSL2を使用したWindows

インストール手順

Ollamaをインストール

ollama.com/downloadを訪れ、オペレーティングシステムに適したバージョンをダウンロードします。インストール手順に従ってください。

Qwen-2.5-72bモデルを取得

ターミナルまたはコマンドプロンプトを開き、次のコマンドを実行します：

ollama pull qwen2.5:72b

これにより約47GBのサイズのモデルがダウンロードされます。ダウンロードにはインターネット接続によって時間がかかる場合があります。

モデルを起動

ダウンロードが完了したら、次のコマンドでモデルを起動します：

ollama run qwen2.5:72b

OCRタスクにモデルを使用

コマンドラインを通じてモデルと直接対話するか、より複雑なアプリケーションのためにOllama APIを使用できます。OCRタスクの場合、モデルに画像を送信する必要があります。

OCRタスクのためのAPI統合

Ollama APIを通じてQwen-2.5-72bをOCRに使用するには：

Ollamaサーバーを開始

まだ実行中でない場合は、Ollamaサービスを開始します。

APIリクエストを設定

以下はrequestsライブラリを使用したPythonの例です：

import requests
import base64

# 画像をエンコードする関数
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# 文書画像へのパス
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# APIリクエストを構築
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "この文書からテキストを抽出し、JSON形式にフォーマットしてください。",
    "images": [base64_image],
    "stream": False
}

# リクエストを送信
response = requests.post(api_url, json=payload)
result = response.json()

# 抽出したテキストを表示
print(result['response'])

OCRプロンプトを最適化

より良いOCR結果を得るために、文書タイプに特化した具体的なプロンプトを使用してください：

請求書の場合："請求書番号、日付、ベンダー、商品名、合計金額を含む全ての請求書詳細を構造化されたJSONとして抽出してください。"
フォームの場合："このフォームから全てのフィールドとその値を抽出し、JSONとしてフォーマットしてください。"
表の場合："この表データを抽出し、JSON配列構造に変換してください。"

高度なOCRワークフロー

より洗練されたOCRワークフローのために、Qwen-2.5-72bと前処理ツールを組み合わせることができます：

文書の前処理

OpenCVや他の画像処理ライブラリを使用して文書画像を強化します。
傾きを修正し、コントラストを強調し、ノイズを減らします。

2. ページ分割

複数ページの文書の場合は、ページを分割してそれぞれを個別に処理します。
モデルのコンテキストウィンドウを使用して、ページ間の一貫性を維持します。

3. 後処理

抽出したテキストの検証とクリーンアップのロジックを実装します。
一般的なOCRエラーを修正するために正規表現やセカンダリLLMパスを使用します。

OCRパフォーマンスの最適化

Qwen-2.5-72bから最良のOCR結果を得るために、以下のベストプラクティスを考慮してください：

画像品質が重要：APIの制限内でできる限り高解像度の画像を提供します。
プロンプトを具体的に：モデルに正確にどの情報を抽出し、どの形式で出力するかを指示します。
構造化出力を活用：モデルのJSON生成機能を利用し、明示的に構造化フォーマットを要求します。
システムメッセージを使用：モデルのOCR動作をガイドするために適切なシステムメッセージを設定します。
温度設定：温度値を低く（0.0-0.3）設定すると、通常、より正確なOCR結果が得られます。

結論

Qwen-2.5-72bは、オープンソースのOCR機能において重要な進展を示しています。その素晴らしいベンチマーク性能は、特化したOCRモデルをも上回り、強力な文書処理ソリューションを求める開発者や組織にとって魅力的な選択肢となります。

このモデルの視覚理解、構造化データ処理、および多言語機能の組み合わせは、多様な文書タイプを扱う柔軟なOCRソリューションを提供します。かなりの計算リソースを必要としますが、多くのユースケースで投資に見合う結果をもたらします。

Ollamaを使用してローカル展開を行うことにより、開発者は外部APIに依存することなく、この強力なモデルを自身のワークフローに統合することが容易になります。これにより、データプライバシーを維持しながら最先端のOCR性能を提供する安全でオンプレミスの文書処理ソリューションの可能性が広がります。

自動化された文書処理パイプラインを構築する場合、フォームや請求書からデータを抽出する場合、または印刷物をデジタル化する場合、Qwen-2.5-72bは今日のOCRタスクにおいて最も有能なオープンソースソリューションの一つを提供します。