Qwen-2.5-72b: OCR에 가장 적합한 오픈 소스 VLM?

AI 산업에서 OCR 기능은 문서 처리, 데이터 추출 및 자동화 워크플로우에 점점 더 중요해지고 있습니다. 현재 사용 가능한 오픈 소스 비전 언어 모델(VLM) 중 Qwen-2.5-72b는 특히 OCR 작업에 강력한 경쟁자로 부상했습니다.

이 튜토리얼에서는 Qwen-2.5-72b가 OCR 작업을 위한 최고의 오픈 소스 모델로 떠오르는 이유를 성능 기준, 기술적 능력 및 Ollama를 사용하여 로컬에서 배포하는 방법을 살펴보겠습니다.

💡

API를 개발하고 테스트하며 문서화하는 더 효율적인 방법을 찾고 계신가요? Apidog은 API 설계, 디버깅, 모의, 테스트 및 문서를 단일 통합 플랫폼에서 결합하여 Postman에 대한 포괄적인 대안을 제공합니다.

버튼

직관적인 인터페이스와 강력한 협업 기능을 갖춘 Apidog는 전체 API 개발 생애 주기를 간소화하여 팀이 효율적으로 작업할 수 있도록 도와줍니다.

개발자이든 대기업의 일원이든 관계없이 Apidog의 원활한 워크플로우 통합과 강력한 도구 세트는 현대 API 개발을 위한 완벽한 동반자입니다.

버튼

Qwen-2.5 모델 벤치마크: 간단한 개요

Qwen-2.5는 2024년 9월에 출시된 Alibaba Cloud의 최신 대형 언어 모델 시리즈입니다. 이전 모델인 Qwen-2에 비해 상당한 발전이 있으며, 몇 가지 주요 개선 사항이 있습니다:

최대 18조 토큰의 방대한 데이터 세트로 사전 학습됨
향상된 지식 용량 및 도메인 전문성
우수한 지시 따르기 능력
장문 처리에서 고급 기능 (최대 8K 토큰 생성)
구조화된 데이터 이해 및 출력 생성 개선
최대 128K 토큰의 컨텍스트 길이 지원
29개 언어의 다국어 지원

Qwen-2.5 패밀리는 0.5B부터 72B까지 다양한 파라미터를 가진 모델을 포함합니다. OCR 작업의 경우, 가장 큰 72B 모델이 가장 인상적인 성능을 발휘하지만, 32B 변형 또한 뛰어난 성능을 보여줍니다.

Qwen-2.5-72B가 최고의 오픈 소스 OCR 모델인 이유

벤치마크 결과

OmniAI가 수행한 포괄적인 벤치마크에 따르면, Qwen-2.5-VL 모델(72B 및 32B 변형 모두)은 인상적인 성능을 보여줍니다:

정확도: Qwen-2.5-VL 모델은 문서에서 JSON 추출 작업에서 약 75%의 정확도를 달성하여 GPT-4o의 성능과 일치했습니다.
경쟁 우위: Qwen-2.5-VL 모델은 특히 OCR 작업을 위해 훈련된 mistral-ocr(72.2%)를 능가했습니다.
우수한 성능: 이들은 Gemma-3(27B)와 같은 다른 인기 있는 오픈 소스 모델보다 훨씬 뛰어난 성능을 보여주었으며, Gemma-3는 42.9%의 정확도만 달성했습니다.

특히 인상적인 점은 Qwen-2.5-VL 모델이 OCR 작업 전용으로 설계되지 않았음에도 불구하고 전문 OCR 모델을 초월한 성능을 발휘한다는 것입니다. 이는 그들의 다재다능하고 강력한 비전 처리 능력을 보여줍니다.

OCR 작업의 주요 장점

Qwen-2.5-72b의 뛰어난 OCR 성능에 기여하는 여러 요인이 있습니다:

강화된 구조화된 데이터 처리: Qwen-2.5 모델은 OCR이 필요한 문서에서 일반적인 표 및 양식과 같은 구조화된 데이터 형식을 이해하는데 뛰어납니다.
개선된 JSON 출력 생성: 이 모델은 스캔된 문서에서 정보를 추출하고 조직하는 데 중요한 JSON 형식의 구조화된 출력을 생성하도록 특별히 최적화되었습니다.
대형 컨텍스트 윈도우: 최대 128K 토큰의 컨텍스트 지원으로 인해 모델은 전체 문서나 여러 페이지를 동시에 처리하며 일관성과 컨텍스트 이해를 유지합니다.
다국어 OCR 기능: 29개 언어에 대한 지원으로 국제 문서 처리 필요에 맞춰 다재다능하게 활용할 수 있습니다.
비주얼-텍스트 통합: 72B 모델은 방대한 파라미터 수를 활용하여 시각적 요소와 텍스트 이해를 더욱 잘 연결하며, 문서 레이아웃, 표 및 혼합 텍스트-이미지 콘텐츠의 이해를 개선합니다.
문서 변이에 대한 회복력: 이 모델은 다양한 문서 유형, 품질 및 형식에서 일관된 성능을 발휘하며, 실제 상황에서 강력한 OCR 기능을 입증합니다.

Ollama로 로컬에서 Qwen-2.5-72b 실행하기

Ollama는 Qwen-2.5-72b를 포함한 대형 언어 모델을 로컬에서 실행하는 쉬운 방법을 제공합니다. 이 강력한 OCR 모델을 여러분의 컴퓨터에 배포하는 단계별 가이드는 다음과 같습니다:

시스템 요구 사항

진행하기 전에 시스템이 다음 최소 요구 사항을 충족하는지 확인하세요:

RAM: 64GB 이상 권장 (47GB 모델 크기 및 오버헤드)
GPU: NVIDIA GPU (최소 48GB VRAM)로 전체 정밀도 사용, 또는 24GB 이상이지만 양자화를 통한 경우
스토리지: 모델 및 임시 파일을 위해 최소 50GB의 여유 공간
운영 체제: Linux, macOS 또는 Windows (WSL2 포함)

설치 단계

Ollama 설치

ollama.com/download를 방문하여 운영 체제에 맞는 적절한 버전을 다운로드하고 설치 지침을 따르세요.

Qwen-2.5-72b 모델 가져오기

터미널 또는 명령 프롬프트를 열고 다음을 실행합니다:

ollama pull qwen2.5:72b

이 명령은 약 47GB 크기의 모델을 Q4_K_M 양자화와 함께 다운로드합니다. 다운로드는 인터넷 연결 속도에 따라 시간이 걸릴 수 있습니다.

모델 시작하기

다운로드가 완료되면 다음과 같이 모델을 시작할 수 있습니다:

ollama run qwen2.5:72b

OCR 작업을 위해 모델 사용하기

명령 줄을 통해 모델과 직접 상호 작용하거나 Ollama API를 사용하여 더 복잡한 애플리케이션에 활용할 수 있습니다. OCR 작업의 경우, 이미지를 모델에 전송해야 합니다.

OCR 작업을 위한 API 통합

Ollama API를 통해 Qwen-2.5-72b를 OCR 작업에 사용하려면:

Ollama 서버 시작하기

이미 실행 중이지 않다면, Ollama 서비스를 시작하세요.

API 요청 설정하기

다음은 requests 라이브러리를 사용한 Python 예제입니다:

import requests
import base64

# 이미지 인코딩 함수
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# 문서 이미지 경로
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# API 요청 작성
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "이 문서에서 텍스트를 추출하고 JSON 형식으로 포맷하세요.",
    "images": [base64_image],
    "stream": False
}

# 요청 전송
response = requests.post(api_url, json=payload)
result = response.json()

# 추출된 텍스트 출력
print(result['response'])

OCR 프롬프트 최적화

더 나은 OCR 결과를 위해 문서 유형에 맞춘 구체적인 프롬프트를 사용하세요:

청구서의 경우: "청구서 번호, 날짜, 공급업체, 품목 및 총액을 포함하여 모든 청구서 세부 정보를 구조화된 JSON으로 추출하십시오."
양식의 경우: "이 양식에서 모든 필드와 해당 값을 추출하고 JSON 형식으로 포맷하십시오."
표의 경우: "이 표 데이터를 추출하고 JSON 배열 구조로 변환하십시오."

고급 OCR 워크플로우

더 정교한 OCR 워크플로우를 위해 Qwen-2.5-72b를 전처리 도구와 결합할 수 있습니다:

문서 전처리

OpenCV 또는 기타 이미지 처리 라이브러리를 사용하여 문서 이미지를 향상시키기
왜곡 보정, 대비 향상 및 노이즈 감소 적용

2. 페이지 분할

다중 페이지 문서의 경우, 각 페이지를 개별적으로 분할 및 처리하기
모델의 컨텍스트 윈도우를 사용하여 페이지 간 일관성 유지하기

3. 후처리

추출된 텍스트에 대한 검증 및 정리 로직 구현하기
일반적인 OCR 오류를 수정하기 위해 정규 표현식 또는 2차 LLM 패스 사용하기

OCR 성능 최적화

Qwen-2.5-72b에서 최고의 OCR 결과를 얻으려면 다음 모범 사례를 고려하세요:

이미지 품질이 중요합니다: API 한도 내에서 가능한 한 가장 높은 해상도의 이미지를 제공하세요.
프롬프트에서 구체적으로: 모델에게 어떤 정보를 추출할지, 어떤 형식으로 추출할지를 정확히 설명하세요.
구조화된 출력 활용: 구조화된 형식을 명시적으로 요청하여 모델의 JSON 생성 기능을 활용하세요.
시스템 메시지 사용: 모델의 OCR 행동을 안내하기 위해 적절한 시스템 메시지를 설정하세요.
온도 설정: 낮은 온도 값(0.0-0.3)은 일반적으로 더 정확한 OCR 결과를 생성합니다.

결론

Qwen-2.5-72b는 오픈 소스 OCR 기능에서 중요한 발전을 나타냅니다. 전문 OCR 모델을 초월하는 벤치마크 성능은 강력한 문서 처리 솔루션을 찾는 개발자와 조직에게 매력적인 선택이 됩니다.

모델의 비주얼 이해, 구조화된 데이터 처리 및 다국어 기능의 조합은 다양한 문서 유형을 처리할 수 있는 다용도의 OCR 솔루션을 제공합니다. 상당한 컴퓨팅 리소스가 필요하지만, 많은 사용 사례에서 그 결과는 충분한 투자를 정당화합니다.

Ollama를 활용하여 로컬 배포를 통해, 개발자들은 외부 API에 의존하지 않고도 이 강력한 모델을 자신들의 워크플로우에 쉽게 통합할 수 있습니다. 이는 데이터 프라이버시를 유지하면서 첨단 OCR 성능을 제공하는 안전한 온프레미스 문서 처리 솔루션의 가능성을 열어줍니다.

자동화된 문서 처리 파이프라인을 구축하든, 폼과 청구서에서 데이터를 추출하든, 인쇄된 자료를 디지털화하든 Qwen-2.5-72b는 오늘날 OCR 작업을 위한 가장 유능한 오픈 소스 솔루션 중 하나를 제공합니다.