Qwen-2.5-72b: O Melhor VLM Open Source para OCR?

Para a indústria de IA, as capacidades de OCR tornaram-se cada vez mais importantes para o processamento de documentos, extração de dados e fluxos de trabalho de automação. Entre os modelos de linguagem de visão de código aberto (VLMs) disponíveis hoje, o Qwen-2.5-72b emergiu como um forte concorrente, particularmente para tarefas de OCR.

Este tutorial explora por que o Qwen-2.5-72b se destaca como potencialmente o melhor modelo de código aberto para tarefas de OCR, examinando seus benchmarks de desempenho, capacidades técnicas e como implantá-lo localmente usando Ollama.

💡

Procurando uma maneira mais eficiente de desenvolver, testar e documentar suas APIs? O Apidog oferece uma alternativa abrangente ao Postman, combinando design de API, depuração, simulação, teste e documentação em uma única plataforma unificada.

botão

Com sua interface intuitiva e poderosas funcionalidades de colaboração, o Apidog agiliza todo o ciclo de desenvolvimento de APIs, ajudando equipes a trabalharem de forma mais eficiente enquanto mantêm consistência entre projetos.

Se você é um desenvolvedor individual ou parte de uma grande empresa, a integração perfeita do fluxo de trabalho do Apidog e seu conjunto de ferramentas robusto o tornam o companheiro ideal para o desenvolvimento moderno de APIs.

botão

Benchmarks dos Modelos Qwen-2.5: Uma Visão Rápida

O Qwen-2.5 representa a mais recente série de grandes modelos de linguagem da Alibaba Cloud, lançada em setembro de 2024. É um avanço significativo em relação ao seu predecessor, o Qwen-2, com várias melhorias-chave:

Pré-treinado em um enorme conjunto de dados de até 18 trilhões de tokens
Capacidade de conhecimento aprimorada e experiência em domínio
Superior capacidade de seguir instruções
Manuseio avançado de textos longos (geração de até 8K tokens)
Compreensão e geração de dados estruturados melhoradas
Suporte para comprimentos de contexto de até 128K tokens
Suporte multilíngue em 29 idiomas

A família Qwen-2.5 inclui modelos variando de 0.5B a 72B parâmetros. Para tarefas de OCR, o maior modelo de 72B oferece o desempenho mais impressionante, embora a variante de 32B também apresente um desempenho excepcional.

Por que o Qwen-2.5-72B é o Melhor Modelo de OCR de Código Aberto

Resultados dos Benchmarking

De acordo com benchmarks abrangentes conduzidos pela OmniAI que avaliaram modelos de código aberto para OCR, os modelos Qwen-2.5-VL (tanto as variantes de 72B quanto de 32B) demonstraram um desempenho notável:

Precisão: Ambos os modelos Qwen-2.5-VL alcançaram aproximadamente 75% de precisão em tarefas de extração de JSON de documentos, igualando o desempenho do GPT-4o.
Vantagem Competitiva: Os modelos Qwen-2.5-VL superaram o mistral-ocr (72,2%), que é especificamente treinado para tarefas de OCR.
Desempenho Superior: Eles superaram significativamente outros modelos de código aberto populares, incluindo Gemma-3 (27B), que alcançou apenas 42,9% de precisão, e os modelos Llama.

O que torna isso particularmente impressionante é que os modelos Qwen-2.5-VL não foram projetados exclusivamente para tarefas de OCR, mas ainda assim superaram modelos de OCR especializados. Isso demonstra suas capacidades versáteis e robustas de processamento visual.

Principais Vantagens para Tarefas de OCR

Vários fatores contribuem para o excepcional desempenho de OCR do Qwen-2.5-72b:

Processamento Aprimorado de Dados Estruturados: Os modelos Qwen-2.5 se destacam na compreensão de formatos de dados estruturados como tabelas e formulários, que são comuns em documentos que requerem OCR.
Geração Aprimorada de Saídas JSON: O modelo foi especificamente otimizado para gerar saídas estruturadas em formatos como JSON, o que é crucial para extrair e organizar informações de documentos digitalizados.
Janela de Contexto Grande: Com suporte de contexto de até 128K tokens, o modelo pode processar documentos inteiros ou várias páginas simultaneamente, mantendo a coerência e a compreensão contextual em todo o documento.
Capacidades Multilíngues de OCR: O suporte a 29 idiomas torna-o versátil para necessidades de processamento de documentos internacionais.
Integração Visual-Textual: O modelo de 72B aproveita sua enorme contagem de parâmetros para melhor conectar elementos visuais com a compreensão textual, melhorando a compreensão de layouts de documentos, tabelas e conteúdo misto de texto-imagem.
Resiliência à Variação Documental: O modelo apresenta desempenho consistente em vários tipos de documentos, qualidades e formatos, demonstrando capacidades robustas de OCR em cenários do mundo real.

Executando o Qwen-2.5-72b Localmente com Ollama

Ollama fornece uma maneira fácil de executar grandes modelos de linguagem localmente, incluindo Qwen-2.5-72b. Aqui está um guia passo a passo para implantar este poderoso modelo de OCR em sua própria máquina:

Requisitos do Sistema

Antes de prosseguir, verifique se o seu sistema atende a estes requisitos mínimos:

RAM: 64GB+ recomendado (tamanho do modelo de 47GB mais sobrecarga)
GPU: GPU NVIDIA com pelo menos 48GB de VRAM para precisão total, ou 24GB+ com quantização
Armazenamento: Pelo menos 50GB de espaço livre para o modelo e arquivos temporários
Sistema Operacional: Linux, macOS ou Windows (com WSL2)

Etapas de Instalação

Instale o Ollama

Visite ollama.com/download e baixe a versão apropriada para o seu sistema operacional. Siga as instruções de instalação.

Baixe o Modelo Qwen-2.5-72b

Abra um terminal ou prompt de comando e execute:

ollama pull qwen2.5:72b

Isso fará o download do modelo, que tem aproximadamente 47GB de tamanho com quantização Q4_K_M. O download pode levar algum tempo, dependendo da sua conexão de internet.

Inicie o Modelo

Uma vez baixado, você pode iniciar o modelo com:

ollama run qwen2.5:72b

Usando o Modelo para Tarefas de OCR

Você pode interagir com o modelo diretamente através da linha de comando ou usar a API do Ollama para aplicações mais complexas. Para tarefas de OCR, você precisará enviar imagens para o modelo.

Integração de API para Tarefas de OCR

Para usar o Qwen-2.5-72b para OCR através da API do Ollama:

Inicie o Servidor Ollama

Se ainda não estiver em execução, inicie o serviço Ollama.

Configure uma Solicitação de API

Aqui está um exemplo em Python usando a biblioteca requests:

import requests
import base64

# Função para codificar a imagem
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Caminho para a sua imagem de documento
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Construa a solicitação da API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Extraia texto deste documento e formate-o como JSON.",
    "images": [base64_image],
    "stream": False
}

# Envie a solicitação
response = requests.post(api_url, json=payload)
result = response.json()

# Imprima o texto extraído
print(result['response'])

Otimize Prompts de OCR

Para melhores resultados de OCR, use prompts específicos adaptados ao seu tipo de documento:

Para faturas: "Extraia todos os detalhes da fatura, incluindo número da fatura, data, fornecedor, itens e totais como JSON estruturado."
Para formulários: "Extraia todos os campos e seus valores deste formulário e formate-os como JSON."
Para tabelas: "Extraia os dados desta tabela e converta-os para uma estrutura de array JSON."

Fluxos de Trabalho Avançados de OCR

Para fluxos de trabalho de OCR mais sofisticados, você pode combinar o Qwen-2.5-72b com ferramentas de pré-processamento:

Pré-processamento de Documentos

Use OpenCV ou outras bibliotecas de processamento de imagem para aprimorar as imagens dos documentos
Aplica correção de inclinação, aprimoramento de contraste e redução de ruído

2. Segmentação de Páginas

Para documentos de várias páginas, divida-os e processe cada página individualmente
Use a janela de contexto do modelo para manter a coerência entre as páginas

3. Pós-processamento

Implemente lógica de validação e limpeza para o texto extraído
Use expressões regulares ou passes secundários de LLM para corrigir erros comuns de OCR

Otimizando o Desempenho do OCR

Para obter os melhores resultados de OCR do Qwen-2.5-72b, considere estas melhores práticas:

A Qualidade da Imagem Importa: Forneça as imagens de maior resolução possível dentro dos limites da API.
Seja Específico nos Prompts: Diga ao modelo exatamente quais informações extrair e em que formato.
Leverage Structured Output: Aproveite as capacidades de geração de JSON do modelo solicitando explicitamente formatos estruturados.
Use Mensagens do Sistema: Configure mensagens de sistema apropriadas para orientar o comportamento de OCR do modelo.
Configurações de Temperatura: Valores de temperatura mais baixos (0.0-0.3) geralmente produzem resultados de OCR mais precisos.

Conclusão

O Qwen-2.5-72b representa um avanço significativo nas capacidades de OCR de código aberto. Seu desempenho excepcional em benchmarks, superando até mesmo modelos de OCR especializados, o torna uma escolha atraente para desenvolvedores e organizações que buscam soluções poderosas para processamento de documentos.

A combinação do modelo de compreensão visual, processamento de dados estruturados e capacidades multilíngues cria uma solução de OCR versátil que pode lidar com diversos tipos de documentos em várias línguas. Embora exija recursos computacionais substanciais, os resultados justificam o investimento para muitos casos de uso.

Ao aproveitar o Ollama para implantação local, os desenvolvedores podem facilmente integrar este poderoso modelo em seus fluxos de trabalho sem depender de APIs externas. Isso abre possibilidades para soluções de processamento de documentos seguras e locais que mantêm a privacidade dos dados enquanto oferecem desempenho de OCR de ponta.

Seja você desenvolvendo um pipeline de processamento automatizado de documentos, extraindo dados de formulários e faturas, ou digitalizando materiais impressos, o Qwen-2.5-72b oferece uma das soluções de código aberto mais capazes disponíveis hoje para tarefas de OCR.