Qwen-2.5-72b: ¿El mejor VLM de código abierto para OCR?

Para la industria de la IA, las capacidades de OCR se han vuelto cada vez más importantes para el procesamiento de documentos, la extracción de datos y los flujos de trabajo de automatización. Entre los modelos de lenguaje de visión de código abierto (VLMs) disponibles en la actualidad, Qwen-2.5-72b ha surgido como un contendiente poderoso, particularmente para las tareas de OCR.

Este tutorial explora por qué Qwen-2.5-72b destaca como potencialmente el mejor modelo de código abierto para tareas de OCR, examinando sus puntos de referencia de rendimiento, capacidades técnicas y cómo implementarlo localmente usando Ollama.

💡

¿Busca una forma más eficiente de desarrollar, probar y documentar sus APIs? Apidog ofrece una alternativa integral a Postman, combinando el diseño de API, la depuración, la simulación, las pruebas y la documentación en una única plataforma unificada.

button

Con su interfaz intuitiva y sus potentes funciones de colaboración, Apidog agiliza todo el ciclo de vida del desarrollo de API, ayudando a los equipos a trabajar de manera más eficiente al tiempo que mantiene la coherencia en todos los proyectos.

Ya sea que sea un desarrollador individual o parte de una gran empresa, la perfecta integración del flujo de trabajo y el sólido conjunto de herramientas de Apidog lo convierten en el compañero perfecto para el desarrollo moderno de API.

button

Puntos de referencia de los modelos Qwen-2.5: una mirada rápida

Qwen-2.5 representa la última serie de modelos de lenguaje grandes de Alibaba Cloud, lanzada en septiembre de 2024. Es un avance significativo con respecto a su predecesor, Qwen-2, con varias mejoras clave:

Preentrenado en un enorme conjunto de datos de hasta 18 billones de tokens
Capacidad de conocimiento y experiencia en el dominio mejoradas
Capacidades superiores de seguimiento de instrucciones
Manejo avanzado de textos largos (hasta 8K de generación de tokens)
Comprensión de datos estructurados y generación de resultados mejoradas
Soporte para longitudes de contexto de hasta 128K tokens
Soporte multilingüe en 29 idiomas

La familia Qwen-2.5 incluye modelos que van desde 0.5B hasta 72B parámetros. Para las tareas de OCR, el modelo más grande de 72B ofrece el rendimiento más impresionante, aunque la variante de 32B también funciona excepcionalmente bien.

Por qué Qwen-2.5-72B es el mejor modelo de OCR de código abierto

Resultados de referencia

Según los puntos de referencia integrales realizados por OmniAI que evaluaron los modelos de código abierto para OCR, los modelos Qwen-2.5-VL (tanto las variantes de 72B como de 32B) demostraron un rendimiento notable:

Precisión: Ambos modelos Qwen-2.5-VL lograron aproximadamente un 75% de precisión en las tareas de extracción de JSON de documentos, lo que coincide con el rendimiento de GPT-4o.
Ventaja competitiva: Los modelos Qwen-2.5-VL superaron a mistral-ocr (72.2%), que está específicamente entrenado para tareas de OCR.
Rendimiento superior: Superaron significativamente a otros modelos populares de código abierto, incluido Gemma-3 (27B), que solo logró un 42.9% de precisión, y los modelos Llama.

Lo que hace que esto sea particularmente impresionante es que los modelos Qwen-2.5-VL no fueron diseñados exclusivamente para tareas de OCR, sin embargo, superaron a los modelos de OCR especializados. Esto demuestra sus capacidades de procesamiento de visión versátiles y robustas.

Ventajas clave para las tareas de OCR

Varios factores contribuyen al excepcional rendimiento de OCR de Qwen-2.5-72b:

Procesamiento de datos estructurados mejorado: Los modelos Qwen-2.5 sobresalen en la comprensión de formatos de datos estructurados como tablas y formularios, que son comunes en documentos que requieren OCR.
Generación de salida JSON mejorada: El modelo se ha optimizado específicamente para generar salidas estructuradas en formatos como JSON, lo cual es crucial para extraer y organizar información de documentos escaneados.
Ventana de contexto grande: Con soporte de contexto de hasta 128K tokens, el modelo puede procesar documentos completos o varias páginas simultáneamente, manteniendo la coherencia y la comprensión contextual en todo momento.
Capacidades de OCR multilingüe: El soporte para 29 idiomas lo hace versátil para las necesidades internacionales de procesamiento de documentos.
Integración visual-textual: El modelo 72B aprovecha su enorme conteo de parámetros para conectar mejor los elementos visuales con la comprensión textual, mejorando la comprensión de los diseños de documentos, las tablas y el contenido mixto de texto e imagen.
Resistencia a la variación de documentos: El modelo funciona de manera consistente en varios tipos, calidades y formatos de documentos, lo que demuestra capacidades robustas de OCR en escenarios del mundo real.

Ejecución de Qwen-2.5-72b localmente con Ollama

Ollama proporciona una manera fácil de ejecutar modelos de lenguaje grandes localmente, incluido Qwen-2.5-72b. Aquí hay una guía paso a paso para implementar este poderoso modelo de OCR en su propia máquina:

Requisitos del sistema

Antes de continuar, asegúrese de que su sistema cumpla con estos requisitos mínimos:

RAM: 64GB+ recomendado (tamaño del modelo de 47GB más sobrecarga)
GPU: GPU NVIDIA con al menos 48GB de VRAM para precisión total, o 24GB+ con cuantificación
Almacenamiento: Al menos 50GB de espacio libre para el modelo y los archivos temporales
Sistema operativo: Linux, macOS o Windows (con WSL2)

Pasos de instalación

Instalar Ollama

Visite ollama.com/download y descargue la versión apropiada para su sistema operativo. Siga las instrucciones de instalación.

Extraer el modelo Qwen-2.5-72b

Abra una terminal o un símbolo del sistema y ejecute:

ollama pull qwen2.5:72b

Esto descargará el modelo, que tiene un tamaño aproximado de 47GB con cuantificación Q4_K_M. La descarga puede tardar algún tiempo dependiendo de su conexión a Internet.

Iniciar el modelo

Una vez descargado, puede iniciar el modelo con:

ollama run qwen2.5:72b

Usar el modelo para tareas de OCR

Puede interactuar con el modelo directamente a través de la línea de comandos o usar la API de Ollama para aplicaciones más complejas. Para las tareas de OCR, deberá enviar imágenes al modelo.

Integración de API para tareas de OCR

Para usar Qwen-2.5-72b para OCR a través de la API de Ollama:

Iniciar el servidor Ollama

Si aún no se está ejecutando, inicie el servicio Ollama.

Configurar una solicitud de API

Aquí hay un ejemplo de Python usando la biblioteca requests:

import requests
import base64

# Función para codificar la imagen
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Ruta a la imagen de su documento
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Construir la solicitud de API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Extraer texto de este documento y formatearlo como JSON.",
    "images": [base64_image],
    "stream": False
}

# Enviar la solicitud
response = requests.post(api_url, json=payload)
result = response.json()

# Imprimir el texto extraído
print(result['response'])

Optimizar las indicaciones de OCR

Para obtener mejores resultados de OCR, use indicaciones específicas adaptadas a su tipo de documento:

Para facturas: "Extraer todos los detalles de la factura, incluido el número de factura, la fecha, el proveedor, las partidas y los importes totales como JSON estructurado".
Para formularios: "Extraer todos los campos y sus valores de este formulario y formatearlos como JSON".
Para tablas: "Extraer los datos de esta tabla y convertirlos en una estructura de matriz JSON".

Flujos de trabajo de OCR avanzados

Para flujos de trabajo de OCR más sofisticados, puede combinar Qwen-2.5-72b con herramientas de preprocesamiento:

Preprocesamiento de documentos

Use OpenCV u otras bibliotecas de procesamiento de imágenes para mejorar las imágenes de los documentos
Aplicar la corrección de la inclinación, la mejora del contraste y la reducción del ruido

2. Segmentación de página

Para documentos de varias páginas, divídalos y procese cada página individualmente
Use la ventana de contexto del modelo para mantener la coherencia entre las páginas

3. Post-procesamiento

Implementar la lógica de validación y limpieza para el texto extraído
Use expresiones regulares o pases LLM secundarios para corregir errores comunes de OCR

Optimización del rendimiento de OCR

Para obtener los mejores resultados de OCR de Qwen-2.5-72b, considere estas prácticas recomendadas:

La calidad de la imagen importa: Proporcione las imágenes de mayor resolución posible dentro de los límites de la API.
Sea específico en las indicaciones: Dígale al modelo exactamente qué información extraer y en qué formato.
Aproveche la salida estructurada: Aproveche las capacidades de generación de JSON del modelo solicitando explícitamente formatos estructurados.
Use mensajes del sistema: Configure los mensajes del sistema apropiados para guiar el comportamiento de OCR del modelo.
Configuración de temperatura: Los valores de temperatura más bajos (0.0-0.3) generalmente producen resultados de OCR más precisos.

Conclusión

Qwen-2.5-72b representa un avance significativo en las capacidades de OCR de código abierto. Su excepcional rendimiento en los puntos de referencia, superando incluso a los modelos de OCR especializados, lo convierte en una opción convincente para los desarrolladores y las organizaciones que buscan soluciones potentes de procesamiento de documentos.

La combinación del modelo de comprensión visual, procesamiento de datos estructurados y capacidades multilingües crea una solución de OCR versátil que puede manejar diversos tipos de documentos en varios idiomas. Si bien requiere recursos computacionales sustanciales, los resultados justifican la inversión para muchos casos de uso.

Al aprovechar Ollama para la implementación local, los desarrolladores pueden integrar fácilmente este poderoso modelo en sus flujos de trabajo sin depender de API externas. Esto abre posibilidades para soluciones seguras de procesamiento de documentos en las instalaciones que mantienen la privacidad de los datos al tiempo que ofrecen un rendimiento de OCR de última generación.

Ya sea que esté construyendo una canalización automatizada de procesamiento de documentos, extrayendo datos de formularios y facturas o digitalizando materiales impresos, Qwen-2.5-72b ofrece una de las soluciones de código abierto más capaces disponibles en la actualidad para tareas de OCR.