Qwen-2.5-72b: ¿El mejor VLM de código abierto para OCR?

Este tutorial explora por qué Qwen-2.5-72b destaca como el mejor modelo open-source para OCR.

Daniel Costa

Daniel Costa

4 July 2025

Qwen-2.5-72b: ¿El mejor VLM de código abierto para OCR?

Para la industria de la IA, las capacidades de OCR se han vuelto cada vez más importantes para el procesamiento de documentos, la extracción de datos y los flujos de trabajo de automatización. Entre los modelos de lenguaje de visión de código abierto (VLMs) disponibles en la actualidad, Qwen-2.5-72b ha surgido como un contendiente poderoso, particularmente para las tareas de OCR.

Este tutorial explora por qué Qwen-2.5-72b destaca como potencialmente el mejor modelo de código abierto para tareas de OCR, examinando sus puntos de referencia de rendimiento, capacidades técnicas y cómo implementarlo localmente usando Ollama.

💡
¿Busca una forma más eficiente de desarrollar, probar y documentar sus APIs? Apidog ofrece una alternativa integral a Postman, combinando el diseño de API, la depuración, la simulación, las pruebas y la documentación en una única plataforma unificada. 
button

Con su interfaz intuitiva y sus potentes funciones de colaboración, Apidog agiliza todo el ciclo de vida del desarrollo de API, ayudando a los equipos a trabajar de manera más eficiente al tiempo que mantiene la coherencia en todos los proyectos.

Ya sea que sea un desarrollador individual o parte de una gran empresa, la perfecta integración del flujo de trabajo y el sólido conjunto de herramientas de Apidog lo convierten en el compañero perfecto para el desarrollo moderno de API.

button

Puntos de referencia de los modelos Qwen-2.5: una mirada rápida

Qwen-2.5 representa la última serie de modelos de lenguaje grandes de Alibaba Cloud, lanzada en septiembre de 2024. Es un avance significativo con respecto a su predecesor, Qwen-2, con varias mejoras clave:

La familia Qwen-2.5 incluye modelos que van desde 0.5B hasta 72B parámetros. Para las tareas de OCR, el modelo más grande de 72B ofrece el rendimiento más impresionante, aunque la variante de 32B también funciona excepcionalmente bien.

Por qué Qwen-2.5-72B es el mejor modelo de OCR de código abierto

Resultados de referencia

Según los puntos de referencia integrales realizados por OmniAI que evaluaron los modelos de código abierto para OCR, los modelos Qwen-2.5-VL (tanto las variantes de 72B como de 32B) demostraron un rendimiento notable:

Lo que hace que esto sea particularmente impresionante es que los modelos Qwen-2.5-VL no fueron diseñados exclusivamente para tareas de OCR, sin embargo, superaron a los modelos de OCR especializados. Esto demuestra sus capacidades de procesamiento de visión versátiles y robustas.

Ventajas clave para las tareas de OCR

Varios factores contribuyen al excepcional rendimiento de OCR de Qwen-2.5-72b:

  1. Procesamiento de datos estructurados mejorado: Los modelos Qwen-2.5 sobresalen en la comprensión de formatos de datos estructurados como tablas y formularios, que son comunes en documentos que requieren OCR.
  2. Generación de salida JSON mejorada: El modelo se ha optimizado específicamente para generar salidas estructuradas en formatos como JSON, lo cual es crucial para extraer y organizar información de documentos escaneados.
  3. Ventana de contexto grande: Con soporte de contexto de hasta 128K tokens, el modelo puede procesar documentos completos o varias páginas simultáneamente, manteniendo la coherencia y la comprensión contextual en todo momento.
  4. Capacidades de OCR multilingüe: El soporte para 29 idiomas lo hace versátil para las necesidades internacionales de procesamiento de documentos.
  5. Integración visual-textual: El modelo 72B aprovecha su enorme conteo de parámetros para conectar mejor los elementos visuales con la comprensión textual, mejorando la comprensión de los diseños de documentos, las tablas y el contenido mixto de texto e imagen.
  6. Resistencia a la variación de documentos: El modelo funciona de manera consistente en varios tipos, calidades y formatos de documentos, lo que demuestra capacidades robustas de OCR en escenarios del mundo real.

Ejecución de Qwen-2.5-72b localmente con Ollama

Ollama proporciona una manera fácil de ejecutar modelos de lenguaje grandes localmente, incluido Qwen-2.5-72b. Aquí hay una guía paso a paso para implementar este poderoso modelo de OCR en su propia máquina:

Requisitos del sistema

Antes de continuar, asegúrese de que su sistema cumpla con estos requisitos mínimos:

Pasos de instalación

Instalar Ollama

Visite ollama.com/download y descargue la versión apropiada para su sistema operativo. Siga las instrucciones de instalación.

Extraer el modelo Qwen-2.5-72b

Abra una terminal o un símbolo del sistema y ejecute:

ollama pull qwen2.5:72b

Esto descargará el modelo, que tiene un tamaño aproximado de 47GB con cuantificación Q4_K_M. La descarga puede tardar algún tiempo dependiendo de su conexión a Internet.

Iniciar el modelo

Una vez descargado, puede iniciar el modelo con:

ollama run qwen2.5:72b

Usar el modelo para tareas de OCR

Puede interactuar con el modelo directamente a través de la línea de comandos o usar la API de Ollama para aplicaciones más complejas. Para las tareas de OCR, deberá enviar imágenes al modelo.

Integración de API para tareas de OCR

Para usar Qwen-2.5-72b para OCR a través de la API de Ollama:

Iniciar el servidor Ollama

Si aún no se está ejecutando, inicie el servicio Ollama.

Configurar una solicitud de API

Aquí hay un ejemplo de Python usando la biblioteca requests:

import requests
import base64

# Función para codificar la imagen
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Ruta a la imagen de su documento
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Construir la solicitud de API
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Extraer texto de este documento y formatearlo como JSON.",
    "images": [base64_image],
    "stream": False
}

# Enviar la solicitud
response = requests.post(api_url, json=payload)
result = response.json()

# Imprimir el texto extraído
print(result['response'])

Optimizar las indicaciones de OCR

Para obtener mejores resultados de OCR, use indicaciones específicas adaptadas a su tipo de documento:

Flujos de trabajo de OCR avanzados

Para flujos de trabajo de OCR más sofisticados, puede combinar Qwen-2.5-72b con herramientas de preprocesamiento:

  1. Preprocesamiento de documentos

2. Segmentación de página

3. Post-procesamiento

Optimización del rendimiento de OCR

Para obtener los mejores resultados de OCR de Qwen-2.5-72b, considere estas prácticas recomendadas:

  1. La calidad de la imagen importa: Proporcione las imágenes de mayor resolución posible dentro de los límites de la API.
  2. Sea específico en las indicaciones: Dígale al modelo exactamente qué información extraer y en qué formato.
  3. Aproveche la salida estructurada: Aproveche las capacidades de generación de JSON del modelo solicitando explícitamente formatos estructurados.
  4. Use mensajes del sistema: Configure los mensajes del sistema apropiados para guiar el comportamiento de OCR del modelo.
  5. Configuración de temperatura: Los valores de temperatura más bajos (0.0-0.3) generalmente producen resultados de OCR más precisos.

Conclusión

Qwen-2.5-72b representa un avance significativo en las capacidades de OCR de código abierto. Su excepcional rendimiento en los puntos de referencia, superando incluso a los modelos de OCR especializados, lo convierte en una opción convincente para los desarrolladores y las organizaciones que buscan soluciones potentes de procesamiento de documentos.

La combinación del modelo de comprensión visual, procesamiento de datos estructurados y capacidades multilingües crea una solución de OCR versátil que puede manejar diversos tipos de documentos en varios idiomas. Si bien requiere recursos computacionales sustanciales, los resultados justifican la inversión para muchos casos de uso.

Al aprovechar Ollama para la implementación local, los desarrolladores pueden integrar fácilmente este poderoso modelo en sus flujos de trabajo sin depender de API externas. Esto abre posibilidades para soluciones seguras de procesamiento de documentos en las instalaciones que mantienen la privacidad de los datos al tiempo que ofrecen un rendimiento de OCR de última generación.

Ya sea que esté construyendo una canalización automatizada de procesamiento de documentos, extrayendo datos de formularios y facturas o digitalizando materiales impresos, Qwen-2.5-72b ofrece una de las soluciones de código abierto más capaces disponibles en la actualidad para tareas de OCR.

Explore more

Postman con una interfaz en español: Descargar gratis

Postman con una interfaz en español: Descargar gratis

Postman carece de una interfaz de usuario en español, lo que complica la colaboración y la eficiencia. Apidog emerge como la alternativa definitiva, ofreciendo una experiencia de desarrollo de API totalmente en español.

1 August 2025

Cómo usar Ollama: Guía Completa para Principiantes sobre LLMs Locales con Ollama

Cómo usar Ollama: Guía Completa para Principiantes sobre LLMs Locales con Ollama

El panorama de la inteligencia artificial evoluciona constantemente, y los Grandes Modelos de Lenguaje (LLM) se vuelven cada vez más potentes y accesibles. Aunque muchos interactúan con estos modelos a través de servicios basados en la nube, existe un movimiento creciente enfocado en ejecutarlos directamente en computadoras personales. Aquí es donde entra Ollama. Ollama es una herramienta potente pero fácil de usar, diseñada para simplificar drásticamente el complejo proceso de descargar, config

28 April 2025

¿Dónde Descargar Swagger UI en Español Gratis?

¿Dónde Descargar Swagger UI en Español Gratis?

¿Necesitas Swagger UI en español? Este artículo explica por qué no existe una descarga oficial gratuita y cómo habilitar la traducción. Explora las características de Swagger y por qué Apidog es la alternativa superior para diseño, pruebas y documentación API integrados.

23 April 2025

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs