Qwen-2.5-72b: Bester Open-Source-VLM für OCR?

Dieses Tutorial zeigt, warum Qwen-2.5-72b das beste Open-Source-OCR-Modell sein könnte.

Leo Schulz

Leo Schulz

5 June 2025

Qwen-2.5-72b: Bester Open-Source-VLM für OCR?

Für die KI-Industrie sind OCR-Fähigkeiten (Optical Character Recognition) für die Dokumentenverarbeitung, Datenextraktion und Automatisierungs-Workflows immer wichtiger geworden. Unter den heute verfügbaren Open-Source-Vision-Language-Modellen (VLMs) hat sich Qwen-2.5-72b als leistungsstarker Anwärter erwiesen, insbesondere für OCR-Aufgaben.

Dieses Tutorial untersucht, warum sich Qwen-2.5-72b als potenziell das beste Open-Source-Modell für OCR-Aufgaben auszeichnet, indem es seine Leistungsbenchmarks, technischen Fähigkeiten und die lokale Bereitstellung mit Ollama untersucht.

💡
Suchen Sie nach einer effizienteren Möglichkeit, Ihre APIs zu entwickeln, zu testen und zu dokumentieren? Apidog bietet eine umfassende Alternative zu Postman und kombiniert API-Design, Debugging, Mocking, Testen und Dokumentation in einer einzigen, einheitlichen Plattform. 
button

Mit seiner intuitiven Benutzeroberfläche und leistungsstarken Kollaborationsfunktionen rationalisiert Apidog den gesamten API-Entwicklungslebenszyklus und hilft Teams, effizienter zu arbeiten und gleichzeitig die Konsistenz über Projekte hinweg zu gewährleisten.

Egal, ob Sie ein einzelner Entwickler oder Teil eines großen Unternehmens sind, die nahtlose Workflow-Integration und das robuste Toolset von Apidog machen es zum perfekten Begleiter für die moderne API-Entwicklung.

button

Qwen-2.5 Models Benchmarks: Ein kurzer Überblick

Qwen-2.5 repräsentiert die neueste Serie großer Sprachmodelle von Alibaba Cloud, die im September 2024 veröffentlicht wurde. Es ist eine bedeutende Weiterentwicklung gegenüber seinem Vorgänger, Qwen-2, mit mehreren wichtigen Verbesserungen:

Die Qwen-2.5-Familie umfasst Modelle von 0,5B bis 72B Parametern. Für OCR-Aufgaben liefert das größte 72B-Modell die beeindruckendste Leistung, obwohl die 32B-Variante ebenfalls außergewöhnlich gut abschneidet.

Warum Qwen-2.5-72B das beste Open-Source-OCR-Modell ist

Benchmark-Ergebnisse

Laut umfassenden Benchmarks, die von OmniAI durchgeführt wurden und Open-Source-Modelle für OCR bewerteten, zeigten Qwen-2.5-VL-Modelle (sowohl 72B- als auch 32B-Varianten) bemerkenswerte Leistungen:

Was dies besonders beeindruckend macht, ist, dass Qwen-2.5-VL-Modelle nicht ausschließlich für OCR-Aufgaben entwickelt wurden, aber dennoch spezialisierte OCR-Modelle übertrafen. Dies zeigt ihre vielseitigen und robusten Fähigkeiten zur Bildverarbeitung.

Wichtige Vorteile für OCR-Aufgaben

Mehrere Faktoren tragen zur außergewöhnlichen OCR-Leistung von Qwen-2.5-72b bei:

  1. Erweiterte Verarbeitung strukturierter Daten: Qwen-2.5-Modelle zeichnen sich durch das Verständnis strukturierter Datenformate wie Tabellen und Formulare aus, die in Dokumenten, die OCR erfordern, üblich sind.
  2. Verbesserte JSON-Ausgabegenerierung: Das Modell wurde speziell optimiert, um strukturierte Ausgaben in Formaten wie JSON zu generieren, was für die Extraktion und Organisation von Informationen aus gescannten Dokumenten entscheidend ist.
  3. Großes Kontextfenster: Mit Kontextunterstützung von bis zu 128K Tokens kann das Modell ganze Dokumente oder mehrere Seiten gleichzeitig verarbeiten und dabei Kohärenz und kontextuelles Verständnis beibehalten.
  4. Mehrsprachige OCR-Fähigkeiten: Die Unterstützung von 29 Sprachen macht es vielseitig für internationale Dokumentenverarbeitungsanforderungen.
  5. Visuell-textuelle Integration: Das 72B-Modell nutzt seine enorme Parameteranzahl, um visuelle Elemente besser mit dem Textverständnis zu verbinden und das Verständnis von Dokumentenlayouts, Tabellen und gemischten Text-Bild-Inhalten zu verbessern.
  6. Resistenz gegen Dokumentenvariationen: Das Modell arbeitet konsistent über verschiedene Dokumenttypen, -qualitäten und -formate hinweg und demonstriert robuste OCR-Fähigkeiten in realen Szenarien.

Qwen-2.5-72b lokal mit Ollama ausführen

Ollama bietet eine einfache Möglichkeit, große Sprachmodelle lokal auszuführen, einschließlich Qwen-2.5-72b. Hier ist eine Schritt-für-Schritt-Anleitung zur Bereitstellung dieses leistungsstarken OCR-Modells auf Ihrem eigenen Rechner:

Systemanforderungen

Bevor Sie fortfahren, stellen Sie sicher, dass Ihr System diese Mindestanforderungen erfüllt:

Installationsschritte

Ollama installieren

Besuchen Sie ollama.com/download und laden Sie die entsprechende Version für Ihr Betriebssystem herunter. Befolgen Sie die Installationsanweisungen.

Das Qwen-2.5-72b-Modell abrufen

Öffnen Sie ein Terminal oder eine Eingabeaufforderung und führen Sie Folgendes aus:

ollama pull qwen2.5:72b

Dadurch wird das Modell heruntergeladen, das mit Q4_K_M-Quantisierung etwa 47 GB groß ist. Der Download kann je nach Ihrer Internetverbindung einige Zeit dauern.

Das Modell starten

Nach dem Herunterladen können Sie das Modell mit Folgendem starten:

ollama run qwen2.5:72b

Verwendung des Modells für OCR-Aufgaben

Sie können direkt über die Befehlszeile mit dem Modell interagieren oder die Ollama-API für komplexere Anwendungen verwenden. Für OCR-Aufgaben müssen Sie Bilder an das Modell senden.

API-Integration für OCR-Aufgaben

So verwenden Sie Qwen-2.5-72b für OCR über die Ollama-API:

Starten Sie den Ollama-Server

Wenn er noch nicht ausgeführt wird, starten Sie den Ollama-Dienst.

Richten Sie eine API-Anfrage ein

Hier ist ein Python-Beispiel mit der requests-Bibliothek:

import requests
import base64

# Funktion zum Codieren des Bildes
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')

# Pfad zu Ihrem Dokumentbild
image_path = "path/to/your/document.jpg"
base64_image = encode_image(image_path)

# Konstruieren Sie die API-Anfrage
api_url = "<http://localhost:11434/api/generate>"
payload = {
    "model": "qwen2.5:72b",
    "prompt": "Extrahiere Text aus diesem Dokument und formatiere ihn als JSON.",
    "images": [base64_image],
    "stream": False
}

# Senden Sie die Anfrage
response = requests.post(api_url, json=payload)
result = response.json()

# Drucken Sie den extrahierten Text
print(result['response'])

Optimieren Sie OCR-Prompts

Verwenden Sie für bessere OCR-Ergebnisse spezifische Prompts, die auf Ihren Dokumenttyp zugeschnitten sind:

Erweiterte OCR-Workflows

Für anspruchsvollere OCR-Workflows können Sie Qwen-2.5-72b mit Vorverarbeitungstools kombinieren:

  1. Dokumentenvorverarbeitung

2. Seitensegmentierung

3. Nachbearbeitung

Optimierung der OCR-Leistung

Um die besten OCR-Ergebnisse von Qwen-2.5-72b zu erzielen, sollten Sie diese Best Practices berücksichtigen:

  1. Bildqualität ist wichtig: Stellen Sie Bilder mit der höchstmöglichen Auflösung innerhalb der API-Limits bereit.
  2. Seien Sie spezifisch in Prompts: Sagen Sie dem Modell genau, welche Informationen extrahiert werden sollen und in welchem Format.
  3. Nutzen Sie strukturierte Ausgabe: Nutzen Sie die JSON-Generierungsfunktionen des Modells, indem Sie explizit strukturierte Formate anfordern.
  4. Verwenden Sie Systemnachrichten: Richten Sie geeignete Systemnachrichten ein, um das OCR-Verhalten des Modells zu steuern.
  5. Temperatureinstellungen: Niedrigere Temperaturwerte (0,0-0,3) führen in der Regel zu genaueren OCR-Ergebnissen.

Fazit

Qwen-2.5-72b stellt einen bedeutenden Fortschritt in den Open-Source-OCR-Fähigkeiten dar. Seine außergewöhnliche Leistung in Benchmarks, die selbst spezialisierte OCR-Modelle übertrifft, macht es zu einer überzeugenden Wahl für Entwickler und Organisationen, die nach leistungsstarken Dokumentenverarbeitungslösungen suchen.

Die Kombination aus visuellem Verständnis, strukturierter Datenverarbeitung und mehrsprachigen Fähigkeiten des Modells schafft eine vielseitige OCR-Lösung, die verschiedene Dokumenttypen in verschiedenen Sprachen verarbeiten kann. Obwohl es erhebliche Rechenressourcen erfordert, rechtfertigen die Ergebnisse die Investition für viele Anwendungsfälle.

Durch die Nutzung von Ollama für die lokale Bereitstellung können Entwickler dieses leistungsstarke Modell einfach in ihre Workflows integrieren, ohne sich auf externe APIs verlassen zu müssen. Dies eröffnet Möglichkeiten für sichere, lokale Dokumentenverarbeitungslösungen, die die Datenprivatsphäre wahren und gleichzeitig modernste OCR-Leistung erbringen.

Egal, ob Sie eine automatisierte Dokumentenverarbeitungspipeline erstellen, Daten aus Formularen und Rechnungen extrahieren oder gedruckte Materialien digitalisieren, Qwen-2.5-72b bietet eine der leistungsfähigsten Open-Source-Lösungen, die heute für OCR-Aufgaben verfügbar sind.

Explore more

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Künstliche Intelligenz wächst rasant. FractalAIResearch/Fathom-R1-14B (14,8 Mrd. Parameter) glänzt in Mathe & Logik.

5 June 2025

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Die Softwareentwicklung erlebt Innovationen durch KI. Cursor, ein KI-Editor, erreicht mit Version 1.0 einen Meilenstein.

5 June 2025

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

Der Aufstieg von Web 3.0: Dezentral, nutzerorientiert, transparent. APIs ermöglichen innovative dApps und Blockchain-Integration.

4 June 2025

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen