Qwen 3 lokal mit Ollama & VLLM ausführen

Die Landschaft der LLMs entwickelt sich rasant. Qwen präsentierte Qwen3, beeindruckend in Leistung (Coding, Mathe, Reasoning). MoE-Modelle wie Qwen3-235B-A22B rivalisieren mit Giganten.

Leo Schulz

Leo Schulz

5 June 2025

Qwen 3 lokal mit Ollama & VLLM ausführen

Die Landschaft der großen Sprachmodelle (Large Language Models, LLMs) entwickelt sich rasant. Modelle werden leistungsfähiger, fähiger und, was wichtig ist, zugänglicher. Das Qwen-Team hat kürzlich Qwen3 vorgestellt, ihre neueste Generation von LLMs, die mit beeindruckender Leistung in verschiedenen Benchmarks aufwartet, darunter Programmierung, Mathematik und allgemeines Denken. Mit Flaggschiffmodellen wie dem Mixture-of-Experts (MoE) Qwen3-235B-A22B, das mit etablierten Giganten konkurriert, und sogar kleineren dichten Modellen wie Qwen3-4B, die mit Modellen der vorherigen Generation mit 72B Parametern konkurrieren, stellt Qwen3 einen bedeutenden Fortschritt dar.

Ein wichtiger Aspekt dieser Veröffentlichung ist die Open-Weighting mehrerer Modelle, darunter zwei MoE-Varianten (Qwen3-235B-A22B und Qwen3-30B-A3B) und sechs dichte Modelle mit einer Bandbreite von 0,6B bis 32B Parametern. Diese Offenheit lädt Entwickler, Forscher und Enthusiasten ein, diese leistungsstarken Werkzeuge zu erkunden, zu nutzen und darauf aufzubauen. Während Cloud-basierte APIs Komfort bieten, wächst der Wunsch, diese hochentwickelten Modelle lokal auszuführen, angetrieben von den Bedürfnissen nach Datenschutz, Kostenkontrolle, Anpassung und Offline-Zugänglichkeit.

Glücklicherweise hat sich das Tooling-Ökosystem für die lokale LLM-Ausführung erheblich weiterentwickelt. Zwei herausragende Plattformen, die diesen Prozess vereinfachen, sind Ollama und vLLM. Ollama bietet eine unglaublich benutzerfreundliche Möglichkeit, mit verschiedenen Modellen zu beginnen, während vLLM eine Hochleistungs-Serving-Lösung bietet, die für Durchsatz und Effizienz optimiert ist, insbesondere für größere Modelle. Dieser Artikel führt Sie durch das Verständnis von Qwen3 und die Einrichtung dieser leistungsstarken Modelle auf Ihrem lokalen Rechner mit Ollama und vLLM.

💡
Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!
button

Was ist Qwen 3 und Benchmarks

Qwen3 repräsentiert die dritte Generation der großen Sprachmodelle (LLMs), die vom Qwen-Team entwickelt und im April 2025 veröffentlicht wurden. Diese Iteration steht für einen erheblichen Fortschritt gegenüber früheren Versionen und konzentriert sich auf verbesserte Denkfähigkeiten, Effizienz durch architektonische Innovationen wie Mixture-of-Experts (MoE), breitere mehrsprachige Unterstützung und verbesserte Leistung in einer Vielzahl von Benchmarks. Die Veröffentlichung umfasste die Open-Weighting mehrerer Modelle unter der Apache 2.0-Lizenz, wodurch die Zugänglichkeit für Forschung und Entwicklung gefördert wurde.

Qwen 3 Modellarchitektur und Varianten, erklärt

Die Qwen3-Familie umfasst sowohl traditionelle dichte Modelle als auch spärliche MoE-Architekturen, die auf unterschiedliche Rechenbudgets und Leistungsanforderungen zugeschnitten sind.

Dichte Modelle: Diese Modelle verwenden alle ihre Parameter während der Inferenz. Wichtige architektonische Details umfassen:

Model Layers Attention Heads (Query / Key-Value) Tie Word Embeddings Max Context Length
Qwen3-0.6B 28 16 / 8 Yes 32,768 tokens (32K)
Qwen3-1.7B 28 16 / 8 Yes 32,768 tokens (32K)
Qwen3-4B 36 32 / 8 Yes 32,768 tokens (32K)
Qwen3-8B 36 32 / 8 No 131,072 tokens (128K)
Qwen3-14B 40 40 / 8 No 131,072 tokens (128K)
Qwen3-32B 64 64 / 8 No 131,072 tokens (128K)

Hinweis: Grouped-Query Attention (GQA) wird in allen Modellen verwendet, was durch die unterschiedliche Anzahl von Query- und Key-Value-Köpfen angezeigt wird.

Mixture-of-Experts (MoE) Modelle: Diese Modelle nutzen die Sparsity, indem sie während der Inferenz nur eine Teilmenge von "Expert"-Feed-Forward-Netzwerken (FFNs) für jedes Token aktivieren. Dies ermöglicht eine große Gesamtanzahl an Parametern, während die Rechenkosten näher an kleineren dichten Modellen gehalten werden.

Model Layers Attention Heads (Query / Key-Value) # Experts (Total / Activated) Max Context Length
Qwen3-30B-A3B 48 32 / 4 128 / 8 131,072 tokens (128K)
Qwen3-235B-A22B 94 64 / 4 128 / 8 131,072 tokens (128K)

Hinweis: Beide MoE-Modelle verwenden insgesamt 128 Experten, aktivieren aber nur 8 pro Token, wodurch die Rechenlast im Vergleich zu einem dichten Modell gleicher Größe erheblich reduziert wird.

Qwen 3 Wichtige technische Merkmale

Hybride Denkmodi: Ein besonderes Merkmal von Qwen3 ist seine Fähigkeit, in zwei verschiedenen Modi zu arbeiten, die vom Benutzer gesteuert werden können:

Umfassende mehrsprachige Unterstützung: Qwen3-Modelle sind auf einem vielfältigen Korpus vortrainiert, der die Unterstützung von 119 Sprachen und Dialekten in den wichtigsten Sprachfamilien (Indo-Europäisch, Sino-Tibetisch, Afro-Asiatisch, Austronesisch, Dravidisch, Turkisch usw.) ermöglicht und sie für eine Vielzahl globaler Anwendungen geeignet macht.

Erweiterte Trainingsmethodik:

  1. Long CoT Cold Start: Überwachtes Fine-Tuning (SFT) auf vielfältigen Long-Chain-of-Thought (CoT)-Daten, die Mathematik, Programmierung, logisches Denken und MINT umfassen, um grundlegende Denkfähigkeiten aufzubauen.
  2. Reasoning-basiertes Reinforcement Learning (RL): Hochskalierung der Rechenressourcen für RL unter Verwendung regelbasierter Belohnungen, um die Exploration und Exploitation speziell für Denkaufgaben zu verbessern.
  3. Thinking Mode Fusion: Integration von Nicht-Denkfähigkeiten durch Fine-Tuning des denkfähigkeitsverbesserten Modells auf einer Mischung aus Long-CoT-Daten und Standard-Instruction-Tuning-Daten, die vom Modell der Stufe 2 generiert wurden. Dies verbindet tiefes Denken mit schneller Antwortgenerierung.
  4. General RL: Anwendung von RL über zahlreiche allgemeine Aufgaben (Anweisungsbefolgung, Format-Einhaltung, Agenten-Fähigkeiten), um das Gesamtverhalten zu verfeinern und unerwünschte Ausgaben zu mindern.

Qwen 3 Benchmark-Leistung

Qwen3 zeigt eine sehr wettbewerbsfähige Leistung gegenüber anderen führenden zeitgenössischen Modellen:

Flaggschiff MoE: Das Modell Qwen3-235B-A22B erzielt Ergebnisse, die mit Top-Tier-Modellen wie DeepSeek-R1, Googles o1 und o3-mini, Grok-3 und Gemini-2.5-Pro in verschiedenen Benchmarks zur Bewertung von Programmierung, Mathematik und allgemeinen Fähigkeiten vergleichbar sind.

Kleineres MoE: Das Modell Qwen3-30B-A3B übertrifft Modelle wie QwQ-32B deutlich, obwohl während der Inferenz nur ein Bruchteil (3B vs. 32B) der Parameter aktiviert wird, was die Effizienz der MoE-Architektur hervorhebt.

Dichte Modelle: Aufgrund von architektonischen und Trainingsfortschritten erreichen Qwen3-Dichtemodelle im Allgemeinen die Leistung größerer Qwen2.5-Dichtemodelle oder übertreffen diese. Zum Beispiel:

MoE-Effizienz: Qwen3-MoE-Basismodelle erzielen eine Leistung, die mit deutlich größeren Qwen2.5-Dichtemodellen vergleichbar ist, während sie nur ~10 % der Parameter aktivieren, was zu erheblichen Einsparungen bei der Berechnung von Training und Inferenz führt.

Diese Benchmark-Ergebnisse unterstreichen die Position von Qwen3 als eine hochmoderne Modellfamilie, die sowohl hohe Leistung als auch, insbesondere mit MoE-Varianten, verbesserte Recheneffizienz bietet. Die Modelle sind über Standardplattformen wie Hugging Face, ModelScope und Kaggle verfügbar und werden von beliebten Bereitstellungs-Frameworks wie Ollama, vLLM, SGLang, LMStudio und llama.cpp unterstützt, was ihre Integration in verschiedene Workflows und Anwendungen, einschließlich der lokalen Ausführung, erleichtert.

So führen Sie Qwen 3 lokal mit Ollama aus

Ollama hat aufgrund seiner Einfachheit beim Herunterladen, Verwalten und Ausführen von LLMs lokal immense Popularität erlangt. Es abstrahiert einen Großteil der Komplexität und bietet eine Befehlszeilenschnittstelle und einen API-Server.

1. Installation:
Die Installation von Ollama ist in der Regel unkompliziert. Besuchen Sie die offizielle Ollama-Website (ollama.com) und befolgen Sie die Download-Anweisungen für Ihr Betriebssystem (macOS, Linux, Windows).

2. Abrufen von Qwen3-Modellen:
Ollama verwaltet eine Bibliothek mit sofort verfügbaren Modellen. Um ein bestimmtes Qwen3-Modell auszuführen, verwenden Sie den Befehl ollama run. Wenn das Modell nicht lokal vorhanden ist, lädt Ollama es automatisch herunter. Das Qwen-Team hat mehrere Qwen3-Varianten direkt in der Ollama-Bibliothek verfügbar gemacht.

Sie können verfügbare Qwen3-Tags auf der Qwen3-Seite der Ollama-Website finden (z. B. ollama.com/library/qwen3). Häufige Tags könnten sein:

Um beispielsweise das Modell mit 4B Parametern auszuführen, öffnen Sie einfach Ihr Terminal und geben Sie Folgendes ein:

ollama run qwen3:4b

Dieser Befehl lädt das Modell herunter (falls erforderlich) und startet eine interaktive Chat-Sitzung.

3. Interaktion mit dem Modell:
Sobald der Befehl ollama run aktiv ist, können Sie Ihre Prompts direkt in das Terminal eingeben. Ollama startet auch einen lokalen Server (normalerweise unter http://localhost:11434), der eine API bereitstellt, die mit dem OpenAI-Standard kompatibel ist. Sie können programmgesteuert mit diesem interagieren, indem Sie Tools wie curl oder verschiedene Client-Bibliotheken in Python, JavaScript usw. verwenden.

4. Hardware-Überlegungen:
Die lokale Ausführung von LLMs erfordert erhebliche Ressourcen.

Ollama eignet sich hervorragend für den schnellen Einstieg, die lokale Entwicklung, das Experimentieren und für Einzelbenutzer-Chat-Anwendungen, insbesondere auf Hardware für Endverbraucher (innerhalb von Grenzen).

So führen Sie Ollama lokal mit vLLM aus

vLLM ist eine Bibliothek für das LLM-Serving mit hohem Durchsatz, die Optimierungen wie PagedAttention verwendet, um die Inferenzgeschwindigkeit und Speichereffizienz erheblich zu verbessern, wodurch sie sich ideal für anspruchsvolle Anwendungen und das Serving größerer Modelle eignet. Das vLLM-Team bietet exzellenten Support für neue Architekturen, einschließlich Day-0-Support für Qwen3 bei seiner Veröffentlichung.

1. Installation:
Installieren Sie vLLM mit pip. Es wird im Allgemeinen empfohlen, eine virtuelle Umgebung zu verwenden:

pip install -U vllm

Stellen Sie sicher, dass Sie die erforderlichen Voraussetzungen haben, typischerweise eine kompatible NVIDIA-GPU mit dem entsprechenden installierten CUDA-Toolkit. Informationen zu spezifischen Anforderungen finden Sie in der vLLM-Dokumentation.

2. Serving von Qwen3-Modellen:
vLLM verwendet den Befehl vllm serve, um ein Modell zu laden und einen OpenAI-kompatiblen API-Server zu starten. Das Qwen-Team und die vLLM-Dokumentation geben Anleitungen zur Ausführung von Qwen3.

Basierend auf den bereitgestellten Informationen und der gängigen vLLM-Nutzung erfahren Sie hier, wie Sie das große Qwen3-235B-MoE-Modell mit FP8-Quantisierung (zur Reduzierung des Speicherverbrauchs) und Tensorparallelität über 4 GPUs bedienen können:

vllm serve Qwen/Qwen3-235B-A22B-FP8 \
    --enable-reasoning \
    --reasoning-parser deepseek_r1 \
    --tensor-parallel-size 4

Lassen Sie uns diesen Befehl aufschlüsseln:

Sie können diesen Befehl an andere Qwen3-Modelle anpassen (z. B. Qwen/Qwen3-30B-A3B oder Qwen/Qwen3-32B) und Parameter wie tensor-parallel-size basierend auf Ihrer Hardware anpassen.

3. Interaktion mit dem vLLM-Server:
Sobald vllm serve ausgeführt wird, hostet es einen API-Server (standardmäßig http://localhost:8000), der die OpenAI-API-Spezifikation widerspiegelt. Sie können mit ihm mit Standardtools interagieren:

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "Qwen/Qwen3-235B-A22B-FP8", # Use the model name you served
        "prompt": "Explain the concept of Mixture-of-Experts in LLMs.",
        "max_tokens": 150,
        "temperature": 0.7
    }'
from openai import OpenAI

# Point to the local vLLM server
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

completion = client.completions.create(
  model="Qwen/Qwen3-235B-A22B-FP8", # Use the model name you served
  prompt="Write a short story about a robot discovering music.",
  max_tokens=200
)
print(completion.choices[0].text)

4. Leistung und Anwendungsfälle:
vLLM glänzt in Szenarien, die einen hohen Durchsatz (viele Anfragen pro Sekunde) und eine geringe Latenz erfordern. Seine Optimierungen machen es geeignet für:

Testen der lokalen Ollama-API mit Apidog

Apidog ist ein API-Testtool, das gut mit dem API-Modus von Ollama harmoniert. Es ermöglicht Ihnen, Anfragen zu senden, Antworten anzuzeigen und Ihr Qwen 3-Setup effizient zu debuggen.

So verwenden Sie Apidog mit Ollama:

Streaming-Antworten:

curl http://localhost:11434/api/generate -d '{"model": "gemma3:4b-it-qat", "prompt": "Write a poem about AI.", "stream": true}'

Dieser Prozess stellt sicher, dass Ihr Modell wie erwartet funktioniert, was Apidog zu einer wertvollen Ergänzung macht.

Fazit

Die Veröffentlichung der leistungsstarken und vielfältigen Qwen3-Modellfamilie, kombiniert mit ausgereiften lokalen Ausführungstools wie Ollama und vLLM, markiert eine aufregende Zeit für KI-Praktiker. Unabhängig davon, ob Sie die Plug-and-Play-Einfachheit von Ollama für den persönlichen Gebrauch und das Experimentieren oder die Hochleistungs-Serving-Fähigkeiten von vLLM für den Aufbau robuster Anwendungen priorisieren, ist die lokale Ausführung hochmoderner LLMs machbarer als je zuvor.

Indem Sie Modelle wie Qwen3-30B-A3B oder sogar die größeren dichten Varianten auf Ihre eigene Hardware bringen, erhalten Sie beispiellose Kontrolle, Datenschutz und Kosteneffizienz. Sie können ihre erweiterten Funktionen wie hybrides Denken und umfassende mehrsprachige Unterstützung für innovative Projekte nutzen. Da sich die Hardware- und Software-Ökosysteme weiter verbessern, wird die Leistung großer Sprachmodelle zunehmend demokratisiert und von entfernten Cloud-Servern direkt auf unsere lokalen Maschinen verlagert. Experimentieren Sie mit Qwen3 mit Ollama und vLLM, um die Spitze dieser lokalen KI-Revolution zu erleben.

💡
Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!
button

Explore more

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Künstliche Intelligenz wächst rasant. FractalAIResearch/Fathom-R1-14B (14,8 Mrd. Parameter) glänzt in Mathe & Logik.

5 June 2025

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Die Softwareentwicklung erlebt Innovationen durch KI. Cursor, ein KI-Editor, erreicht mit Version 1.0 einen Meilenstein.

5 June 2025

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

Der Aufstieg von Web 3.0: Dezentral, nutzerorientiert, transparent. APIs ermöglichen innovative dApps und Blockchain-Integration.

4 June 2025

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen