TL;DR
Ollama bietet die einfachste Möglichkeit, kleine Qwen 3.5-Modelle (0.8B, 2B, 4B und 9B) lokal auf Ihrem Mac-, Linux- oder Windows-Computer auszuführen. Mit einem einfachen ollama run-Befehl erhalten Sie leistungsfähige KI-Funktionen ohne Cloud-API-Kosten. Laden Sie Ollama herunter, ziehen Sie ein Modell und beginnen Sie in weniger als 5 Minuten mit dem Chatten.

Einleitung
Das lokale Ausführen großer Sprachmodelle ist sehr populär geworden, und Ollama macht es unkompliziert. Wenn Sie die Qwen 3.5-Modelle von Alibaba verwenden möchten, ohne Daten in die Cloud zu senden oder tokenbasierte Gebühren zu zahlen, ist Ollama die Antwort.
Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen, um die kleinen Qwen 3.5-Modelle mit Ollama auszuführen. Egal, ob Sie das kompakte 0.8B-Modell für schnelle Aufgaben oder das größere 9B-Modell für komplexe Schlussfolgerungen benötigen, wir behandeln Installation, Nutzung und Integration.
Warum Ollama für Qwen 3.5 verwenden?
Ollama hat sich zur bevorzugten Lösung für die lokale LLM-Bereitstellung entwickelt:
Einfache Einrichtung
Keine komplexen Docker- oder Python-Setups. Eine App herunterladen und schon sind Sie startklar.
Datenschutz zuerst
Ihre Daten bleiben auf Ihrem Gerät. Das ist wichtig für Geschäftsdaten oder sensible Informationen.
Keine API-Kosten
Nach dem Herunterladen der Modelle ist deren Ausführung kostenlos. Keine tokenbasierten Gebühren oder Abonnements.
Offline-Fähigkeit
KI überall nutzen, auch ohne Internet.
Hardware-Beschleunigung
Ollama nutzt automatisch die GPU-Beschleunigung, falls verfügbar, was die lokale Inferenz beschleunigt.
Ollama installieren
Mac-Installation
Wenn Sie einen Mac haben, dauert die Installation nur Sekunden:
# Von ollama.com herunterladen oder Homebrew verwenden
brew install ollama
Das ist alles. Ollama erkennt automatisch Apple Silicon (M1/M2/M3) und verwendet Metal für die GPU-Beschleunigung.
Linux-Installation
Für Linux-Server oder WSL:
# Schnelle Installation
curl -fsSL https://ollama.com/install.sh | sh
Windows-Installation
Windows-Benutzer können den Installer herunterladen. Die Windows-Version unterstützt GPU-Beschleunigung über DirectML.

Verifizierung
Überprüfen Sie nach der Installation, ob alles funktioniert:
ollama --version
Sie sollten die Versionsnummer sehen. Jetzt ziehen wir einige Qwen-Modelle.
Qwen 3.5-Modelle ausführen
Ihr erstes Modell herunterladen
Ollama macht das Herunterladen von Modellen einfach:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bDas Herunterladen jedes Modells dauert je nach Internetgeschwindigkeit einige Minuten. Das 2B-Modell ist etwa 1,5 GB groß, während das 9B-Modell etwa 5 GB groß ist.
Eine Chatsitzung starten
Nach dem Herunterladen können Sie sofort mit dem Chatten beginnen:
ollama run qwen3.5:9b
Sie sehen eine Eingabeaufforderung, in die Sie direkt tippen können:
>>> Was ist Quantencomputing in einfachen Worten?
Quantencomputing ist eine Art der Berechnung, bei der...
Geben Sie Ihre Fragen ein und drücken Sie die Eingabetaste. Drücken Sie Strg+D, um den Chat zu beenden.
Verfügbare Modelle auflisten
Sehen Sie, was Sie installiert haben:
ollama list
Die Ausgabe zeigt jedes Modell, seine Größe und wann Sie es zuletzt verwendet haben.
Modelle entfernen
Geben Sie Speicherplatz frei, indem Sie Modelle entfernen, die Sie nicht benötigen:
ollama remove qwen3.5:9b
Modellvergleich und -auswahl
Die Wahl des richtigen Modells hängt von Ihrer Hardware und Ihrem Anwendungsfall ab:
| Modell | Parameter | Ca. Modellgröße (BF16, volle Präzision) | Benötigter RAM (BF16, Unsloth-Anleitung) | Am besten geeignet für |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Ultra-leichte Edge & Mobilgeräte: schnelles Autovervollständigen, einfache Chatbots, kleine Tools, grundlegendes Vision/OCR auf sehr günstigen Geräten. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Leichte Assistenten, kleine Agenten, grundlegende Programmierhilfe, passable Multimodalität auf Laptops mit bescheidenem RAM. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | „Intelligentes Autovervollständigen“ für Entwickler, leichte Agenten, bessere Schlussfolgerungen und Multimodalität als 2B, während es immer noch einfach lokal ausgeführt werden kann. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Starker allgemeiner Assistent, gute Mehrsprachigkeit + Vision, als primäre lokale KI auf einem Gerät mit 16–24 GB RAM/VRAM nutzbar. |
Empfehlung für die meisten Benutzer: Beginnen Sie mit qwen2.5:2b. Es bietet das beste Gleichgewicht zwischen Leistungsfähigkeit und Geschwindigkeit. Rüsten Sie nur auf 4B oder 9B auf, wenn Sie mehr Denkvermögen benötigen.
Ollama API für Entwickler
Ollama betreibt einen lokalen API-Server, den Ihre Anwendungen aufrufen können. Dies ist perfekt, um Qwen 3.5 in Ihre Projekte zu integrieren.
Den API-Server starten
Ollama läuft standardmäßig als Hintergrunddienst. Die API ist verfügbar unter:
http://localhost:11434
Grundlegende Chat-Vervollständigung
Senden Sie Anfragen an den Chat-Endpunkt:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "What is Python?"}
],
"stream": false
}'
Antwort:

Streaming-Antworten
Für Echtzeit-Ausgabe aktivieren Sie Streaming:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Count to 5"}],
"stream": true
}'
Dies streamt Token, während sie generiert werden.
Generierungs-Endpunkt
Für Nicht-Chat-Prompts:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Write a haiku about coding",
"stream": false
}'
Integration in Ihre Anwendungen
Python-Integration
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Explain recursion"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
JavaScript/Node.js-Integration
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'What is an API?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Ihre Integration mit Apidog testen
Beim Erstellen von Anwendungen, die Ollama aufrufen, verwenden Sie API-Testtools, um Antworten zu validieren. So testen Sie Ihre Ollama-API mit Apidog:
- Erstellen Sie eine neue POST-Anfrage an
http://localhost:11434/api/chat - Setzen Sie Content-Type auf
application/json - Fügen Sie den Anfragetext hinzu:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Hello"}],
"stream": false
}
Apidog ermöglicht Ihnen die Erstellung automatisierter Testfälle, die die Qualität der Antworten validieren, verschiedene Prompts testen und Ihre lokalen LLM-Endpunkte überwachen. Dies stellt sicher, dass Ihre Integration in der Produktion zuverlässig funktioniert.
Leistung und Hardwareanforderungen
GPU-Beschleunigung
Ollama nutzt automatisch die GPU, wenn verfügbar:
- Apple Silicon (M1/M2/M3): Verwendet Metal, sehr effizient
- NVIDIA GPUs: Verwendet CUDA, exzellente Leistung
- AMD GPUs: Verwendet ROCm unter Linux
- Nur CPU: Funktioniert, ist aber langsamer
Erwartete Leistung
| Modell | GPU | Token/Sek. (ca.) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
Die CPU-basierte Inferenz wird deutlich langsamer sein (5-10x).
Speicheranforderungen
Mindest-RAM pro Modell:
- 0.8B: 2 GB verfügbarer RAM
- 2B: 4 GB verfügbarer RAM
- 4B: 8 GB verfügbarer RAM
- 9B: 16 GB verfügbarer RAM
Mehr RAM als das Minimum hilft bei der Reaktionsfähigkeit.
Häufige Probleme beheben
„Ollama nicht gefunden“
Stellen Sie sicher, dass Ollama in Ihrem PATH ist. Auf Mac/Linux starten Sie Ihr Terminal nach der Installation neu.
Langsame Leistung
- Prüfen Sie, ob die GPU verwendet wird:
ollama listzeigt Modellinformationen an. - Für reine CPU-Nutzung: Erwarten Sie langsamere Geschwindigkeiten.
- Schließen Sie andere GPU-Anwendungen.
Modell-Download fehlgeschlagen
Versuchen Sie es erneut mit einer schnelleren Internetverbindung. Wenn Sie ein VPN verwenden, versuchen Sie es ohne.
API-Verbindung verweigert
Stellen Sie sicher, dass Ollama läuft: ollama serve (läuft normalerweise automatisch)
Speicherüberlauf
Verwenden Sie ein kleineres Modell. Das 9B-Modell benötigt viel RAM. Schließen Sie andere Anwendungen.
Fazit
Ollama macht das lokale Ausführen von Qwen 3.5-Modellen unkompliziert. Egal, ob Sie als Entwickler KI-Anwendungen erstellen oder einfach nur mit lokalen LLMs experimentieren möchten, der Prozess dauert Minuten statt Stunden.
Die Kombination aus den starken mehrsprachigen Fähigkeiten von Qwen 3.5 und der einfachen Benutzeroberfläche von Ollama macht dies zu einer der einfachsten Möglichkeiten, mit lokaler KI zu beginnen.
Nächste Schritte: Sobald Sie Ihre Ollama-API eingerichtet haben, verwenden Sie Apidog, um automatisierte Testfälle zu erstellen, die die Qualität der Antworten validieren, verschiedene Prompts testen und Ihre lokalen LLM-Endpunkte überwachen. Starten Sie kostenlos mit Apidog.
FAQ
Was ist der Unterschied zwischen Ollama und anderen Bereitstellungsmethoden?
Ollama ist auf Einfachheit ausgelegt. Im Gegensatz zu Docker oder der manuellen Modellbereitstellung erledigt es alles (Modell-Download, GPU-Beschleunigung, API-Bereitstellung) mit einfachen Befehlen.
Kann ich Ollama mit anderen Qwen-Modellen verwenden?
Ja, Ollama unterstützt viele Modelle. Überprüfen Sie ollama.com/library für die vollständige Liste.
Wie aktualisiere ich Qwen-Modelle in Ollama?
Ziehen Sie die neueste Version: ollama pull qwen2.5:2b. Dies lädt Updates herunter, falls verfügbar.
Kann ich mehrere Modelle gleichzeitig ausführen?
Ja, aber jedes Modell verbraucht Speicher. Die meisten Systeme können 1-2 Modelle gleichzeitig ausführen.
Sind meine Daten mit Ollama sicher?
Ja. Alles läuft lokal. Es werden keine Daten an externe Server gesendet.
Kann ich Qwen-Modelle mit Ollama feinabstimmen?
Ollama ist nur für die Inferenz gedacht. Für das Fine-Tuning benötigen Sie andere Tools wie LoRA-Adapter.
Wie ändere ich den Port, den Ollama verwendet?
Setzen Sie die Umgebungsvariable OLLAMA_HOST vor dem Ausführen: export OLLAMA_HOST=0.0.0.0:8080
