Qwen 3.5 mit Ollama nutzen: Anleitung und Tutorial

Ashley Innocent

Ashley Innocent

3 March 2026

Qwen 3.5 mit Ollama nutzen: Anleitung und Tutorial

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

TL;DR

Ollama bietet die einfachste Möglichkeit, kleine Qwen 3.5-Modelle (0.8B, 2B, 4B und 9B) lokal auf Ihrem Mac-, Linux- oder Windows-Computer auszuführen. Mit einem einfachen ollama run-Befehl erhalten Sie leistungsfähige KI-Funktionen ohne Cloud-API-Kosten. Laden Sie Ollama herunter, ziehen Sie ein Modell und beginnen Sie in weniger als 5 Minuten mit dem Chatten.

Ollama – Qwen 3.5 Modelle lokal ausführen

Einleitung

Das lokale Ausführen großer Sprachmodelle ist sehr populär geworden, und Ollama macht es unkompliziert. Wenn Sie die Qwen 3.5-Modelle von Alibaba verwenden möchten, ohne Daten in die Cloud zu senden oder tokenbasierte Gebühren zu zahlen, ist Ollama die Antwort.

💡
Beim Erstellen von Anwendungen, die lokale LLMs wie Qwen 3.5 über die Ollama-API aufrufen, benötigen Sie eine zuverlässige Möglichkeit, die Antworten zu testen und zu validieren. Die API-Testtools von Apidog ermöglichen es Ihnen, automatisierte Tests für Ihre Ollama-API-Endpunkte einzurichten, um sicherzustellen, dass die Antworten korrekt sind und Ihren Erwartungen entsprechen. Erstellen Sie Test-Assertions für die Antwortzeit, die Inhaltsstruktur und die Fehlerbehandlung – springen Sie zum Abschnitt über die Ollama-API, um zu sehen, wie Sie Ihre Einrichtung testen können.
Button

Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen, um die kleinen Qwen 3.5-Modelle mit Ollama auszuführen. Egal, ob Sie das kompakte 0.8B-Modell für schnelle Aufgaben oder das größere 9B-Modell für komplexe Schlussfolgerungen benötigen, wir behandeln Installation, Nutzung und Integration.

Warum Ollama für Qwen 3.5 verwenden?

Ollama hat sich zur bevorzugten Lösung für die lokale LLM-Bereitstellung entwickelt:

Einfache Einrichtung
Keine komplexen Docker- oder Python-Setups. Eine App herunterladen und schon sind Sie startklar.

Datenschutz zuerst
Ihre Daten bleiben auf Ihrem Gerät. Das ist wichtig für Geschäftsdaten oder sensible Informationen.

Keine API-Kosten
Nach dem Herunterladen der Modelle ist deren Ausführung kostenlos. Keine tokenbasierten Gebühren oder Abonnements.

Offline-Fähigkeit
KI überall nutzen, auch ohne Internet.

Hardware-Beschleunigung
Ollama nutzt automatisch die GPU-Beschleunigung, falls verfügbar, was die lokale Inferenz beschleunigt.

Ollama installieren

Mac-Installation

Wenn Sie einen Mac haben, dauert die Installation nur Sekunden:

# Von ollama.com herunterladen oder Homebrew verwenden
brew install ollama

Das ist alles. Ollama erkennt automatisch Apple Silicon (M1/M2/M3) und verwendet Metal für die GPU-Beschleunigung.

Linux-Installation

Für Linux-Server oder WSL:

# Schnelle Installation
curl -fsSL https://ollama.com/install.sh | sh

Windows-Installation

Windows-Benutzer können den Installer herunterladen. Die Windows-Version unterstützt GPU-Beschleunigung über DirectML.

Ollama Windows-Installation

Verifizierung

Überprüfen Sie nach der Installation, ob alles funktioniert:

ollama --version

Sie sollten die Versionsnummer sehen. Jetzt ziehen wir einige Qwen-Modelle.

Qwen 3.5-Modelle ausführen

Ihr erstes Modell herunterladen

Ollama macht das Herunterladen von Modellen einfach:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

Das Herunterladen jedes Modells dauert je nach Internetgeschwindigkeit einige Minuten. Das 2B-Modell ist etwa 1,5 GB groß, während das 9B-Modell etwa 5 GB groß ist.

Eine Chatsitzung starten

Nach dem Herunterladen können Sie sofort mit dem Chatten beginnen:

ollama run qwen3.5:9b

Sie sehen eine Eingabeaufforderung, in die Sie direkt tippen können:

>>> Was ist Quantencomputing in einfachen Worten?
Quantencomputing ist eine Art der Berechnung, bei der...

Geben Sie Ihre Fragen ein und drücken Sie die Eingabetaste. Drücken Sie Strg+D, um den Chat zu beenden.

Verfügbare Modelle auflisten

Sehen Sie, was Sie installiert haben:

ollama list

Die Ausgabe zeigt jedes Modell, seine Größe und wann Sie es zuletzt verwendet haben.

Modelle entfernen

Geben Sie Speicherplatz frei, indem Sie Modelle entfernen, die Sie nicht benötigen:

ollama remove qwen3.5:9b

Modellvergleich und -auswahl

Die Wahl des richtigen Modells hängt von Ihrer Hardware und Ihrem Anwendungsfall ab:

Modell Parameter Ca. Modellgröße (BF16, volle Präzision) Benötigter RAM (BF16, Unsloth-Anleitung) Am besten geeignet für
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB Ultra-leichte Edge & Mobilgeräte: schnelles Autovervollständigen, einfache Chatbots, kleine Tools, grundlegendes Vision/OCR auf sehr günstigen Geräten.
Qwen3.5-2B 2B ~4 GB ~9 GB Leichte Assistenten, kleine Agenten, grundlegende Programmierhilfe, passable Multimodalität auf Laptops mit bescheidenem RAM.
Qwen3.5-4B 4B ~8 GB ~14 GB „Intelligentes Autovervollständigen“ für Entwickler, leichte Agenten, bessere Schlussfolgerungen und Multimodalität als 2B, während es immer noch einfach lokal ausgeführt werden kann.
Qwen3.5-9B 9B ~18 GB ~19 GB Starker allgemeiner Assistent, gute Mehrsprachigkeit + Vision, als primäre lokale KI auf einem Gerät mit 16–24 GB RAM/VRAM nutzbar.

Empfehlung für die meisten Benutzer: Beginnen Sie mit qwen2.5:2b. Es bietet das beste Gleichgewicht zwischen Leistungsfähigkeit und Geschwindigkeit. Rüsten Sie nur auf 4B oder 9B auf, wenn Sie mehr Denkvermögen benötigen.

Ollama API für Entwickler

Ollama betreibt einen lokalen API-Server, den Ihre Anwendungen aufrufen können. Dies ist perfekt, um Qwen 3.5 in Ihre Projekte zu integrieren.

Den API-Server starten

Ollama läuft standardmäßig als Hintergrunddienst. Die API ist verfügbar unter:

http://localhost:11434

Grundlegende Chat-Vervollständigung

Senden Sie Anfragen an den Chat-Endpunkt:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "What is Python?"}
    ],
    "stream": false
  }'

Antwort:

Ollama API-Antwort

Streaming-Antworten

Für Echtzeit-Ausgabe aktivieren Sie Streaming:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Count to 5"}],
    "stream": true
  }'

Dies streamt Token, während sie generiert werden.

Generierungs-Endpunkt

Für Nicht-Chat-Prompts:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Write a haiku about coding",
    "stream": false
  }'

Integration in Ihre Anwendungen

Python-Integration

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explain recursion"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

JavaScript/Node.js-Integration

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'What is an API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Ihre Integration mit Apidog testen

Beim Erstellen von Anwendungen, die Ollama aufrufen, verwenden Sie API-Testtools, um Antworten zu validieren. So testen Sie Ihre Ollama-API mit Apidog:

  1. Erstellen Sie eine neue POST-Anfrage an http://localhost:11434/api/chat
  2. Setzen Sie Content-Type auf application/json
  3. Fügen Sie den Anfragetext hinzu:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Hello"}],
  "stream": false
}
Apidog Test für Ollama API

Apidog ermöglicht Ihnen die Erstellung automatisierter Testfälle, die die Qualität der Antworten validieren, verschiedene Prompts testen und Ihre lokalen LLM-Endpunkte überwachen. Dies stellt sicher, dass Ihre Integration in der Produktion zuverlässig funktioniert.

Leistung und Hardwareanforderungen

GPU-Beschleunigung

Ollama nutzt automatisch die GPU, wenn verfügbar:

Erwartete Leistung

Modell GPU Token/Sek. (ca.)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

Die CPU-basierte Inferenz wird deutlich langsamer sein (5-10x).

Speicheranforderungen

Mindest-RAM pro Modell:

Mehr RAM als das Minimum hilft bei der Reaktionsfähigkeit.

Häufige Probleme beheben

„Ollama nicht gefunden“

Stellen Sie sicher, dass Ollama in Ihrem PATH ist. Auf Mac/Linux starten Sie Ihr Terminal nach der Installation neu.

Langsame Leistung

  1. Prüfen Sie, ob die GPU verwendet wird: ollama list zeigt Modellinformationen an.
  2. Für reine CPU-Nutzung: Erwarten Sie langsamere Geschwindigkeiten.
  3. Schließen Sie andere GPU-Anwendungen.

Modell-Download fehlgeschlagen

Versuchen Sie es erneut mit einer schnelleren Internetverbindung. Wenn Sie ein VPN verwenden, versuchen Sie es ohne.

API-Verbindung verweigert

Stellen Sie sicher, dass Ollama läuft: ollama serve (läuft normalerweise automatisch)

Speicherüberlauf

Verwenden Sie ein kleineres Modell. Das 9B-Modell benötigt viel RAM. Schließen Sie andere Anwendungen.

Fazit

Ollama macht das lokale Ausführen von Qwen 3.5-Modellen unkompliziert. Egal, ob Sie als Entwickler KI-Anwendungen erstellen oder einfach nur mit lokalen LLMs experimentieren möchten, der Prozess dauert Minuten statt Stunden.

Die Kombination aus den starken mehrsprachigen Fähigkeiten von Qwen 3.5 und der einfachen Benutzeroberfläche von Ollama macht dies zu einer der einfachsten Möglichkeiten, mit lokaler KI zu beginnen.

Nächste Schritte: Sobald Sie Ihre Ollama-API eingerichtet haben, verwenden Sie Apidog, um automatisierte Testfälle zu erstellen, die die Qualität der Antworten validieren, verschiedene Prompts testen und Ihre lokalen LLM-Endpunkte überwachen. Starten Sie kostenlos mit Apidog.

Button

FAQ

Was ist der Unterschied zwischen Ollama und anderen Bereitstellungsmethoden?

Ollama ist auf Einfachheit ausgelegt. Im Gegensatz zu Docker oder der manuellen Modellbereitstellung erledigt es alles (Modell-Download, GPU-Beschleunigung, API-Bereitstellung) mit einfachen Befehlen.

Kann ich Ollama mit anderen Qwen-Modellen verwenden?

Ja, Ollama unterstützt viele Modelle. Überprüfen Sie ollama.com/library für die vollständige Liste.

Wie aktualisiere ich Qwen-Modelle in Ollama?

Ziehen Sie die neueste Version: ollama pull qwen2.5:2b. Dies lädt Updates herunter, falls verfügbar.

Kann ich mehrere Modelle gleichzeitig ausführen?

Ja, aber jedes Modell verbraucht Speicher. Die meisten Systeme können 1-2 Modelle gleichzeitig ausführen.

Sind meine Daten mit Ollama sicher?

Ja. Alles läuft lokal. Es werden keine Daten an externe Server gesendet.

Kann ich Qwen-Modelle mit Ollama feinabstimmen?

Ollama ist nur für die Inferenz gedacht. Für das Fine-Tuning benötigen Sie andere Tools wie LoRA-Adapter.

Wie ändere ich den Port, den Ollama verwendet?

Setzen Sie die Umgebungsvariable OLLAMA_HOST vor dem Ausführen: export OLLAMA_HOST=0.0.0.0:8080

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen