Qwen3.5 Modelle kostenlos mit Ollama nutzen

Ashley Innocent

Ashley Innocent

25 February 2026

Qwen3.5 Modelle kostenlos mit Ollama nutzen

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Entwickler suchen ständig nach bahnbrechender KI, die rohe Intelligenz mit null Vorabkosten in Einklang bringt. Qwen3.5-Modelle bieten genau das über Ollama. Diese von Alibaba veröffentlichten multimodalen Open-Weight-Agenten setzen neue Standards in den Bereichen Argumentation, Codierung, Vision und Werkzeugnutzung. Sie können sie sofort über die Cloud-Tags von Ollama ausführen – keine massiven Downloads, kein Unternehmens-GPU-Cluster erforderlich.

💡
Bevor Sie Ihren ersten Prompt starten, laden Sie Apidog kostenlos herunter. Diese intuitive API-Plattform ermöglicht es Ihnen, Ollamas REST-Endpunkte mit qwen3.5-Modellen in Sekundenschnelle zu entwerfen, zu senden und zu debuggen. Sie visualisieren Chat-Vervollständigungen, Streaming-Antworten und Tool-Aufrufe, ohne sich mit cURL oder rohem JSON herumschlagen zu müssen. Apidog verwandelt den Ollama-Server in eine produktionsreife Testumgebung, und der Start kostet nichts. Holen Sie es sich jetzt unter apidog.com und lassen Sie es geöffnet, während Sie dieser Anleitung folgen – kleine Einrichtungsschritte wie diese führen zu massiven Workflow-Verbesserungen.
Button

Sie erhalten sofortigen Zugriff auf ein 397B-A17B Hybrid-MoE-Modell, das pro Forward-Pass nur 17B Parameter aktiviert. Die Architektur kombiniert Gated DeltaNet lineare Aufmerksamkeit mit sparse Mixture-of-Experts-Routing und liefert einen 8,6-mal höheren Durchsatz als frühere Qwen3-Max-Modelle bei 32K Kontext und 19-mal höher bei 256K. Benchmarks bestätigen die Überlegenheit: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 und Tool Decathlon 38.3. Sie experimentieren daher mit nativen Vision-Sprach-Agenten und 201-Sprachen-Unterstützung auf Ollamas kostenlosem Tier, bevor Sie überhaupt kostenpflichtige Upgrades in Betracht ziehen.

Dieser Leitfaden behandelt jedes technische Detail, das Sie benötigen. Sie installieren Ollama, ziehen die exakten Tags, interagieren über CLI und API, integrieren Apidog für rigorose Tests, erstellen echte Anwendungen, optimieren die Leistung und beheben häufige Probleme. Am Ende implementieren Sie qwen3.5-gesteuerte Workflows, die Cloud-Giganten Konkurrenz machen und dennoch innerhalb der kostenlosen Nutzungsgrenzen bleiben.

Was Qwen3.5 zu einem technischen Kraftpaket macht

Qwen3.5 führt die Serie mit Vortraining auf angereicherten mehrsprachigen, STEM- und Reasoning-Korpora unter strengerer Filterung fort. Ingenieure skalierten das Reinforcement Learning über Umgebungen mit Millionen von Agenten, wobei sie Schwierigkeitsgrad und Generalisierbarkeit über eng gefasste Metriken stellten. Das Ergebnis: generationsübergreifende Parität mit Modellen, die 1T Parameter überschreiten, bei gleichzeitiger Effizienzbeibehaltung.

Qwen3.5 Vortrainingsgraph

Die Flaggschiff-Variante – Qwen3.5-397B-A17B – verwendet einen hybriden Aufmerksamkeitsmechanismus. Lineare Aufmerksamkeit über Gated Delta Networks verarbeitet lange Sequenzen, während sparse MoE Tokens an spezialisierte Experten weiterleitet. Der Wortschatz wird auf 250K Tokens erweitert, was die Kodierungseffizienz über alle Sprachen hinweg um 10–60% steigert. Natives Early-Fusion multimodales Training verschmilzt Text- und Vision-Tokens von Anfang an und erreicht eine 100%ige Trainingseffizienz im Vergleich zu rein textbasierten Pipelines.

Auf Ollama greifen Sie auf zwei gebrauchsfertige Tags zu:

Beide bieten out-of-the-box Denkweisen (Chain-of-Thought), Tools (Websuche, Code-Interpreter) und agentische Verhaltensweisen. Sie wechseln daher mit einem einzigen Parameter zwischen schnellen Antworten und tiefgreifender Argumentation.

Qwen3.5 Benchmarks

Benchmarks sprechen Bände. Im Bereich Codierung erzielt Qwen3.5 76.4 auf SWE-bench Verified und 83.6 auf LiveCodeBench v6. Mathematik erreicht 91.3 auf AIME26 und 94.8 auf HMMT. Vision-Aufgaben erreichen 93.1 auf OCRBench und 88.6 auf MathVision. Agent-Metriken umfassen 72.9 auf BFCL-V4 und 86.7 auf TAU2-Bench. Die mehrsprachige Abdeckung umfasst 201 Sprachen mit Top-Werten auf MMMLU (88.5) und WMT24++ (78.9). Sie greifen auf diese Leistung über einen einfachen ollama run Befehl im kostenlosen Tier zu.

Warum Ollama kostenlosen Zugriff auf Qwen3.5 bietet

Ollama abstrahiert die Modellverwaltung in ein einziges Binary. Sie führen die gleichen Befehle aus, egal ob die Gewichte auf Ihrer Festplatte oder in Ollamas Cloud-Infrastruktur liegen. Der kostenlose Plan erlaubt eine leichte Nutzung von Cloud-Modellen – perfekt für Erkundungen, Prototyping und moderate Arbeitslasten. Sie umgehen daher die Rohgröße von 807 GB des vollständigen 397B-Modells und beginnen innerhalb von Sekunden mit dem Prompting.

Qwen 3.5 auf Ollama

Lokale Modelle bleiben nach dem Download unbegrenzt, aber für qwen3.5 leiten die offiziellen Tags zur Ollama Cloud weiter. Community-Importe wie frob/qwen3.5 (GGUF Quants) ermöglichen es Ihnen, quantisierte Versionen lokal auszuführen, wenn Sie über ausreichend RAM verfügen (214 GB+ für 4-bit MXFP4). Sie wählen den Pfad, der zu Ihrer Hardware und Ihrem Nutzungsmuster passt. Ollama übernimmt die Weiterleitung transparent.

Zusätzlich stellt Ollama eine vollständige OpenAI-kompatible REST-API an Port 11434 zur Verfügung. Sie integrieren qwen3.5 in jede Sprache oder jedes Framework, ohne den Client-Code ändern zu müssen. Apidog macht diese Integration kugelsicher, indem es Ihnen ermöglicht, Antworten zu mocken, Schemas zu validieren und Testsammlungen automatisch zu generieren.

Systemanforderungen und Voraussetzungen

Cloud-Tags stellen fast keine lokalen Anforderungen. Sie benötigen lediglich:

Für lokale GGUF-Ausführungen der Community berechnen Sie den VRAM-Bedarf sorgfältig. Die 4-Bit MXFP4 Quantisierung der 397B-A17B-Variante belegt etwa 214 GB Festplattenspeicher und benötigt ~256 GB System-RAM mit MoE-Offloading für 25+ Tokens/s auf High-End-Macs. Kleinere dichte Varianten aus früheren Qwen-Serien (falls portiert) skalieren linear herunter. Sie beginnen daher mit Cloud-Tags und gehen erst dann zu lokalen Quants über, wenn Sie Offline-Betrieb oder höheren Durchsatz benötigen.

Sie installieren außerdem Git und einen Code-Editor. Apidog läuft auf Windows, macOS und Linux – laden Sie die Desktop-App für beste Leistung herunter.

Ollama auf verschiedenen Plattformen installieren

Sie installieren Ollama mit einem Befehl auf jedem gängigen Betriebssystem.

macOS

brew install ollama

Dann starten Sie:

ollama serve

Windows
Laden Sie das Installationsprogramm von ollama.com herunter und führen Sie es aus. Ollama startet automatisch. Öffnen Sie PowerShell und geben Sie ein:

ollama serve

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Sie überprüfen die Installation mit:

ollama --version

Sie erwarten eine Ausgabe, die den neuesten Build anzeigt. Wenn der Dienst nicht startet, überprüfen Sie die Verfügbarkeit von Port 11434 und die Firewall-Regeln. Sie kontrollieren nun eine vollständige LLM-Laufzeitumgebung.

Qwen3.5-Modelle ziehen und ausführen

Sie ziehen das Modell mit einem einzigen Befehl. Ollama lädt nur Metadaten für Cloud-Tags herunter und leitet die Inferenz remote weiter.

ollama pull qwen3.5:cloud

Für Vision-Fähigkeiten:

ollama pull qwen3.5:397b-cloud

Sie starten eine interaktive Sitzung:

ollama run qwen3.5:cloud

Der Prompt erscheint. Sie geben ein:

Explain the hybrid MoE architecture of Qwen3.5 in technical detail.

Qwen3.5 antwortet mit präzisen Erläuterungen zu Gated DeltaNet, Sparse Expert Routing und Multi-Token Prediction. Sie beenden mit /bye.

Um es im Hintergrund für die API-Nutzung auszuführen:

ollama serve

Dann halten Sie in einem anderen Terminal das Modell warm mit:

ollama run qwen3.5:cloud --keep-alive 24h

Befehlszeilen-Interaktion und Modelfiles

Sie passen das Verhalten mit Modelfiles an. Erstellen Sie eine Datei namens Modelfile:

FROM qwen3.5:cloud

SYSTEM """
You are an expert systems architect. Always respond with step-by-step reasoning, code examples, and performance calculations.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95

Sie erstellen das benutzerdefinierte Modell:

ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect

Sie verfügen nun über einen spezialisierten Assistenten, der auf technische Dokumentation und Architekturprüfungen zugeschnitten ist. Sie wiederholen den Prozess für Codierung, Visionsanalyse oder mehrsprachige Übersetzungsagenten.

Die Ollama REST API nutzen

Ollama stellt leistungsstarke Endpunkte bereit. Sie senden Chat-Vervollständigungen mit:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:cloud",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a FastAPI endpoint that calls qwen3.5 for sentiment analysis." }
  ],
  "stream": false,
  "options": {
    "temperature": 0.2,
    "num_predict": 2048
  }
}'

Sie erhalten eine vollständige JSON-Antwort, die message.content, total_duration und Token-Zählungen enthält. Sie aktivieren Streaming, indem Sie "stream": true setzen und Server-Sent Events in Echtzeit verarbeiten.

Für Embeddings:

curl http://localhost:11434/api/embeddings -d '{
  "model": "qwen3.5:cloud",
  "prompt": "Technical documentation on hybrid MoE models"
}'

Sie erstellen daher RAG-Pipelines, semantische Suche und Klassifizierungsschichten um qwen3.5.

Testen und Debuggen mit Apidog

Sie öffnen Apidog und erstellen ein neues Projekt namens „Ollama Qwen3.5“. Setzen Sie die Basis-URL auf http://localhost:11434/api.

Ollama Qwen3.5 Projekt in Apidog

Sie fügen den /chat Endpunkt hinzu:

Sie importieren die offizielle Ollama OpenAPI-Spezifikation, falls verfügbar, oder erstellen Sammlungen manuell. Apidog generiert automatisch Testfälle, validiert JSON-Schemas und unterstützt Umgebungsvariablen für den Wechsel zwischen qwen3.5:cloud und benutzerdefinierten Modelfiles.

Sie erstellen eine Sammlung „Vision-Aufgaben“ und testen multimodale Eingaben:

{
  "model": "qwen3.5:397b-cloud",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Describe this diagram in detail." },
        { "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
      ]
    }
  ]
}

Apidog zeigt die Bildvorschau an, sendet die Anfrage und lässt Sie die Token-Nutzung, Latenz und Reasoning-Traces überprüfen. Sie speichern Assertionen für die Antwortzeit < 5s und das Vorhandensein technischer Begriffe. Sie exportieren die Sammlung als Markdown-Dokumentation oder teilen sie mit Ihrem Team.

Sie eliminieren daher das Rätselraten. Jeder Parameter, jedes Antwortfeld und jeder Fehler wird sichtbar und wiederholbar. Kleine Verfeinerungen in Apidog – wie das Hinzufügen von Pre-Request-Skripten zum Aufwärmen des Modells – führen zu produktionsreifer Zuverlässigkeit.

Echte Anwendungen mit Qwen3.5 und Ollama erstellen

Sie integrieren qwen3.5 in Python-Anwendungen mit dem offiziellen Client:

import ollama
from fastapi import FastAPI

app = FastAPI()

@app.post("/analyze")
async def analyze_code(request: dict):
    response = ollama.chat(
        model='qwen3.5:cloud',
        messages=[{'role': 'user', 'content': request['code']}],
        options={'temperature': 0.1}
    )
    return {"analysis": response['message']['content']}

Sie stellen diesen Endpunkt bereit, fügen Ratenbegrenzungen hinzu und überwachen den Token-Verbrauch über Apidog.

Für Node.js verwenden Sie das ollama npm-Paket und streamen Antworten an React-Frontends. Sie implementieren Tool-Aufrufe, indem Sie Funktionen in der Anfrage definieren und tool_calls aus der Modellausgabe parsen. Qwen3.5 unterstützt nativ adaptive Tool-Nutzung, sodass Sie Websuche, Code-Ausführung und Dateianalyse zu autonomen Agenten verketten können.

Sie containerisieren den gesamten Stack mit Docker Compose:

services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
  apidog-tests:
    image: your-test-image
    depends_on:
      - ollama

Sie stellen daher konsistente Umgebungen über Entwicklung, Staging und Produktion hinweg bereit.

Erweiterte Funktionen: Werkzeugnutzung, Vision und langer Kontext

Sie aktivieren den Denkmodus, indem Sie enable_thinking: true in kompatiblen Clients einschließen oder explizit dazu auffordern. Das Modell gibt <thinking> Tags vor den endgültigen Antworten aus, was Ihnen Einblick in seine Denkprozesskette gibt.

Für Vision senden Sie Base64-Bilder oder URLs. Der 397b-cloud-Tag verarbeitet Diagramme, Code-Screenshots und Dokumente mit 85.0 MMMU-Genauigkeit. Sie erstellen daher Pipelines zum Dokumentenverständnis, die Tabellen, Diagramme und handschriftliche Notizen extrahieren.

Die Verarbeitung langer Kontexte erreicht 256K Tokens auf Ollama. Sie speisen ganze Codebasen oder Forschungsarbeiten ein und fragen nach Zusammenfassungen, Diff-Analysen oder architektonischem Refactoring. Sie überwachen die Kontextnutzung mit dem context Feld in den Antworten und implementieren Sliding-Window-Strategien, wenn Sie sich den Grenzen nähern.

Leistungsoptimierung und Fehlerbehebung

Sie halten Modelle mit --keep-alive warm. Sie reduzieren die Latenz, indem Sie num_predict für einfache Aufgaben niedriger und für komplexe Argumentation höher einstellen.

Häufige Probleme und Lösungen:

Sie protokollieren jeden API-Aufruf über Apidog, um Engpässe schnell zu identifizieren. Sie gewährleisten daher eine hohe Verfügbarkeit auch im kostenlosen Plan.

Fazit

Sie verfügen nun über einen vollständigen technischen Fahrplan, um qwen3.5-Modelle kostenlos mit Ollama zu verwenden. Sie haben die Laufzeitumgebung installiert, die Cloud-Tags gezogen, CLI- und API-Interaktionen gemeistert, Tests mit Apidog beschleunigt, Produktionsanwendungen erstellt und für reale Arbeitslasten optimiert. Jeder Schritt nutzt aktive Befehle, präzise Parameter und messbare Ergebnisse.

Kleine Handlungen – Apidog herunterladen, ein Modelfile erstellen oder eine einzelne Assertion hinzufügen – summieren sich zu transformativer Produktivität. Sie experimentieren noch heute mit bahnbrechenden multimodalen Agenten, ohne Kreditkarten oder Infrastruktur-Tickets. Der kostenlose Ollama-Tier beseitigt jede Barriere.

Button

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen