Comment utiliser les modèles Qwen3.5 gratuitement avec Ollama ?

Ashley Innocent

Ashley Innocent

25 February 2026

Comment utiliser les modèles Qwen3.5 gratuitement avec Ollama ?

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Les développeurs sont constamment à la recherche d'une IA de pointe qui allie intelligence brute et coût initial nul. Les modèles Qwen3.5 offrent exactement cela grâce à Ollama. Publiés par Alibaba, ces agents multimodaux à poids ouverts établissent de nouvelles normes en matière de raisonnement, de codage, de vision et d'utilisation d'outils. Vous les exécutez instantanément via les balises cloud d'Ollama — pas de téléchargements massifs, pas de cluster GPU d'entreprise requis.

💡
Avant de lancer votre première requête, téléchargez Apidog gratuitement. Cette plateforme API intuitive vous permet de concevoir, d'envoyer et de déboguer les points d'API REST d'Ollama avec les modèles qwen3.5 en quelques secondes. Vous visualisez les complétions de chat, les réponses en streaming et les appels d'outils sans vous battre avec cURL ou du JSON brut. Apidog transforme le serveur Ollama en un environnement de test prêt pour la production, et il ne coûte rien pour commencer. Procurez-vous-le dès maintenant sur apidog.com et gardez-le ouvert pendant que vous suivez ce guide — de petites étapes de configuration comme celles-ci génèrent des gains de flux de travail massifs.
bouton

Vous avez un accès immédiat à un modèle MoE hybride 397B-A17B qui n'active que 17 milliards de paramètres par passage avant. L'architecture combine l'attention linéaire Gated DeltaNet avec un routage clairsemé de mélange d'experts, offrant un débit 8,6 fois plus rapide que le Qwen3-Max précédent à 32K de contexte et 19 fois plus rapide à 256K. Les benchmarks confirment sa supériorité : MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 et Tool Decathlon 38.3. Vous pouvez donc expérimenter avec des agents vision-langage natifs et un support de 201 langues sur le niveau gratuit d'Ollama avant même d'envisager des mises à niveau payantes.

Ce guide couvre tous les détails techniques dont vous avez besoin. Vous installerez Ollama, téléchargerez les balises exactes, interagirez via l'interface en ligne de commande (CLI) et l'API, intégrerez Apidog pour des tests rigoureux, construirez de véritables applications, optimiserez les performances et résoudrez les problèmes courants. À la fin, vous déploierez des flux de travail basés sur qwen3.5 qui rivaliseront avec les géants du cloud tout en restant dans les limites d'utilisation gratuite.

Ce qui fait de Qwen3.5 une centrale technique

Qwen3.5 fait progresser la série avec un pré-entraînement sur des corpus enrichis multilingues, STEM et de raisonnement, sous un filtrage plus strict. Les ingénieurs ont mis à l'échelle l'apprentissage par renforcement dans des environnements à millions d'agents, privilégiant la difficulté et la généralisabilité plutôt que des métriques étroites. Le résultat : une parité inter-générations avec des modèles dépassant 1 billion de paramètres tout en maintenant l'efficacité.

Graphique de pré-entraînement de Qwen3.5

La variante phare — Qwen3.5-397B-A17B — utilise un mécanisme d'attention hybride. L'attention linéaire via Gated Delta Networks gère les longues séquences, tandis que le MoE (Mixture of Experts) clairsemé achemine les jetons vers des experts spécialisés. Le vocabulaire s'étend à 250K jetons, augmentant l'efficacité d'encodage de 10 à 60 % dans toutes les langues. L'entraînement multimodal natif par fusion précoce fusionne les jetons de texte et de vision dès le début, atteignant 100 % d'efficacité d'entraînement par rapport aux pipelines textuels uniquement.

Sur Ollama, vous accédez à deux balises prêtes à l'emploi :

Les deux exposent des capacités de réflexion (chaîne de pensée), des outils (recherche web, interpréteur de code) et des comportements d'agent prêts à l'emploi. Vous pouvez donc basculer entre des réponses rapides et un raisonnement approfondi avec un seul paramètre.

Benchmarks de Qwen3.5

Les benchmarks sont éloquents. En codage, Qwen3.5 obtient 76,4 sur SWE-bench Verified et 83,6 sur LiveCodeBench v6. En mathématiques, il atteint 91,3 sur AIME26 et 94,8 sur HMMT. Les tâches de vision atteignent 93,1 sur OCRBench et 88,6 sur MathVision. Les métriques d'agent incluent 72,9 sur BFCL-V4 et 86,7 sur TAU2-Bench. La couverture multilingue s'étend à 201 langues avec les meilleurs scores sur MMMLU (88,5) et WMT24++ (78,9). Vous accédez à ces performances via une simple commande ollama run sur le niveau gratuit.

Pourquoi Ollama offre un accès gratuit à Qwen3.5

Ollama abstrait la gestion des modèles en un seul binaire. Vous exécutez les mêmes commandes que les poids se trouvent sur votre disque ou sur l'infrastructure cloud d'Ollama. Le plan gratuit autorise une utilisation légère des modèles cloud — parfait pour l'exploration, le prototypage et les charges de travail modérées. Vous contournez ainsi la taille brute de 807 Go du modèle complet 397B et commencez à envoyer des requêtes en quelques secondes.

Qwen 3.5 sur Ollama

Les modèles locaux restent illimités une fois téléchargés, mais pour qwen3.5, les balises officielles se dirigent vers Ollama Cloud. Les imports communautaires tels que frob/qwen3.5 (quants GGUF) vous permettent d'exécuter des versions quantifiées localement si vous possédez une RAM suffisante (214 Go+ pour MXFP4 4 bits). Vous choisissez le chemin qui correspond à votre matériel et à votre mode d'utilisation. Ollama gère le routage de manière transparente.

De plus, Ollama expose une API REST complète compatible OpenAI sur le port 11434. Vous intégrez qwen3.5 dans n'importe quel langage ou framework sans modifier le code client. Apidog rend cette intégration infaillible en vous permettant de simuler des réponses, de valider des schémas et de générer automatiquement des collections de tests.

Exigences système et prérequis

Les balises cloud n'imposent quasiment aucune exigence locale. Vous n'avez besoin que de :

Pour les exécutions locales GGUF de la communauté, vous devez calculer attentivement les besoins en VRAM. La quantification MXFP4 4 bits de la variante 397B-A17B occupe environ 214 Go de disque et nécessite ~256 Go de RAM système avec déchargement MoE pour plus de 25 jetons/seconde sur les Mac haut de gamme. Les variantes denses plus petites des séries Qwen précédentes (si portées) diminuent linéairement. Vous commencez donc par les balises cloud et passez aux quantifications locales uniquement lorsque vous avez besoin d'une opération hors ligne ou d'un débit plus élevé.

Vous installez également Git et un éditeur de code. Apidog fonctionne sur Windows, macOS et Linux — téléchargez l'application de bureau pour de meilleures performances.

Installation d'Ollama sur différentes plateformes

Vous installez Ollama avec une seule commande sur chaque système d'exploitation majeur.

macOS

brew install ollama

Puis lancez :

ollama serve

Windows
Téléchargez l'installateur depuis ollama.com et exécutez-le. Ollama démarre automatiquement. Ouvrez PowerShell et tapez :

ollama serve

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Vous vérifiez l'installation avec :

ollama --version

Vous devriez voir une sortie affichant la dernière version. Si le service ne démarre pas, vérifiez la disponibilité du port 11434 et les règles de pare-feu. Vous contrôlez désormais un environnement d'exécution LLM complet.

Téléchargement et exécution des modèles Qwen3.5

Vous téléchargez le modèle avec une seule commande. Ollama ne télécharge que les métadonnées pour les balises cloud et achemine l'inférence à distance.

ollama pull qwen3.5:cloud

Pour les capacités de vision :

ollama pull qwen3.5:397b-cloud

Vous lancez une session interactive :

ollama run qwen3.5:cloud

L'invite apparaît. Vous tapez :

Expliquez l'architecture MoE hybride de Qwen3.5 en détail technique.

Qwen3.5 répond avec des explications précises sur Gated DeltaNet, le routage d'experts clairsemé et la prédiction multi-jetons. Vous quittez avec /bye.

Pour exécuter en arrière-plan pour l'utilisation de l'API :

ollama serve

Puis dans un autre terminal, vous gardez le modèle chaud avec :

ollama run qwen3.5:cloud --keep-alive 24h

Interaction en ligne de commande et Modelfiles

Vous personnalisez le comportement avec des Modelfiles. Créez un fichier nommé Modelfile :

FROM qwen3.5:cloud

SYSTEM """
You are an expert systems architect. Always respond with step-by-step reasoning, code examples, and performance calculations.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95

Vous créez le modèle personnalisé :

ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect

Vous disposez désormais d'un assistant spécialisé adapté à la documentation technique et aux revues d'architecture. Vous répétez le processus pour les agents de codage, d'analyse de vision ou de traduction multilingue.

Tirer parti de l'API REST d'Ollama

Ollama expose des points de terminaison puissants. Vous envoyez des complétions de chat avec :

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:cloud",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a FastAPI endpoint that calls qwen3.5 for sentiment analysis." }
  ],
  "stream": false,
  "options": {
    "temperature": 0.2,
    "num_predict": 2048
  }
}'

Vous recevez une réponse JSON complète contenant message.content, total_duration et le nombre de jetons. Vous activez le streaming en définissant "stream": true et traitez les événements envoyés par le serveur en temps réel.

Pour les embeddings :

curl http://localhost:11434/api/embeddings -d '{
  "model": "qwen3.5:cloud",
  "prompt": "Technical documentation on hybrid MoE models"
}'

Vous construisez donc des pipelines RAG, de la recherche sémantique et des couches de classification autour de qwen3.5.

Test et débogage avec Apidog

Vous ouvrez Apidog et créez un nouveau projet nommé « Ollama Qwen3.5 ». Définissez l'URL de base sur http://localhost:11434/api.

Projet Ollama Qwen3.5 dans Apidog

Vous ajoutez le point de terminaison /chat :

Vous importez la spécification OpenAPI officielle d'Ollama si disponible ou construisez des collections manuellement. Apidog génère automatiquement des cas de test, valide les schémas JSON et prend en charge les variables d'environnement pour basculer entre qwen3.5:cloud et les Modelfiles personnalisés.

Vous créez une collection « Tâches de Vision » et testez l'entrée multimodale :

{
  "model": "qwen3.5:397b-cloud",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Décrivez ce diagramme en détail." },
        { "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
      ]
    }
  ]
}

Apidog affiche l'aperçu de l'image, envoie la requête et vous permet d'inspecter l'utilisation des jetons, la latence et les traces de raisonnement. Vous enregistrez des assertions pour un temps de réponse < 5s et la présence de termes techniques. Vous exportez la collection en tant que documentation Markdown ou la partagez avec votre équipe.

Vous éliminez ainsi les approximations. Chaque paramètre, chaque champ de réponse et chaque erreur devient visible et reproductible. De petites améliorations dans Apidog — comme l'ajout de scripts de pré-requête pour "réchauffer" le modèle — se traduisent par une fiabilité de niveau production.

Créer des applications réelles avec Qwen3.5 et Ollama

Vous intégrez qwen3.5 dans des applications Python en utilisant le client officiel :

import ollama
from fastapi import FastAPI

app = FastAPI()

@app.post("/analyze")
async def analyze_code(request: dict):
    response = ollama.chat(
        model='qwen3.5:cloud',
        messages=[{'role': 'user', 'content': request['code']}],
        options={'temperature': 0.1}
    )
    return {"analysis": response['message']['content']}

Vous exposez ce point d'API, ajoutez une limitation de débit et surveillez la consommation de jetons via Apidog.

Pour Node.js, vous utilisez le package npm ollama et diffusez les réponses vers les interfaces React. Vous implémentez l'appel d'outils en définissant des fonctions dans la requête et en analysant les tool_calls de la sortie du modèle. Qwen3.5 prend en charge nativement l'utilisation adaptative d'outils, vous pouvez donc enchaîner la recherche web, l'exécution de code et l'analyse de fichiers dans des agents autonomes.

Vous conteneurisez l'ensemble de la pile avec Docker Compose :

services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
  apidog-tests:
    image: your-test-image
    depends_on:
      - ollama

Vous déployez ainsi des environnements cohérents entre le développement, la pré-production et la production.

Fonctionnalités avancées : utilisation d'outils, vision et contexte long

Vous activez le mode de pensée en incluant enable_thinking: true dans les clients compatibles ou en le demandant explicitement. Le modèle génère des balises <thinking> avant les réponses finales, vous donnant une visibilité sur sa chaîne de raisonnement.

Pour la vision, vous envoyez des images ou des URL en base64. La balise 397b-cloud traite les graphiques, les captures d'écran de code et les documents avec une précision MMMU de 85,0. Vous construisez ainsi des pipelines de compréhension de documents qui extraient les tableaux, les diagrammes et les notes manuscrites.

La gestion du contexte long atteint 256K jetons sur Ollama. Vous pouvez alimenter des bases de code entières ou des articles de recherche et demander des résumés, des analyses de différences ou une refactorisation architecturale. Vous surveillez l'utilisation du contexte avec le champ context dans les réponses et mettez en œuvre des stratégies de fenêtre glissante lorsque vous approchez des limites.

Optimisation des performances et dépannage

Vous maintenez les modèles "chauds" avec --keep-alive. Vous réduisez la latence en définissant un num_predict plus bas pour les tâches simples et plus élevé pour les raisonnements complexes.

Problèmes courants et solutions :

Vous enregistrez chaque appel d'API via Apidog pour identifier rapidement les goulots d'étranglement. Vous maintenez ainsi une haute disponibilité même avec le plan gratuit.

Conclusion

Vous disposez désormais d'une feuille de route technique complète pour utiliser gratuitement les modèles qwen3.5 avec Ollama. Vous avez installé l'environnement d'exécution, téléchargé les balises cloud, maîtrisé les interactions CLI et API, dynamisé les tests avec Apidog, construit des applications de production et optimisé pour des charges de travail réelles. Chaque étape tire parti de commandes actives, de paramètres précis et de résultats mesurables.

De petites actions — télécharger Apidog, créer un Modelfile ou ajouter une simple assertion — se transforment en une productivité accrue. Vous pouvez expérimenter dès aujourd'hui avec des agents multimodaux de pointe sans carte de crédit ni tickets d'infrastructure. Le niveau gratuit d'Ollama supprime toutes les barrières.

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API