Les développeurs sont constamment à la recherche d'une IA de pointe qui allie intelligence brute et coût initial nul. Les modèles Qwen3.5 offrent exactement cela grâce à Ollama. Publiés par Alibaba, ces agents multimodaux à poids ouverts établissent de nouvelles normes en matière de raisonnement, de codage, de vision et d'utilisation d'outils. Vous les exécutez instantanément via les balises cloud d'Ollama — pas de téléchargements massifs, pas de cluster GPU d'entreprise requis.
Vous avez un accès immédiat à un modèle MoE hybride 397B-A17B qui n'active que 17 milliards de paramètres par passage avant. L'architecture combine l'attention linéaire Gated DeltaNet avec un routage clairsemé de mélange d'experts, offrant un débit 8,6 fois plus rapide que le Qwen3-Max précédent à 32K de contexte et 19 fois plus rapide à 256K. Les benchmarks confirment sa supériorité : MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 et Tool Decathlon 38.3. Vous pouvez donc expérimenter avec des agents vision-langage natifs et un support de 201 langues sur le niveau gratuit d'Ollama avant même d'envisager des mises à niveau payantes.
Ce guide couvre tous les détails techniques dont vous avez besoin. Vous installerez Ollama, téléchargerez les balises exactes, interagirez via l'interface en ligne de commande (CLI) et l'API, intégrerez Apidog pour des tests rigoureux, construirez de véritables applications, optimiserez les performances et résoudrez les problèmes courants. À la fin, vous déploierez des flux de travail basés sur qwen3.5 qui rivaliseront avec les géants du cloud tout en restant dans les limites d'utilisation gratuite.
Ce qui fait de Qwen3.5 une centrale technique
Qwen3.5 fait progresser la série avec un pré-entraînement sur des corpus enrichis multilingues, STEM et de raisonnement, sous un filtrage plus strict. Les ingénieurs ont mis à l'échelle l'apprentissage par renforcement dans des environnements à millions d'agents, privilégiant la difficulté et la généralisabilité plutôt que des métriques étroites. Le résultat : une parité inter-générations avec des modèles dépassant 1 billion de paramètres tout en maintenant l'efficacité.

La variante phare — Qwen3.5-397B-A17B — utilise un mécanisme d'attention hybride. L'attention linéaire via Gated Delta Networks gère les longues séquences, tandis que le MoE (Mixture of Experts) clairsemé achemine les jetons vers des experts spécialisés. Le vocabulaire s'étend à 250K jetons, augmentant l'efficacité d'encodage de 10 à 60 % dans toutes les langues. L'entraînement multimodal natif par fusion précoce fusionne les jetons de texte et de vision dès le début, atteignant 100 % d'efficacité d'entraînement par rapport aux pipelines textuels uniquement.
Sur Ollama, vous accédez à deux balises prêtes à l'emploi :
- qwen3.5:cloud – Texte uniquement, contexte de 256K, outils et modes de pensée activés.
- qwen3.5:397b-cloud – Support complet vision-langage, traite les images et les documents en parallèle du texte.
Les deux exposent des capacités de réflexion (chaîne de pensée), des outils (recherche web, interpréteur de code) et des comportements d'agent prêts à l'emploi. Vous pouvez donc basculer entre des réponses rapides et un raisonnement approfondi avec un seul paramètre.

Les benchmarks sont éloquents. En codage, Qwen3.5 obtient 76,4 sur SWE-bench Verified et 83,6 sur LiveCodeBench v6. En mathématiques, il atteint 91,3 sur AIME26 et 94,8 sur HMMT. Les tâches de vision atteignent 93,1 sur OCRBench et 88,6 sur MathVision. Les métriques d'agent incluent 72,9 sur BFCL-V4 et 86,7 sur TAU2-Bench. La couverture multilingue s'étend à 201 langues avec les meilleurs scores sur MMMLU (88,5) et WMT24++ (78,9). Vous accédez à ces performances via une simple commande ollama run sur le niveau gratuit.
Pourquoi Ollama offre un accès gratuit à Qwen3.5
Ollama abstrait la gestion des modèles en un seul binaire. Vous exécutez les mêmes commandes que les poids se trouvent sur votre disque ou sur l'infrastructure cloud d'Ollama. Le plan gratuit autorise une utilisation légère des modèles cloud — parfait pour l'exploration, le prototypage et les charges de travail modérées. Vous contournez ainsi la taille brute de 807 Go du modèle complet 397B et commencez à envoyer des requêtes en quelques secondes.

Les modèles locaux restent illimités une fois téléchargés, mais pour qwen3.5, les balises officielles se dirigent vers Ollama Cloud. Les imports communautaires tels que frob/qwen3.5 (quants GGUF) vous permettent d'exécuter des versions quantifiées localement si vous possédez une RAM suffisante (214 Go+ pour MXFP4 4 bits). Vous choisissez le chemin qui correspond à votre matériel et à votre mode d'utilisation. Ollama gère le routage de manière transparente.
De plus, Ollama expose une API REST complète compatible OpenAI sur le port 11434. Vous intégrez qwen3.5 dans n'importe quel langage ou framework sans modifier le code client. Apidog rend cette intégration infaillible en vous permettant de simuler des réponses, de valider des schémas et de générer automatiquement des collections de tests.
Exigences système et prérequis
Les balises cloud n'imposent quasiment aucune exigence locale. Vous n'avez besoin que de :
- 8 Go de RAM (16 Go recommandés)
- Connexion internet stable (l'inférence se fait à distance)
- Ollama 0.5.0 ou plus récent
Pour les exécutions locales GGUF de la communauté, vous devez calculer attentivement les besoins en VRAM. La quantification MXFP4 4 bits de la variante 397B-A17B occupe environ 214 Go de disque et nécessite ~256 Go de RAM système avec déchargement MoE pour plus de 25 jetons/seconde sur les Mac haut de gamme. Les variantes denses plus petites des séries Qwen précédentes (si portées) diminuent linéairement. Vous commencez donc par les balises cloud et passez aux quantifications locales uniquement lorsque vous avez besoin d'une opération hors ligne ou d'un débit plus élevé.
Vous installez également Git et un éditeur de code. Apidog fonctionne sur Windows, macOS et Linux — téléchargez l'application de bureau pour de meilleures performances.
Installation d'Ollama sur différentes plateformes
Vous installez Ollama avec une seule commande sur chaque système d'exploitation majeur.
macOS
brew install ollama
Puis lancez :
ollama serve
Windows
Téléchargez l'installateur depuis ollama.com et exécutez-le. Ollama démarre automatiquement. Ouvrez PowerShell et tapez :
ollama serve
Linux
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Vous vérifiez l'installation avec :
ollama --version
Vous devriez voir une sortie affichant la dernière version. Si le service ne démarre pas, vérifiez la disponibilité du port 11434 et les règles de pare-feu. Vous contrôlez désormais un environnement d'exécution LLM complet.
Téléchargement et exécution des modèles Qwen3.5
Vous téléchargez le modèle avec une seule commande. Ollama ne télécharge que les métadonnées pour les balises cloud et achemine l'inférence à distance.
ollama pull qwen3.5:cloud
Pour les capacités de vision :
ollama pull qwen3.5:397b-cloud
Vous lancez une session interactive :
ollama run qwen3.5:cloud
L'invite apparaît. Vous tapez :
Expliquez l'architecture MoE hybride de Qwen3.5 en détail technique.
Qwen3.5 répond avec des explications précises sur Gated DeltaNet, le routage d'experts clairsemé et la prédiction multi-jetons. Vous quittez avec /bye.
Pour exécuter en arrière-plan pour l'utilisation de l'API :
ollama serve
Puis dans un autre terminal, vous gardez le modèle chaud avec :
ollama run qwen3.5:cloud --keep-alive 24h
Interaction en ligne de commande et Modelfiles
Vous personnalisez le comportement avec des Modelfiles. Créez un fichier nommé Modelfile :
FROM qwen3.5:cloud
SYSTEM """
You are an expert systems architect. Always respond with step-by-step reasoning, code examples, and performance calculations.
"""
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95
Vous créez le modèle personnalisé :
ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect
Vous disposez désormais d'un assistant spécialisé adapté à la documentation technique et aux revues d'architecture. Vous répétez le processus pour les agents de codage, d'analyse de vision ou de traduction multilingue.
Tirer parti de l'API REST d'Ollama
Ollama expose des points de terminaison puissants. Vous envoyez des complétions de chat avec :
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5:cloud",
"messages": [
{ "role": "system", "content": "You are a helpful coding assistant." },
{ "role": "user", "content": "Write a FastAPI endpoint that calls qwen3.5 for sentiment analysis." }
],
"stream": false,
"options": {
"temperature": 0.2,
"num_predict": 2048
}
}'
Vous recevez une réponse JSON complète contenant message.content, total_duration et le nombre de jetons. Vous activez le streaming en définissant "stream": true et traitez les événements envoyés par le serveur en temps réel.
Pour les embeddings :
curl http://localhost:11434/api/embeddings -d '{
"model": "qwen3.5:cloud",
"prompt": "Technical documentation on hybrid MoE models"
}'
Vous construisez donc des pipelines RAG, de la recherche sémantique et des couches de classification autour de qwen3.5.
Test et débogage avec Apidog
Vous ouvrez Apidog et créez un nouveau projet nommé « Ollama Qwen3.5 ». Définissez l'URL de base sur http://localhost:11434/api.

Vous ajoutez le point de terminaison /chat :
- Méthode : POST
- Schéma du corps de la requête : définir
model, tableaumessages, objetoptions - Schéma de réponse : capturer
message,done, champs de temporisation
Vous importez la spécification OpenAPI officielle d'Ollama si disponible ou construisez des collections manuellement. Apidog génère automatiquement des cas de test, valide les schémas JSON et prend en charge les variables d'environnement pour basculer entre qwen3.5:cloud et les Modelfiles personnalisés.
Vous créez une collection « Tâches de Vision » et testez l'entrée multimodale :
{
"model": "qwen3.5:397b-cloud",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Décrivez ce diagramme en détail." },
{ "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
]
}
]
}
Apidog affiche l'aperçu de l'image, envoie la requête et vous permet d'inspecter l'utilisation des jetons, la latence et les traces de raisonnement. Vous enregistrez des assertions pour un temps de réponse < 5s et la présence de termes techniques. Vous exportez la collection en tant que documentation Markdown ou la partagez avec votre équipe.
Vous éliminez ainsi les approximations. Chaque paramètre, chaque champ de réponse et chaque erreur devient visible et reproductible. De petites améliorations dans Apidog — comme l'ajout de scripts de pré-requête pour "réchauffer" le modèle — se traduisent par une fiabilité de niveau production.
Créer des applications réelles avec Qwen3.5 et Ollama
Vous intégrez qwen3.5 dans des applications Python en utilisant le client officiel :
import ollama
from fastapi import FastAPI
app = FastAPI()
@app.post("/analyze")
async def analyze_code(request: dict):
response = ollama.chat(
model='qwen3.5:cloud',
messages=[{'role': 'user', 'content': request['code']}],
options={'temperature': 0.1}
)
return {"analysis": response['message']['content']}
Vous exposez ce point d'API, ajoutez une limitation de débit et surveillez la consommation de jetons via Apidog.
Pour Node.js, vous utilisez le package npm ollama et diffusez les réponses vers les interfaces React. Vous implémentez l'appel d'outils en définissant des fonctions dans la requête et en analysant les tool_calls de la sortie du modèle. Qwen3.5 prend en charge nativement l'utilisation adaptative d'outils, vous pouvez donc enchaîner la recherche web, l'exécution de code et l'analyse de fichiers dans des agents autonomes.
Vous conteneurisez l'ensemble de la pile avec Docker Compose :
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
apidog-tests:
image: your-test-image
depends_on:
- ollama
Vous déployez ainsi des environnements cohérents entre le développement, la pré-production et la production.
Fonctionnalités avancées : utilisation d'outils, vision et contexte long
Vous activez le mode de pensée en incluant enable_thinking: true dans les clients compatibles ou en le demandant explicitement. Le modèle génère des balises <thinking> avant les réponses finales, vous donnant une visibilité sur sa chaîne de raisonnement.
Pour la vision, vous envoyez des images ou des URL en base64. La balise 397b-cloud traite les graphiques, les captures d'écran de code et les documents avec une précision MMMU de 85,0. Vous construisez ainsi des pipelines de compréhension de documents qui extraient les tableaux, les diagrammes et les notes manuscrites.
La gestion du contexte long atteint 256K jetons sur Ollama. Vous pouvez alimenter des bases de code entières ou des articles de recherche et demander des résumés, des analyses de différences ou une refactorisation architecturale. Vous surveillez l'utilisation du contexte avec le champ context dans les réponses et mettez en œuvre des stratégies de fenêtre glissante lorsque vous approchez des limites.
Optimisation des performances et dépannage
Vous maintenez les modèles "chauds" avec --keep-alive. Vous réduisez la latence en définissant un num_predict plus bas pour les tâches simples et plus élevé pour les raisonnements complexes.
Problèmes courants et solutions :
- Limite de débit sur le niveau gratuit : Vous surveillez l'utilisation dans le tableau de bord Ollama et passez à des requêtes plus légères ou à des requêtes par lots.
- Connexion refusée : Vous confirmez que
ollama serveest en cours d'exécution et que le port 11434 est à l'écoute. - Réponses lentes : Vous ajoutez
options: { "num_gpu": 999 }pour forcer l'accélération maximale. - Erreurs de vision : Vous vérifiez l'encodage base64 et les limites de taille d'image.
Vous enregistrez chaque appel d'API via Apidog pour identifier rapidement les goulots d'étranglement. Vous maintenez ainsi une haute disponibilité même avec le plan gratuit.
Conclusion
Vous disposez désormais d'une feuille de route technique complète pour utiliser gratuitement les modèles qwen3.5 avec Ollama. Vous avez installé l'environnement d'exécution, téléchargé les balises cloud, maîtrisé les interactions CLI et API, dynamisé les tests avec Apidog, construit des applications de production et optimisé pour des charges de travail réelles. Chaque étape tire parti de commandes actives, de paramètres précis et de résultats mesurables.
De petites actions — télécharger Apidog, créer un Modelfile ou ajouter une simple assertion — se transforment en une productivité accrue. Vous pouvez expérimenter dès aujourd'hui avec des agents multimodaux de pointe sans carte de crédit ni tickets d'infrastructure. Le niveau gratuit d'Ollama supprime toutes les barrières.
