Utiliser Qwen 3.5 avec Ollama : Guide Complet

Ashley Innocent

Ashley Innocent

3 March 2026

Utiliser Qwen 3.5 avec Ollama : Guide Complet

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

En bref

Ollama offre le moyen le plus simple d'exécuter localement les petits modèles Qwen 3.5 (0.8B, 2B, 4B et 9B) sur votre machine Mac, Linux ou Windows. Avec une simple commande ollama run, vous pouvez accéder à des fonctionnalités d'IA performantes sans les coûts des API cloud. Téléchargez Ollama, téléchargez un modèle et commencez à discuter en moins de 5 minutes.

Ollama exécute localement Qwen 3.5

Introduction

L'exécution de grands modèles linguistiques localement est devenue très populaire, et Ollama la rend simple. Si vous souhaitez utiliser les modèles Qwen 3.5 d'Alibaba sans envoyer de données au cloud ou payer des frais par jeton, Ollama est la solution.

💡
Lors de la création d'applications qui appellent des LLM locaux comme Qwen 3.5 via l'API d'Ollama, vous aurez besoin d'un moyen fiable de tester et de valider les réponses. Les outils de test d'API d'Apidog vous permettent de configurer des tests automatisés pour vos points de terminaison d'API Ollama, garantissant que les réponses sont correctes et répondent à vos attentes. Créez des assertions de test pour le temps de réponse, la structure du contenu et la gestion des erreurs – passez à la section API Ollama pour voir comment tester votre configuration.
bouton

Ce guide vous expliquera tout ce que vous devez savoir sur l'exécution des petits modèles Qwen 3.5 avec Ollama. Que vous ayez besoin du modèle compact 0.8B pour des tâches rapides ou du modèle plus grand 9B pour un raisonnement complexe, nous couvrirons l'installation, l'utilisation et l'intégration.

Pourquoi utiliser Ollama pour Qwen 3.5

Ollama est devenue la solution de prédilection pour le déploiement local de LLM :

Configuration simple
Pas de configurations Docker ou Python complexes. Téléchargez une seule application et vous êtes prêt.

La confidentialité avant tout
Vos données restent sur votre machine. C'est important pour les données commerciales ou toute information sensible.

Pas de coûts d'API
Après avoir téléchargé les modèles, leur exécution est gratuite. Pas de frais par jeton ou d'abonnements.

Capacité hors ligne
Utilisez l'IA n'importe où, même sans Internet.

Accélération matérielle
Ollama utilise automatiquement l'accélération GPU lorsque disponible, rendant l'inférence locale rapide.

Installation d'Ollama

Installation sur Mac

Si vous avez un Mac, l'installation ne prend que quelques secondes :

# Téléchargez depuis ollama.com ou utilisez Homebrew
brew install ollama

C'est tout. Ollama détectera automatiquement Apple Silicon (M1/M2/M3) et utilisera Metal pour l'accélération GPU.

Installation sur Linux

Pour les serveurs Linux ou WSL :

# Installation rapide
curl -fsSL https://ollama.com/install.sh | sh

Installation sur Windows

Les utilisateurs de Windows peuvent télécharger l'installateur. La version Windows prend en charge l'accélération GPU via DirectML.

Installation d'Ollama sur Windows

Vérification

Après l'installation, vérifiez que tout fonctionne :

ollama --version

Vous devriez voir le numéro de version. Maintenant, téléchargeons quelques modèles Qwen.

Exécution des modèles Qwen 3.5

Télécharger votre premier modèle

Ollama simplifie le téléchargement des modèles :

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

Chaque téléchargement de modèle prend quelques minutes selon votre vitesse Internet. Le modèle 2B fait environ 1,5 Go, tandis que le modèle 9B fait environ 5 Go.

Démarrer une session de chat

Une fois téléchargé, commencez à discuter immédiatement :

ollama run qwen3.5:9b

Vous verrez une invite où vous pouvez taper directement :

>>> Qu'est-ce que l'informatique quantique en termes simples ?
L'informatique quantique est un type de calcul où...

Tapez vos questions et appuyez sur Entrée. Appuyez sur Ctrl+D pour quitter.

Lister les modèles disponibles

Voyez ce que vous avez installé :

ollama list

La sortie affiche chaque modèle, sa taille et la dernière fois que vous l'avez utilisé.

Supprimer des modèles

Libérez de l'espace disque en supprimant les modèles dont vous n'avez pas besoin :

ollama remove qwen3.5:9b

Comparaison et sélection de modèles

Le choix du bon modèle dépend de votre matériel et de votre cas d'utilisation :

Modèle Paramètres Taille approximative du modèle (BF16, précision complète) RAM nécessaire (BF16, guide Unsloth) Idéal pour
Qwen3.5-0.8B 0.8B ~1.6 Go ~9 Go Appareils ultra-légers et mobiles : auto-complétion rapide, chatbots simples, petits outils, vision/OCR basique sur des appareils très bas de gamme.
Qwen3.5-2B 2B ~4 Go ~9 Go Assistants légers, petits agents, aide au codage basique, multimodal décent sur les ordinateurs portables avec une RAM modeste.
Qwen3.5-4B 4B ~8 Go ~14 Go Assistant de développement "auto-complétion intelligente", agents légers, meilleur raisonnement et multimodal que le 2B tout en étant facile à exécuter localement.
Qwen3.5-9B 9B ~18 Go ~19 Go Assistant général puissant, bon multilingue + vision, utilisable comme IA locale principale sur une machine avec 16 à 24 Go de RAM/VRAM.

Recommandation pour la plupart des utilisateurs : Commencez avec qwen2.5:2b. Il offre le meilleur équilibre entre capacité et vitesse. Passez au 4B ou 9B uniquement si vous avez besoin de plus de puissance de raisonnement.

API Ollama pour les développeurs

Ollama exécute un serveur d'API local que vos applications peuvent appeler. C'est parfait pour intégrer Qwen 3.5 dans vos projets.

Démarrer le serveur API

Ollama s'exécute par défaut comme un service en arrière-plan. L'API est disponible à l'adresse :

http://localhost:11434

Achèvement de chat de base

Envoyez des requêtes au point de terminaison de chat :

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "Qu'est-ce que Python ?"}
    ],
    "stream": false
  }'

Réponse :

Réponse de l'API Ollama - Qu'est-ce que Python ?

Diffusion en continu des réponses

Pour une sortie en temps réel, activez le streaming :

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Compte jusqu'à 5"}],
    "stream": true
  }'

Ceci diffuse les jetons au fur et à mesure qu'ils sont générés.

Point de terminaison de génération

Pour les invites non-chat :

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Écris un haïku sur le codage",
    "stream": false
  }'

Intégration avec vos applications

Intégration Python

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explique la récursivité"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

Intégration JavaScript/Node.js

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'Qu'est-ce qu'une API ?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Tester votre intégration avec Apidog

Lors de la création d'applications qui appellent Ollama, utilisez des outils de test d'API pour valider les réponses. Voici comment tester votre API Ollama avec Apidog :

  1. Créez une nouvelle requête POST vers http://localhost:11434/api/chat
  2. Définissez Content-Type sur application/json
  3. Ajoutez le corps de la requête :
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Bonjour"}],
  "stream": false
}
Test de l'API Ollama dans Apidog

Apidog vous permet de créer des cas de test automatisés qui valident la qualité des réponses, testent différentes invites et surveillent vos points de terminaison LLM locaux. Cela garantit que votre intégration fonctionne de manière fiable en production.

Performances et exigences matérielles

Accélération GPU

Ollama utilise automatiquement le GPU lorsque disponible :

Performances attendues

Modèle GPU Jetons/sec (environ)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

L'inférence CPU uniquement sera significativement plus lente (5 à 10 fois).

Exigences de mémoire

RAM minimale par modèle :

Avoir plus de RAM que le minimum aide à la réactivité.

Dépannage des problèmes courants

"Ollama introuvable"

Assurez-vous qu'Ollama est dans votre PATH. Sur Mac/Linux, redémarrez votre terminal après l'installation.

Performances lentes

  1. Vérifiez si le GPU est utilisé : ollama list affiche les informations du modèle
  2. Pour CPU uniquement : attendez-vous à des vitesses plus lentes
  3. Fermez les autres applications utilisant le GPU

Échec du téléchargement du modèle

Réessayez avec une connexion Internet plus rapide. Si vous utilisez un VPN, essayez sans.

Connexion API refusée

Assurez-vous qu'Ollama est en cours d'exécution : ollama serve (s'exécute généralement automatiquement)

Manque de mémoire

Utilisez un modèle plus petit. Le modèle 9B nécessite une RAM importante. Fermez les autres applications.

Conclusion

Ollama rend l'exécution locale des modèles Qwen 3.5 simple. Que vous soyez un développeur créant des applications d'IA ou que vous souhaitiez simplement expérimenter les LLM locaux, le processus prend des minutes plutôt que des heures.

La combinaison des puissantes capacités multilingues de Qwen 3.5 et de l'interface simple d'Ollama en fait l'un des moyens les plus faciles de démarrer avec l'IA locale.

Prochaines étapes : Une fois votre API Ollama configurée, utilisez Apidog pour créer des cas de test automatisés qui valident la qualité des réponses, testent différentes invites et surveillent vos points de terminaison LLM locaux. Commencez gratuitement avec Apidog.

bouton

FAQ

Quelle est la différence entre Ollama et les autres méthodes de déploiement ?

Ollama est conçu pour la simplicité. Contrairement à Docker ou au déploiement manuel de modèles, il gère tout (téléchargement de modèles, accélération GPU, service API) avec des commandes simples.

Puis-je utiliser Ollama avec d'autres modèles Qwen ?

Oui, Ollama prend en charge de nombreux modèles. Consultez ollama.com/library pour la liste complète.

Comment mettre à jour les modèles Qwen dans Ollama ?

Tirez la dernière version : ollama pull qwen2.5:2b. Cela télécharge les mises à jour si disponibles.

Puis-je exécuter plusieurs modèles simultanément ?

Oui, mais chaque modèle utilise de la mémoire. La plupart des systèmes peuvent exécuter 1 à 2 modèles simultanément.

Mes données sont-elles sécurisées avec Ollama ?

Oui. Tout s'exécute localement. Aucune donnée n'est envoyée à des serveurs externes.

Puis-je affiner les modèles Qwen en utilisant Ollama ?

Ollama est uniquement destiné à l'inférence. Pour l'affinage, vous aurez besoin d'autres outils comme les adaptateurs LoRA.

Comment changer le port utilisé par Ollama ?

Définissez la variable d'environnement OLLAMA_HOST avant de l'exécuter : export OLLAMA_HOST=0.0.0.0:8080

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API