En bref
Ollama offre le moyen le plus simple d'exécuter localement les petits modèles Qwen 3.5 (0.8B, 2B, 4B et 9B) sur votre machine Mac, Linux ou Windows. Avec une simple commande ollama run, vous pouvez accéder à des fonctionnalités d'IA performantes sans les coûts des API cloud. Téléchargez Ollama, téléchargez un modèle et commencez à discuter en moins de 5 minutes.

Introduction
L'exécution de grands modèles linguistiques localement est devenue très populaire, et Ollama la rend simple. Si vous souhaitez utiliser les modèles Qwen 3.5 d'Alibaba sans envoyer de données au cloud ou payer des frais par jeton, Ollama est la solution.
Ce guide vous expliquera tout ce que vous devez savoir sur l'exécution des petits modèles Qwen 3.5 avec Ollama. Que vous ayez besoin du modèle compact 0.8B pour des tâches rapides ou du modèle plus grand 9B pour un raisonnement complexe, nous couvrirons l'installation, l'utilisation et l'intégration.
Pourquoi utiliser Ollama pour Qwen 3.5
Ollama est devenue la solution de prédilection pour le déploiement local de LLM :
Configuration simple
Pas de configurations Docker ou Python complexes. Téléchargez une seule application et vous êtes prêt.
La confidentialité avant tout
Vos données restent sur votre machine. C'est important pour les données commerciales ou toute information sensible.
Pas de coûts d'API
Après avoir téléchargé les modèles, leur exécution est gratuite. Pas de frais par jeton ou d'abonnements.
Capacité hors ligne
Utilisez l'IA n'importe où, même sans Internet.
Accélération matérielle
Ollama utilise automatiquement l'accélération GPU lorsque disponible, rendant l'inférence locale rapide.
Installation d'Ollama
Installation sur Mac
Si vous avez un Mac, l'installation ne prend que quelques secondes :
# Téléchargez depuis ollama.com ou utilisez Homebrew
brew install ollama
C'est tout. Ollama détectera automatiquement Apple Silicon (M1/M2/M3) et utilisera Metal pour l'accélération GPU.
Installation sur Linux
Pour les serveurs Linux ou WSL :
# Installation rapide
curl -fsSL https://ollama.com/install.sh | sh
Installation sur Windows
Les utilisateurs de Windows peuvent télécharger l'installateur. La version Windows prend en charge l'accélération GPU via DirectML.

Vérification
Après l'installation, vérifiez que tout fonctionne :
ollama --version
Vous devriez voir le numéro de version. Maintenant, téléchargeons quelques modèles Qwen.
Exécution des modèles Qwen 3.5
Télécharger votre premier modèle
Ollama simplifie le téléchargement des modèles :
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bChaque téléchargement de modèle prend quelques minutes selon votre vitesse Internet. Le modèle 2B fait environ 1,5 Go, tandis que le modèle 9B fait environ 5 Go.
Démarrer une session de chat
Une fois téléchargé, commencez à discuter immédiatement :
ollama run qwen3.5:9b
Vous verrez une invite où vous pouvez taper directement :
>>> Qu'est-ce que l'informatique quantique en termes simples ?
L'informatique quantique est un type de calcul où...
Tapez vos questions et appuyez sur Entrée. Appuyez sur Ctrl+D pour quitter.
Lister les modèles disponibles
Voyez ce que vous avez installé :
ollama list
La sortie affiche chaque modèle, sa taille et la dernière fois que vous l'avez utilisé.
Supprimer des modèles
Libérez de l'espace disque en supprimant les modèles dont vous n'avez pas besoin :
ollama remove qwen3.5:9b
Comparaison et sélection de modèles
Le choix du bon modèle dépend de votre matériel et de votre cas d'utilisation :
| Modèle | Paramètres | Taille approximative du modèle (BF16, précision complète) | RAM nécessaire (BF16, guide Unsloth) | Idéal pour |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 Go | ~9 Go | Appareils ultra-légers et mobiles : auto-complétion rapide, chatbots simples, petits outils, vision/OCR basique sur des appareils très bas de gamme. |
| Qwen3.5-2B | 2B | ~4 Go | ~9 Go | Assistants légers, petits agents, aide au codage basique, multimodal décent sur les ordinateurs portables avec une RAM modeste. |
| Qwen3.5-4B | 4B | ~8 Go | ~14 Go | Assistant de développement "auto-complétion intelligente", agents légers, meilleur raisonnement et multimodal que le 2B tout en étant facile à exécuter localement. |
| Qwen3.5-9B | 9B | ~18 Go | ~19 Go | Assistant général puissant, bon multilingue + vision, utilisable comme IA locale principale sur une machine avec 16 à 24 Go de RAM/VRAM. |
Recommandation pour la plupart des utilisateurs : Commencez avec qwen2.5:2b. Il offre le meilleur équilibre entre capacité et vitesse. Passez au 4B ou 9B uniquement si vous avez besoin de plus de puissance de raisonnement.
API Ollama pour les développeurs
Ollama exécute un serveur d'API local que vos applications peuvent appeler. C'est parfait pour intégrer Qwen 3.5 dans vos projets.
Démarrer le serveur API
Ollama s'exécute par défaut comme un service en arrière-plan. L'API est disponible à l'adresse :
http://localhost:11434
Achèvement de chat de base
Envoyez des requêtes au point de terminaison de chat :
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Qu'est-ce que Python ?"}
],
"stream": false
}'
Réponse :

Diffusion en continu des réponses
Pour une sortie en temps réel, activez le streaming :
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Compte jusqu'à 5"}],
"stream": true
}'
Ceci diffuse les jetons au fur et à mesure qu'ils sont générés.
Point de terminaison de génération
Pour les invites non-chat :
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Écris un haïku sur le codage",
"stream": false
}'
Intégration avec vos applications
Intégration Python
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Explique la récursivité"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
Intégration JavaScript/Node.js
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'Qu'est-ce qu'une API ?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Tester votre intégration avec Apidog
Lors de la création d'applications qui appellent Ollama, utilisez des outils de test d'API pour valider les réponses. Voici comment tester votre API Ollama avec Apidog :
- Créez une nouvelle requête POST vers
http://localhost:11434/api/chat - Définissez Content-Type sur
application/json - Ajoutez le corps de la requête :
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Bonjour"}],
"stream": false
}
Apidog vous permet de créer des cas de test automatisés qui valident la qualité des réponses, testent différentes invites et surveillent vos points de terminaison LLM locaux. Cela garantit que votre intégration fonctionne de manière fiable en production.
Performances et exigences matérielles
Accélération GPU
Ollama utilise automatiquement le GPU lorsque disponible :
- Apple Silicon (M1/M2/M3) : Utilise Metal, très efficace
- GPU NVIDIA : Utilise CUDA, excellente performance
- GPU AMD : Utilise ROCm sur Linux
- CPU uniquement : Fonctionne mais plus lentement
Performances attendues
| Modèle | GPU | Jetons/sec (environ) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
L'inférence CPU uniquement sera significativement plus lente (5 à 10 fois).
Exigences de mémoire
RAM minimale par modèle :
- 0.8B : 2 Go de RAM disponible
- 2B : 4 Go de RAM disponible
- 4B : 8 Go de RAM disponible
- 9B : 16 Go de RAM disponible
Avoir plus de RAM que le minimum aide à la réactivité.
Dépannage des problèmes courants
"Ollama introuvable"
Assurez-vous qu'Ollama est dans votre PATH. Sur Mac/Linux, redémarrez votre terminal après l'installation.
Performances lentes
- Vérifiez si le GPU est utilisé :
ollama listaffiche les informations du modèle - Pour CPU uniquement : attendez-vous à des vitesses plus lentes
- Fermez les autres applications utilisant le GPU
Échec du téléchargement du modèle
Réessayez avec une connexion Internet plus rapide. Si vous utilisez un VPN, essayez sans.
Connexion API refusée
Assurez-vous qu'Ollama est en cours d'exécution : ollama serve (s'exécute généralement automatiquement)
Manque de mémoire
Utilisez un modèle plus petit. Le modèle 9B nécessite une RAM importante. Fermez les autres applications.
Conclusion
Ollama rend l'exécution locale des modèles Qwen 3.5 simple. Que vous soyez un développeur créant des applications d'IA ou que vous souhaitiez simplement expérimenter les LLM locaux, le processus prend des minutes plutôt que des heures.
La combinaison des puissantes capacités multilingues de Qwen 3.5 et de l'interface simple d'Ollama en fait l'un des moyens les plus faciles de démarrer avec l'IA locale.
Prochaines étapes : Une fois votre API Ollama configurée, utilisez Apidog pour créer des cas de test automatisés qui valident la qualité des réponses, testent différentes invites et surveillent vos points de terminaison LLM locaux. Commencez gratuitement avec Apidog.
FAQ
Quelle est la différence entre Ollama et les autres méthodes de déploiement ?
Ollama est conçu pour la simplicité. Contrairement à Docker ou au déploiement manuel de modèles, il gère tout (téléchargement de modèles, accélération GPU, service API) avec des commandes simples.
Puis-je utiliser Ollama avec d'autres modèles Qwen ?
Oui, Ollama prend en charge de nombreux modèles. Consultez ollama.com/library pour la liste complète.
Comment mettre à jour les modèles Qwen dans Ollama ?
Tirez la dernière version : ollama pull qwen2.5:2b. Cela télécharge les mises à jour si disponibles.
Puis-je exécuter plusieurs modèles simultanément ?
Oui, mais chaque modèle utilise de la mémoire. La plupart des systèmes peuvent exécuter 1 à 2 modèles simultanément.
Mes données sont-elles sécurisées avec Ollama ?
Oui. Tout s'exécute localement. Aucune donnée n'est envoyée à des serveurs externes.
Puis-je affiner les modèles Qwen en utilisant Ollama ?
Ollama est uniquement destiné à l'inférence. Pour l'affinage, vous aurez besoin d'autres outils comme les adaptateurs LoRA.
Comment changer le port utilisé par Ollama ?
Définissez la variable d'environnement OLLAMA_HOST avant de l'exécuter : export OLLAMA_HOST=0.0.0.0:8080
