Comment utiliser Ollama (Fiche récapitulative complète d'Ollama)

Le paysage de l'IA évolue. Les LLMs s'intègrent. Ollama simplifie l'exécution locale, offrant confidentialité, économies et contrôle.

Louis Dupont

Louis Dupont

5 June 2025

Comment utiliser Ollama (Fiche récapitulative complète d'Ollama)

```html

Le paysage de l'intelligence artificielle est en constante évolution, les modèles de langage volumineux (LLM) devenant de plus en plus sophistiqués et intégrés dans nos vies numériques. Alors que les services d'IA basés sur le cloud offrent une commodité, un nombre croissant d'utilisateurs se tournent vers l'exécution de ces modèles puissants directement sur leurs propres ordinateurs. Cette approche offre une confidentialité accrue, des économies de coûts et un meilleur contrôle. Pour faciliter ce changement, il y a Ollama, un outil révolutionnaire conçu pour simplifier radicalement le processus complexe de téléchargement, de configuration et d'exploitation de LLM de pointe comme Llama 3, Mistral, Gemma, Phi, et bien d'autres localement.

Ce guide complet vous servira de point de départ pour maîtriser Ollama. Nous passerons des étapes d'installation initiales et des interactions de base avec les modèles aux techniques de personnalisation plus avancées, à l'utilisation de l'API et au dépannage essentiel. Que vous soyez un développeur logiciel cherchant à intégrer l'IA locale dans vos applications, un chercheur désireux d'expérimenter diverses architectures de modèles, ou simplement un passionné d'IA désireux d'explorer le potentiel de l'exécution de modèles puissants hors ligne, Ollama fournit une passerelle exceptionnellement simplifiée et efficace.

💡
Vous voulez un excellent outil de test d'API qui génère une belle documentation d'API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !
button

Pourquoi choisir Ollama pour exécuter des modèles d'IA localement ?

Pourquoi opter pour cette approche au lieu de s'appuyer uniquement sur des API cloud facilement disponibles ? Eh bien, voici les raisons :

  1. Ollama vous offre la meilleure confidentialité et sécurité pour l'exécution de LLM localement, tout est sous votre contrôle : Lorsque vous exécutez un LLM à l'aide d'Ollama sur votre machine, chaque donnée – vos invites, les documents que vous fournissez et le texte généré par le modèle – reste confinée à votre système local. Elle ne quitte jamais votre matériel. Cela garantit le plus haut niveau de confidentialité et de contrôle des données, un facteur essentiel lorsqu'il s'agit d'informations personnelles sensibles, de données commerciales confidentielles ou de recherches exclusives.
  2. C'est tout simplement moins cher d'exécuter avec des LLM locaux : Les API LLM basées sur le cloud fonctionnent souvent selon des modèles de paiement à l'utilisation ou nécessitent des frais d'abonnement continus. Ces coûts peuvent s'accumuler rapidement, en particulier en cas d'utilisation intensive. Ollama élimine ces dépenses récurrentes. Mis à part l'investissement initial dans un matériel approprié (que vous possédez peut-être déjà), l'exécution de modèles localement est effectivement gratuite, ce qui permet une expérimentation et une génération illimitées sans la crainte imminente des factures d'API.
  3. Ollama vous permet d'exécuter des LLM hors ligne sans répondre aux API commerciales : Une fois qu'un modèle Ollama est téléchargé sur votre stockage local, vous pouvez l'utiliser à tout moment, n'importe où, complètement indépendamment d'une connexion Internet. Cet accès hors ligne est inestimable pour les développeurs travaillant dans des environnements avec une connectivité limitée, les chercheurs sur le terrain ou toute personne ayant besoin d'un accès fiable à l'IA en déplacement.
  4. Ollama vous permet d'exécuter des LLM personnalisés : Ollama se distingue par son puissant système Modelfile. Cela permet aux utilisateurs de modifier facilement le comportement du modèle en ajustant les paramètres (comme les niveaux de créativité ou la longueur de la sortie), en définissant des invites système personnalisées pour façonner la personnalité de l'IA, ou même en intégrant des adaptateurs spécialisés affinés (LoRA). Vous pouvez également importer des poids de modèle directement à partir de formats standard comme GGUF ou Safetensors. Ce niveau de contrôle et de flexibilité granulaire est rarement offert par les fournisseurs d'API cloud à code source fermé.
  5. Ollama vous permet d'exécuter LLM sur votre propre serveur : En fonction de la configuration matérielle locale, en particulier de la présence d'une unité de traitement graphique (GPU) performante, Ollama peut offrir des temps de réponse (vitesse d'inférence) considérablement plus rapides par rapport aux services cloud, qui pourraient être soumis à la latence du réseau, à la limitation du débit ou à une charge variable sur les ressources partagées. Tirer parti de votre matériel dédié peut conduire à une expérience beaucoup plus fluide et interactive.
  6. Ollama est Open Source : Ollama lui-même est un projet open source, favorisant la transparence et la contribution de la communauté. De plus, il sert principalement de passerelle vers une vaste bibliothèque de LLM accessibles au public et en constante expansion. En utilisant Ollama, vous faites partie de cet écosystème dynamique, bénéficiant des connaissances partagées, du soutien de la communauté et de l'innovation constante impulsée par la collaboration ouverte.

La principale réalisation d'Ollama est de masquer les complexités inhérentes à la configuration des environnements logiciels nécessaires, à la gestion des dépendances et à la configuration des paramètres complexes requis pour exécuter ces modèles d'IA sophistiqués. Il utilise intelligemment des moteurs d'inférence backend hautement optimisés, notamment la célèbre bibliothèque llama.cpp, pour garantir une exécution efficace sur le matériel grand public standard, prenant en charge l'accélération du processeur et du GPU.

Ollama vs. Llama.cpp : Quelles sont les différences ?

Il est utile de clarifier la relation entre Ollama et llama.cpp, car ils sont étroitement liés mais servent des objectifs différents.

llama.cpp : Il s'agit de la bibliothèque C/C++ haute performance fondamentale, responsable de la tâche principale de l'inférence LLM. Il gère le chargement des poids du modèle, le traitement des jetons d'entrée et la génération efficace des jetons de sortie, avec des optimisations pour diverses architectures matérielles (jeux d'instructions du processeur comme AVX, accélération du GPU via CUDA, Metal, ROCm). C'est le moteur puissant qui effectue le gros du travail de calcul.

Ollama : Il s'agit d'une application complète construite autour de llama.cpp (et potentiellement d'autres backends futurs). Ollama fournit une couche conviviale par-dessus, offrant :

Essentiellement, bien que techniquement vous puissiez utiliser llama.cpp directement en le compilant et en exécutant ses outils en ligne de commande, cela nécessite beaucoup plus d'efforts techniques en ce qui concerne la configuration, la conversion de modèle et la gestion des paramètres. Ollama regroupe cette puissance dans une application accessible et facile à utiliser, rendant les LLM locaux pratiques pour un public beaucoup plus large, en particulier les débutants. Considérez llama.cpp comme les composants du moteur haute performance et Ollama comme le véhicule entièrement assemblé et convivial, prêt à rouler.

Comment installer Ollama sur Mac, Windows, Linux

Ollama est conçu pour l'accessibilité, offrant des procédures d'installation simples pour macOS, Windows, Linux et les environnements Docker.

Configuration système générale requise pour Ollama :

RAM (mémoire) : C'est souvent le facteur le plus critique.

Espace disque : L'application Ollama elle-même est relativement petite (quelques centaines de Mo). Cependant, les LLM que vous téléchargez nécessitent un espace important. Les tailles de modèle varient considérablement :

Système d'exploitation :

Installation d'Ollama sur macOS

  1. Télécharger : Obtenez le fichier DMG de l'application macOS Ollama directement à partir du site Web officiel d'Ollama.
  2. Monter : Double-cliquez sur le fichier .dmg téléchargé pour l'ouvrir.
  3. Installer : Faites glisser l'icône Ollama.app dans votre dossier Applications.
  4. Lancer : Ouvrez l'application Ollama à partir de votre dossier Applications. Vous devrez peut-être lui accorder l'autorisation de s'exécuter la première fois.
  5. Service d'arrière-plan : Ollama commencera à s'exécuter en tant que service d'arrière-plan, indiqué par une icône dans votre barre de menus. Cliquer sur cette icône fournit des options pour quitter l'application ou afficher les journaux.

Le lancement de l'application lance automatiquement le processus du serveur Ollama et ajoute l'outil de ligne de commande ollama au PATH de votre système, ce qui le rend immédiatement disponible dans l'application Terminal (Terminal.app, iTerm2, etc.). Sur les Mac équipés d'Apple Silicon (puces M1, M2, M3, M4), Ollama utilise de manière transparente le GPU intégré pour l'accélération via l'API graphique Metal d'Apple sans nécessiter de configuration manuelle.

Installation d'Ollama sur Windows

  1. Télécharger : Obtenez le fichier d'installation OllamaSetup.exe à partir du site Web d'Ollama.
  2. Exécuter le programme d'installation : Double-cliquez sur le fichier .exe téléchargé pour lancer l'assistant d'installation. Assurez-vous de répondre à l'exigence de version minimale de Windows (10 22H2+ ou 11).
  3. Suivre les invites : Suivez les étapes d'installation, en acceptant le contrat de licence et en choisissant l'emplacement d'installation si vous le souhaitez (bien que la valeur par défaut soit généralement correcte).

Le programme d'installation configure Ollama pour qu'il s'exécute automatiquement en tant que service d'arrière-plan lorsque votre système démarre. Il ajoute également l'exécutable ollama.exe au PATH de votre système, ce qui vous permet d'utiliser la commande ollama dans les terminaux Windows standard comme l'invite de commande (cmd.exe), PowerShell ou le nouveau terminal Windows. Le serveur d'API Ollama démarre automatiquement et écoute sur http://localhost:11434.

Accélération GPU Windows pour Ollama :

Installation d'Ollama sur Linux

La méthode la plus pratique pour la plupart des distributions Linux consiste à utiliser le script d'installation officiel :

curl -fsSL https://ollama.com/install.sh | sh

Cette commande télécharge le script et l'exécute à l'aide de sh. Le script effectue les actions suivantes :

Installation manuelle de Linux et configuration de Systemd pour Ollama :
Si le script échoue, ou si vous préférez un contrôle manuel (par exemple, l'installation dans un autre emplacement, la gestion des utilisateurs différemment, la garantie de versions ROCm spécifiques), consultez le guide d'installation Linux détaillé sur le référentiel GitHub d'Ollama. Les étapes générales impliquent :

  1. Télécharger le binaire correct pour votre architecture.
  2. Rendre le binaire exécutable (chmod +x ollama) et le déplacer vers un emplacement dans votre PATH (par exemple, /usr/local/bin).
  3. (Recommandé) Création d'un utilisateur/groupe système : sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama et sudo groupadd ollama, puis sudo usermod -a -G ollama ollama. Ajoutez votre propre utilisateur au groupe : sudo usermod -a -G ollama $USER.
  4. Création du fichier de service systemd (/etc/systemd/system/ollama.service) avec les paramètres appropriés (utilisateur, groupe, chemin d'accès de l'exécutable, variables d'environnement si nécessaire). Des extraits d'exemples sont généralement fournis dans la documentation.
  5. Rechargement du démon systemd : sudo systemctl daemon-reload.
  6. Activation du service pour qu'il démarre au démarrage : sudo systemctl enable ollama.
  7. Démarrage immédiat du service : sudo systemctl start ollama. Vous pouvez vérifier son état avec sudo systemctl status ollama.

Pilotes GPU Linux essentiels pour Ollama :
Pour des performances optimales, l'installation des pilotes GPU est fortement recommandée :

Comment utiliser Ollama avec l'image Docker

Docker offre un moyen indépendant de la plateforme d'exécuter Ollama dans un conteneur isolé, simplifiant la gestion des dépendances, en particulier pour les configurations GPU complexes.

Conteneur Ollama uniquement pour le processeur :

docker run -d \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama \
  ollama/ollama

Conteneur Ollama GPU NVIDIA :

docker run -d \
  --gpus=all \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama_gpu \
  ollama/ollama

Cet indicateur accorde au conteneur l'accès à tous les GPU NVIDIA compatibles détectés par la boîte à outils. Vous pouvez spécifier des GPU particuliers si nécessaire (par exemple, --gpus '"device=0,1"').

Conteneur Ollama GPU AMD (ROCm) :

docker run -d \
  --device /dev/kfd \
  --device /dev/dri \
  -v ollama_data:/root/.ollama \
  -p 127.0.0.1:11434:11434 \
  --name my_ollama_rocm \
  ollama/ollama:rocm

Une fois le conteneur Ollama en cours d'exécution, vous pouvez interagir avec lui à l'aide de la commande docker exec pour exécuter les commandes CLI ollama à l'intérieur du conteneur :

docker exec -it my_ollama ollama list
docker exec -it my_ollama ollama pull llama3.2
docker exec -it my_ollama ollama run llama3.2

Alternativement, si vous avez mappé le port (-p), vous pouvez interagir avec l'API Ollama directement à partir de votre machine hôte ou d'autres applications pointant vers http://localhost:11434 (ou l'IP/le port que vous avez mappé).

Où Ollama stocke-t-il les modèles ?

Where Does Ollama Store Models?
Où Ollama stocke-t-il les modèles ?

Savoir où Ollama conserve ses modèles téléchargés est essentiel pour gérer l'espace disque et les sauvegardes. L'emplacement par défaut varie selon le système d'exploitation et la méthode d'installation :

Vous pouvez rediriger l'emplacement de stockage du modèle à l'aide de la variable d'environnement OLLAMA_MODELS, que nous aborderons dans la section Configuration. Ceci est utile si votre lecteur principal manque d'espace et que vous souhaitez stocker de grands modèles sur un lecteur secondaire.

Vos premières étapes avec Ollama : Exécution d'un LLM

Maintenant qu'Ollama est installé et que le serveur est actif (en cours d'exécution via l'application de bureau, le service systemd ou le conteneur Docker), vous pouvez commencer à interagir avec les LLM à l'aide de la commande ollama simple dans votre terminal.

Téléchargement des modèles Ollama : La commande pull

Avant d'exécuter un LLM spécifique, vous devez d'abord télécharger ses poids et ses fichiers de configuration. Ollama fournit une bibliothèque organisée de modèles ouverts populaires, facilement accessible via la commande ollama pull. Vous pouvez parcourir les modèles disponibles sur la page de la bibliothèque du site Web d'Ollama.

# Exemple 1 : Extraire le dernier modèle Llama 3.2 8B Instruct
# Ceci est souvent balisé comme « latest » ou simplement par le nom de base.
ollama pull llama3.2

# Exemple 2 : Extraire une version spécifique de Mistral (7 milliards de paramètres, modèle de base)
ollama pull mistral:7b

# Exemple 3 : Extraire le modèle Gemma 3 4B de Google
ollama pull gemma3

# Exemple 4 : Extraire le modèle Phi-4 Mini plus petit de Microsoft (efficace)
ollama pull phi4-mini

# Exemple 5 : Extraire un modèle de vision (peut traiter des images)
ollama pull llava

Voici le lien pour la bibliothèque Ollama où vous pouvez parcourir tous les modèles ollama disponibles et tendances :

Comprendre les balises de modèle Ollama :
Les modèles de la bibliothèque Ollama utilisent une convention de dénomination model_family_name:tag. La balise spécifie des variations telles que :

La commande pull télécharge les fichiers requis (qui peuvent faire plusieurs gigaoctets) dans votre répertoire de modèles Ollama désigné. Vous n'avez besoin d'extraire qu'une seule fois une combinaison modèle :balise spécifique. Ollama peut également mettre à jour les modèles ; l'exécution de pull à nouveau sur un modèle existant ne téléchargera que les couches modifiées (diffs), ce qui rend les mises à jour efficaces.

Comment discuter avec les LLM localement avec la commande run d'Ollama

Le moyen le plus direct de converser avec un modèle téléchargé consiste à utiliser la commande ollama run :

ollama run llama3.2

Si le modèle spécifié (llama3.2:latest dans ce cas) n'a pas encore été téléchargé, ollama run déclenchera facilement ollama pull en premier. Une fois le modèle prêt et chargé en mémoire (ce qui peut prendre quelques secondes, en particulier pour les modèles plus volumineux), une invite interactive vous sera présentée :

>>> Envoyer un message (/? pour obtenir de l'aide)

Explore more

Comment utiliser Deepseek R1 en local avec Cursor

Comment utiliser Deepseek R1 en local avec Cursor

Apprenez à configurer DeepSeek R1 local avec Cursor IDE pour une aide au codage IA privée et économique.

4 June 2025

Comment exécuter Gemma 3n sur Android ?

Comment exécuter Gemma 3n sur Android ?

Apprenez à installer et exécuter Gemma 3n sur Android via Google AI Edge Gallery.

3 June 2025

Comment utiliser Claude Code avec GitHub Actions

Comment utiliser Claude Code avec GitHub Actions

Découvrez Claude Code avec GitHub Actions : revues de code, corrections de bugs, implémentation de fonctionnalités. Tutoriel pour développeurs.

29 May 2025

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API