Comment exécuter GPT-OSS gratuitement avec Ollama ?

Ashley Innocent

Ashley Innocent

5 August 2025

Comment exécuter GPT-OSS gratuitement avec Ollama ?

L'exécution de grands modèles linguistiques (LLM) en local offre aux développeurs confidentialité, contrôle et économies. Les modèles open-weight d'OpenAI, collectivement connus sous le nom de **GPT-OSS** (gpt-oss-120b et gpt-oss-20b), offrent de puissantes capacités de raisonnement pour des tâches telles que le codage, les flux de travail agentiques et l'analyse de données. Avec **Ollama**, une plateforme open-source, vous pouvez déployer ces modèles sur votre propre matériel sans dépendances cloud. Ce guide technique vous explique comment installer Ollama, configurer les modèles GPT-OSS et déboguer avec **Apidog**, un outil qui simplifie les tests d'API pour les LLM locaux.

💡
Pour un débogage d'API fluide, téléchargez Apidog gratuitement afin de visualiser et d'optimiser vos interactions GPT-OSS.
bouton

Pourquoi exécuter GPT-OSS en local avec Ollama ?

L'exécution de **GPT-OSS** en local à l'aide d'Ollama offre des avantages distincts pour les développeurs et les chercheurs. Premièrement, elle assure la **confidentialité des données**, car vos entrées et sorties restent sur votre machine. Deuxièmement, elle élimine les coûts récurrents des API cloud, ce qui la rend idéale pour les cas d'utilisation à volume élevé ou expérimentaux. Troisièmement, la compatibilité d'Ollama avec la structure d'API d'OpenAI permet une intégration transparente avec les outils existants, tandis que son support des modèles quantifiés comme gpt-oss-20b (ne nécessitant que 16 Go de mémoire) assure l'accessibilité sur du matériel modeste.

De plus, Ollama simplifie les complexités du déploiement des LLM. Il gère les poids des modèles, les dépendances et les configurations via un seul Modelfile, semblable à un conteneur Docker pour l'IA. Associé à **Apidog**, qui offre une visualisation en temps réel des réponses d'IA en streaming, vous obtenez un écosystème robuste pour le développement d'IA locale. Ensuite, explorons les prérequis pour configurer cet environnement.

Prérequis pour l'exécution locale de GPT-OSS

Avant de poursuivre, assurez-vous que votre système répond aux exigences suivantes :

Une fois ces éléments en place, vous êtes prêt à installer Ollama et à déployer GPT-OSS. Passons au processus d'installation.

Étape 1 : Installation d'Ollama sur votre système

L'installation d'Ollama est simple, prenant en charge macOS, Linux et Windows. Suivez ces étapes pour le configurer :

Télécharger Ollama :

curl -fsSL https://ollama.com/install.sh | sh

Ce script automatise le processus de téléchargement et de configuration.

Vérifier l'installation :

Démarrer le serveur Ollama :

Une fois installé, Ollama est prêt à télécharger et exécuter les modèles **GPT-OSS**. Passons au téléchargement des modèles.

Étape 2 : Téléchargement des modèles GPT-OSS

Les modèles **GPT-OSS** d'OpenAI (gpt-oss-120b et gpt-oss-20b) sont disponibles sur Hugging Face et optimisés pour Ollama avec la quantification MXFP4, réduisant les exigences de mémoire. Suivez ces étapes pour les télécharger :

Choisir le modèle :

Télécharger via Ollama :

ollama pull gpt-oss-20b

ou

ollama pull gpt-oss-120b

Selon votre matériel, le téléchargement (20-50 Go) peut prendre du temps. Assurez une connexion Internet stable.

Vérifier le téléchargement :

ollama list

Recherchez gpt-oss-20b:latest ou gpt-oss-120b:latest.

Une fois le modèle téléchargé, vous pouvez maintenant l'exécuter localement. Explorons comment interagir avec **GPT-OSS**.

Étape 3 : Exécuter les modèles GPT-OSS avec Ollama

Ollama offre plusieurs façons d'interagir avec les modèles **GPT-OSS** : interface de ligne de commande (CLI), API, ou interfaces graphiques comme Open WebUI. Commençons par la CLI pour plus de simplicité.

Lancer une session interactive :

ollama run gpt-oss-20b

Ceci ouvre une session de chat en temps réel. Tapez votre requête (par exemple, « Écrire une fonction Python pour la recherche binaire ») et appuyez sur Entrée. Utilisez /help pour les commandes spéciales.

Requêtes ponctuelles :

ollama run gpt-oss-20b "Expliquer l'informatique quantique en termes simples"

Ajuster les paramètres :

ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Rédiger un résumé factuel de la technologie blockchain"

Une température plus basse (par exemple, 0,1) assure des sorties déterministes et factuelles, idéales pour les tâches techniques.

Ensuite, personnalisons le comportement du modèle à l'aide de Modelfiles pour des cas d'utilisation spécifiques.

Étape 4 : Personnalisation de GPT-OSS avec les Modelfiles d'Ollama

Les Modelfiles d'Ollama vous permettent d'adapter le comportement de **GPT-OSS** sans réentraînement. Vous pouvez définir des invites système, ajuster la taille du contexte ou affiner les paramètres. Voici comment créer un modèle personnalisé :

Créer un Modelfile :

FROM gpt-oss-20b
SYSTEM "Vous êtes un assistant technique spécialisé en programmation Python. Fournissez du code concis et précis avec des commentaires."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096

Ceci configure le modèle comme un assistant axé sur Python avec une créativité modérée et une fenêtre de contexte de 4k jetons.

Construire le modèle personnalisé :

ollama create python-gpt-oss -f Modelfile

Exécuter le modèle personnalisé :

ollama run python-gpt-oss

Maintenant, le modèle priorise les réponses liées à Python avec le comportement spécifié.

Cette personnalisation améliore **GPT-OSS** pour des domaines spécifiques, tels que le codage ou la documentation technique. Maintenant, intégrons le modèle dans des applications en utilisant l'API d'Ollama.

Étape 5 : Intégration de GPT-OSS avec l'API d'Ollama

L'API d'Ollama, fonctionnant sur http://localhost:11434, permet un accès programmatique à **GPT-OSS**. C'est idéal pour les développeurs qui créent des applications basées sur l'IA. Voici comment l'utiliser :

Points d'accès API :

curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Écrire un script Python pour une API REST"}'
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Expliquer les réseaux neuronaux"}]}'

Compatibilité OpenAI :

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "Qu'est-ce que l'apprentissage automatique ?"}]
)
print(response.choices[0].message.content)

Cette intégration API permet à **GPT-OSS** d'alimenter des chatbots, des générateurs de code ou des outils d'analyse de données. Cependant, le débogage des réponses en streaming peut être difficile. Voyons comment **Apidog** simplifie cela.

Étape 6 : Débogage de GPT-OSS avec Apidog

**Apidog** est un puissant outil de test d'API qui visualise les réponses en streaming des points d'accès d'Ollama, facilitant ainsi le débogage des sorties de **GPT-OSS**. Voici comment l'utiliser :

Installer Apidog :

Configurer l'API Ollama dans Apidog :

{
  "model": "gpt-oss-20b",
  "prompt": "Générer une fonction Python pour le tri",
  "stream": true
}

Visualiser les réponses :

Tests comparatifs :

La visualisation d'**Apidog** transforme le débogage d'une tâche fastidieuse en un processus clair et exploitable, améliorant votre flux de travail de développement. Maintenant, abordons les problèmes courants que vous pourriez rencontrer.

Étape 7 : Dépannage des problèmes courants

L'exécution de **GPT-OSS** en local peut présenter des défis. Voici des solutions aux problèmes fréquents :

Erreur de mémoire GPU :

Le modèle ne démarre pas :

L'API ne répond pas :

Performances lentes :

Pour les problèmes persistants, consultez le GitHub d'Ollama ou la communauté Hugging Face pour le support **GPT-OSS**.

Étape 8 : Améliorer GPT-OSS avec Open WebUI

Pour une interface conviviale, associez Ollama à Open WebUI, un tableau de bord basé sur un navigateur pour **GPT-OSS** :

Installer Open WebUI :

docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main

Accéder à l'interface :

Téléchargements de documents :

Open WebUI simplifie l'interaction pour les utilisateurs non techniques, complétant les capacités de débogage technique d'**Apidog**.

Conclusion : Libérer le potentiel de GPT-OSS avec Ollama et Apidog

L'exécution de **GPT-OSS** en local avec Ollama vous permet d'exploiter les modèles open-weight d'OpenAI gratuitement, avec un contrôle total sur la confidentialité et la personnalisation. En suivant ce guide, vous avez appris à installer Ollama, à télécharger les modèles **GPT-OSS**, à personnaliser leur comportement, à les intégrer via une API et à déboguer avec **Apidog**. Que vous développiez des applications basées sur l'IA ou que vous expérimentiez des tâches de raisonnement, cette configuration offre une flexibilité inégalée. De petits ajustements, comme le réglage des paramètres ou l'utilisation de la visualisation d'**Apidog**, peuvent améliorer considérablement votre flux de travail. Commencez dès aujourd'hui à explorer l'IA locale et débloquez le potentiel de **GPT-OSS** !

bouton

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API