Comment utiliser gpt-oss avec Claude Code

Vous voulez booster votre flux de travail de codage avec GPT-OSS, le modèle à poids ouverts d'OpenAI, directement dans Claude Code ? Vous allez vous régaler ! Lancé en août 2025, GPT-OSS (variantes 20B ou 120B) est une puissance pour le codage et le raisonnement, et vous pouvez l'associer à l'interface CLI élégante de Claude Code pour des configurations gratuites ou à faible coût. Dans ce guide conversationnel, nous vous guiderons à travers trois chemins pour intégrer GPT-OSS à Claude Code en utilisant Hugging Face, OpenRouter ou LiteLLM. Plongeons-y et mettons votre acolyte de codage IA en marche !

💡

Vous voulez un excellent outil de test d'API qui génère de la belle documentation API ?

Vous voulez une plateforme intégrée et tout-en-un pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos exigences et remplace Postman à un prix beaucoup plus abordable !

bouton

Qu'est-ce que GPT-OSS et pourquoi l'utiliser avec Claude Code ?

GPT-OSS est la famille de modèles à poids ouverts d'OpenAI, avec les variantes 20B et 120B offrant des performances exceptionnelles pour le codage, le raisonnement et les tâches agentiques. Avec une fenêtre de contexte de 128K jetons et une licence Apache 2.0, il est parfait pour les développeurs qui souhaitent flexibilité et contrôle. Claude Code, l'outil CLI d'Anthropic (version 0.5.3+), est un favori des développeurs pour ses capacités de codage conversationnel. En acheminant Claude Code vers GPT-OSS via des API compatibles OpenAI, vous pouvez profiter de l'interface familière de Claude tout en tirant parti de la puissance open-source de GPT-OSS – sans les coûts d'abonnement d'Anthropic. Prêt à passer à l'action ? Explorons les options de configuration !

Prérequis pour l'utilisation de GPT-OSS avec Claude Code

Avant de commencer, assurez-vous d'avoir :

Claude Code ≥ 0.5.3 : Vérifiez avec claude --version. Installez via pip install claude-code ou mettez à jour avec pip install --upgrade claude-code.
Compte Hugging Face : Inscrivez-vous sur huggingface.co et créez un jeton de lecture/écriture (Paramètres > Jetons d'accès).
Clé API OpenRouter : Facultatif, pour le Chemin B. Obtenez-en une sur openrouter.ai.
Python 3.10+ et Docker : Pour les configurations locales ou LiteLLM (Chemin C).
Connaissances CLI de base : Une familiarité avec les variables d'environnement et les commandes de terminal est utile.

Chemin A : Auto-héberger GPT-OSS sur Hugging Face

Vous voulez un contrôle total ? Hébergez GPT-OSS sur les points de terminaison d'inférence de Hugging Face pour une configuration privée et évolutive. Voici comment faire :

Étape 1 : Obtenir le modèle

Visitez le dépôt GPT-OSS sur Hugging Face (openai/gpt-oss-20b ou openai/gpt-oss-120b).
Acceptez la licence Apache 2.0 pour accéder au modèle.
Alternativement, essayez Qwen3-Coder-480B-A35B-Instruct (Qwen/Qwen3-Coder-480B-A35B-Instruct) pour un modèle axé sur le codage (utilisez une version GGUF pour un matériel plus léger).

Étape 2 : Déployer un point de terminaison d'inférence de génération de texte

Sur la page du modèle, cliquez sur Deploy > Inference Endpoint.
Sélectionnez le modèle Text Generation Inference (TGI) (≥ v1.4.0).
Activez la compatibilité OpenAI en cochant Enable OpenAI compatibility ou en ajoutant --enable-openai dans les paramètres avancés.
Choisissez le matériel : A10G ou CPU pour 20B, A100 pour 120B. Créez le point de terminaison.

Étape 3 : Collecter les identifiants

Une fois que le statut du point de terminaison est Running, copiez :

ENDPOINT_URL : Ressemble à https://<votre-point-de-terminaison>.us-east-1.aws.endpoints.huggingface.cloud.
HF_API_TOKEN : Votre jeton Hugging Face depuis Paramètres > Jetons d'accès.

2. Notez l'ID du modèle (par exemple, gpt-oss-20b ou gpt-oss-120b).

Étape 4 : Configurer Claude Code

Définissez les variables d'environnement dans votre terminal :

export ANTHROPIC_BASE_URL="https://<your-endpoint>.us-east-1.aws.endpoints.huggingface.cloud"
export ANTHROPIC_AUTH_TOKEN="hf_xxxxxxxxxxxxxxxxx"
export ANTHROPIC_MODEL="gpt-oss-20b"  # ou gpt-oss-120b

Remplacez <your-endpoint> et hf_xxxxxxxxxxxxxxxxx par vos valeurs.

2. Testez la configuration :

claude --model gpt-oss-20b

Claude Code achemine vers votre point de terminaison GPT-OSS, diffusant les réponses via l'API /v1/chat/completions de TGI, imitant le schéma d'OpenAI.

Étape 5 : Notes sur les coûts et la mise à l'échelle

Coûts Hugging Face : Les points de terminaison d'inférence s'auto-adaptent, alors surveillez l'utilisation pour éviter la consommation de crédits. L'A10G coûte environ 0,60 $/heure, l'A100 environ 3 $/heure.
Option locale : Pour des coûts cloud nuls, exécutez TGI localement avec Docker :

docker run --name tgi -p 8080:80 -e HF_TOKEN=hf_xxxxxxxxxxxxxxxxx ghcr.io/huggingface/text-generation-inference:latest --model-id openai/gpt-oss-20b --enable-openai

Ensuite, définissez ANTHROPIC_BASE_URL="http://localhost:8080".

Chemin B : Proxifier GPT-OSS via OpenRouter

Pas de DevOps ? Pas de problème ! Utilisez OpenRouter pour accéder à GPT-OSS avec une configuration minimale. C'est rapide et il gère la facturation pour vous.

Étape 1 : S'inscrire et choisir un modèle

Inscrivez-vous sur openrouter.ai et copiez votre clé API depuis la section Keys.
Choisissez un slug de modèle :

openai/gpt-oss-20b
openai/gpt-oss-120b
qwen/qwen3-coder-480b (pour le modèle de codage de Qwen)

Étape 2 : Configurer Claude Code

Définissez les variables d'environnement :

export ANTHROPIC_BASE_URL="https://openrouter.ai/api/v1"
export ANTHROPIC_AUTH_TOKEN="or_xxxxxxxxx"
export ANTHROPIC_MODEL="openai/gpt-oss-20b"

Remplacez or_xxxxxxxxx par votre clé API OpenRouter.

2. Testez-le :

claude --model openai/gpt-oss-20b

Claude Code se connecte à GPT-OSS via l'API unifiée d'OpenRouter, avec prise en charge du streaming et du repli.

Étape 3 : Notes sur les coûts

Tarification OpenRouter : Environ 0,50 $/M jetons d'entrée, 2,00 $/M jetons de sortie pour GPT-OSS-120B, nettement moins cher que les modèles propriétaires comme GPT-4 (environ 20,00 $/M).
Facturation : OpenRouter gère l'utilisation, vous ne payez donc que ce que vous utilisez.

Chemin C : Utiliser LiteLLM pour des flottes de modèles mixtes

Vous voulez jongler avec les modèles GPT-OSS, Qwen et Anthropic dans un seul flux de travail ? LiteLLM agit comme un proxy pour permuter les modèles de manière transparente.

Étape 1 : Installer et configurer LiteLLM

Installez LiteLLM :

pip install litellm

2. Créez un fichier de configuration (litellm.yaml) :

model_list:
  - model_name: gpt-oss-20b
    litellm_params:
      model: openai/gpt-oss-20b
      api_key: or_xxxxxxxxx  # Clé OpenRouter
      api_base: https://openrouter.ai/api/v1
  - model_name: qwen3-coder
    litellm_params:
      model: openrouter/qwen/qwen3-coder
      api_key: or_xxxxxxxxx
      api_base: https://openrouter.ai/api/v1

Remplacez or_xxxxxxxxx par votre clé OpenRouter.

3. Démarrez le proxy :

litellm --config litellm.yaml

Étape 2 : Pointer Claude Code vers LiteLLM

Définissez les variables d'environnement :

export ANTHROPIC_BASE_URL="http://localhost:4000"
export ANTHROPIC_AUTH_TOKEN="litellm_master"
export ANTHROPIC_MODEL="gpt-oss-20b"

2. Testez-le :

claude --model gpt-oss-20b

LiteLLM achemine les requêtes vers GPT-OSS via OpenRouter, avec journalisation des coûts et routage simple-shuffle pour la fiabilité.

Étape 3 : Remarques

Éviter le routage par latence : Utilisez le mode simple-shuffle dans LiteLLM pour éviter les problèmes avec les modèles Anthropic.
Suivi des coûts : LiteLLM journalise l'utilisation pour la transparence.

Nouveau sur LiteLLM ? Cliquez ici pour en savoir plus.

Tester GPT-OSS avec Claude Code

Assurons-nous que GPT-OSS fonctionne ! Ouvrez Claude Code et essayez ces commandes :

Génération de code :

claude --model gpt-oss-20b "Write a Python REST API with Flask"

Attendez-vous à une réponse comme :

from flask import Flask, jsonify
app = Flask(__name__)
@app.route('/api', methods=['GET'])
def get_data():
    return jsonify({"message": "Hello from GPT-OSS!"})
if __name__ == '__main__':
    app.run(debug=True)

Analyse de la base de code :

claude --model gpt-oss-20b "Summarize src/server.js"

GPT-OSS exploite sa fenêtre de contexte de 128K pour analyser votre fichier JavaScript et renvoyer un résumé.

Débogage :

claude --model gpt-oss-20b "Debug this buggy Python code: [paste code]"

Avec un taux de réussite HumanEval de 87,3 %, GPT-OSS devrait détecter et corriger les problèmes avec précision.

Conseils de dépannage

404 sur /v1/chat/completions ? Assurez-vous que --enable-openai est actif dans TGI (Chemin A) ou vérifiez la disponibilité du modèle d'OpenRouter (Chemin B).
Réponses vides ? Vérifiez que ANTHROPIC_MODEL correspond au slug (par exemple, gpt-oss-20b).
Erreur 400 après un changement de modèle ? Utilisez le routage simple-shuffle dans LiteLLM (Chemin C).
Premier jeton lent ? Réchauffez les points de terminaison Hugging Face avec une petite invite après une mise à l'échelle à zéro.
Claude Code plante ? Mettez à jour vers ≥ 0.5.3 et assurez-vous que les variables d'environnement sont correctement définies.

Pourquoi utiliser GPT-OSS avec Claude Code ?

Associer GPT-OSS à Claude Code est le rêve de tout développeur. Vous obtenez :

Économies de coûts : Les 0,50 $/M jetons d'entrée d'OpenRouter battent les modèles propriétaires, et les configurations TGI locales sont gratuites après les coûts matériels.
Puissance de l'open source : La licence Apache 2.0 de GPT-OSS vous permet de personnaliser ou de déployer en privé.
Flux de travail fluide : L'interface CLI de Claude Code donne l'impression de discuter avec un compagnon de codage, tandis que GPT-OSS gère les tâches lourdes avec des scores MMLU de 94,2 % et AIME de 96,6 %.
Flexibilité : Basculez entre les modèles GPT-OSS, Qwen ou Anthropic avec LiteLLM ou OpenRouter.

Les utilisateurs s'extasient sur les prouesses de codage de GPT-OSS, le qualifiant de "bête économique pour les projets multi-fichiers". Que vous l'auto-hébergiez ou le proxifiiez via OpenRouter, cette configuration maintient les coûts bas et la productivité élevée.

Conclusion

Vous êtes maintenant prêt à utiliser GPT-OSS avec Claude Code ! Que vous l'auto-hébergiez sur Hugging Face, le proxifiiez via OpenRouter, ou utilisiez LiteLLM pour jongler avec les modèles, vous disposez d'une configuration de codage puissante et rentable. De la génération d'API REST au débogage de code, GPT-OSS offre des résultats, et Claude Code rend l'expérience sans effort. Essayez-le, partagez vos invites préférées dans les commentaires, et passionnons-nous pour le codage IA !

💡

bouton