Comment exécuter le raisonnement Phi-4 (avec API gratuite, localement avec Ollama)

L'IA évolue vite, avec les LLMs. Mais les SLMs révolutionnent aussi le domaine. Microsoft, avec Phi (Phi-3, Phi-4-reasoning, Phi-4-reasoning-plus), est clé.

Louis Dupont

Louis Dupont

5 June 2025

Comment exécuter le raisonnement Phi-4 (avec API gratuite, localement avec Ollama)

Le domaine de l'Intelligence Artificielle évolue rapidement, les grands modèles de langage (LLM) étant souvent au centre de l'attention. Cependant, une révolution parallèle se produit dans le domaine des Petits Modèles de Langage (SLM). Microsoft Research a été un acteur clé dans cet espace, notamment avec sa série Phi. S'appuyant sur le succès de modèles comme Phi-3, Microsoft a récemment dévoilé deux nouveaux poids lourds : Phi-4-reasoning et Phi-4-reasoning-plus. Ces modèles représentent un bond en avant significatif, démontrant que des modèles plus petits et plus efficaces peuvent rivaliser avec leurs homologues plus grands dans des tâches de raisonnement complexes.

💡
Vous voulez un excellent outil de test d'API qui génère une belle documentation API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !
button

Phi-4 a maintenant des modèles de raisonnement

Le voyage a commencé avec Phi-4, un modèle Transformer dense de décodeur uniquement à 14 milliards de paramètres. Bien que déjà capable, Microsoft a cherché à lui conférer de plus fortes capacités de raisonnement, en particulier dans les domaines des mathématiques, des sciences et du codage. Cela a conduit au développement de Phi-4-reasoning et de sa variante améliorée, Phi-4-reasoning-plus.

Les deux modèles partagent l'architecture Phi-4, mais subissent un post-entraînement spécialisé axé sur le raisonnement. Le principal facteur de différenciation réside dans la méthodologie d'entraînement :

  1. Phi-4-reasoning : Ce modèle est créé par un fine-tuning supervisé (SFT) de Phi-4 sur un ensemble de données méticuleusement organisé. Cet ensemble de données mélange des données publiques filtrées de haute qualité avec des invites synthétiques, en se concentrant spécifiquement sur les traces de chaîne de pensée (CoT). Le raisonnement CoT implique de décomposer des problèmes complexes en étapes intermédiaires, imitant un processus de pensée plus humain. L'ensemble de données SFT intègre également des données d'alignement pour garantir la sécurité et des pratiques d'IA responsables. Microsoft a tiré parti des démonstrations de raisonnement de o3-mini d'OpenAI dans le cadre de ces données organisées.
  2. Phi-4-reasoning-plus : Ce modèle fait un pas de plus que Phi-4-reasoning en intégrant l'apprentissage par renforcement (RL). La phase RL permet au modèle d'apprendre à utiliser davantage de calculs en temps d'inférence, générant des chaînes de raisonnement plus détaillées et souvent plus longues (environ 1,5 fois plus de jetons que le Phi-4-reasoning de base). Cet effort de calcul supplémentaire se traduit directement par une plus grande précision sur les tâches complexes, bien qu'avec une augmentation potentielle de la latence.

Les deux modèles bénéficient d'une longueur de contexte de 32 000 jetons, ce qui leur permet de gérer des invites complexes et de générer des processus de raisonnement étendus. Il est intéressant de noter que la fiche du modèle Phi-4-reasoning-plus note des résultats prometteurs lors de l'extension de la fenêtre contextuelle à 64 000 jetons pendant les expériences, en maintenant la cohérence sur des séquences plus longues.

Benchmarks Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini

Benchmarks Phi-4-Reasoning & Phi-4-Reasoning-Plus
Benchmarks Phi-4-Reasoning & Phi-4-Reasoning-Plus
Benchmarks Phi-4-Reasoning-Mini

La véritable mesure de ces modèles réside dans leurs performances. Microsoft les a évalués par rapport à une série de benchmarks difficiles, en particulier ceux axés sur le raisonnement :

Les résultats, tels que présentés dans les rapports techniques et les fiches de modèle, sont impressionnants :

Model AIME 24 AIME 25 OmniMath GPQA-D LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning 75.3 62.9 76.6 65.8 53.8
Phi-4-reasoning-plus 81.3 78.0 81.9 68.9 53.1
OpenThinker2-32B 58.0 58.0 64.1
QwQ 32B 79.5 65.8 59.5 63.4
EXAONE-Deep-32B 72.1 65.8 66.1 59.5
DeepSeek-R1-Distill-70B 69.3 51.5 63.4 66.2 57.5
DeepSeek-R1 78.7 70.4 85.0 73.0 62.8
o1-mini 63.6 54.8 60.0 53.8
o1 74.6 75.3 67.5 76.7 71.0
o3-mini 88.0 78.0 74.6 77.7 69.5
Claude-3.7-Sonnet 55.3 58.7 54.6 76.8
Gemini-2.5-Pro 92.0 86.7 61.1 84.0 69.2

(Données du tableau provenant des fiches de modèle Hugging Face et des entrées utilisateur)

Principaux points à retenir des benchmarks :

Ces résultats soulignent la thèse centrale de Microsoft : des données de raisonnement de haute qualité et une mise au point ciblée peuvent permettre à des modèles plus petits d'atteindre des capacités de raisonnement remarquables, auparavant considérées comme exclusives aux modèles massifs.

Exécution de Phi-4-reasoning localement avec Ollama (étape par étape)

L'un des principaux avantages des SLM est leur potentiel d'exécution locale. Ollama, une plateforme populaire pour l'exécution locale de LLM, fournit une prise en charge prête à l'emploi de la famille Phi-4 reasoning.

Suivez ces étapes pour les exécuter sur votre machine :

Étape 1 : Installer Ollama
Si vous ne l'avez pas déjà fait, accédez à ollama.com et téléchargez le programme d'installation pour votre système d'exploitation (macOS, Windows ou Linux). Exécutez le programme d'installation.

Étape 2 : Extraire les modèles via le terminal
Ouvrez votre invite de commande ou votre application de terminal. Utilisez la commande appropriée ci-dessous pour télécharger le modèle souhaité. Cela peut prendre un certain temps en fonction de votre vitesse Internet.

Étape 3 : Exécuter le modèle pour l'interaction
Une fois le téléchargement terminé, vous pouvez commencer à discuter avec le modèle directement depuis votre terminal :

Après avoir exécuté la commande, vous verrez une invite (comme >>> ou Envoyer un message...) où vous pourrez taper vos questions.

Étape 4 : Utiliser la structure d'invite recommandée (crucial !)
Ces modèles fonctionnent mieux lorsqu'ils sont guidés par une invite et une structure système spécifiques. Lors de l'interaction (en particulier pour les tâches complexes), structurez votre entrée comme ceci :

Invite système recommandée :

Votre rôle d'assistant consiste à explorer minutieusement les questions grâce à un processus de réflexion systématique avant de fournir les solutions finales précises et exactes. Cela nécessite de s'engager dans un cycle complet d'analyse, de résumé, d'exploration, de réévaluation, de réflexion, de rétro-traçage et d'itération pour développer un processus de réflexion bien pensé. Veuillez structurer votre réponse en deux sections principales : Pensée et Solution en utilisant le format spécifié : <think> {Section Pensée} </think> {Section Solution}. Dans la section Pensée, détaillez votre processus de raisonnement par étapes. Chaque étape doit inclure des considérations détaillées telles que l'analyse des questions, le résumé des résultats pertinents, le brainstorming de nouvelles idées, la vérification de l'exactitude des étapes actuelles, l'affinement des erreurs et la révision des étapes précédentes. Dans la section Solution, sur la base de diverses tentatives, explorations et réflexions de la section Pensée, présentez systématiquement la solution finale que vous jugez correcte. La section Solution doit être logique, précise et concise et détailler les étapes nécessaires pour parvenir à la conclusion. Maintenant, essayez de résoudre la question suivante en suivant les directives ci-dessus :

(Bien que vous ne puissiez pas facilement préfixer l'invite système dans la commande ollama run de base, soyez conscient de cette structure lors de l'interprétation des sorties ou de l'utilisation de l'API/des bibliothèques d'Ollama où vous pouvez définir explicitement des invites système.)

Considérations matérielles : N'oubliez pas que les modèles de 14 milliards nécessitent une RAM/VRAM substantielle. Les versions quantifiées par défaut (~11 Go) aident, mais vérifiez les exigences de ressources d'Ollama.

Accéder à Phi-4-reasoning via l'API gratuite en utilisant OpenRouter (étape par étape)

Pour un accès basé sur le cloud ou une intégration dans des applications sans contraintes matérielles locales, OpenRouter propose un niveau d'API gratuit pour Phi-4-reasoning.

Voici comment l'utiliser :

Étape 1 : Obtenir une clé API OpenRouter

Étape 2 : Installer la bibliothèque Python OpenAI
Si vous ne l'avez pas, installez la bibliothèque à l'aide de pip :
pip install openai

Étape 3. Configuration d'Apidog pour les tests

Apidog, une plateforme de test d'API robuste, simplifie l'interaction avec les API Phi-4-reasoning. Son interface intuitive vous permet d'envoyer des requêtes, d'afficher les réponses et de déboguer les problèmes efficacement. Suivez ces étapes pour le configurer.

button

Commencez par télécharger Apidog et l'installer sur votre système. Lancez l'application et créez un nouveau projet.

À l'intérieur de ce projet, ajoutez une nouvelle requête. Définissez la méthode sur POST et entrez le point de terminaison OpenRouter : https://openrouter.ai/api/v1/chat/completions.

Ensuite, configurez les en-têtes. Ajoutez un en-tête « Authorization » avec la valeur Bearer YOUR_API_KEY, en remplaçant YOUR_API_KEY par la clé d'OpenRouter. Cela authentifie votre requête. Ensuite, passez à l'onglet du corps, sélectionnez le format JSON et créez votre charge utile de requête. Voici un exemple pour microsoft/phi-4-reasoning:free :

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Bonjour, comment allez-vous ?"}
  ]
}

Cliquez sur « Envoyer » dans Apidog pour exécuter la requête. Le volet de réponse affichera la sortie du modèle, comprenant généralement le texte généré et les métadonnées telles que l'utilisation des jetons. Les fonctionnalités d'Apidog, telles que l'enregistrement des requêtes ou leur organisation en collections, améliorent votre flux de travail. Avec cette configuration, vous pouvez désormais explorer les capacités des modèles Qwen 3.

Conclusion

Phi-4-reasoning et Phi-4-reasoning-plus marquent une avancée significative dans les capacités des petits modèles de langage. En se concentrant sur des données de raisonnement de haute qualité et en employant des techniques de mise au point sophistiquées comme SFT et RL, Microsoft a démontré que des performances de raisonnement remarquables sont réalisables sans recourir à des nombres de paramètres massifs. Leur disponibilité via des plateformes comme Ollama pour une utilisation locale et OpenRouter pour un accès API gratuit démocratise l'accès à de puissants outils de raisonnement. Alors que le développement des SLM se poursuit, la famille Phi-4 reasoning se distingue comme un témoignage de la puissance d'une IA efficace et ciblée.

Explore more

Fathom-R1-14B : Modèle de raisonnement IA avancé d'Inde

Fathom-R1-14B : Modèle de raisonnement IA avancé d'Inde

L'IA en expansion rapide. Fathom-R1-14B (14,8 milliards de paramètres) excelle en raisonnement mathématique et général, conçu par Fractal AI Research.

5 June 2025

Mistral Code : L'assistant de codage le plus personnalisable basé sur l'IA pour les entreprises

Mistral Code : L'assistant de codage le plus personnalisable basé sur l'IA pour les entreprises

Découvrez Mistral Code, l'IA d'aide au code la plus personnalisable pour les entreprises.

5 June 2025

Comment Claude Code transforme le codage de l'IA en 2025

Comment Claude Code transforme le codage de l'IA en 2025

Découvrez Claude Code en 2025 : codage IA révolutionné. Fonctionnalités, démo, et pourquoi il gagne du terrain après Windsurf d'Anthropic. Indispensable !

5 June 2025

Pratiquez le Design-first d'API dans Apidog

Découvrez une manière plus simple de créer et utiliser des API