Comment exécuter le raisonnement Phi-4 (avec API gratuite, localement avec Ollama)

Le domaine de l'Intelligence Artificielle évolue rapidement, les grands modèles de langage (LLM) étant souvent au centre de l'attention. Cependant, une révolution parallèle se produit dans le domaine des Petits Modèles de Langage (SLM). Microsoft Research a été un acteur clé dans cet espace, notamment avec sa série Phi. S'appuyant sur le succès de modèles comme Phi-3, Microsoft a récemment dévoilé deux nouveaux poids lourds : Phi-4-reasoning et Phi-4-reasoning-plus. Ces modèles représentent un bond en avant significatif, démontrant que des modèles plus petits et plus efficaces peuvent rivaliser avec leurs homologues plus grands dans des tâches de raisonnement complexes.

💡

Vous voulez un excellent outil de test d'API qui génère une belle documentation API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !

button

Phi-4 a maintenant des modèles de raisonnement

Le voyage a commencé avec Phi-4, un modèle Transformer dense de décodeur uniquement à 14 milliards de paramètres. Bien que déjà capable, Microsoft a cherché à lui conférer de plus fortes capacités de raisonnement, en particulier dans les domaines des mathématiques, des sciences et du codage. Cela a conduit au développement de Phi-4-reasoning et de sa variante améliorée, Phi-4-reasoning-plus.

Les deux modèles partagent l'architecture Phi-4, mais subissent un post-entraînement spécialisé axé sur le raisonnement. Le principal facteur de différenciation réside dans la méthodologie d'entraînement :

Phi-4-reasoning : Ce modèle est créé par un fine-tuning supervisé (SFT) de Phi-4 sur un ensemble de données méticuleusement organisé. Cet ensemble de données mélange des données publiques filtrées de haute qualité avec des invites synthétiques, en se concentrant spécifiquement sur les traces de chaîne de pensée (CoT). Le raisonnement CoT implique de décomposer des problèmes complexes en étapes intermédiaires, imitant un processus de pensée plus humain. L'ensemble de données SFT intègre également des données d'alignement pour garantir la sécurité et des pratiques d'IA responsables. Microsoft a tiré parti des démonstrations de raisonnement de o3-mini d'OpenAI dans le cadre de ces données organisées.
Phi-4-reasoning-plus : Ce modèle fait un pas de plus que Phi-4-reasoning en intégrant l'apprentissage par renforcement (RL). La phase RL permet au modèle d'apprendre à utiliser davantage de calculs en temps d'inférence, générant des chaînes de raisonnement plus détaillées et souvent plus longues (environ 1,5 fois plus de jetons que le Phi-4-reasoning de base). Cet effort de calcul supplémentaire se traduit directement par une plus grande précision sur les tâches complexes, bien qu'avec une augmentation potentielle de la latence.

Les deux modèles bénéficient d'une longueur de contexte de 32 000 jetons, ce qui leur permet de gérer des invites complexes et de générer des processus de raisonnement étendus. Il est intéressant de noter que la fiche du modèle Phi-4-reasoning-plus note des résultats prometteurs lors de l'extension de la fenêtre contextuelle à 64 000 jetons pendant les expériences, en maintenant la cohérence sur des séquences plus longues.

Benchmarks Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini

La véritable mesure de ces modèles réside dans leurs performances. Microsoft les a évalués par rapport à une série de benchmarks difficiles, en particulier ceux axés sur le raisonnement :

Raisonnement mathématique : AIME (American Invitational Mathematics Examination) qualifications de 2022-2025, OmniMath (une collection de plus de 4000 problèmes de niveau olympiade).
Raisonnement scientifique : GPQA-Diamond (questions scientifiques de niveau supérieur).
Codage et résolution de problèmes algorithmiques : LiveCodeBench (problèmes de concours de codage), 3SAT (Satisfiabilité), TSP (Traveling Salesman Problem).
Planification et compréhension spatiale : BA Calendar, Maze, SpatialMap.

Les résultats, tels que présentés dans les rapports techniques et les fiches de modèle, sont impressionnants :

Model	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(Données du tableau provenant des fiches de modèle Hugging Face et des entrées utilisateur)

Principaux points à retenir des benchmarks :

Surpasser les modèles plus grands : Les deux modèles Phi-4-reasoning surpassent de manière significative des modèles open-weight beaucoup plus grands comme le DeepSeek-R1-Distill-70B (qui est 5 fois plus grand) sur de nombreux benchmarks de raisonnement.
Compétitif avec les géants : Ils approchent ou dépassent même les performances de modèles comme le DeepSeek-R1 complet (un modèle MoE de 671 milliards) et les o1-mini et o1 d'OpenAI sur des tâches spécifiques (par exemple, AIME 25).
Avantage Reasoning-Plus : Phi-4-reasoning-plus obtient systématiquement des scores plus élevés que Phi-4-reasoning sur toute la ligne, validant l'efficacité de l'entraînement RL supplémentaire pour la précision.
Capacités générales : Bien qu'entraînés pour le raisonnement, les modèles montrent également des améliorations significatives par rapport au Phi-4 de base sur des benchmarks généraux comme le suivi des instructions (IFEval), le codage (HumanEvalPlus) et même la sécurité (ToxiGen), ce qui indique une forte généralisation.

Ces résultats soulignent la thèse centrale de Microsoft : des données de raisonnement de haute qualité et une mise au point ciblée peuvent permettre à des modèles plus petits d'atteindre des capacités de raisonnement remarquables, auparavant considérées comme exclusives aux modèles massifs.

Exécution de Phi-4-reasoning localement avec Ollama (étape par étape)

L'un des principaux avantages des SLM est leur potentiel d'exécution locale. Ollama, une plateforme populaire pour l'exécution locale de LLM, fournit une prise en charge prête à l'emploi de la famille Phi-4 reasoning.

Suivez ces étapes pour les exécuter sur votre machine :

Étape 1 : Installer Ollama
Si vous ne l'avez pas déjà fait, accédez à ollama.com et téléchargez le programme d'installation pour votre système d'exploitation (macOS, Windows ou Linux). Exécutez le programme d'installation.

Étape 2 : Extraire les modèles via le terminal
Ouvrez votre invite de commande ou votre application de terminal. Utilisez la commande appropriée ci-dessous pour télécharger le modèle souhaité. Cela peut prendre un certain temps en fonction de votre vitesse Internet.

Pour télécharger Phi-4-reasoning :
ollama pull phi4-reasoning
Pour télécharger Phi-4-reasoning-plus :
ollama pull phi4-reasoning:plus
(Remarque : la variante plus est spécifiée à l'aide d'une balise après les deux points.)

Étape 3 : Exécuter le modèle pour l'interaction
Une fois le téléchargement terminé, vous pouvez commencer à discuter avec le modèle directement depuis votre terminal :

Pour exécuter Phi-4-reasoning :
ollama run phi4-reasoning
Pour exécuter Phi-4-reasoning-plus :
ollama run phi4-reasoning:plus

Après avoir exécuté la commande, vous verrez une invite (comme >>> ou Envoyer un message...) où vous pourrez taper vos questions.

Étape 4 : Utiliser la structure d'invite recommandée (crucial !)
Ces modèles fonctionnent mieux lorsqu'ils sont guidés par une invite et une structure système spécifiques. Lors de l'interaction (en particulier pour les tâches complexes), structurez votre entrée comme ceci :

Commencez par l'invite système : Avant votre question réelle, fournissez l'invite système qui indique au modèle comment raisonner.
Utiliser le format ChatML : Bien que la commande run d'Ollama simplifie cela, en interne, le modèle attend les balises <|im_start|>system, <|im_start|>user, <|im_start|>assistant.
Attendez-vous à <think> et <solution> : Le modèle est entraîné pour produire son processus de raisonnement dans les balises <think>...</think> et la réponse finale dans les balises <solution>...</solution>.

Invite système recommandée :

Votre rôle d'assistant consiste à explorer minutieusement les questions grâce à un processus de réflexion systématique avant de fournir les solutions finales précises et exactes. Cela nécessite de s'engager dans un cycle complet d'analyse, de résumé, d'exploration, de réévaluation, de réflexion, de rétro-traçage et d'itération pour développer un processus de réflexion bien pensé. Veuillez structurer votre réponse en deux sections principales : Pensée et Solution en utilisant le format spécifié : <think> {Section Pensée} </think> {Section Solution}. Dans la section Pensée, détaillez votre processus de raisonnement par étapes. Chaque étape doit inclure des considérations détaillées telles que l'analyse des questions, le résumé des résultats pertinents, le brainstorming de nouvelles idées, la vérification de l'exactitude des étapes actuelles, l'affinement des erreurs et la révision des étapes précédentes. Dans la section Solution, sur la base de diverses tentatives, explorations et réflexions de la section Pensée, présentez systématiquement la solution finale que vous jugez correcte. La section Solution doit être logique, précise et concise et détailler les étapes nécessaires pour parvenir à la conclusion. Maintenant, essayez de résoudre la question suivante en suivant les directives ci-dessus :

(Bien que vous ne puissiez pas facilement préfixer l'invite système dans la commande ollama run de base, soyez conscient de cette structure lors de l'interprétation des sorties ou de l'utilisation de l'API/des bibliothèques d'Ollama où vous pouvez définir explicitement des invites système.)

Considérations matérielles : N'oubliez pas que les modèles de 14 milliards nécessitent une RAM/VRAM substantielle. Les versions quantifiées par défaut (~11 Go) aident, mais vérifiez les exigences de ressources d'Ollama.

Accéder à Phi-4-reasoning via l'API gratuite en utilisant OpenRouter (étape par étape)

Pour un accès basé sur le cloud ou une intégration dans des applications sans contraintes matérielles locales, OpenRouter propose un niveau d'API gratuit pour Phi-4-reasoning.

Voici comment l'utiliser :

Étape 1 : Obtenir une clé API OpenRouter

Accédez à openrouter.ai.
Inscrivez-vous ou connectez-vous.
Accédez à votre section paramètres/clés API et créez une nouvelle clé API. Copiez-la en toute sécurité.

Étape 2 : Installer la bibliothèque Python OpenAI
Si vous ne l'avez pas, installez la bibliothèque à l'aide de pip :
pip install openai

Étape 3. Configuration d'Apidog pour les tests

Apidog, une plateforme de test d'API robuste, simplifie l'interaction avec les API Phi-4-reasoning. Son interface intuitive vous permet d'envoyer des requêtes, d'afficher les réponses et de déboguer les problèmes efficacement. Suivez ces étapes pour le configurer.

button

Commencez par télécharger Apidog et l'installer sur votre système. Lancez l'application et créez un nouveau projet.

À l'intérieur de ce projet, ajoutez une nouvelle requête. Définissez la méthode sur POST et entrez le point de terminaison OpenRouter : https://openrouter.ai/api/v1/chat/completions.

Ensuite, configurez les en-têtes. Ajoutez un en-tête « Authorization » avec la valeur Bearer YOUR_API_KEY, en remplaçant YOUR_API_KEY par la clé d'OpenRouter. Cela authentifie votre requête. Ensuite, passez à l'onglet du corps, sélectionnez le format JSON et créez votre charge utile de requête. Voici un exemple pour microsoft/phi-4-reasoning:free :

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Bonjour, comment allez-vous ?"}
  ]
}

Cliquez sur « Envoyer » dans Apidog pour exécuter la requête. Le volet de réponse affichera la sortie du modèle, comprenant généralement le texte généré et les métadonnées telles que l'utilisation des jetons. Les fonctionnalités d'Apidog, telles que l'enregistrement des requêtes ou leur organisation en collections, améliorent votre flux de travail. Avec cette configuration, vous pouvez désormais explorer les capacités des modèles Qwen 3.

Conclusion

Phi-4-reasoning et Phi-4-reasoning-plus marquent une avancée significative dans les capacités des petits modèles de langage. En se concentrant sur des données de raisonnement de haute qualité et en employant des techniques de mise au point sophistiquées comme SFT et RL, Microsoft a démontré que des performances de raisonnement remarquables sont réalisables sans recourir à des nombres de paramètres massifs. Leur disponibilité via des plateformes comme Ollama pour une utilisation locale et OpenRouter pour un accès API gratuit démocratise l'accès à de puissants outils de raisonnement. Alors que le développement des SLM se poursuit, la famille Phi-4 reasoning se distingue comme un témoignage de la puissance d'une IA efficace et ciblée.