Das Gebiet der Künstlichen Intelligenz entwickelt sich rasant weiter, wobei große Sprachmodelle (LLMs) oft im Mittelpunkt stehen. Parallel dazu findet jedoch eine Revolution im Bereich der Small Language Models (SLMs) statt. Microsoft Research ist ein wichtiger Akteur in diesem Bereich, insbesondere mit seiner Phi-Serie. Aufbauend auf dem Erfolg von Modellen wie Phi-3 hat Microsoft kürzlich zwei neue Kraftpakete vorgestellt: Phi-4-reasoning und Phi-4-reasoning-plus. Diese Modelle stellen einen bedeutenden Fortschritt dar und zeigen, dass kleinere, effizientere Modelle in der Lage sind, mit ihren größeren Pendants bei komplexen Denkaufgaben zu konkurrieren.
Möchten Sie eine integrierte All-in-One-Plattform, auf der Ihr Entwicklerteam mit maximaler Produktivität zusammenarbeiten kann?
Apidog liefert alle Ihre Anforderungen und ersetzt Postman zu einem viel günstigeren Preis!
Phi-4 hat jetzt Reasoning-Modelle
Die Reise begann mit Phi-4, einem dichten Decoder-only Transformer-Modell mit 14 Milliarden Parametern. Obwohl es bereits leistungsfähig war, wollte Microsoft ihm stärkere Denkfähigkeiten verleihen, insbesondere in den Bereichen Mathematik, Naturwissenschaften und Programmierung. Dies führte zur Entwicklung von Phi-4-reasoning und seiner erweiterten Variante, Phi-4-reasoning-plus.
Beide Modelle teilen sich die Phi-4-Architektur, durchlaufen aber ein spezialisiertes Post-Training, das sich auf das Denken konzentriert. Der Hauptunterschied liegt in der Trainingsmethodik:
- Phi-4-reasoning: Dieses Modell wird durch Supervised Fine-Tuning (SFT) von Phi-4 auf einem sorgfältig kuratierten Datensatz erstellt. Dieser Datensatz kombiniert hochwertige, gefilterte öffentliche Daten mit synthetischen Prompts, die sich speziell auf Chain-of-Thought (CoT)-Traces konzentrieren. CoT-Denken beinhaltet das Aufteilen komplexer Probleme in Zwischenschritte, wodurch ein menschenähnlicherer Denkprozess nachgeahmt wird. Der SFT-Datensatz enthält auch Ausrichtungsdaten, um Sicherheit und verantwortungsvolle KI-Praktiken zu gewährleisten. Microsoft nutzte Denkdemonstrationen von OpenAIs
o3-mini
als Teil dieser kuratierten Daten. - Phi-4-reasoning-plus: Dieses Modell geht mit Reinforcement Learning (RL) einen Schritt weiter. Die RL-Phase ermöglicht es dem Modell, zu lernen, mehr Rechenleistung zur Inferenzzeit zu nutzen und detailliertere und oft längere Denkketten zu generieren (ungefähr 1,5-mal mehr Tokens als das Basis-Phi-4-reasoning). Dieser zusätzliche Rechenaufwand führt direkt zu einer höheren Genauigkeit bei komplexen Aufgaben, wenn auch mit einem potenziellen Anstieg der Latenz.
Beide Modelle verfügen über eine 32k Token-Kontextlänge, wodurch sie komplexe Prompts verarbeiten und umfangreiche Denkprozesse generieren können. Interessanterweise weist die Modellkarte für Phi-4-reasoning-plus vielversprechende Ergebnisse auf, wenn das Kontextfenster während der Experimente auf 64k Tokens erweitert wird, wobei die Kohärenz über längere Sequenzen erhalten bleibt.
Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini Benchmarks



Das wahre Maß für diese Modelle liegt in ihrer Leistung. Microsoft hat sie anhand einer Reihe anspruchsvoller Benchmarks evaluiert, insbesondere solcher, die sich auf das Denken konzentrieren:
- Mathematisches Denken: AIME (American Invitational Mathematics Examination) Qualifikationsrunden von 2022-2025, OmniMath (eine Sammlung von über 4000 Olympiade-Aufgaben).
- Wissenschaftliches Denken: GPQA-Diamond (Fragen auf Hochschulniveau).
- Programmierung & algorithmische Problemlösung: LiveCodeBench (Wettbewerbsaufgaben), 3SAT (Satisfiability), TSP (Traveling Salesman Problem).
- Planung & räumliches Verständnis: BA Calendar, Maze, SpatialMap.
Die Ergebnisse, die in den technischen Berichten und Modellkarten dargestellt werden, sind beeindruckend:
Model | AIME 24 | AIME 25 | OmniMath | GPQA-D | LiveCodeBench (8/1/24–2/1/25) |
---|---|---|---|---|---|
Phi-4-reasoning | 75.3 | 62.9 | 76.6 | 65.8 | 53.8 |
Phi-4-reasoning-plus | 81.3 | 78.0 | 81.9 | 68.9 | 53.1 |
OpenThinker2-32B | 58.0 | 58.0 | — | 64.1 | — |
QwQ 32B | 79.5 | 65.8 | — | 59.5 | 63.4 |
EXAONE-Deep-32B | 72.1 | 65.8 | — | 66.1 | 59.5 |
DeepSeek-R1-Distill-70B | 69.3 | 51.5 | 63.4 | 66.2 | 57.5 |
DeepSeek-R1 | 78.7 | 70.4 | 85.0 | 73.0 | 62.8 |
o1-mini | 63.6 | 54.8 | — | 60.0 | 53.8 |
o1 | 74.6 | 75.3 | 67.5 | 76.7 | 71.0 |
o3-mini | 88.0 | 78.0 | 74.6 | 77.7 | 69.5 |
Claude-3.7-Sonnet | 55.3 | 58.7 | 54.6 | 76.8 | — |
Gemini-2.5-Pro | 92.0 | 86.7 | 61.1 | 84.0 | 69.2 |
(Tabellendaten aus Hugging Face Modellkarten & Benutzereingabe)
Wichtige Erkenntnisse aus den Benchmarks:
- Übertreffen größerer Modelle: Beide Phi-4-Reasoning-Modelle übertreffen deutlich viel größere Open-Weight-Modelle wie das
DeepSeek-R1-Distill-70B
(das 5x größer ist) bei vielen Reasoning-Benchmarks. - Konkurrenzfähig mit Giganten: Sie erreichen oder übertreffen sogar die Leistung von Modellen wie dem vollständigen
DeepSeek-R1
(einem 671B MoE-Modell) und OpenAIso1-mini
undo1
bei bestimmten Aufgaben (z. B. AIME 25). - Reasoning-Plus-Vorteil:
Phi-4-reasoning-plus
erzielt durchweg höhere Ergebnisse alsPhi-4-reasoning
, was die Wirksamkeit des zusätzlichen RL-Trainings für die Genauigkeit bestätigt. - Allgemeine Fähigkeiten: Obwohl für das Denken trainiert, zeigen die Modelle auch erhebliche Verbesserungen gegenüber dem Basis-Phi-4 bei allgemeinen Benchmarks wie der Befolgung von Anweisungen (
IFEval
), der Programmierung (HumanEvalPlus
) und sogar der Sicherheit (ToxiGen
), was auf eine starke Verallgemeinerung hindeutet.
Diese Ergebnisse unterstreichen Microsofts zentrale These: Hochwertige, auf das Denken ausgerichtete Daten und gezieltes Fine-Tuning können es kleineren Modellen ermöglichen, bemerkenswerte Denkfähigkeiten zu erreichen, die zuvor als exklusiv für massive Modelle galten.
Phi-4-reasoning lokal mit Ollama ausführen (Schritt für Schritt)
Einer der größten Vorteile von SLMs ist ihr Potenzial für die lokale Ausführung. Ollama, eine beliebte Plattform für die lokale Ausführung von LLMs, bietet Out-of-the-Box-Unterstützung für die Phi-4-Reasoning-Familie.
Befolgen Sie diese Schritte, um sie auf Ihrem Computer auszuführen:
Schritt 1: Ollama installieren
Falls noch nicht geschehen, gehen Sie zu ollama.com und laden Sie das Installationsprogramm für Ihr Betriebssystem (macOS, Windows oder Linux) herunter. Führen Sie das Installationsprogramm aus.
Schritt 2: Modelle über das Terminal abrufen
Öffnen Sie Ihre Eingabeaufforderung oder Terminalanwendung. Verwenden Sie den entsprechenden Befehl unten, um das gewünschte Modell herunterzuladen. Dies kann je nach Internetgeschwindigkeit einige Zeit dauern.
- Um Phi-4-reasoning herunterzuladen:
ollama pull phi4-reasoning
- Um Phi-4-reasoning-plus herunterzuladen:
ollama pull phi4-reasoning:plus
(Hinweis: Dieplus
-Variante wird mit einem Tag nach dem Doppelpunkt angegeben.)
Schritt 3: Führen Sie das Modell zur Interaktion aus
Sobald der Download abgeschlossen ist, können Sie direkt von Ihrem Terminal aus mit dem Modell chatten:
- Um Phi-4-reasoning auszuführen:
ollama run phi4-reasoning
- Um Phi-4-reasoning-plus auszuführen:
ollama run phi4-reasoning:plus
Nachdem Sie den Befehl ausgeführt haben, sehen Sie eine Eingabeaufforderung (wie >>>
oder Send a message...
), in die Sie Ihre Fragen eingeben können.
Schritt 4: Verwenden Sie die empfohlene Prompt-Struktur (entscheidend!)
Diese Modelle funktionieren am besten, wenn sie durch eine bestimmte Systemaufforderung und -struktur angeleitet werden. Strukturieren Sie Ihre Eingabe bei der Interaktion (insbesondere bei komplexen Aufgaben) wie folgt:
- Beginnen Sie mit der Systemaufforderung: Stellen Sie vor Ihrer eigentlichen Frage die Systemaufforderung bereit, die dem Modell sagt, wie es denken soll.
- Verwenden Sie das ChatML-Format: Obwohl der
run
-Befehl von Ollama dies vereinfacht, erwartet das Modell intern<|im_start|>system
,<|im_start|>user
,<|im_start|>assistant
-Tags. - Erwarten Sie
<think>
und<solution>
: Das Modell ist darauf trainiert, seinen Denkprozess innerhalb von<think>...</think>
-Tags und die endgültige Antwort innerhalb von<solution>...</solution>
-Tags auszugeben.
Empfohlene Systemaufforderung:
Ihre Rolle als Assistent besteht darin, Fragen gründlich durch einen systematischen Denkprozess zu untersuchen, bevor Sie die endgültigen, präzisen und genauen Lösungen bereitstellen. Dies erfordert einen umfassenden Zyklus aus Analyse, Zusammenfassung, Erkundung, Neubewertung, Reflexion, Rückverfolgung und Iteration, um einen gut durchdachten Denkprozess zu entwickeln. Bitte strukturieren Sie Ihre Antwort in zwei Hauptabschnitte: Thought und Solution im angegebenen Format: <think> {Thought section} </think> {Solution section}. Im Abschnitt Thought detaillieren Sie Ihren Denkprozess in Schritten. Jeder Schritt sollte detaillierte Überlegungen beinhalten, wie z. B. die Analyse von Fragen, die Zusammenfassung relevanter Erkenntnisse, das Brainstorming neuer Ideen, die Überprüfung der Richtigkeit der aktuellen Schritte, die Verfeinerung von Fehlern und die Überprüfung früherer Schritte. Im Abschnitt Solution präsentieren Sie basierend auf verschiedenen Versuchen, Erkundungen und Reflexionen aus dem Abschnitt Thought systematisch die endgültige Lösung, die Sie für richtig halten. Der Abschnitt Solution sollte logisch, genau und präzise sein und die notwendigen Schritte zur Erreichung der Schlussfolgerung detailliert beschreiben. Versuchen Sie nun, die folgende Frage anhand der obigen Richtlinien zu lösen:
(Obwohl Sie die Systemaufforderung im einfachen ollama run
-Befehl nicht einfach voranstellen können, sollten Sie sich dieser Struktur bewusst sein, wenn Sie Ausgaben interpretieren oder die API/Bibliotheken von Ollama verwenden, in denen Sie Systemaufforderungen explizit festlegen können.)
Hardware-Überlegungen: Denken Sie daran, dass 14B-Modelle erheblichen RAM/VRAM benötigen. Die standardmäßigen quantisierten Versionen (~11 GB) helfen, aber überprüfen Sie die Ressourcenanforderungen von Ollama.
Zugriff auf Phi-4-reasoning über die kostenlose API mit OpenRouter (Schritt für Schritt)
Für den Cloud-basierten Zugriff oder die Integration in Anwendungen ohne lokale Hardwarebeschränkungen bietet OpenRouter eine kostenlose API-Ebene für Phi-4-reasoning
.
So verwenden Sie sie:
Schritt 1: Holen Sie sich einen OpenRouter-API-Schlüssel
- Gehen Sie zu openrouter.ai.
- Melden Sie sich an oder melden Sie sich an.
- Navigieren Sie zu Ihrem Abschnitt mit den Einstellungen/API-Schlüsseln und erstellen Sie einen neuen API-Schlüssel. Kopieren Sie ihn sicher.
Schritt 2: Installieren Sie die OpenAI Python-Bibliothek
Wenn Sie sie nicht haben, installieren Sie die Bibliothek mit pip:pip install openai
Schritt 3. Einrichten von Apidog zum Testen
Apidog, eine robuste API-Testplattform, vereinfacht die Interaktion mit den Phi-4-Reasoning-APIs. Die intuitive Benutzeroberfläche ermöglicht es Ihnen, Anfragen zu senden, Antworten anzuzeigen und Probleme effizient zu debuggen. Befolgen Sie diese Schritte, um es zu konfigurieren.

Beginnen Sie mit dem Herunterladen von Apidog und der Installation auf Ihrem System. Starten Sie die Anwendung und erstellen Sie ein neues Projekt.

Fügen Sie in diesem Projekt eine neue Anfrage hinzu. Stellen Sie die Methode auf POST ein und geben Sie den OpenRouter-Endpunkt ein: https://openrouter.ai/api/v1/chat/completions
.

Konfigurieren Sie als Nächstes die Header. Fügen Sie einen „Authorization“-Header mit dem Wert Bearer YOUR_API_KEY
hinzu und ersetzen Sie YOUR_API_KEY
durch den Schlüssel von OpenRouter. Dadurch wird Ihre Anfrage authentifiziert. Wechseln Sie dann zur Registerkarte „Body“, wählen Sie das JSON-Format aus und erstellen Sie Ihre Anforderungsnutzlast. Hier ist ein Beispiel für microsoft/phi-4-reasoning:free:
{
"model": "microsoft/phi-4-reasoning:free",
"messages": [
{"role": "user", "content": "Hello, how are you?"}
]
}
Klicken Sie in Apidog auf „Senden“, um die Anfrage auszuführen. Der Antwortbereich zeigt die Ausgabe des Modells an, in der Regel einschließlich generiertem Text und Metadaten wie der Token-Nutzung. Die Funktionen von Apidog, wie z. B. das Speichern von Anfragen oder das Organisieren in Sammlungen, verbessern Ihren Workflow. Mit dieser Einrichtung können Sie jetzt die Fähigkeiten der Qwen 3-Modelle erkunden.
Fazit
Phi-4-reasoning und Phi-4-reasoning-plus markieren einen bedeutenden Fortschritt in den Fähigkeiten kleiner Sprachmodelle. Durch die Konzentration auf hochwertige Denkdaten und den Einsatz ausgefeilter Fine-Tuning-Techniken wie SFT und RL hat Microsoft gezeigt, dass bemerkenswerte Denkfähigkeiten erreicht werden können, ohne auf massive Parameterzahlen zurückzugreifen. Ihre Verfügbarkeit über Plattformen wie Ollama für den lokalen Gebrauch und OpenRouter für den kostenlosen API-Zugriff demokratisiert den Zugang zu leistungsstarken Denkwerkzeugen. Da sich die Entwicklung von SLMs fortsetzt, zeichnet sich die Phi-4-Reasoning-Familie als Beweis für die Leistungsfähigkeit von effizienter, fokussierter KI aus.