So funktioniert das Phi-4 Reasoning (mit kostenloser API, lokal mit Ollama)

Künstliche Intelligenz entwickelt sich rasant. Microsofts Phi-Reihe, insbesondere Phi-4-reasoning und -plus, revolutioniert SLMs.

Leo Schulz

Leo Schulz

5 June 2025

So funktioniert das Phi-4 Reasoning (mit kostenloser API, lokal mit Ollama)

Das Gebiet der Künstlichen Intelligenz entwickelt sich rasant weiter, wobei große Sprachmodelle (LLMs) oft im Mittelpunkt stehen. Parallel dazu findet jedoch eine Revolution im Bereich der Small Language Models (SLMs) statt. Microsoft Research ist ein wichtiger Akteur in diesem Bereich, insbesondere mit seiner Phi-Serie. Aufbauend auf dem Erfolg von Modellen wie Phi-3 hat Microsoft kürzlich zwei neue Kraftpakete vorgestellt: Phi-4-reasoning und Phi-4-reasoning-plus. Diese Modelle stellen einen bedeutenden Fortschritt dar und zeigen, dass kleinere, effizientere Modelle in der Lage sind, mit ihren größeren Pendants bei komplexen Denkaufgaben zu konkurrieren.

💡
Möchten Sie ein großartiges API-Testtool, das wunderschöne API-Dokumentation generiert?

Möchten Sie eine integrierte All-in-One-Plattform, auf der Ihr Entwicklerteam mit maximaler Produktivität zusammenarbeiten kann?

Apidog liefert alle Ihre Anforderungen und ersetzt Postman zu einem viel günstigeren Preis!
button

Phi-4 hat jetzt Reasoning-Modelle

Die Reise begann mit Phi-4, einem dichten Decoder-only Transformer-Modell mit 14 Milliarden Parametern. Obwohl es bereits leistungsfähig war, wollte Microsoft ihm stärkere Denkfähigkeiten verleihen, insbesondere in den Bereichen Mathematik, Naturwissenschaften und Programmierung. Dies führte zur Entwicklung von Phi-4-reasoning und seiner erweiterten Variante, Phi-4-reasoning-plus.

Beide Modelle teilen sich die Phi-4-Architektur, durchlaufen aber ein spezialisiertes Post-Training, das sich auf das Denken konzentriert. Der Hauptunterschied liegt in der Trainingsmethodik:

  1. Phi-4-reasoning: Dieses Modell wird durch Supervised Fine-Tuning (SFT) von Phi-4 auf einem sorgfältig kuratierten Datensatz erstellt. Dieser Datensatz kombiniert hochwertige, gefilterte öffentliche Daten mit synthetischen Prompts, die sich speziell auf Chain-of-Thought (CoT)-Traces konzentrieren. CoT-Denken beinhaltet das Aufteilen komplexer Probleme in Zwischenschritte, wodurch ein menschenähnlicherer Denkprozess nachgeahmt wird. Der SFT-Datensatz enthält auch Ausrichtungsdaten, um Sicherheit und verantwortungsvolle KI-Praktiken zu gewährleisten. Microsoft nutzte Denkdemonstrationen von OpenAIs o3-mini als Teil dieser kuratierten Daten.
  2. Phi-4-reasoning-plus: Dieses Modell geht mit Reinforcement Learning (RL) einen Schritt weiter. Die RL-Phase ermöglicht es dem Modell, zu lernen, mehr Rechenleistung zur Inferenzzeit zu nutzen und detailliertere und oft längere Denkketten zu generieren (ungefähr 1,5-mal mehr Tokens als das Basis-Phi-4-reasoning). Dieser zusätzliche Rechenaufwand führt direkt zu einer höheren Genauigkeit bei komplexen Aufgaben, wenn auch mit einem potenziellen Anstieg der Latenz.

Beide Modelle verfügen über eine 32k Token-Kontextlänge, wodurch sie komplexe Prompts verarbeiten und umfangreiche Denkprozesse generieren können. Interessanterweise weist die Modellkarte für Phi-4-reasoning-plus vielversprechende Ergebnisse auf, wenn das Kontextfenster während der Experimente auf 64k Tokens erweitert wird, wobei die Kohärenz über längere Sequenzen erhalten bleibt.

Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini Benchmarks

Phi-4-Reasoning & Phi-4-Reasoning-Plus Benchmarks
Phi-4-Reasoning & Phi-4-Reasoning-Plus Benchmarks
Phi-4-Reasoning-Mini Benchmarks

Das wahre Maß für diese Modelle liegt in ihrer Leistung. Microsoft hat sie anhand einer Reihe anspruchsvoller Benchmarks evaluiert, insbesondere solcher, die sich auf das Denken konzentrieren:

Die Ergebnisse, die in den technischen Berichten und Modellkarten dargestellt werden, sind beeindruckend:

Model AIME 24 AIME 25 OmniMath GPQA-D LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning 75.3 62.9 76.6 65.8 53.8
Phi-4-reasoning-plus 81.3 78.0 81.9 68.9 53.1
OpenThinker2-32B 58.0 58.0 64.1
QwQ 32B 79.5 65.8 59.5 63.4
EXAONE-Deep-32B 72.1 65.8 66.1 59.5
DeepSeek-R1-Distill-70B 69.3 51.5 63.4 66.2 57.5
DeepSeek-R1 78.7 70.4 85.0 73.0 62.8
o1-mini 63.6 54.8 60.0 53.8
o1 74.6 75.3 67.5 76.7 71.0
o3-mini 88.0 78.0 74.6 77.7 69.5
Claude-3.7-Sonnet 55.3 58.7 54.6 76.8
Gemini-2.5-Pro 92.0 86.7 61.1 84.0 69.2

(Tabellendaten aus Hugging Face Modellkarten & Benutzereingabe)

Wichtige Erkenntnisse aus den Benchmarks:

Diese Ergebnisse unterstreichen Microsofts zentrale These: Hochwertige, auf das Denken ausgerichtete Daten und gezieltes Fine-Tuning können es kleineren Modellen ermöglichen, bemerkenswerte Denkfähigkeiten zu erreichen, die zuvor als exklusiv für massive Modelle galten.

Phi-4-reasoning lokal mit Ollama ausführen (Schritt für Schritt)

Einer der größten Vorteile von SLMs ist ihr Potenzial für die lokale Ausführung. Ollama, eine beliebte Plattform für die lokale Ausführung von LLMs, bietet Out-of-the-Box-Unterstützung für die Phi-4-Reasoning-Familie.

Befolgen Sie diese Schritte, um sie auf Ihrem Computer auszuführen:

Schritt 1: Ollama installieren
Falls noch nicht geschehen, gehen Sie zu ollama.com und laden Sie das Installationsprogramm für Ihr Betriebssystem (macOS, Windows oder Linux) herunter. Führen Sie das Installationsprogramm aus.

Schritt 2: Modelle über das Terminal abrufen
Öffnen Sie Ihre Eingabeaufforderung oder Terminalanwendung. Verwenden Sie den entsprechenden Befehl unten, um das gewünschte Modell herunterzuladen. Dies kann je nach Internetgeschwindigkeit einige Zeit dauern.

Schritt 3: Führen Sie das Modell zur Interaktion aus
Sobald der Download abgeschlossen ist, können Sie direkt von Ihrem Terminal aus mit dem Modell chatten:

Nachdem Sie den Befehl ausgeführt haben, sehen Sie eine Eingabeaufforderung (wie >>> oder Send a message...), in die Sie Ihre Fragen eingeben können.

Schritt 4: Verwenden Sie die empfohlene Prompt-Struktur (entscheidend!)
Diese Modelle funktionieren am besten, wenn sie durch eine bestimmte Systemaufforderung und -struktur angeleitet werden. Strukturieren Sie Ihre Eingabe bei der Interaktion (insbesondere bei komplexen Aufgaben) wie folgt:

Empfohlene Systemaufforderung:

Ihre Rolle als Assistent besteht darin, Fragen gründlich durch einen systematischen Denkprozess zu untersuchen, bevor Sie die endgültigen, präzisen und genauen Lösungen bereitstellen. Dies erfordert einen umfassenden Zyklus aus Analyse, Zusammenfassung, Erkundung, Neubewertung, Reflexion, Rückverfolgung und Iteration, um einen gut durchdachten Denkprozess zu entwickeln. Bitte strukturieren Sie Ihre Antwort in zwei Hauptabschnitte: Thought und Solution im angegebenen Format: <think> {Thought section} </think> {Solution section}. Im Abschnitt Thought detaillieren Sie Ihren Denkprozess in Schritten. Jeder Schritt sollte detaillierte Überlegungen beinhalten, wie z. B. die Analyse von Fragen, die Zusammenfassung relevanter Erkenntnisse, das Brainstorming neuer Ideen, die Überprüfung der Richtigkeit der aktuellen Schritte, die Verfeinerung von Fehlern und die Überprüfung früherer Schritte. Im Abschnitt Solution präsentieren Sie basierend auf verschiedenen Versuchen, Erkundungen und Reflexionen aus dem Abschnitt Thought systematisch die endgültige Lösung, die Sie für richtig halten. Der Abschnitt Solution sollte logisch, genau und präzise sein und die notwendigen Schritte zur Erreichung der Schlussfolgerung detailliert beschreiben. Versuchen Sie nun, die folgende Frage anhand der obigen Richtlinien zu lösen:

(Obwohl Sie die Systemaufforderung im einfachen ollama run-Befehl nicht einfach voranstellen können, sollten Sie sich dieser Struktur bewusst sein, wenn Sie Ausgaben interpretieren oder die API/Bibliotheken von Ollama verwenden, in denen Sie Systemaufforderungen explizit festlegen können.)

Hardware-Überlegungen: Denken Sie daran, dass 14B-Modelle erheblichen RAM/VRAM benötigen. Die standardmäßigen quantisierten Versionen (~11 GB) helfen, aber überprüfen Sie die Ressourcenanforderungen von Ollama.

Zugriff auf Phi-4-reasoning über die kostenlose API mit OpenRouter (Schritt für Schritt)

Für den Cloud-basierten Zugriff oder die Integration in Anwendungen ohne lokale Hardwarebeschränkungen bietet OpenRouter eine kostenlose API-Ebene für Phi-4-reasoning.

So verwenden Sie sie:

Schritt 1: Holen Sie sich einen OpenRouter-API-Schlüssel

Schritt 2: Installieren Sie die OpenAI Python-Bibliothek
Wenn Sie sie nicht haben, installieren Sie die Bibliothek mit pip:
pip install openai

Schritt 3. Einrichten von Apidog zum Testen

Apidog, eine robuste API-Testplattform, vereinfacht die Interaktion mit den Phi-4-Reasoning-APIs. Die intuitive Benutzeroberfläche ermöglicht es Ihnen, Anfragen zu senden, Antworten anzuzeigen und Probleme effizient zu debuggen. Befolgen Sie diese Schritte, um es zu konfigurieren.

button

Beginnen Sie mit dem Herunterladen von Apidog und der Installation auf Ihrem System. Starten Sie die Anwendung und erstellen Sie ein neues Projekt.

Fügen Sie in diesem Projekt eine neue Anfrage hinzu. Stellen Sie die Methode auf POST ein und geben Sie den OpenRouter-Endpunkt ein: https://openrouter.ai/api/v1/chat/completions.

Konfigurieren Sie als Nächstes die Header. Fügen Sie einen „Authorization“-Header mit dem Wert Bearer YOUR_API_KEY hinzu und ersetzen Sie YOUR_API_KEY durch den Schlüssel von OpenRouter. Dadurch wird Ihre Anfrage authentifiziert. Wechseln Sie dann zur Registerkarte „Body“, wählen Sie das JSON-Format aus und erstellen Sie Ihre Anforderungsnutzlast. Hier ist ein Beispiel für microsoft/phi-4-reasoning:free:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Klicken Sie in Apidog auf „Senden“, um die Anfrage auszuführen. Der Antwortbereich zeigt die Ausgabe des Modells an, in der Regel einschließlich generiertem Text und Metadaten wie der Token-Nutzung. Die Funktionen von Apidog, wie z. B. das Speichern von Anfragen oder das Organisieren in Sammlungen, verbessern Ihren Workflow. Mit dieser Einrichtung können Sie jetzt die Fähigkeiten der Qwen 3-Modelle erkunden.

Fazit

Phi-4-reasoning und Phi-4-reasoning-plus markieren einen bedeutenden Fortschritt in den Fähigkeiten kleiner Sprachmodelle. Durch die Konzentration auf hochwertige Denkdaten und den Einsatz ausgefeilter Fine-Tuning-Techniken wie SFT und RL hat Microsoft gezeigt, dass bemerkenswerte Denkfähigkeiten erreicht werden können, ohne auf massive Parameterzahlen zurückzugreifen. Ihre Verfügbarkeit über Plattformen wie Ollama für den lokalen Gebrauch und OpenRouter für den kostenlosen API-Zugriff demokratisiert den Zugang zu leistungsstarken Denkwerkzeugen. Da sich die Entwicklung von SLMs fortsetzt, zeichnet sich die Phi-4-Reasoning-Familie als Beweis für die Leistungsfähigkeit von effizienter, fokussierter KI aus.

Explore more

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Fathom-R1-14B: Fortschrittliches KI-Argumentationsmodell aus Indien

Künstliche Intelligenz wächst rasant. FractalAIResearch/Fathom-R1-14B (14,8 Mrd. Parameter) glänzt in Mathe & Logik.

5 June 2025

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Cursor 1.0 mit BugBot: KI-gestütztes Automatisierungstest-Tool ist da:

Die Softwareentwicklung erlebt Innovationen durch KI. Cursor, ein KI-Editor, erreicht mit Version 1.0 einen Meilenstein.

5 June 2025

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

30+ öffentliche Web 3.0 APIs, die Sie jetzt nutzen können

Der Aufstieg von Web 3.0: Dezentral, nutzerorientiert, transparent. APIs ermöglichen innovative dApps und Blockchain-Integration.

4 June 2025

Praktizieren Sie API Design-First in Apidog

Entdecken Sie eine einfachere Möglichkeit, APIs zu erstellen und zu nutzen