Phi-4推論の実行方法：無料APIとOllamaによるローカル実行

人工知能（AI）の分野は急速に進化しており、その中心にはしばしば大規模言語モデル（LLM）があります。しかし、**小規模言語モデル（SLM）**の領域でも並行して革命が起きています。Microsoft Researchは、特にPhiシリーズでこの分野の主要なプレイヤーとなっています。Phi-3のようなモデルの成功に基づいて、Microsoftは最近、2つの新しい強力なモデルを発表しました。それが**Phi-4-reasoning**と**Phi-4-reasoning-plus**です。これらのモデルは大きな飛躍を表しており、より小さく効率的なモデルが、複雑な推論タスクにおいて大規模なモデルに匹敵しうることを示しています。

💡

美しいAPIドキュメントを生成する優れたAPIテストツールをお探しですか？

開発チームが最大限の生産性で共同作業できる、統合されたオールインワンプラットフォームをお探しですか？

Apidogはあなたのすべての要求に応え、Postmanをはるかに手頃な価格で置き換えます！

button

Phi-4に推論モデルが登場

この道のりは、140億パラメータを持つ密なデコーダーオンリーTransformerモデルであるPhi-4から始まりました。すでに能力はありましたが、Microsoftは特に数学、科学、コーディングの分野で、より強力な推論能力を付与しようとしました。これにより、Phi-4-reasoningとその強化版であるPhi-4-reasoning-plusの開発につながりました。

どちらのモデルもPhi-4アーキテクチャを共有していますが、推論に焦点を当てた特殊な後続トレーニングを受けています。主な違いはトレーニング方法論にあります：

Phi-4-reasoning: このモデルは、厳選されたデータセット上でPhi-4を**教師ありファインチューニング（SFT）**することによって作成されました。このデータセットは、高品質でフィルタリングされた公開データと合成プロンプトを組み合わせ、特に**思考連鎖（CoT）**のトレースに焦点を当てています。CoT推論は、複雑な問題を中間ステップに分解し、より人間らしい思考プロセスを模倣します。SFTデータセットには、安全性と責任あるAIの実践を保証するためのアライメントデータも含まれています。Microsoftは、この厳選されたデータの一部として、OpenAIのo3-miniからの推論デモンストレーションを活用しました。
Phi-4-reasoning-plus: このモデルは、**強化学習（RL）**を組み込むことで、Phi-4-reasoningをさらに一歩進めています。RLフェーズにより、モデルは推論時により多くの計算リソースを利用することを学習し、より詳細でしばしば長い推論連鎖（ベースのPhi-4-reasoningよりも約1.5倍多くのトークン）を生成します。この追加の計算努力は、レイテンシが増加する可能性はあるものの、複雑なタスクにおける精度の向上に直接つながります。

どちらのモデルも**32kトークンのコンテキスト長**を誇り、複雑なプロンプトを処理し、広範な推論プロセスを生成することを可能にします。興味深いことに、Phi-4-reasoning-plusのモデルカードには、実験中にコンテキストウィンドウを64kトークンに拡張した際に有望な結果が得られ、より長いシーケンスでも一貫性が維持されたことが記されています。

Phi-4 Reasoning、Phi-4 Reasoning Plus、Phi-4-Reasoning-Miniのベンチマーク

Phi-4-Reasoning & Phi-4-Reasoning-Plus ベンチマーク

これらのモデルの真価は、そのパフォーマンスにあります。Microsoftは、特に推論に焦点を当てた一連の挑戦的なベンチマークに対してそれらを評価しました：

**数学的推論:** AIME (American Invitational Mathematics Examination) 2022-2025年の予選、OmniMath（4000以上のオリンピックレベルの問題集）。
**科学的推論:** GPQA-Diamond（大学院レベルの科学問題）。
**コーディングとアルゴリズム問題解決:** LiveCodeBench（競技プログラミングコンテスト問題）、3SAT（充足可能性問題）、TSP（巡回セールスマン問題）。
**計画と空間理解:** BA Calendar、Maze、SpatialMap。

技術レポートやモデルカードに示されている結果は、印象的です：

Model	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(テーブルデータはHugging Faceモデルカードとユーザー入力から)

ベンチマークからの重要なポイント：

**大規模モデルを凌駕:** Phi-4-reasoningモデルはどちらも、多くの推論ベンチマークにおいて、DeepSeek-R1-Distill-70B（5倍大きい）のようなはるかに大規模なオープンウェイトモデルを大幅に上回っています。
**巨人たちに匹敵:** 特定のタスク（例: AIME 25）では、完全なDeepSeek-R1（671B MoEモデル）やOpenAIのo1-mini、o1のようなモデルのパフォーマンスに匹敵するか、あるいは上回っています。
**Reasoning-Plusの優位性:** Phi-4-reasoning-plusは、全体的にPhi-4-reasoningよりも一貫して高いスコアを記録しており、精度のための追加RLトレーニングの効果を実証しています。
**汎用能力:** 推論のためにトレーニングされていますが、これらのモデルは、命令追従（IFEval）、コーディング（HumanEvalPlus）、さらには安全性（ToxiGen）のような汎用ベンチマークにおいても、ベースのPhi-4に対して大幅な改善を示しており、強い汎化能力を示しています。

これらの結果は、Microsoftの中心的な主張を強調しています：高品質で推論に焦点を当てたデータとターゲットを絞ったファインチューニングにより、これまで大規模モデルに特有と考えられていた驚異的な推論能力を、より小さなモデルが達成できるということです。

Ollamaを使用してPhi-4-reasoningをローカルで実行する（ステップバイステップ）

SLMの主要な利点の1つは、ローカルでの実行の可能性です。LLMをローカルで実行するための人気プラットフォームであるOllamaは、Phi-4 reasoningファミリーをすぐにサポートしています。

お使いのマシンで実行するには、以下の手順に従ってください：

ステップ1：Ollamaをインストールする
まだインストールしていない場合は、ollama.comにアクセスし、お使いのオペレーティングシステム（macOS、Windows、またはLinux）用のインストーラーをダウンロードしてください。インストーラーを実行します。

ステップ2：ターミナル経由でモデルをプルする
コマンドプロンプトまたはターミナルアプリケーションを開きます。以下の適切なコマンドを使用して、目的のモデルをダウンロードしてください。インターネットの速度によっては時間がかかる場合があります。

**Phi-4-reasoning**をダウンロードするには：
ollama pull phi4-reasoning
**Phi-4-reasoning-plus**をダウンロードするには：
ollama pull phi4-reasoning:plus
*(注：plusバリアントはコロンの後にタグを使用して指定されます。)*

ステップ3：対話のためにモデルを実行する
ダウンロードが完了したら、ターミナルから直接モデルとチャットを開始できます：

**Phi-4-reasoning**を実行するには：
ollama run phi4-reasoning
**Phi-4-reasoning-plus**を実行するには：
ollama run phi4-reasoning:plus

コマンドを実行すると、質問を入力できるプロンプト（>>>やSend a message...など）が表示されます。

ステップ4：推奨されるプロンプト構造を使用する（重要！）
これらのモデルは、特定のシステムプロンプトと構造によってガイドされると最高のパフォーマンスを発揮します。

対話する際（特に複雑なタスクの場合）は、入力を次のように構成してください：

**システムプロンプトから始める：** 実際の質問の前に、モデルに*どのように*推論するかを指示するシステムプロンプトを提供します。
**ChatML形式を使用する：** Ollamaのrunコマンドはこれを簡素化しますが、内部的にはモデルは<|im_start|>system、<|im_start|>user、<|im_start|>assistantタグを期待します。
**<think>と<solution>を期待する：** モデルは、推論プロセスを<think>...</think>タグ内に、最終的な回答を<solution>...</solution>タグ内に出力するようにトレーニングされています。

推奨されるシステムプロンプト：

Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:

*(基本的なollama runコマンドではシステムプロンプトを簡単に追加できませんが、出力の解釈時や、システムプロンプトを明示的に設定できるOllamaのAPI/ライブラリを使用する際には、この構造に留意してください。)*

ハードウェアに関する考慮事項： 14BモデルにはかなりのRAM/VRAMが必要であることを忘れないでください。デフォルトの量子化バージョン（約11GB）は役立ちますが、Ollamaのリソース要件を確認してください。

OpenRouterを使用して無料API経由でPhi-4-reasoningにアクセスする（ステップバイステップ）

ローカルハードウェアの制約なしにクラウドベースでアクセスしたり、アプリケーションに統合したりする場合、OpenRouterはPhi-4-reasoningの無料APIティアを提供しています。

使用方法は以下の通りです：

ステップ1：OpenRouter APIキーを取得する

openrouter.aiにアクセスします。
サインアップまたはログインします。
設定/APIキーセクションに移動し、新しいAPIキーを作成します。安全にコピーしてください。

ステップ2：OpenAI Pythonライブラリをインストールする
まだ持っていない場合は、pipを使用してライブラリをインストールしてください：
pip install openai

ステップ3：テストのためにApidogをセットアップする

堅牢なAPIテストプラットフォームであるApidogは、Phi-4-reasoning APIとの対話を簡素化します。その直感的なインターフェースにより、リクエストの送信、レスポンスの表示、問題のデバッグを効率的に行えます。設定するには以下の手順に従ってください。

button

まず、Apidogをダウンロードし、システムにインストールします。アプリケーションを起動し、新しいプロジェクトを作成します。

このプロジェクト内で、新しいリクエストを追加します。メソッドをPOSTに設定し、OpenRouterのエンドポイントを入力します：https://openrouter.ai/api/v1/chat/completions。

次に、ヘッダーを設定します。値Bearer YOUR_API_KEYを持つ「Authorization」ヘッダーを追加し、YOUR_API_KEYをOpenRouterからのキーに置き換えます。これにより、リクエストが認証されます。次に、ボディタブに切り替え、JSON形式を選択し、リクエストペイロードを作成します。microsoft/phi-4-reasoning:freeの例を以下に示します：

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Apidogで「Send」をクリックしてリクエストを実行します。レスポンスペインには、モデルの出力が表示され、通常、生成されたテキストやトークン使用量などのメタデータが含まれます。リクエストの保存やコレクションへの整理といったApidogの機能は、ワークフローを強化します。このセットアップにより、Qwen 3モデルの機能を探索できるようになります。

結論

Phi-4-reasoningとPhi-4-reasoning-plusは、小規模言語モデルの能力における重要な進歩を示しています。高品質な推論データに焦点を当て、SFTやRLのような洗練されたファインチューニング技術を採用することで、Microsoftは、膨大なパラメータ数に頼ることなく、驚異的な推論パフォーマンスが達成可能であることを実証しました。ローカルでの使用のためのOllamaや、無料APIアクセスのためのOpenRouterのようなプラットフォームを通じて利用可能であることは、強力な推論ツールへのアクセスを民主化します。SLMの開発が続くにつれて、Phi-4 reasoningファミリーは、効率的で集中的なAIの力の証として際立っています。