Phi-4推論の実行方法:無料APIとOllamaによるローカル実行

Emmanuel Mumba

Emmanuel Mumba

2 5月 2025

Phi-4推論の実行方法:無料APIとOllamaによるローカル実行

人工知能(AI)の分野は急速に進化しており、その中心にはしばしば大規模言語モデル(LLM)があります。しかし、**小規模言語モデル(SLM)**の領域でも並行して革命が起きています。Microsoft Researchは、特にPhiシリーズでこの分野の主要なプレイヤーとなっています。Phi-3のようなモデルの成功に基づいて、Microsoftは最近、2つの新しい強力なモデルを発表しました。それが**Phi-4-reasoning**と**Phi-4-reasoning-plus**です。これらのモデルは大きな飛躍を表しており、より小さく効率的なモデルが、複雑な推論タスクにおいて大規模なモデルに匹敵しうることを示しています。

💡
美しいAPIドキュメントを生成する優れたAPIテストツールをお探しですか?

開発チームが最大限の生産性で共同作業できる、統合されたオールインワンプラットフォームをお探しですか?

Apidogはあなたのすべての要求に応え、Postmanをはるかに手頃な価格で置き換えます
button

Phi-4に推論モデルが登場

この道のりは、140億パラメータを持つ密なデコーダーオンリーTransformerモデルであるPhi-4から始まりました。すでに能力はありましたが、Microsoftは特に数学、科学、コーディングの分野で、より強力な推論能力を付与しようとしました。これにより、Phi-4-reasoningとその強化版であるPhi-4-reasoning-plusの開発につながりました。

どちらのモデルもPhi-4アーキテクチャを共有していますが、推論に焦点を当てた特殊な後続トレーニングを受けています。主な違いはトレーニング方法論にあります:

  1. Phi-4-reasoning: このモデルは、厳選されたデータセット上でPhi-4を**教師ありファインチューニング(SFT)**することによって作成されました。このデータセットは、高品質でフィルタリングされた公開データと合成プロンプトを組み合わせ、特に**思考連鎖(CoT)**のトレースに焦点を当てています。CoT推論は、複雑な問題を中間ステップに分解し、より人間らしい思考プロセスを模倣します。SFTデータセットには、安全性と責任あるAIの実践を保証するためのアライメントデータも含まれています。Microsoftは、この厳選されたデータの一部として、OpenAIのo3-miniからの推論デモンストレーションを活用しました。
  2. Phi-4-reasoning-plus: このモデルは、**強化学習(RL)**を組み込むことで、Phi-4-reasoningをさらに一歩進めています。RLフェーズにより、モデルは推論時により多くの計算リソースを利用することを学習し、より詳細でしばしば長い推論連鎖(ベースのPhi-4-reasoningよりも約1.5倍多くのトークン)を生成します。この追加の計算努力は、レイテンシが増加する可能性はあるものの、複雑なタスクにおける精度の向上に直接つながります。

どちらのモデルも**32kトークンのコンテキスト長**を誇り、複雑なプロンプトを処理し、広範な推論プロセスを生成することを可能にします。興味深いことに、Phi-4-reasoning-plusのモデルカードには、実験中にコンテキストウィンドウを64kトークンに拡張した際に有望な結果が得られ、より長いシーケンスでも一貫性が維持されたことが記されています。

Phi-4 Reasoning、Phi-4 Reasoning Plus、Phi-4-Reasoning-Miniのベンチマーク

Phi-4-Reasoning & Phi-4-Reasoning-Plus ベンチマーク
Phi-4-Reasoning & Phi-4-Reasoning-Plus ベンチマーク
Phi-4-Reasoning-Mini ベンチマーク

これらのモデルの真価は、そのパフォーマンスにあります。Microsoftは、特に推論に焦点を当てた一連の挑戦的なベンチマークに対してそれらを評価しました:

技術レポートやモデルカードに示されている結果は、印象的です:

Model AIME 24 AIME 25 OmniMath GPQA-D LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning 75.3 62.9 76.6 65.8 53.8
Phi-4-reasoning-plus 81.3 78.0 81.9 68.9 53.1
OpenThinker2-32B 58.0 58.0 64.1
QwQ 32B 79.5 65.8 59.5 63.4
EXAONE-Deep-32B 72.1 65.8 66.1 59.5
DeepSeek-R1-Distill-70B 69.3 51.5 63.4 66.2 57.5
DeepSeek-R1 78.7 70.4 85.0 73.0 62.8
o1-mini 63.6 54.8 60.0 53.8
o1 74.6 75.3 67.5 76.7 71.0
o3-mini 88.0 78.0 74.6 77.7 69.5
Claude-3.7-Sonnet 55.3 58.7 54.6 76.8
Gemini-2.5-Pro 92.0 86.7 61.1 84.0 69.2

(テーブルデータはHugging Faceモデルカードとユーザー入力から)

ベンチマークからの重要なポイント:

これらの結果は、Microsoftの中心的な主張を強調しています:高品質で推論に焦点を当てたデータとターゲットを絞ったファインチューニングにより、これまで大規模モデルに特有と考えられていた驚異的な推論能力を、より小さなモデルが達成できるということです。

Ollamaを使用してPhi-4-reasoningをローカルで実行する(ステップバイステップ)

SLMの主要な利点の1つは、ローカルでの実行の可能性です。LLMをローカルで実行するための人気プラットフォームであるOllamaは、Phi-4 reasoningファミリーをすぐにサポートしています。

お使いのマシンで実行するには、以下の手順に従ってください:

ステップ1:Ollamaをインストールする
まだインストールしていない場合は、ollama.comにアクセスし、お使いのオペレーティングシステム(macOS、Windows、またはLinux)用のインストーラーをダウンロードしてください。インストーラーを実行します。

ステップ2:ターミナル経由でモデルをプルする
コマンドプロンプトまたはターミナルアプリケーションを開きます。以下の適切なコマンドを使用して、目的のモデルをダウンロードしてください。インターネットの速度によっては時間がかかる場合があります。

ステップ3:対話のためにモデルを実行する
ダウンロードが完了したら、ターミナルから直接モデルとチャットを開始できます:

コマンドを実行すると、質問を入力できるプロンプト(>>>Send a message...など)が表示されます。

ステップ4:推奨されるプロンプト構造を使用する(重要!)
これらのモデルは、特定のシステムプロンプトと構造によってガイドされると最高のパフォーマンスを発揮します。

対話する際(特に複雑なタスクの場合)は、入力を次のように構成してください:

推奨されるシステムプロンプト:

Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:

*(基本的なollama runコマンドではシステムプロンプトを簡単に追加できませんが、出力の解釈時や、システムプロンプトを明示的に設定できるOllamaのAPI/ライブラリを使用する際には、この構造に留意してください。)*

ハードウェアに関する考慮事項: 14BモデルにはかなりのRAM/VRAMが必要であることを忘れないでください。デフォルトの量子化バージョン(約11GB)は役立ちますが、Ollamaのリソース要件を確認してください。

OpenRouterを使用して無料API経由でPhi-4-reasoningにアクセスする(ステップバイステップ)

ローカルハードウェアの制約なしにクラウドベースでアクセスしたり、アプリケーションに統合したりする場合、OpenRouterはPhi-4-reasoningの無料APIティアを提供しています。

使用方法は以下の通りです:

ステップ1:OpenRouter APIキーを取得する

ステップ2:OpenAI Pythonライブラリをインストールする
まだ持っていない場合は、pipを使用してライブラリをインストールしてください:
pip install openai

ステップ3:テストのためにApidogをセットアップする

堅牢なAPIテストプラットフォームであるApidogは、Phi-4-reasoning APIとの対話を簡素化します。その直感的なインターフェースにより、リクエストの送信、レスポンスの表示、問題のデバッグを効率的に行えます。設定するには以下の手順に従ってください。

button

まず、Apidogをダウンロードし、システムにインストールします。アプリケーションを起動し、新しいプロジェクトを作成します。

このプロジェクト内で、新しいリクエストを追加します。メソッドをPOSTに設定し、OpenRouterのエンドポイントを入力します:https://openrouter.ai/api/v1/chat/completions

次に、ヘッダーを設定します。値Bearer YOUR_API_KEYを持つ「Authorization」ヘッダーを追加し、YOUR_API_KEYをOpenRouterからのキーに置き換えます。これにより、リクエストが認証されます。次に、ボディタブに切り替え、JSON形式を選択し、リクエストペイロードを作成します。microsoft/phi-4-reasoning:freeの例を以下に示します:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Apidogで「Send」をクリックしてリクエストを実行します。レスポンスペインには、モデルの出力が表示され、通常、生成されたテキストやトークン使用量などのメタデータが含まれます。リクエストの保存やコレクションへの整理といったApidogの機能は、ワークフローを強化します。このセットアップにより、Qwen 3モデルの機能を探索できるようになります。

結論

Phi-4-reasoningとPhi-4-reasoning-plusは、小規模言語モデルの能力における重要な進歩を示しています。高品質な推論データに焦点を当て、SFTやRLのような洗練されたファインチューニング技術を採用することで、Microsoftは、膨大なパラメータ数に頼ることなく、驚異的な推論パフォーマンスが達成可能であることを実証しました。ローカルでの使用のためのOllamaや、無料APIアクセスのためのOpenRouterのようなプラットフォームを通じて利用可能であることは、強力な推論ツールへのアクセスを民主化します。SLMの開発が続くにつれて、Phi-4 reasoningファミリーは、効率的で集中的なAIの力の証として際立っています。

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる