Phi-4 추론 실행 방법 (무료 API, Ollama 로컬 사용)

인공지능 분야는 빠르게 발전하고 있으며, 대규모 언어 모델(LLM)이 종종 중심 무대에 서고 있습니다. 하지만, 소규모 언어 모델(SLM) 분야에서도 병행적인 혁명이 일어나고 있습니다. 마이크로소프트 리서치는 Phi 시리즈로 이 분야의 핵심 주체였습니다. Phi-3와 같은 모델의 성공을 바탕으로, 마이크로소프트는 최근 두 개의 새로운 강력한 모델인 Phi-4-reasoning과 Phi-4-reasoning-plus를 공개했습니다. 이 모델들은 상당한 발전을 보여주며, 더 작고 효율적인 모델이 복잡한 추론 작업에서 더 큰 모델들과 경쟁할 수 있음을 입증합니다.

💡

Want a great API Testing tool that generates beautiful API Documentation?

Want an integrated, All-in-One platform for your Developer Team to work together with maximum productivity?

Apidog delivers all your demans, and replaces Postman at a much more affordable price!

button

Phi-4에 이제 추론 모델이 추가되었습니다

이 여정은 140억 개의 매개변수를 가진 밀집형 디코더 전용 트랜스포머 모델인 Phi-4로 시작되었습니다. 이미 유능했지만, 마이크로소프트는 특히 수학, 과학, 코딩 분야에서 더 강력한 추론 능력을 부여하고자 했습니다. 이는 Phi-4-reasoning과 그 향상된 변형인 Phi-4-reasoning-plus의 개발로 이어졌습니다.

두 모델 모두 Phi-4 아키텍처를 공유하지만, 추론에 특화된 전문적인 후처리 학습을 거칩니다. 핵심적인 차이점은 학습 방법론에 있습니다:

Phi-4-reasoning: 이 모델은 세심하게 선별된 데이터셋에 대해 Phi-4를 지도 미세 조정(SFT)하여 생성되었습니다. 이 데이터셋은 고품질의 필터링된 공개 데이터와 합성 프롬프트를 혼합하며, 특히 사고의 사슬(CoT) 추적에 중점을 둡니다. CoT 추론은 복잡한 문제를 중간 단계로 분해하여 보다 인간적인 사고 과정을 모방하는 것을 포함합니다. SFT 데이터셋은 또한 안전 및 책임 있는 AI 관행을 보장하기 위한 정렬 데이터를 통합합니다. 마이크로소프트는 이 선별된 데이터의 일부로 OpenAI의 o3-mini에서 얻은 추론 데모를 활용했습니다.
Phi-4-reasoning-plus: 이 모델은 강화 학습(RL)을 통합하여 Phi-4-reasoning을 한 단계 더 발전시킵니다. RL 단계는 모델이 추론 시 더 많은 연산 자원을 활용하여 더 상세하고 종종 더 긴 추론 사슬(기본 Phi-4-reasoning보다 약 1.5배 더 많은 토큰)을 생성하도록 학습하게 합니다. 이러한 추가적인 연산 노력은 복잡한 작업에서 더 높은 정확도로 직접 이어지지만, 잠재적으로 지연 시간이 증가할 수 있습니다.

두 모델 모두 32k 토큰 컨텍스트 길이를 자랑하며, 복잡한 프롬프트를 처리하고 광범위한 추론 과정을 생성할 수 있습니다. 흥미롭게도, Phi-4-reasoning-plus의 모델 카드는 실험 중 컨텍스트 창을 64k 토큰으로 확장했을 때 유망한 결과를 보였으며, 더 긴 시퀀스에서도 일관성을 유지했다고 언급합니다.

Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini 벤치마크

Phi-4-Reasoning & Phi-4-Reasoning-Plus 벤치마크

이 모델들의 진정한 가치는 성능에 있습니다. 마이크로소프트는 특히 추론에 초점을 맞춘 일련의 도전적인 벤치마크를 사용하여 이들을 평가했습니다:

Mathematical Reasoning: AIME(American Invitational Mathematics Examination) 2022-2025년 예선 문제, OmniMath(4000개 이상의 올림피아드 수준 문제 모음).
Scientific Reasoning: GPQA-Diamond(대학원 수준 과학 문제).
Coding & Algorithmic Problem Solving: LiveCodeBench(경쟁 코딩 대회 문제), 3SAT(만족성 문제), TSP(외판원 문제).
Planning & Spatial Understanding: BA Calendar, Maze, SpatialMap.

기술 보고서 및 모델 카드에 제시된 결과는 인상적입니다:

Model	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(표 데이터 출처: Hugging Face 모델 카드 및 사용자 입력)

벤치마크에서 얻은 주요 시사점:

Outperforming Larger Models: 두 Phi-4-reasoning 모델 모두 많은 추론 벤치마크에서 DeepSeek-R1-Distill-70B와 같은 훨씬 더 큰 오픈 웨이트 모델(5배 더 큼)을 크게 능가합니다.
Competitive with Giants: 이들은 특정 작업(예: AIME 25)에서 전체 DeepSeek-R1(671B MoE 모델) 및 OpenAI의 o1-mini 및 o1과 같은 모델의 성능에 근접하거나 심지어 능가합니다.
Reasoning-Plus Advantage: Phi-4-reasoning-plus는 전반적으로 Phi-4-reasoning보다 지속적으로 더 높은 점수를 기록하며, 정확성을 위한 추가 RL 학습의 효과를 입증합니다.
General Capabilities: 추론을 위해 학습되었지만, 이 모델들은 또한 지시 따르기(IFEval), 코딩(HumanEvalPlus), 심지어 안전성(ToxiGen)과 같은 일반 벤치마크에서도 기본 Phi-4 대비 상당한 개선을 보여 강력한 일반화 능력을 나타냅니다.

이러한 결과는 마이크로소프트의 핵심 주장을 강조합니다: 고품질의 추론 중심 데이터와 목표에 맞는 미세 조정을 통해 소규모 모델이 이전에 대규모 모델에만 국한된다고 여겨졌던 놀라운 추론 능력을 달성할 수 있습니다.

Ollama를 사용하여 Phi-4-reasoning 로컬에서 실행하기 (단계별)

SLM의 주요 장점 중 하나는 로컬 실행 가능성입니다. LLM을 로컬에서 실행하기 위한 인기 있는 플랫폼인 Ollama는 Phi-4 추론 계열에 대한 즉시 사용 가능한 지원을 제공합니다.

다음 단계를 따라 컴퓨터에서 실행하십시오:

Step 1: Install Ollama
아직 설치하지 않았다면 ollama.com으로 이동하여 운영 체제(macOS, Windows 또는 Linux)에 맞는 설치 프로그램을 다운로드하십시오. 설치 프로그램을 실행하십시오.

Step 2: Pull the Models via Terminal
명령 프롬프트 또는 터미널 애플리케이션을 엽니다. 아래의 적절한 명령어를 사용하여 원하는 모델을 다운로드하십시오. 인터넷 속도에 따라 시간이 다소 소요될 수 있습니다.

Phi-4-reasoning을 다운로드하려면:
ollama pull phi4-reasoning
Phi-4-reasoning-plus를 다운로드하려면:
ollama pull phi4-reasoning:plus
(참고: plus 변형은 콜론 뒤에 태그를 사용하여 지정됩니다.)

Step 3: Run the Model for Interaction
다운로드가 완료되면 터미널에서 모델과 직접 대화할 수 있습니다:

Phi-4-reasoning을 실행하려면:
ollama run phi4-reasoning
Phi-4-reasoning-plus를 실행하려면:
ollama run phi4-reasoning:plus

명령을 실행하면 질문을 입력할 수 있는 프롬프트(예: >>> 또는 메시지 보내기...)가 표시됩니다.

Step 4: Use the Recommended Prompt Structure (중요!)
이 모델들은 특정 시스템 프롬프트와 구조에 따라 안내될 때 최상의 성능을 발휘합니다. 상호 작용할 때(특히 복잡한 작업의 경우), 입력을 다음과 같이 구성하십시오:

시스템 프롬프트로 시작: 실제 질문 전에 모델에게 어떻게 추론해야 하는지를 알려주는 시스템 프롬프트를 제공하십시오.
ChatML 형식 사용: Ollama의 run 명령이 이를 단순화하지만, 내부적으로 모델은 <|im_start|>system, <|im_start|>user, <|im_start|>assistant 태그를 예상합니다.
<think> 및 <solution> 예상: 모델은 <think>...</think> 태그 내에 추론 과정을 출력하고 <solution>...</solution> 태그 내에 최종 답변을 출력하도록 학습되었습니다.

권장 시스템 프롬프트:

Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:

(기본 ollama run 명령에서는 시스템 프롬프트를 쉽게 접두사로 붙일 수 없지만, 출력을 해석하거나 시스템 프롬프트를 명시적으로 설정할 수 있는 Ollama의 API/라이브러리를 사용할 때 이 구조를 염두에 두십시오.)

Hardware Considerations: 14B 모델은 상당한 RAM/VRAM이 필요하다는 점을 기억하십시오. 기본 양자화 버전(~11GB)이 도움이 되지만, Ollama의 리소스 요구 사항을 확인하십시오.

OpenRouter를 사용하여 무료 API를 통해 Phi-4-reasoning에 액세스하기 (단계별)

로컬 하드웨어 제약 없이 클라우드 기반 액세스 또는 애플리케이션 통합을 위해 OpenRouter는 Phi-4-reasoning에 대한 무료 API 티어를 제공합니다.

사용 방법은 다음과 같습니다:

Step 1: Get an OpenRouter API Key

openrouter.ai로 이동하십시오.
가입하거나 로그인하십시오.
설정/API 키 섹션으로 이동하여 새 API 키를 생성하십시오. 안전하게 복사해 두십시오.

Step 2: Install the OpenAI Python Library
설치되어 있지 않다면 pip을 사용하여 라이브러리를 설치하십시오:
pip install openai

Step 3. 테스트를 위해 Apidog 설정하기

강력한 API 테스트 플랫폼인 Apidog은 Phi-4-reasoning API와의 상호 작용을 단순화합니다. 직관적인 인터페이스를 통해 요청을 보내고, 응답을 확인하며, 문제를 효율적으로 디버깅할 수 있습니다. 다음 단계를 따라 구성하십시오.

button

먼저 Apidog을 다운로드하여 시스템에 설치하십시오. 애플리케이션을 실행하고 새 프로젝트를 생성하십시오.

이 프로젝트 내에서 새 요청을 추가하십시오. 메서드를 POST로 설정하고 OpenRouter 엔드포인트: https://openrouter.ai/api/v1/chat/completions를 입력하십시오.

다음으로 헤더를 구성하십시오. "Authorization" 헤더에 값 Bearer YOUR_API_KEY를 추가하고, YOUR_API_KEY를 OpenRouter에서 받은 키로 대체하십시오. 이는 귀하의 요청을 인증합니다. 그런 다음 본문 탭으로 전환하여 JSON 형식을 선택하고 요청 페이로드를 작성하십시오. microsoft/phi-4-reasoning:free의 예시는 다음과 같습니다:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Apidog에서 "Send"를 클릭하여 요청을 실행하십시오. 응답 창에는 일반적으로 생성된 텍스트와 토큰 사용량과 같은 메타데이터를 포함한 모델의 출력이 표시됩니다. 요청 저장 또는 컬렉션으로 구성과 같은 Apidog의 기능은 작업 흐름을 향상시킵니다. 이 설정을 통해 이제 Qwen 3 모델의 기능을 탐색할 수 있습니다.

결론

Phi-4-reasoning과 Phi-4-reasoning-plus는 소규모 언어 모델 능력의 상당한 발전을 나타냅니다. 고품질 추론 데이터에 집중하고 SFT 및 RL과 같은 정교한 미세 조정 기술을 사용하여, 마이크로소프트는 방대한 매개변수 수를 사용하지 않고도 놀라운 추론 성능을 달성할 수 있음을 입증했습니다. 로컬 사용을 위한 Ollama 및 무료 API 액세스를 위한 OpenRouter와 같은 플랫폼을 통해 이들을 사용할 수 있게 됨으로써 강력한 추론 도구에 대한 접근성이 민주화되었습니다. SLM 개발이 계속됨에 따라, Phi-4 추론 계열은 효율적이고 집중된 AI의 힘을 보여주는 증거로 두드러집니다.