Yapay Zeka alanı, genellikle büyük dil modellerinin (LLM'ler) merkezde yer almasıyla hızla gelişiyor. Ancak, Küçük Dil Modelleri (SLM'ler) alanında paralel bir devrim yaşanıyor. Microsoft Research, özellikle Phi serisiyle bu alanda önemli bir oyuncu oldu. Phi-3 gibi modellerin başarısının üzerine inşa edilen Microsoft, yakın zamanda iki yeni güç merkezi tanıttı: Phi-4-reasoning ve Phi-4-reasoning-plus. Bu modeller, daha küçük, daha verimli modellerin karmaşık muhakeme görevlerinde daha büyük rakipleriyle rekabet edebileceğini göstererek önemli bir sıçramayı temsil ediyor.
Geliştirici Ekibinizin maksimum verimlilikle birlikte çalışması için entegre, Hepsi Bir Arada bir platform mu istiyorsunuz?
Apidog tüm taleplerinizi karşılıyor ve Postman'in yerini çok daha uygun bir fiyata alıyor!
Phi-4 Artık Muhakeme Modellerine Sahip
Yolculuk, 14 milyar parametreli yoğun kod çözücüye özel bir Transformer modeli olan Phi-4 ile başladı. Zaten yetenekli olmasına rağmen, Microsoft özellikle matematik, fen bilimleri ve kodlama alanlarında daha güçlü muhakeme yetenekleri kazandırmaya çalıştı. Bu, Phi-4-reasoning ve onun geliştirilmiş varyantı olan Phi-4-reasoning-plus'ın geliştirilmesine yol açtı.
Her iki model de Phi-4 mimarisini paylaşır, ancak muhakemeye odaklanan özel bir eğitimden geçerler. Temel farklılaştırıcı, eğitim metodolojisinde yatmaktadır:
- Phi-4-reasoning: Bu model, titizlikle hazırlanmış bir veri kümesi üzerinde denetimli ince ayar (SFT) Phi-4 ile oluşturulur. Bu veri kümesi, yüksek kaliteli filtrelenmiş genel verileri, özellikle düşünce zinciri (CoT) izlerine odaklanan sentetik istemlerle birleştirir. CoT muhakemesi, karmaşık problemleri ara adımlara ayırarak daha insan benzeri bir düşünce sürecini taklit eder. SFT veri kümesi ayrıca güvenlik ve sorumlu yapay zeka uygulamalarını sağlamak için hizalama verilerini de içerir. Microsoft, bu derlenmiş verilerin bir parçası olarak OpenAI'nin
o3-mini
'sinden muhakeme göstergelerinden yararlandı. - Phi-4-reasoning-plus: Bu model, Pekiştirmeli Öğrenme (RL)'yi dahil ederek Phi-4-reasoning'i bir adım öteye taşır. RL aşaması, modelin daha fazla çıkarım zamanı hesaplaması kullanmayı öğrenmesini sağlayarak, daha ayrıntılı ve genellikle daha uzun muhakeme zincirleri (temel Phi-4-reasoning'den yaklaşık 1,5 kat daha fazla belirteç) oluşturur. Bu ek hesaplama çabası, potansiyel bir gecikme artışıyla birlikte, karmaşık görevlerde doğrudan daha yüksek doğruluğa dönüşür.
Her iki model de 32k belirteç bağlam uzunluğuna sahiptir ve karmaşık istemleri işleyebilmelerini ve kapsamlı muhakeme süreçleri oluşturabilmelerini sağlar. İlginç bir şekilde, Phi-4-reasoning-plus için model kartı, deneyler sırasında bağlam penceresini 64k belirtece uzatırken, daha uzun dizilerde tutarlılığı koruyarak umut verici sonuçlar kaydettiğini belirtiyor.
Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini Karşılaştırmaları



Bu modellerin gerçek ölçüsü, performanslarında yatmaktadır. Microsoft, bunları, özellikle muhakemeye odaklanan bir dizi zorlu karşılaştırmaya karşı değerlendirdi:
- Matematiksel Muhakeme: 2022-2025'ten AIME (American Invitational Mathematics Examination) elemeleri, OmniMath (4000'den fazla olimpiyat seviyesinde problem koleksiyonu).
- Bilimsel Muhakeme: GPQA-Diamond (lisansüstü seviyesinde bilim soruları).
- Kodlama ve Algoritmik Problem Çözme: LiveCodeBench (rekabetçi kodlama yarışması problemleri), 3SAT (Satisfiability), TSP (Gezgin Satıcı Problemi).
- Planlama ve Mekansal Anlama: BA Takvimi, Labirent, SpatialMap.
Teknik raporlarda ve model kartlarında sunulan sonuçlar etkileyici:
Model | AIME 24 | AIME 25 | OmniMath | GPQA-D | LiveCodeBench (8/1/24–2/1/25) |
---|---|---|---|---|---|
Phi-4-reasoning | 75.3 | 62.9 | 76.6 | 65.8 | 53.8 |
Phi-4-reasoning-plus | 81.3 | 78.0 | 81.9 | 68.9 | 53.1 |
OpenThinker2-32B | 58.0 | 58.0 | — | 64.1 | — |
QwQ 32B | 79.5 | 65.8 | — | 59.5 | 63.4 |
EXAONE-Deep-32B | 72.1 | 65.8 | — | 66.1 | 59.5 |
DeepSeek-R1-Distill-70B | 69.3 | 51.5 | 63.4 | 66.2 | 57.5 |
DeepSeek-R1 | 78.7 | 70.4 | 85.0 | 73.0 | 62.8 |
o1-mini | 63.6 | 54.8 | — | 60.0 | 53.8 |
o1 | 74.6 | 75.3 | 67.5 | 76.7 | 71.0 |
o3-mini | 88.0 | 78.0 | 74.6 | 77.7 | 69.5 |
Claude-3.7-Sonnet | 55.3 | 58.7 | 54.6 | 76.8 | — |
Gemini-2.5-Pro | 92.0 | 86.7 | 61.1 | 84.0 | 69.2 |
(Tablo verileri Hugging Face model kartlarından ve kullanıcı girdilerinden alınmıştır)
Karşılaştırmalardan çıkarılan önemli sonuçlar:
- Daha Büyük Modellerden Daha İyi Performans: Her iki Phi-4-reasoning modeli de, birçok muhakeme karşılaştırmasında
DeepSeek-R1-Distill-70B
(5 kat daha büyük olan) gibi çok daha büyük açık ağırlıklı modellerden önemli ölçüde daha iyi performans gösterir. - Devlerle Rekabet: Belirli görevlerde (örneğin, AIME 25) tam
DeepSeek-R1
(671B MoE modeli) ve OpenAI'nino1-mini
veo1
gibi modellerin performansına yaklaşır, hatta onları aşar. - Reasoning-Plus Avantajı:
Phi-4-reasoning-plus
, doğruluğu için ek RL eğitiminin etkinliğini doğrulayarak, genel olarakPhi-4-reasoning
'den sürekli olarak daha yüksek puanlar alır. - Genel Yetenekler: Muhakeme için eğitilmiş olsalar da, modeller ayrıca talimat takibi (
IFEval
), kodlama (HumanEvalPlus
) ve hatta güvenlik (ToxiGen
) gibi genel karşılaştırmalarda temel Phi-4'e göre önemli iyileştirmeler göstererek güçlü bir genelleme olduğunu gösterir.
Bu sonuçlar, Microsoft'un temel tezini vurgulamaktadır: yüksek kaliteli, muhakemeye odaklı veriler ve hedeflenmiş ince ayar, daha küçük modellerin daha önce devasa modellere özel olduğu düşünülen olağanüstü muhakeme yeteneklerine ulaşmasını sağlayabilir.
Phi-4-reasoning'i Yerel Olarak Ollama ile Çalıştırma (Adım Adım)
SLM'lerin en büyük avantajlarından biri, yerel yürütme potansiyelleridir. LLM'leri yerel olarak çalıştırmak için popüler bir platform olan Ollama, Phi-4 muhakeme ailesi için kullanıma hazır destek sağlar.
Bunları makinenizde çalıştırmak için şu adımları izleyin:
Adım 1: Ollama'yı Yükleyin
Henüz yapmadıysanız, ollama.com adresine gidin ve işletim sisteminiz (macOS, Windows veya Linux) için yükleyiciyi indirin. Yükleyiciyi çalıştırın.
Adım 2: Modelleri Terminal Aracılığıyla Çekin
Komut isteminizi veya terminal uygulamanızı açın. İstediğiniz modeli indirmek için aşağıdaki uygun komutu kullanın. Bu, internet hızınıza bağlı olarak biraz zaman alabilir.
- Phi-4-reasoning indirmek için:
ollama pull phi4-reasoning
- Phi-4-reasoning-plus indirmek için:
ollama pull phi4-reasoning:plus
(Not:plus
varyantı, iki nokta üst üste işaretinden sonra bir etiket kullanılarak belirtilir.)
Adım 3: Etkileşim için Modeli Çalıştırın
İndirme tamamlandıktan sonra, modelle doğrudan terminalinizden sohbet etmeye başlayabilirsiniz:
- Phi-4-reasoning çalıştırmak için:
ollama run phi4-reasoning
- Phi-4-reasoning-plus çalıştırmak için:
ollama run phi4-reasoning:plus
Komutu çalıştırdıktan sonra, sorularınızı yazabileceğiniz bir istem (>>>
veya Send a message...
gibi) göreceksiniz.
Adım 4: Önerilen İstek Yapısını Kullanın (Çok Önemli!)
Bu modeller, belirli bir sistem istemi ve yapısı tarafından yönlendirildiğinde en iyi performansı gösterir. (özellikle karmaşık görevler için) etkileşimde bulunurken, girdinizi şu şekilde yapılandırın:
- Sistem İstemiyle Başlayın: Asıl sorunuzdan önce, modele nasıl muhakeme edeceğini söyleyen sistem istemini sağlayın.
- ChatML Formatını Kullanın: Ollama'nın
run
komutu bunu basitleştirse de, model dahili olarak<|im_start|>system
,<|im_start|>user
,<|im_start|>assistant
etiketlerini bekler. <think>
ve<solution>
bekleyin: Model, muhakeme sürecini<think>...</think>
etiketleri içinde ve nihai cevabı<solution>...</solution>
etiketleri içinde çıkarmak üzere eğitilmiştir.
Önerilen Sistem İstemi:
Bir asistan olarak rolünüz, nihai kesin ve doğru çözümleri sunmadan önce soruları sistematik bir düşünme süreciyle kapsamlı bir şekilde incelemeyi içerir. Bu, iyi düşünülmüş bir düşünme süreci geliştirmek için kapsamlı bir analiz, özetleme, keşif, yeniden değerlendirme, yansıma, geriye izleme ve yineleme döngüsüne girmeyi gerektirir. Lütfen yanıtınızı iki ana bölüme ayırın: Düşünce ve Çözüm, belirtilen formatı kullanarak: <think> {Düşünce bölümü} </think> {Çözüm bölümü}. Düşünce bölümünde, muhakeme sürecinizi adımlarla ayrıntılandırın. Her adım, soruları analiz etme, ilgili bulguları özetleme, yeni fikirler üretme, mevcut adımların doğruluğunu doğrulama, hataları düzeltme ve önceki adımları yeniden ziyaret etme gibi ayrıntılı hususları içermelidir. Çözüm bölümünde, Düşünce bölümünden elde edilen çeşitli denemeler, keşifler ve yansımalara dayanarak, doğru bulduğunuz nihai çözümü sistematik olarak sunun. Çözüm bölümü mantıksal, doğru ve öz olmalı ve sonuca ulaşmak için gerekli adımları ayrıntılandırmalıdır. Şimdi, yukarıdaki yönergeler aracılığıyla aşağıdaki sorunu çözmeye çalışın:
(Temel ollama run
komutunda sistem istemini kolayca önekleyemeseniz de, çıktıları yorumlarken veya sistem istemlerini açıkça ayarlayabileceğiniz Ollama'nın API'lerini/kütüphanelerini kullanırken bu yapının farkında olun.)
Donanım Hususları: 14B modellerin önemli miktarda RAM/VRAM'e ihtiyacı olduğunu unutmayın. Varsayılan nicelenmiş sürümler (~11GB) yardımcı olur, ancak Ollama'nın kaynak gereksinimlerini kontrol edin.
OpenRouter'ı Kullanarak Ücretsiz API ile Phi-4-reasoning'e Erişim (Adım Adım)
Yerel donanım kısıtlamaları olmadan bulut tabanlı erişim veya uygulamalara entegrasyon için OpenRouter, Phi-4-reasoning
için ücretsiz bir API katmanı sunar.
İşte nasıl kullanılacağı:
Adım 1: Bir OpenRouter API Anahtarı Alın
- openrouter.ai adresine gidin.
- Kaydolun veya oturum açın.
- Ayarlar/API anahtarları bölümüne gidin ve yeni bir API anahtarı oluşturun. Güvenli bir şekilde kopyalayın.
Adım 2: OpenAI Python Kütüphanesini Yükleyin
Yoksa, kütüphaneyi pip kullanarak yükleyin:pip install openai
Adım 3. Test için Apidog'u Kurma
Sağlam bir API test platformu olan Apidog, Phi-4-reasoning API'leriyle etkileşimi basitleştirir. Sezgisel arayüzü, istek göndermenize, yanıtları görüntülemenize ve sorunları verimli bir şekilde gidermenize olanak tanır. Bunu yapılandırmak için şu adımları izleyin.

Apidog'u indirip sisteminize yükleyerek başlayın. Uygulamayı başlatın ve yeni bir proje oluşturun.

Bu projenin içinde, yeni bir istek ekleyin. Yöntemi POST olarak ayarlayın ve OpenRouter uç noktasını girin: https://openrouter.ai/api/v1/chat/completions
.

Ardından, başlıkları yapılandırın. Bearer YOUR_API_KEY
değerine sahip bir "Yetkilendirme" başlığı ekleyin, YOUR_API_KEY
'yi OpenRouter'dan gelen anahtarla değiştirin. Bu, isteğinizi doğrular. Ardından, gövde sekmesine geçin, JSON formatını seçin ve istek yükünüzü oluşturun. İşte microsoft/phi-4-reasoning:free için bir örnek:
{
"model": "microsoft/phi-4-reasoning:free",
"messages": [
{"role": "user", "content": "Merhaba, nasılsın?"}
]
}
İsteği yürütmek için Apidog'da "Gönder"e tıklayın. Yanıt bölmesi, modelin çıktısını, genellikle oluşturulan metin ve belirteç kullanımı gibi meta verileri görüntüler. Apidog'un istekleri kaydetme veya bunları koleksiyonlar halinde düzenleme gibi özellikleri, iş akışınızı geliştirir. Bu kurulumla, artık Qwen 3 modellerinin yeteneklerini keşfedebilirsiniz.
Sonuç
Phi-4-reasoning ve Phi-4-reasoning-plus, küçük dil modellerinin yeteneklerinde önemli bir ilerlemeyi işaret ediyor. Microsoft, yüksek kaliteli muhakeme verilerine odaklanarak ve SFT ve RL gibi gelişmiş ince ayar tekniklerini kullanarak, büyük parametre sayılarına başvurmadan dikkate değer muhakeme performansının elde edilebilir olduğunu göstermiştir. Ollama gibi platformlar aracılığıyla yerel kullanım ve ücretsiz API erişimi için OpenRouter aracılığıyla kullanılabilirlikleri, güçlü muhakeme araçlarına erişimi demokratikleştirir. SLM'lerin geliştirilmeye devam etmesiyle, Phi-4 muhakeme ailesi, verimli, odaklanmış yapay zekanın gücünün bir kanıtı olarak öne çıkıyor.