Bidang Kecerdasan Buatan berkembang pesat, dengan model bahasa besar (LLM) sering kali menjadi sorotan utama. Namun, revolusi paralel sedang terjadi di ranah Model Bahasa Kecil (SLM). Microsoft Research telah menjadi pemain kunci di bidang ini, terutama dengan seri Phi mereka. Berdasarkan kesuksesan model seperti Phi-3, Microsoft baru-baru ini meluncurkan dua kekuatan baru: Phi-4-reasoning dan Phi-4-reasoning-plus. Model-model ini mewakili lompatan signifikan ke depan, menunjukkan bahwa model yang lebih kecil dan lebih efisien dapat menyaingi rekan-rekan mereka yang lebih besar dalam tugas penalaran kompleks.
Ingin platform All-in-One yang terintegrasi untuk Tim Pengembang Anda bekerja sama dengan produktivitas maksimum?
Apidog memenuhi semua kebutuhan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button
Phi-4 Sekarang Memiliki Model Penalaran
Perjalanan dimulai dengan Phi-4, model Transformer padat khusus decoder dengan 14 miliar parameter. Meskipun sudah mampu, Microsoft berusaha memberinya kemampuan penalaran yang lebih kuat, terutama dalam domain matematika, sains, dan pengodean. Ini mengarah pada pengembangan Phi-4-reasoning dan varian yang ditingkatkan, Phi-4-reasoning-plus.
Kedua model berbagi arsitektur Phi-4 tetapi menjalani pelatihan pasca-spesialis yang berfokus pada penalaran. Pembeda utamanya terletak pada metodologi pelatihan:
- Phi-4-reasoning: Model ini dibuat dengan supervised fine-tuning (SFT) Phi-4 pada dataset yang dikurasi dengan cermat. Dataset ini menggabungkan data publik berkualitas tinggi yang difilter dengan prompt sintetis, berfokus secara khusus pada jejak chain-of-thought (CoT). Penalaran CoT melibatkan pemecahan masalah kompleks menjadi langkah-langkah perantara, meniru proses berpikir yang lebih mirip manusia. Dataset SFT juga menggabungkan data penyelarasan untuk memastikan keamanan dan praktik AI yang bertanggung jawab. Microsoft memanfaatkan demonstrasi penalaran dari
o3-mini
OpenAI sebagai bagian dari data yang dikurasi ini. - Phi-4-reasoning-plus: Model ini membawa Phi-4-reasoning selangkah lebih jauh dengan menggabungkan Reinforcement Learning (RL). Fase RL memungkinkan model untuk belajar memanfaatkan lebih banyak komputasi waktu inferensi, menghasilkan rantai penalaran yang lebih rinci dan seringkali lebih panjang (sekitar 1,5 kali lebih banyak token daripada Phi-4-reasoning dasar). Upaya komputasi tambahan ini langsung diterjemahkan menjadi akurasi yang lebih tinggi pada tugas-tugas kompleks, meskipun dengan potensi peningkatan latensi.
Kedua model membanggakan panjang konteks 32k token, memungkinkan mereka menangani prompt kompleks dan menghasilkan proses penalaran yang ekstensif. Menariknya, kartu model untuk Phi-4-reasoning-plus mencatat hasil yang menjanjikan saat memperluas jendela konteks hingga 64k token selama eksperimen, mempertahankan koherensi pada urutan yang lebih panjang.
Tolok Ukur Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini



Ukuran sebenarnya dari model-model ini terletak pada kinerja mereka. Microsoft mengevaluasi mereka terhadap serangkaian tolok ukur yang menantang, terutama yang berfokus pada penalaran:
- Penalaran Matematika: Kualifikasi AIME (American Invitational Mathematics Examination) dari 2022-2025, OmniMath (kumpulan lebih dari 4000 soal tingkat olimpiade).
- Penalaran Ilmiah: GPQA-Diamond (soal sains tingkat pascasarjana).
- Pengodean & Penyelesaian Masalah Algoritmik: LiveCodeBench (soal kontes pengodean kompetitif), 3SAT (Satisfiability), TSP (Traveling Salesman Problem).
- Perencanaan & Pemahaman Spasial: BA Calendar, Maze, SpatialMap.
Hasilnya, seperti yang disajikan dalam laporan teknis dan kartu model, sangat mengesankan:
Model | AIME 24 | AIME 25 | OmniMath | GPQA-D | LiveCodeBench (8/1/24–2/1/25) |
---|---|---|---|---|---|
Phi-4-reasoning | 75.3 | 62.9 | 76.6 | 65.8 | 53.8 |
Phi-4-reasoning-plus | 81.3 | 78.0 | 81.9 | 68.9 | 53.1 |
OpenThinker2-32B | 58.0 | 58.0 | — | 64.1 | — |
QwQ 32B | 79.5 | 65.8 | — | 59.5 | 63.4 |
EXAONE-Deep-32B | 72.1 | 65.8 | — | 66.1 | 59.5 |
DeepSeek-R1-Distill-70B | 69.3 | 51.5 | 63.4 | 66.2 | 57.5 |
DeepSeek-R1 | 78.7 | 70.4 | 85.0 | 73.0 | 62.8 |
o1-mini | 63.6 | 54.8 | — | 60.0 | 53.8 |
o1 | 74.6 | 75.3 | 67.5 | 76.7 | 71.0 |
o3-mini | 88.0 | 78.0 | 74.6 | 77.7 | 69.5 |
Claude-3.7-Sonnet | 55.3 | 58.7 | 54.6 | 76.8 | — |
Gemini-2.5-Pro | 92.0 | 86.7 | 61.1 | 84.0 | 69.2 |
(Data tabel bersumber dari kartu model Hugging Face & masukan pengguna)
Poin-poin penting dari tolok ukur:
- Mengungguli Model yang Lebih Besar: Kedua model Phi-4-reasoning secara signifikan mengungguli model open-weight yang jauh lebih besar seperti
DeepSeek-R1-Distill-70B
(yang 5x lebih besar) pada banyak tolok ukur penalaran. - Kompetitif dengan Raksasa: Mereka mendekati atau bahkan melampaui kinerja model seperti
DeepSeek-R1
penuh (model MoE 671B) dano1-mini
sertao1
OpenAI pada tugas-tugas spesifik (misalnya, AIME 25). - Keunggulan Reasoning-Plus:
Phi-4-reasoning-plus
secara konsisten mencetak skor lebih tinggi daripadaPhi-4-reasoning
di semua bidang, memvalidasi efektivitas pelatihan RL tambahan untuk akurasi. - Kemampuan Umum: Meskipun dilatih untuk penalaran, model-model ini juga menunjukkan peningkatan signifikan dibandingkan Phi-4 dasar pada tolok ukur umum seperti mengikuti instruksi (
IFEval
), pengodean (HumanEvalPlus
), dan bahkan keamanan (ToxiGen
), menunjukkan generalisasi yang kuat.
Hasil ini menggarisbawahi tesis utama Microsoft: data berkualitas tinggi yang berfokus pada penalaran dan fine-tuning yang ditargetkan dapat memungkinkan model yang lebih kecil mencapai kemampuan penalaran luar biasa yang sebelumnya dianggap eksklusif untuk model besar.
Menjalankan Phi-4-reasoning Secara Lokal dengan Ollama (Langkah demi Langkah)
Salah satu keuntungan utama SLM adalah potensinya untuk eksekusi lokal. Ollama, platform populer untuk menjalankan LLM secara lokal, menyediakan dukungan langsung untuk keluarga Phi-4 reasoning.
Ikuti langkah-langkah ini untuk menjalankannya di mesin Anda:
Langkah 1: Instal Ollama
Jika Anda belum melakukannya, buka ollama.com dan unduh penginstal untuk sistem operasi Anda (macOS, Windows, atau Linux). Jalankan penginstal.
Langkah 2: Tarik Model melalui Terminal
Buka command prompt atau aplikasi terminal Anda. Gunakan perintah yang sesuai di bawah ini untuk mengunduh model yang diinginkan. Ini mungkin membutuhkan waktu tergantung kecepatan internet Anda.
- Untuk mengunduh Phi-4-reasoning:
ollama pull phi4-reasoning
- Untuk mengunduh Phi-4-reasoning-plus:
ollama pull phi4-reasoning:plus
(Catatan: Varianplus
ditentukan menggunakan tag setelah titik dua.)
Langkah 3: Jalankan Model untuk Interaksi
Setelah unduhan selesai, Anda dapat mulai mengobrol dengan model langsung dari terminal Anda:
- Untuk menjalankan Phi-4-reasoning:
ollama run phi4-reasoning
- Untuk menjalankan Phi-4-reasoning-plus:
ollama run phi4-reasoning:plus
Setelah menjalankan perintah, Anda akan melihat prompt (seperti >>>
atau Send a message...
) tempat Anda dapat mengetik pertanyaan Anda.
Langkah 4: Gunakan Struktur Prompt yang Direkomendasikan (Penting!)
Model-model ini berkinerja terbaik ketika dipandu oleh prompt sistem dan struktur spesifik. Saat berinteraksi (terutama untuk tugas kompleks), strukturkan masukan Anda seperti ini:
- Mulai dengan Prompt Sistem: Sebelum pertanyaan Anda yang sebenarnya, berikan prompt sistem yang memberi tahu model cara bernalar.
- Gunakan Format ChatML: Meskipun perintah
run
Ollama menyederhanakan ini, secara internal model mengharapkan tag<|im_start|>system
,<|im_start|>user
,<|im_start|>assistant
. - Harapkan
<think>
dan<solution>
: Model dilatih untuk mengeluarkan proses penalarannya di dalam tag<think>...</think>
dan jawaban akhir di dalam tag<solution>...</solution>
.
Prompt Sistem yang Direkomendasikan:
Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:
(Meskipun Anda tidak dapat dengan mudah memberi awalan prompt sistem dalam perintah dasar ollama run
, perhatikan struktur ini saat menafsirkan keluaran atau menggunakan API/library Ollama di mana Anda dapat mengatur prompt sistem secara eksplisit.)
Pertimbangan Perangkat Keras: Ingatlah bahwa model 14B membutuhkan RAM/VRAM yang substansial. Versi terkuantisasi default (~11GB) membantu, tetapi periksa persyaratan sumber daya Ollama.
Mengakses Phi-4-reasoning melalui API Gratis menggunakan OpenRouter (Langkah demi Langkah)
Untuk akses berbasis cloud atau integrasi ke dalam aplikasi tanpa batasan perangkat keras lokal, OpenRouter menawarkan tingkatan API gratis untuk Phi-4-reasoning
.
Berikut cara menggunakannya:
Langkah 1: Dapatkan Kunci API OpenRouter
- Buka openrouter.ai.
- Daftar atau masuk.
- Navigasikan ke bagian pengaturan/kunci API Anda dan buat kunci API baru. Salin dengan aman.
Langkah 2: Instal Library Python OpenAI
Jika Anda belum memilikinya, instal library menggunakan pip:pip install openai
Langkah 3. Mengatur Apidog untuk Pengujian
Apidog, platform pengujian API yang tangguh, menyederhanakan interaksi dengan API Phi-4-reasoning. Antarmuka intuitifnya memungkinkan Anda mengirim permintaan, melihat respons, dan men-debug masalah secara efisien. Ikuti langkah-langkah ini untuk mengonfigurasinya.

button
Mulailah dengan mengunduh Apidog dan menginstalnya di sistem Anda. Luncurkan aplikasi dan buat proyek baru.

Di dalam proyek ini, tambahkan permintaan baru. Atur metode ke POST dan masukkan endpoint OpenRouter: https://openrouter.ai/api/v1/chat/completions
.

Selanjutnya, konfigurasikan header. Tambahkan header “Authorization” dengan nilai Bearer YOUR_API_KEY
, ganti YOUR_API_KEY
dengan kunci dari OpenRouter. Ini mengautentikasi permintaan Anda. Kemudian, beralih ke tab body, pilih format JSON, dan buat payload permintaan Anda. Berikut contoh untuk microsoft/phi-4-reasoning:free:
{
"model": "microsoft/phi-4-reasoning:free",
"messages": [
{"role": "user", "content": "Hello, how are you?"}
]
}
Klik “Send” di Apidog untuk menjalankan permintaan. Panel respons akan menampilkan keluaran model, biasanya mencakup teks yang dihasilkan dan metadata seperti penggunaan token. Fitur-fitur Apidog, seperti menyimpan permintaan atau mengaturnya menjadi koleksi, meningkatkan alur kerja Anda. Dengan pengaturan ini, Anda sekarang dapat menjelajahi kemampuan model Qwen 3.
Kesimpulan
Phi-4-reasoning dan Phi-4-reasoning-plus menandai kemajuan signifikan dalam kemampuan model bahasa kecil. Dengan berfokus pada data penalaran berkualitas tinggi dan menggunakan teknik fine-tuning yang canggih seperti SFT dan RL, Microsoft telah menunjukkan bahwa kinerja penalaran luar biasa dapat dicapai tanpa menggunakan jumlah parameter yang besar. Ketersediaan mereka melalui platform seperti Ollama untuk penggunaan lokal dan OpenRouter untuk akses API gratis mendemokratisasi akses ke alat penalaran yang ampuh. Seiring berlanjutnya pengembangan SLM, keluarga Phi-4 reasoning menonjol sebagai bukti kekuatan AI yang efisien dan terfokus.