Hướng Dẫn Chạy Phi-4 Suy Luận (API Miễn Phí, Chạy Nội Bộ với Ollama)

Lĩnh vực Trí tuệ Nhân tạo đang phát triển nhanh chóng, với các mô hình ngôn ngữ lớn (LLM) thường chiếm vị trí trung tâm. Tuy nhiên, một cuộc cách mạng song song đang diễn ra trong lĩnh vực **Mô hình Ngôn ngữ Nhỏ (SLM)**. Microsoft Research là một nhân tố chủ chốt trong không gian này, đặc biệt với dòng Phi của họ. Dựa trên thành công của các mô hình như Phi-3, Microsoft gần đây đã công bố hai "ngôi sao" mới: **Phi-4-reasoning** và **Phi-4-reasoning-plus**. Những mô hình này đại diện cho một bước tiến đáng kể, chứng minh rằng các mô hình nhỏ hơn, hiệu quả hơn có thể cạnh tranh với các đối thủ lớn hơn trong các nhiệm vụ suy luận phức tạp.

💡

Muốn một công cụ kiểm thử API tuyệt vời tạo ra Tài liệu API đẹp mắt?

Muốn một nền tảng tích hợp, All-in-One cho nhóm phát triển của bạn làm việc cùng nhau với năng suất tối đa?

Apidog đáp ứng mọi yêu cầu của bạn và thay thế Postman với mức giá phải chăng hơn nhiều!

button

Phi-4 Giờ Đã Có Các Mô Hình Suy Luận

Hành trình bắt đầu với Phi-4, một mô hình Transformer chỉ có bộ giải mã (decoder-only) dày đặc với 14 tỷ tham số. Mặc dù đã có khả năng, Microsoft vẫn tìm cách truyền cho nó khả năng suy luận mạnh mẽ hơn, đặc biệt trong các lĩnh vực toán học, khoa học và lập trình. Điều này dẫn đến sự phát triển của Phi-4-reasoning và biến thể nâng cao của nó, Phi-4-reasoning-plus.

Cả hai mô hình đều chia sẻ kiến trúc Phi-4 nhưng trải qua quá trình huấn luyện sau (post-training) chuyên biệt tập trung vào suy luận. Điểm khác biệt chính nằm ở phương pháp huấn luyện:

Phi-4-reasoning: Mô hình này được tạo ra bằng cách **tinh chỉnh có giám sát (SFT)** Phi-4 trên một tập dữ liệu được tuyển chọn tỉ mỉ. Tập dữ liệu này kết hợp dữ liệu công khai chất lượng cao đã được lọc với các lời nhắc tổng hợp (synthetic prompts), tập trung đặc biệt vào các dấu vết **chuỗi suy nghĩ (CoT)**. Suy luận CoT bao gồm việc phân tách các vấn đề phức tạp thành các bước trung gian, mô phỏng quá trình suy nghĩ giống con người hơn. Tập dữ liệu SFT cũng kết hợp dữ liệu căn chỉnh (alignment data) để đảm bảo an toàn và thực hành AI có trách nhiệm. Microsoft đã tận dụng các minh chứng suy luận từ o3-mini của OpenAI như một phần của dữ liệu được tuyển chọn này.
Phi-4-reasoning-plus: Mô hình này đưa Phi-4-reasoning tiến thêm một bước bằng cách kết hợp **Học tăng cường (RL)**. Giai đoạn RL cho phép mô hình học cách sử dụng nhiều tài nguyên tính toán hơn trong quá trình suy luận (inference-time compute), tạo ra các chuỗi suy luận chi tiết hơn và thường dài hơn (khoảng 1,5 lần số token so với Phi-4-reasoning cơ bản). Nỗ lực tính toán bổ sung này trực tiếp chuyển thành độ chính xác cao hơn trên các nhiệm vụ phức tạp, mặc dù có thể làm tăng độ trễ.

Cả hai mô hình đều tự hào có **độ dài ngữ cảnh 32k token**, cho phép chúng xử lý các lời nhắc phức tạp và tạo ra các quy trình suy luận mở rộng. Điều thú vị là thẻ mô hình (model card) cho Phi-4-reasoning-plus ghi nhận kết quả đầy hứa hẹn khi mở rộng cửa sổ ngữ cảnh lên 64k token trong các thử nghiệm, duy trì tính mạch lạc trên các chuỗi dài hơn.

Điểm Chuẩn của Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini

Thước đo thực sự của các mô hình này nằm ở hiệu suất của chúng. Microsoft đã đánh giá chúng dựa trên một bộ các điểm chuẩn đầy thách thức, đặc biệt là những điểm tập trung vào suy luận:

Suy luận Toán học: AIME (American Invitational Mathematics Examination) vòng loại từ 2022-2025, OmniMath (một bộ sưu tập hơn 4000 bài toán cấp độ olympiad).
Suy luận Khoa học: GPQA-Diamond (các câu hỏi khoa học cấp độ sau đại học).
Giải quyết Vấn đề Lập trình & Thuật toán: LiveCodeBench (các bài toán thi lập trình cạnh tranh), 3SAT (Satisfiability), TSP (Traveling Salesman Problem).
Lập kế hoạch & Hiểu biết Không gian: BA Calendar, Maze, SpatialMap.

Kết quả, như được trình bày trong các báo cáo kỹ thuật và thẻ mô hình, rất ấn tượng:

Model	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(Dữ liệu bảng được lấy từ thẻ mô hình trên Hugging Face & nhập liệu của người dùng)

Những điểm chính rút ra từ các điểm chuẩn:

Vượt trội hơn các Mô hình Lớn hơn: Cả hai mô hình Phi-4-reasoning đều vượt trội đáng kể so với các mô hình mã nguồn mở lớn hơn nhiều như DeepSeek-R1-Distill-70B (lớn hơn 5 lần) trên nhiều điểm chuẩn suy luận.
Cạnh tranh với các 'Ông lớn': Chúng tiếp cận hoặc thậm chí vượt qua hiệu suất của các mô hình như DeepSeek-R1 đầy đủ (một mô hình MoE 671B) và o1-mini cùng o1 của OpenAI trên các nhiệm vụ cụ thể (ví dụ: AIME 25).
Lợi thế của Reasoning-Plus: Phi-4-reasoning-plus liên tục đạt điểm cao hơn Phi-4-reasoning trên tất cả các lĩnh vực, xác nhận hiệu quả của việc huấn luyện RL bổ sung để tăng độ chính xác.
Khả năng Tổng quát: Mặc dù được huấn luyện cho suy luận, các mô hình cũng cho thấy sự cải thiện đáng kể so với Phi-4 cơ bản trên các điểm chuẩn tổng quát như tuân thủ hướng dẫn (IFEval), lập trình (HumanEvalPlus), và thậm chí cả an toàn (ToxiGen), cho thấy khả năng khái quát hóa mạnh mẽ.

Những kết quả này nhấn mạnh luận điểm trung tâm của Microsoft: dữ liệu chất lượng cao, tập trung vào suy luận và tinh chỉnh có mục tiêu có thể cho phép các mô hình nhỏ hơn đạt được khả năng suy luận đáng chú ý mà trước đây được cho là chỉ dành riêng cho các mô hình khổng lồ.

Chạy Phi-4-reasoning Cục bộ với Ollama (Hướng dẫn từng bước)

Một trong những lợi thế lớn của SLM là tiềm năng thực thi cục bộ. Ollama, một nền tảng phổ biến để chạy LLM cục bộ, cung cấp hỗ trợ sẵn có (out-of-the-box) cho dòng Phi-4 reasoning.

Làm theo các bước sau để chạy chúng trên máy tính của bạn:

Bước 1: Cài đặt Ollama
Nếu bạn chưa cài đặt, hãy truy cập ollama.com và tải xuống trình cài đặt cho hệ điều hành của bạn (macOS, Windows hoặc Linux). Chạy trình cài đặt.

Bước 2: Tải Mô hình qua Terminal
Mở ứng dụng dấu nhắc lệnh (command prompt) hoặc terminal của bạn. Sử dụng lệnh thích hợp dưới đây để tải xuống mô hình mong muốn. Việc này có thể mất một chút thời gian tùy thuộc vào tốc độ internet của bạn.

Để tải xuống **Phi-4-reasoning**:
ollama pull phi4-reasoning
Để tải xuống **Phi-4-reasoning-plus**:
ollama pull phi4-reasoning:plus
*(Lưu ý: Biến thể plus được chỉ định bằng cách sử dụng một thẻ (tag) sau dấu hai chấm.)*

Bước 3: Chạy Mô hình để Tương tác
Sau khi quá trình tải xuống hoàn tất, bạn có thể bắt đầu trò chuyện với mô hình trực tiếp từ terminal của mình:

Để chạy **Phi-4-reasoning**:
ollama run phi4-reasoning
Để chạy **Phi-4-reasoning-plus**:
ollama run phi4-reasoning:plus

Sau khi chạy lệnh, bạn sẽ thấy một dấu nhắc (như >>> hoặc Send a message...) nơi bạn có thể nhập câu hỏi của mình.

Bước 4: Sử dụng Cấu trúc Lời nhắc Được Khuyến nghị (Quan trọng!)
Các mô hình này hoạt động tốt nhất khi được hướng dẫn bởi một lời nhắc hệ thống và cấu trúc cụ thể. Khi tương tác (đặc biệt đối với các nhiệm vụ phức tạp), hãy cấu trúc đầu vào của bạn như sau:

Bắt đầu với Lời nhắc Hệ thống: Trước câu hỏi thực tế của bạn, hãy cung cấp lời nhắc hệ thống cho mô hình biết cách suy luận.
Sử dụng Định dạng ChatML: Mặc dù lệnh run của Ollama đơn giản hóa điều này, bên trong mô hình mong đợi các thẻ <|im_start|>system, <|im_start|>user, <|im_start|>assistant.
Mong đợi <think> và <solution>: Mô hình được huấn luyện để xuất ra quá trình suy luận của nó trong các thẻ <think>...</think> và câu trả lời cuối cùng trong các thẻ <solution>...</solution>.

Lời nhắc Hệ thống Được Khuyến nghị:

Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:

*(Mặc dù bạn không thể dễ dàng thêm tiền tố lời nhắc hệ thống trong lệnh ollama run cơ bản, hãy lưu ý cấu trúc này khi diễn giải kết quả đầu ra hoặc sử dụng API/thư viện của Ollama nơi bạn có thể đặt lời nhắc hệ thống một cách rõ ràng.)*

Cân nhắc Phần cứng: Hãy nhớ rằng các mô hình 14B cần lượng RAM/VRAM đáng kể. Các phiên bản lượng tử hóa mặc định (~11GB) giúp ích, nhưng hãy kiểm tra yêu cầu tài nguyên của Ollama.

Truy cập Phi-4-reasoning qua API Miễn phí sử dụng OpenRouter (Hướng dẫn từng bước)

Để truy cập dựa trên đám mây hoặc tích hợp vào các ứng dụng mà không bị hạn chế về phần cứng cục bộ, OpenRouter cung cấp tầng API miễn phí cho Phi-4-reasoning.

Dưới đây là cách sử dụng:

Bước 1: Lấy Khóa API của OpenRouter

Truy cập openrouter.ai.
Đăng ký hoặc đăng nhập.
Điều hướng đến phần cài đặt/khóa API của bạn và tạo khóa API mới. Sao chép nó một cách an toàn.

Bước 2: Cài đặt Thư viện OpenAI cho Python
Nếu bạn chưa có, hãy cài đặt thư viện bằng pip:
pip install openai

Bước 3. Thiết lập Apidog để Kiểm thử

Apidog, một nền tảng kiểm thử API mạnh mẽ, đơn giản hóa việc tương tác với các API của Phi-4-reasoning. Giao diện trực quan của nó cho phép bạn gửi yêu cầu, xem phản hồi và gỡ lỗi hiệu quả. Làm theo các bước sau để cấu hình nó.

button

Bắt đầu bằng cách tải xuống Apidog và cài đặt nó trên hệ thống của bạn. Khởi chạy ứng dụng và tạo một dự án mới.

Bên trong dự án này, hãy thêm một yêu cầu mới. Đặt phương thức là POST và nhập điểm cuối (endpoint) của OpenRouter: https://openrouter.ai/api/v1/chat/completions.

Tiếp theo, cấu hình các tiêu đề (headers). Thêm tiêu đề “Authorization” với giá trị Bearer YOUR_API_KEY, thay thế YOUR_API_KEY bằng khóa từ OpenRouter. Điều này xác thực yêu cầu của bạn. Sau đó, chuyển sang tab body, chọn định dạng JSON và tạo tải trọng yêu cầu (request payload) của bạn. Dưới đây là một ví dụ cho microsoft/phi-4-reasoning:free:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Nhấp vào “Send” trong Apidog để thực thi yêu cầu. Khung phản hồi (response pane) sẽ hiển thị kết quả đầu ra của mô hình, thường bao gồm văn bản được tạo và siêu dữ liệu (metadata) như mức sử dụng token. Các tính năng của Apidog, chẳng hạn như lưu yêu cầu hoặc tổ chức chúng thành các bộ sưu tập, nâng cao quy trình làm việc của bạn. Với thiết lập này, giờ đây bạn có thể khám phá khả năng của các mô hình Phi-4 reasoning.

Kết luận

Phi-4-reasoning và Phi-4-reasoning-plus đánh dấu một bước tiến đáng kể về khả năng của các mô hình ngôn ngữ nhỏ. Bằng cách tập trung vào dữ liệu suy luận chất lượng cao và áp dụng các kỹ thuật tinh chỉnh tinh vi như SFT và RL, Microsoft đã chứng minh rằng hiệu suất suy luận đáng chú ý có thể đạt được mà không cần đến số lượng tham số khổng lồ. Việc chúng có sẵn thông qua các nền tảng như Ollama để sử dụng cục bộ và OpenRouter để truy cập API miễn phí giúp dân chủ hóa việc tiếp cận các công cụ suy luận mạnh mẽ. Khi sự phát triển của SLM tiếp tục, dòng Phi-4 reasoning nổi bật như một minh chứng cho sức mạnh của AI hiệu quả, tập trung.