Como Executar Raciocínio Phi-4: API Gratuita e Local com Ollama

O campo da Inteligência Artificial está evoluindo rapidamente, com modelos de linguagem grandes (LLMs) frequentemente ocupando o centro do palco. No entanto, uma revolução paralela está acontecendo no domínio dos Modelos de Linguagem Pequenos (SLMs). A Microsoft Research tem sido um player chave neste espaço, notavelmente com sua série Phi. Com base no sucesso de modelos como o Phi-3, a Microsoft revelou recentemente duas novas potências: Phi-4-reasoning e Phi-4-reasoning-plus. Esses modelos representam um salto significativo, demonstrando que modelos menores e mais eficientes podem rivalizar com seus equivalentes maiores em tarefas de raciocínio complexas.

💡

Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, Tudo-em-Um para sua Equipe de Desenvolvedores trabalhar em conjunto com produtividade máxima?

Apidog entrega todas as suas demandas, e substitui o Postman a um preço muito mais acessível!

botão

O Phi-4 Agora Tem Modelos de Raciocínio

A jornada começou com o Phi-4, um modelo Transformer denso de 14 bilhões de parâmetros, apenas decodificador. Embora já fosse capaz, a Microsoft buscou dotá-lo de habilidades de raciocínio mais fortes, particularmente nos domínios de matemática, ciência e codificação. Isso levou ao desenvolvimento do Phi-4-reasoning e de sua variante aprimorada, o Phi-4-reasoning-plus.

Ambos os modelos compartilham a arquitetura Phi-4, mas passam por um pós-treinamento especializado focado em raciocínio. O principal diferencial reside na metodologia de treinamento:

Phi-4-reasoning: Este modelo é criado por ajuste fino supervisionado (SFT) do Phi-4 em um conjunto de dados meticulosamente curado. Este conjunto de dados combina dados públicos filtrados de alta qualidade com prompts sintéticos, focando especificamente em rastros de cadeia de pensamento (CoT). O raciocínio CoT envolve quebrar problemas complexos em etapas intermediárias, imitando um processo de pensamento mais parecido com o humano. O conjunto de dados SFT também incorpora dados de alinhamento para garantir segurança e práticas de IA responsáveis. A Microsoft utilizou demonstrações de raciocínio do o3-mini da OpenAI como parte desses dados curados.
Phi-4-reasoning-plus: Este modelo leva o Phi-4-reasoning um passo adiante, incorporando Aprendizado por Reforço (RL). A fase de RL permite que o modelo aprenda a utilizar mais computação no tempo de inferência, gerando cadeias de raciocínio mais detalhadas e frequentemente mais longas (aproximadamente 1,5 vezes mais tokens do que o Phi-4-reasoning base). Esse esforço computacional adicional se traduz diretamente em maior precisão em tarefas complexas, embora com um potencial aumento na latência.

Ambos os modelos possuem um comprimento de contexto de 32k tokens, permitindo-lhe lidar com prompts complexos e gerar processos de raciocínio extensos. Curiosamente, o cartão do modelo para o Phi-4-reasoning-plus observa resultados promissores ao estender a janela de contexto para 64k tokens durante experimentos, mantendo a coerência em sequências mais longas.

Benchmarks do Phi-4 Reasoning & Phi-4 Reasoning Plus & Phi-4-Reasoning-Mini

A verdadeira medida desses modelos reside em seu desempenho. A Microsoft os avaliou em relação a um conjunto de benchmarks desafiadores, particularmente aqueles focados em raciocínio:

Raciocínio Matemático: Classificatórios da AIME (American Invitational Mathematics Examination) de 2022-2025, OmniMath (uma coleção de mais de 4000 problemas de nível olímpico).
Raciocínio Científico: GPQA-Diamond (perguntas de ciência de nível de pós-graduação).
Codificação & Resolução de Problemas Algorítmicos: LiveCodeBench (problemas de concursos de programação competitiva), 3SAT (Satisfatibilidade), TSP (Problema do Caixeiro Viajante).
Planejamento & Compreensão Espacial: BA Calendar, Maze, SpatialMap.

Os resultados, conforme apresentados nos relatórios técnicos e cartões de modelo, são impressionantes:

Modelo	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(Dados da tabela obtidos dos cartões de modelo do Hugging Face & entrada do usuário)

Principais conclusões dos benchmarks:

Superando Modelos Maiores: Ambos os modelos Phi-4-reasoning superam significativamente modelos open-weight muito maiores, como o DeepSeek-R1-Distill-70B (que é 5x maior) em muitos benchmarks de raciocínio.
Competitivo com Gigantes: Eles se aproximam ou até superam o desempenho de modelos como o DeepSeek-R1 completo (um modelo MoE de 671B) e os modelos o1-mini e o1 da OpenAI em tarefas específicas (por exemplo, AIME 25).
Vantagem do Reasoning-Plus: O Phi-4-reasoning-plus pontua consistentemente mais alto do que o Phi-4-reasoning em todos os aspectos, validando a eficácia do treinamento adicional de RL para precisão.
Capacidades Gerais: Embora treinados para raciocínio, os modelos também mostram melhorias significativas em relação ao Phi-4 base em benchmarks gerais como seguir instruções (IFEval), codificação (HumanEvalPlus) e até mesmo segurança (ToxiGen), indicando forte generalização.

Esses resultados reforçam a tese central da Microsoft: dados de alta qualidade focados em raciocínio e ajuste fino direcionado podem permitir que modelos menores alcancem capacidades de raciocínio notáveis, anteriormente consideradas exclusivas de modelos massivos.

Executando o Phi-4-reasoning Localmente com Ollama (Passo a Passo)

Uma das principais vantagens dos SLMs é seu potencial para execução local. O Ollama, uma plataforma popular para executar LLMs localmente, oferece suporte pronto para uso para a família Phi-4 reasoning.

Siga estes passos para executá-los em sua máquina:

Passo 1: Instalar o Ollama
Se você ainda não o fez, vá para ollama.com e baixe o instalador para o seu sistema operacional (macOS, Windows ou Linux). Execute o instalador.

Passo 2: Baixar os Modelos via Terminal
Abra seu prompt de comando ou aplicativo de terminal. Use o comando apropriado abaixo para baixar o modelo desejado. Isso pode levar algum tempo dependendo da sua velocidade de internet.

Para baixar o Phi-4-reasoning:
ollama pull phi4-reasoning
Para baixar o Phi-4-reasoning-plus:
ollama pull phi4-reasoning:plus
(Nota: A variante plus é especificada usando uma tag após os dois pontos.)

Passo 3: Executar o Modelo para Interação
Assim que o download estiver completo, você pode começar a conversar com o modelo diretamente do seu terminal:

Para executar o Phi-4-reasoning:
ollama run phi4-reasoning
Para executar o Phi-4-reasoning-plus:
ollama run phi4-reasoning:plus

Após executar o comando, você verá um prompt (como >>> ou Enviar uma mensagem...) onde você pode digitar suas perguntas.

Passo 4: Usar a Estrutura de Prompt Recomendada (Crucial!)
Esses modelos funcionam melhor quando guiados por um prompt de sistema e estrutura específicos. Ao interagir (especialmente para tarefas complexas), estruture sua entrada assim:

Comece com o Prompt do Sistema: Antes da sua pergunta real, forneça o prompt do sistema que diz ao modelo como raciocinar.
Use o Formato ChatML: Embora o comando run do Ollama simplifique isso, internamente o modelo espera as tags <|im_start|>system, <|im_start|>user, <|im_start|>assistant.
Espere <think> e <solution>: O modelo é treinado para gerar seu processo de raciocínio dentro das tags <think>...</think> e a resposta final dentro das tags <solution>...</solution>.

Prompt do Sistema Recomendado:

Seu papel como assistente envolve explorar completamente as perguntas através de um processo de pensamento sistemático antes de fornecer as soluções finais precisas e exatas. Isso requer engajar-se em um ciclo abrangente de análise, resumo, exploração, reavaliação, reflexão, rastreamento reverso e iteração para desenvolver um processo de pensamento bem considerado. Por favor, estruture sua resposta em duas seções principais: Pensamento e Solução, usando o formato especificado: <think> {Seção de Pensamento} </think> {Seção de Solução}. Na Seção de Pensamento, detalhe seu processo de raciocínio em etapas. Cada etapa deve incluir considerações detalhadas, como analisar perguntas, resumir descobertas relevantes, fazer brainstorming de novas ideias, verificar a precisão das etapas atuais, refinar quaisquer erros e revisitar etapas anteriores. Na Seção de Solução, com base em várias tentativas, explorações e reflexões da Seção de Pensamento, apresente sistematicamente a solução final que você considera correta. A Seção de Solução deve ser lógica, precisa e concisa, e detalhar as etapas necessárias para chegar à conclusão. Agora, tente resolver a seguinte pergunta seguindo as diretrizes acima:

(Embora você não possa prefixar facilmente o prompt do sistema no comando básico ollama run, esteja ciente dessa estrutura ao interpretar saídas ou usar a API/bibliotecas do Ollama onde você pode definir prompts do sistema explicitamente.)

Considerações de Hardware: Lembre-se de que modelos 14B precisam de RAM/VRAM substancial. As versões quantizadas padrão (~11GB) ajudam, mas verifique os requisitos de recursos do Ollama.

Acessando o Phi-4-reasoning via API Gratuita usando OpenRouter (Passo a Passo)

Para acesso baseado em nuvem ou integração em aplicativos sem restrições de hardware local, o OpenRouter oferece um nível de API gratuito para o Phi-4-reasoning.

Veja como usá-lo:

Passo 1: Obter uma Chave de API do OpenRouter

Vá para openrouter.ai.
Cadastre-se ou faça login.
Navegue até a seção de configurações/chaves de API e crie uma nova chave de API. Copie-a com segurança.

Passo 2: Instalar a Biblioteca Python da OpenAI
Se você não a tem, instale a biblioteca usando pip:
pip install openai

Passo 3. Configurando o Apidog para Teste

O Apidog, uma plataforma robusta de teste de API, simplifica a interação com as APIs do Phi-4-reasoning. Sua interface intuitiva permite enviar requisições, visualizar respostas e depurar problemas de forma eficiente. Siga estes passos para configurá-lo.

botão

Comece baixando o Apidog e instalando-o em seu sistema. Inicie o aplicativo e crie um novo projeto.

Dentro deste projeto, adicione uma nova requisição. Defina o método como POST e insira o endpoint do OpenRouter: https://openrouter.ai/api/v1/chat/completions.

Em seguida, configure os cabeçalhos. Adicione um cabeçalho “Authorization” com o valor Bearer YOUR_API_KEY, substituindo YOUR_API_KEY pela chave do OpenRouter. Isso autentica sua requisição. Em seguida, mude para a aba body, selecione o formato JSON e crie seu payload de requisição. Aqui está um exemplo para microsoft/phi-4-reasoning:free:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Olá, como você está?"}
  ]
}

Clique em “Send” no Apidog para executar a requisição. O painel de resposta exibirá a saída do modelo, geralmente incluindo texto gerado e metadados como uso de tokens. Recursos do Apidog, como salvar requisições ou organizá-las em coleções, aprimoram seu fluxo de trabalho. Com esta configuração, você pode agora explorar as capacidades dos modelos Qwen 3.

Conclusão

O Phi-4-reasoning e o Phi-4-reasoning-plus marcam um avanço significativo nas capacidades de modelos de linguagem pequenos. Ao focar em dados de raciocínio de alta qualidade e empregar técnicas sofisticadas de ajuste fino como SFT e RL, a Microsoft demonstrou que um desempenho de raciocínio notável é alcançável sem recorrer a contagens massivas de parâmetros. Sua disponibilidade através de plataformas como Ollama para uso local e OpenRouter para acesso gratuito à API democratiza o acesso a ferramentas de raciocínio poderosas. À medida que o desenvolvimento de SLMs continua, a família Phi-4 reasoning se destaca como um testemunho do poder da IA eficiente e focada.