Cómo Ejecutar Razonamiento Phi-4: API Gratuita y Local con Ollama

El campo de la Inteligencia Artificial está evolucionando rápidamente, con los modelos de lenguaje grandes (LLM) a menudo ocupando un lugar central. Sin embargo, una revolución paralela está ocurriendo en el ámbito de los Modelos de Lenguaje Pequeños (SLM). Microsoft Research ha sido un actor clave en este espacio, notablemente con su serie Phi. Basándose en el éxito de modelos como Phi-3, Microsoft presentó recientemente dos nuevas potencias: Phi-4-reasoning y Phi-4-reasoning-plus. Estos modelos representan un avance significativo, demostrando que los modelos más pequeños y eficientes pueden rivalizar con sus contrapartes más grandes en tareas de razonamiento complejas.

💡

¿Quieres una excelente herramienta de prueba de API que genere hermosa documentación de API?

¿Quieres una plataforma integrada y todo en uno para que tu equipo de desarrolladores trabaje en conjunto con máxima productividad?

¡Apidog cumple todas tus demandas y reemplaza a Postman a un precio mucho más asequible!

botón

Phi-4 Ahora Tiene Modelos de Razonamiento

El viaje comenzó con Phi-4, un modelo Transformer denso de solo decodificador con 14 mil millones de parámetros. Aunque ya era capaz, Microsoft buscó dotarlo de habilidades de razonamiento más sólidas, particularmente en los dominios de matemáticas, ciencia y codificación. Esto llevó al desarrollo de Phi-4-reasoning y su variante mejorada, Phi-4-reasoning-plus.

Ambos modelos comparten la arquitectura Phi-4 pero se someten a un post-entrenamiento especializado centrado en el razonamiento. La diferencia clave radica en la metodología de entrenamiento:

Phi-4-reasoning: Este modelo se crea mediante ajuste fino supervisado (SFT) de Phi-4 en un conjunto de datos meticulosamente seleccionado. Este conjunto de datos combina datos públicos filtrados de alta calidad con indicaciones sintéticas, centrándose específicamente en rastros de cadena de pensamiento (CoT). El razonamiento CoT implica desglosar problemas complejos en pasos intermedios, imitando un proceso de pensamiento más parecido al humano. El conjunto de datos SFT también incorpora datos de alineación para garantizar la seguridad y las prácticas de IA responsables. Microsoft aprovechó demostraciones de razonamiento de o3-mini de OpenAI como parte de estos datos seleccionados.
Phi-4-reasoning-plus: Este modelo lleva a Phi-4-reasoning un paso más allá al incorporar Aprendizaje por Refuerzo (RL). La fase de RL permite que el modelo aprenda a utilizar más cómputo en tiempo de inferencia, generando cadenas de razonamiento más detalladas y a menudo más largas (aproximadamente 1.5 veces más tokens que el Phi-4-reasoning base). Este esfuerzo computacional adicional se traduce directamente en una mayor precisión en tareas complejas, aunque con un posible aumento en la latencia.

Ambos modelos cuentan con una longitud de contexto de 32k tokens, lo que les permite manejar indicaciones complejas y generar procesos de razonamiento extensos. Curiosamente, la ficha del modelo para Phi-4-reasoning-plus señala resultados prometedores al extender la ventana de contexto a 64k tokens durante los experimentos, manteniendo la coherencia en secuencias más largas.

Evaluaciones comparativas de Phi-4 Reasoning, Phi-4 Reasoning Plus y Phi-4-Reasoning-Mini

Evaluaciones comparativas de Phi-4-Reasoning y Phi-4-Reasoning-Plus

Evaluaciones comparativas de Phi-4-Reasoning-Mini

La verdadera medida de estos modelos reside en su rendimiento. Microsoft los evaluó frente a un conjunto de evaluaciones comparativas desafiantes, particularmente aquellas centradas en el razonamiento:

Razonamiento Matemático: Calificadores AIME (American Invitational Mathematics Examination) de 2022-2025, OmniMath (una colección de más de 4000 problemas de nivel olímpico).
Razonamiento Científico: GPQA-Diamond (preguntas de ciencia de nivel de posgrado).
Codificación y Resolución de Problemas Algorítmicos: LiveCodeBench (problemas de concursos de codificación competitiva), 3SAT (Satisfacibilidad), TSP (Problema del Viajante).
Planificación y Comprensión Espacial: BA Calendar, Maze, SpatialMap.

Los resultados, tal como se presentan en los informes técnicos y las fichas de modelo, son impresionantes:

Modelo	AIME 24	AIME 25	OmniMath	GPQA-D	LiveCodeBench (8/1/24–2/1/25)
Phi-4-reasoning	75.3	62.9	76.6	65.8	53.8
Phi-4-reasoning-plus	81.3	78.0	81.9	68.9	53.1
OpenThinker2-32B	58.0	58.0	—	64.1	—
QwQ 32B	79.5	65.8	—	59.5	63.4
EXAONE-Deep-32B	72.1	65.8	—	66.1	59.5
DeepSeek-R1-Distill-70B	69.3	51.5	63.4	66.2	57.5
DeepSeek-R1	78.7	70.4	85.0	73.0	62.8
o1-mini	63.6	54.8	—	60.0	53.8
o1	74.6	75.3	67.5	76.7	71.0
o3-mini	88.0	78.0	74.6	77.7	69.5
Claude-3.7-Sonnet	55.3	58.7	54.6	76.8	—
Gemini-2.5-Pro	92.0	86.7	61.1	84.0	69.2

(Datos de la tabla obtenidos de fichas de modelo de Hugging Face y entrada del usuario)

Conclusiones clave de las evaluaciones comparativas:

Superando a Modelos Más Grandes: Ambos modelos Phi-4-reasoning superan significativamente a modelos de código abierto mucho más grandes como el DeepSeek-R1-Distill-70B (que es 5 veces más grande) en muchas evaluaciones de razonamiento.
Competitivos con Gigantes: Se acercan o incluso superan el rendimiento de modelos como el DeepSeek-R1 completo (un modelo MoE de 671B) y o1-mini y o1 de OpenAI en tareas específicas (por ejemplo, AIME 25).
Ventaja de Reasoning-Plus: Phi-4-reasoning-plus obtiene consistentemente puntuaciones más altas que Phi-4-reasoning en general, validando la efectividad del entrenamiento adicional de RL para la precisión.
Capacidades Generales: Aunque entrenados para el razonamiento, los modelos también muestran mejoras significativas sobre el Phi-4 base en evaluaciones generales como el seguimiento de instrucciones (IFEval), la codificación (HumanEvalPlus) e incluso la seguridad (ToxiGen), lo que indica una fuerte generalización.

Estos resultados subrayan la tesis central de Microsoft: los datos de alta calidad centrados en el razonamiento y el ajuste fino específico pueden permitir que los modelos más pequeños logren notables capacidades de razonamiento que antes se pensaba que eran exclusivas de modelos masivos.

Ejecutando Phi-4-reasoning Localmente con Ollama (Paso a Paso)

Una de las principales ventajas de los SLM es su potencial para la ejecución local. Ollama, una plataforma popular para ejecutar LLM localmente, proporciona soporte listo para usar para la familia de razonamiento Phi-4.

Sigue estos pasos para ejecutarlos en tu máquina:

Paso 1: Instala Ollama
Si aún no lo has hecho, ve a ollama.com y descarga el instalador para tu sistema operativo (macOS, Windows o Linux). Ejecuta el instalador.

Paso 2: Descarga los Modelos a través de la Terminal
Abre tu símbolo del sistema o aplicación de terminal. Usa el comando apropiado a continuación para descargar el modelo deseado. Esto puede tomar algún tiempo dependiendo de la velocidad de tu internet.

Para descargar Phi-4-reasoning:
ollama pull phi4-reasoning
Para descargar Phi-4-reasoning-plus:
ollama pull phi4-reasoning:plus
(Nota: La variante plus se especifica usando una etiqueta después de los dos puntos.)

Paso 3: Ejecuta el Modelo para Interactuar
Una vez completada la descarga, puedes comenzar a chatear con el modelo directamente desde tu terminal:

Para ejecutar Phi-4-reasoning:
ollama run phi4-reasoning
Para ejecutar Phi-4-reasoning-plus:
ollama run phi4-reasoning:plus

Después de ejecutar el comando, verás una indicación (como >>> o Enviar un mensaje...) donde puedes escribir tus preguntas.

Paso 4: Usa la Estructura de Indicación Recomendada (¡Crucial!)
Estos modelos funcionan mejor cuando se guían por una indicación de sistema y una estructura específicas. Al interactuar (especialmente para tareas complejas), estructura tu entrada de la siguiente manera:

Comienza con la Indicación del Sistema: Antes de tu pregunta real, proporciona la indicación del sistema que le dice al modelo cómo razonar.
Usa el Formato ChatML: Aunque el comando run de Ollama simplifica esto, internamente el modelo espera las etiquetas <|im_start|>system, <|im_start|>user, <|im_start|>assistant.
Espera <think> y <solution>: El modelo está entrenado para generar su proceso de razonamiento dentro de las etiquetas <think>...</think> y la respuesta final dentro de las etiquetas <solution>...</solution>.

Indicación del Sistema Recomendada:

Your role as an assistant involves thoroughly exploring questions through a systematic thinking process before providing the final precise and accurate solutions. This requires engaging in a comprehensive cycle of analysis, summarizing, exploration, reassessment, reflection, backtracing, and iteration to develop well-considered thinking process. Please structure your response into two main sections: Thought and Solution using the specified format: <think> {Thought section} </think> {Solution section}. In the Thought section, detail your reasoning process in steps. Each step should include detailed considerations such as analysing questions, summarizing relevant findings, brainstorming new ideas, verifying the accuracy of the current steps, refining any errors, and revisiting previous steps. In the Solution section, based on various attempts, explorations, and reflections from the Thought section, systematically present the final solution that you deem correct. The Solution section should be logical, accurate, and concise and detail necessary steps needed to reach the conclusion. Now, try to solve the following question through the above guidelines:

(Aunque no puedes prefijar fácilmente la indicación del sistema en el comando básico ollama run, ten en cuenta esta estructura al interpretar las salidas o al usar la API/bibliotecas de Ollama donde sí puedes establecer indicaciones del sistema explícitamente.)

Consideraciones de Hardware: Recuerda que los modelos de 14B necesitan una cantidad sustancial de RAM/VRAM. Las versiones cuantizadas predeterminadas (~11GB) ayudan, pero verifica los requisitos de recursos de Ollama.

Accediendo a Phi-4-reasoning a través de una API Gratuita usando OpenRouter (Paso a Paso)

Para acceso basado en la nube o integración en aplicaciones sin las restricciones de hardware local, OpenRouter ofrece un nivel de API gratuito para Phi-4-reasoning.

Aquí te explicamos cómo usarlo:

Paso 1: Obtén una Clave API de OpenRouter

Ve a openrouter.ai.
Regístrate o inicia sesión.
Navega a la sección de configuración/claves API y crea una nueva clave API. Cópiala de forma segura.

Paso 2: Instala la Biblioteca Python de OpenAI
Si no la tienes, instala la biblioteca usando pip:
pip install openai

Paso 3. Configurando Apidog para Pruebas

Apidog, una robusta plataforma de prueba de API, simplifica la interacción con las APIs de Phi-4-reasoning. Su interfaz intuitiva te permite enviar solicitudes, ver respuestas y depurar problemas de manera eficiente. Sigue estos pasos para configurarlo.

botón

Comienza descargando Apidog e instalándolo en tu sistema. Inicia la aplicación y crea un nuevo proyecto.

Dentro de este proyecto, añade una nueva solicitud. Establece el método en POST e introduce el endpoint de OpenRouter: https://openrouter.ai/api/v1/chat/completions.

A continuación, configura los encabezados. Añade un encabezado "Authorization" con el valor Bearer YOUR_API_KEY, reemplazando YOUR_API_KEY con la clave de OpenRouter. Esto autentica tu solicitud. Luego, cambia a la pestaña del cuerpo, selecciona el formato JSON y elabora tu carga útil de solicitud. Aquí tienes un ejemplo para microsoft/phi-4-reasoning:free:

{
  "model": "microsoft/phi-4-reasoning:free",
  "messages": [
    {"role": "user", "content": "Hello, how are you?"}
  ]
}

Haz clic en "Send" (Enviar) en Apidog para ejecutar la solicitud. El panel de respuesta mostrará la salida del modelo, que típicamente incluye el texto generado y metadatos como el uso de tokens. Las características de Apidog, como guardar solicitudes u organizarlas en colecciones, mejoran tu flujo de trabajo. Con esta configuración, ahora puedes explorar las capacidades de los modelos Qwen 3.

Conclusión

Phi-4-reasoning y Phi-4-reasoning-plus marcan un avance significativo en las capacidades de los modelos de lenguaje pequeños. Al centrarse en datos de razonamiento de alta calidad y emplear técnicas sofisticadas de ajuste fino como SFT y RL, Microsoft ha demostrado que se puede lograr un rendimiento de razonamiento notable sin recurrir a recuentos masivos de parámetros. Su disponibilidad a través de plataformas como Ollama para uso local y OpenRouter para acceso gratuito a la API democratiza el acceso a potentes herramientas de razonamiento. A medida que continúa el desarrollo de los SLM, la familia de razonamiento Phi-4 destaca como un testimonio del poder de la IA eficiente y enfocada.