Cómo Ejecutar GPT-OSS Gratis con Ollama

Ashley Innocent

Ashley Innocent

5 August 2025

Cómo Ejecutar GPT-OSS Gratis con Ollama

Ejecutar modelos de lenguaje grandes (LLM) localmente empodera a los desarrolladores con privacidad, control y ahorro de costos. Los modelos de peso abierto de OpenAI, conocidos colectivamente como GPT-OSS (gpt-oss-120b y gpt-oss-20b), ofrecen potentes capacidades de razonamiento para tareas como codificación, flujos de trabajo de agentes y análisis de datos. Con Ollama, una plataforma de código abierto, puedes implementar estos modelos en tu propio hardware sin dependencias de la nube. Esta guía técnica te guiará a través de la instalación de Ollama, la configuración de modelos GPT-OSS y la depuración con Apidog, una herramienta que simplifica las pruebas de API para LLM locales.

💡
Para una depuración de API sin interrupciones, descarga Apidog gratis para visualizar y optimizar tus interacciones con GPT-OSS.
button

¿Por qué ejecutar GPT-OSS localmente con Ollama?

Ejecutar GPT-OSS localmente usando Ollama ofrece ventajas distintas para desarrolladores e investigadores. Primero, garantiza la privacidad de los datos, ya que tus entradas y salidas permanecen en tu máquina. Segundo, elimina los costos recurrentes de API en la nube, lo que lo hace ideal para casos de uso de alto volumen o experimentales. Tercero, la compatibilidad de Ollama con la estructura de la API de OpenAI permite una integración perfecta con las herramientas existentes, mientras que su soporte para modelos cuantizados como gpt-oss-20b (que requieren solo 16 GB de memoria) garantiza la accesibilidad en hardware modesto.

Además, Ollama simplifica las complejidades de la implementación de LLM. Maneja los pesos del modelo, las dependencias y las configuraciones a través de un único Modelfile, similar a un contenedor Docker para IA. Combinado con Apidog, que ofrece visualización en tiempo real de las respuestas de IA en streaming, obtienes un ecosistema robusto para el desarrollo local de IA. A continuación, exploremos los requisitos previos para configurar este entorno.

Requisitos previos para ejecutar GPT-OSS localmente

Antes de continuar, asegúrate de que tu sistema cumpla con los siguientes requisitos:

Con estos elementos en su lugar, estás listo para instalar Ollama e implementar GPT-OSS. Pasemos al proceso de instalación.

Paso 1: Instalación de Ollama en tu sistema

La instalación de Ollama es sencilla, compatible con macOS, Linux y Windows. Sigue estos pasos para configurarlo:

Descargar Ollama:

curl -fsSL https://ollama.com/install.sh | sh

Este script automatiza el proceso de descarga y configuración.

Verificar Instalación:

Iniciar el Servidor Ollama:

Una vez instalado, Ollama está listo para descargar y ejecutar modelos GPT-OSS. Pasemos a la descarga de los modelos.

Paso 2: Descarga de modelos GPT-OSS

Los modelos GPT-OSS de OpenAI (gpt-oss-120b y gpt-oss-20b) están disponibles en Hugging Face y optimizados para Ollama con cuantificación MXFP4, lo que reduce los requisitos de memoria. Sigue estos pasos para descargarlos:

Elige el Modelo:

Descargar a través de Ollama:

ollama pull gpt-oss-20b

o

ollama pull gpt-oss-120b

Dependiendo de tu hardware, la descarga (20-50 GB) puede tardar. Asegúrate de tener una conexión a internet estable.

Verificar Descarga:

ollama list

Busca gpt-oss-20b:latest o gpt-oss-120b:latest.

Con el modelo descargado, ahora puedes ejecutarlo localmente. Exploremos cómo interactuar con GPT-OSS.

Paso 3: Ejecución de modelos GPT-OSS con Ollama

Ollama proporciona múltiples formas de interactuar con los modelos GPT-OSS: interfaz de línea de comandos (CLI), API o interfaces gráficas como Open WebUI. Comencemos con la CLI para simplificar.

Iniciar una Sesión Interactiva:

ollama run gpt-oss-20b

Esto abre una sesión de chat en tiempo real. Escribe tu consulta (ej., “Escribe una función de Python para búsqueda binaria”) y presiona Enter. Usa /help para comandos especiales.

Consultas Únicas:

ollama run gpt-oss-20b "Explain quantum computing in simple terms"

Ajustar Parámetros:

ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Write a factual summary of blockchain technology"

Una temperatura más baja (ej., 0.1) asegura salidas deterministas y fácticas, ideales para tareas técnicas.

A continuación, personalicemos el comportamiento del modelo usando Modelfiles para casos de uso específicos.

Paso 4: Personalización de GPT-OSS con Modelfiles de Ollama

Los Modelfiles de Ollama te permiten adaptar el comportamiento de GPT-OSS sin reentrenamiento. Puedes establecer prompts del sistema, ajustar el tamaño del contexto o afinar parámetros. Así es como se crea un modelo personalizado:

Crear un Modelfile:

FROM gpt-oss-20b
SYSTEM "You are a technical assistant specializing in Python programming. Provide concise, accurate code with comments."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096

Esto configura el modelo como un asistente enfocado en Python con creatividad moderada y una ventana de contexto de 4k tokens.

Construir el Modelo Personalizado:

ollama create python-gpt-oss -f Modelfile

Ejecutar el Modelo Personalizado:

ollama run python-gpt-oss

Ahora, el modelo prioriza las respuestas relacionadas con Python con el comportamiento especificado.

Esta personalización mejora GPT-OSS para dominios específicos, como codificación o documentación técnica. Ahora, integremos el modelo en aplicaciones usando la API de Ollama.

Paso 5: Integración de GPT-OSS con la API de Ollama

La API de Ollama, que se ejecuta en http://localhost:11434, permite el acceso programático a GPT-OSS. Esto es ideal para desarrolladores que construyen aplicaciones impulsadas por IA. Así es como se usa:

Endpoints de la API:

curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Write a Python script for a REST API"}'
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Explain neural networks"}]}'

Compatibilidad con OpenAI:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="gpt-oss-20b",
    messages=[{"role": "user", "content": "What is machine learning?"}]
)
print(response.choices[0].message.content)

Esta integración de API permite a GPT-OSS potenciar chatbots, generadores de código o herramientas de análisis de datos. Sin embargo, depurar respuestas en streaming puede ser un desafío. Veamos cómo Apidog simplifica esto.

Paso 6: Depuración de GPT-OSS con Apidog

Apidog es una potente herramienta de prueba de API que visualiza las respuestas en streaming de los endpoints de Ollama, facilitando la depuración de las salidas de GPT-OSS. Así es como se usa:

Instalar Apidog:

Configurar la API de Ollama en Apidog:

{
  "model": "gpt-oss-20b",
  "prompt": "Generate a Python function for sorting",
  "stream": true
}

Visualizar Respuestas:

Pruebas Comparativas:

La visualización de Apidog transforma la depuración de una tarea tediosa en un proceso claro y accionable, mejorando tu flujo de trabajo de desarrollo. Ahora, abordemos los problemas comunes que podrías encontrar.

Paso 7: Solución de problemas comunes

Ejecutar GPT-OSS localmente puede presentar desafíos. Aquí hay soluciones a problemas frecuentes:

Error de Memoria de GPU:

El Modelo No Se Inicia:

La API No Responde:

Rendimiento Lento:

Para problemas persistentes, consulta el GitHub de Ollama o la comunidad de Hugging Face para obtener soporte de GPT-OSS.

Paso 8: Mejora de GPT-OSS con Open WebUI

Para una interfaz fácil de usar, combina Ollama con Open WebUI, un panel de control basado en navegador para GPT-OSS:

Instalar Open WebUI:

docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main

Acceder a la Interfaz:

Carga de Documentos:

Open WebUI simplifica la interacción para usuarios no técnicos, complementando las capacidades de depuración técnica de Apidog.

Conclusión: Desatando GPT-OSS con Ollama y Apidog

Ejecutar GPT-OSS localmente con Ollama te permite aprovechar los modelos de peso abierto de OpenAI de forma gratuita, con control total sobre la privacidad y la personalización. Siguiendo esta guía, has aprendido a instalar Ollama, descargar modelos GPT-OSS, personalizar el comportamiento, integrar a través de la API y depurar con Apidog. Ya sea que estés construyendo aplicaciones impulsadas por IA o experimentando con tareas de razonamiento, esta configuración ofrece una flexibilidad inigualable. Pequeños ajustes, como la modificación de parámetros o el uso de la visualización de Apidog, pueden mejorar significativamente tu flujo de trabajo. ¡Empieza a explorar la IA local hoy mismo y desata el potencial de GPT-OSS!

button

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs