Ejecutar modelos de lenguaje grandes (LLM) localmente empodera a los desarrolladores con privacidad, control y ahorro de costos. Los modelos de peso abierto de OpenAI, conocidos colectivamente como GPT-OSS (gpt-oss-120b y gpt-oss-20b), ofrecen potentes capacidades de razonamiento para tareas como codificación, flujos de trabajo de agentes y análisis de datos. Con Ollama, una plataforma de código abierto, puedes implementar estos modelos en tu propio hardware sin dependencias de la nube. Esta guía técnica te guiará a través de la instalación de Ollama, la configuración de modelos GPT-OSS y la depuración con Apidog, una herramienta que simplifica las pruebas de API para LLM locales.
¿Por qué ejecutar GPT-OSS localmente con Ollama?
Ejecutar GPT-OSS localmente usando Ollama ofrece ventajas distintas para desarrolladores e investigadores. Primero, garantiza la privacidad de los datos, ya que tus entradas y salidas permanecen en tu máquina. Segundo, elimina los costos recurrentes de API en la nube, lo que lo hace ideal para casos de uso de alto volumen o experimentales. Tercero, la compatibilidad de Ollama con la estructura de la API de OpenAI permite una integración perfecta con las herramientas existentes, mientras que su soporte para modelos cuantizados como gpt-oss-20b (que requieren solo 16 GB de memoria) garantiza la accesibilidad en hardware modesto.

Además, Ollama simplifica las complejidades de la implementación de LLM. Maneja los pesos del modelo, las dependencias y las configuraciones a través de un único Modelfile, similar a un contenedor Docker para IA. Combinado con Apidog, que ofrece visualización en tiempo real de las respuestas de IA en streaming, obtienes un ecosistema robusto para el desarrollo local de IA. A continuación, exploremos los requisitos previos para configurar este entorno.
Requisitos previos para ejecutar GPT-OSS localmente
Antes de continuar, asegúrate de que tu sistema cumpla con los siguientes requisitos:
- Hardware:
- Para gpt-oss-20b: Mínimo 16 GB de RAM, idealmente con una GPU (ej., NVIDIA 1060 4GB).
- Para gpt-oss-120b: 80 GB de memoria de GPU (ej., una sola GPU de 80 GB o una configuración de centro de datos de gama alta).
- 20-50 GB de almacenamiento libre para los pesos del modelo y las dependencias.
- Software:
- Sistema Operativo: Linux o macOS recomendado; Windows compatible con configuración adicional.
- Ollama: Descarga desde ollama.com.
- Opcional: Docker para ejecutar Open WebUI o Apidog para pruebas de API.
- Internet: Conexión estable para las descargas iniciales del modelo.
- Dependencias: Controladores de GPU NVIDIA/AMD si usas aceleración de GPU; el modo solo CPU funciona pero es más lento.
Con estos elementos en su lugar, estás listo para instalar Ollama e implementar GPT-OSS. Pasemos al proceso de instalación.
Paso 1: Instalación de Ollama en tu sistema
La instalación de Ollama es sencilla, compatible con macOS, Linux y Windows. Sigue estos pasos para configurarlo:
Descargar Ollama:
- Visita ollama.com y descarga el instalador para tu SO.
- Para Linux/macOS, usa el comando de terminal:
curl -fsSL https://ollama.com/install.sh | sh
Este script automatiza el proceso de descarga y configuración.
Verificar Instalación:
- Ejecuta
ollama --version
en tu terminal. Deberías ver un número de versión (ej., 0.1.44). Si no, consulta el GitHub de Ollama para solucionar problemas.
Iniciar el Servidor Ollama:
- Ejecuta
ollama serve
para iniciar el servidor, que escucha enhttp://localhost:11434
. Mantén esta terminal abierta o configura Ollama como un servicio en segundo plano para uso continuo.
Una vez instalado, Ollama está listo para descargar y ejecutar modelos GPT-OSS. Pasemos a la descarga de los modelos.
Paso 2: Descarga de modelos GPT-OSS
Los modelos GPT-OSS de OpenAI (gpt-oss-120b y gpt-oss-20b) están disponibles en Hugging Face y optimizados para Ollama con cuantificación MXFP4, lo que reduce los requisitos de memoria. Sigue estos pasos para descargarlos:
Elige el Modelo:
- gpt-oss-20b: Ideal para ordenadores de escritorio/portátiles con 16 GB de RAM. Activa 3.6B parámetros por token, adecuado para dispositivos de borde.

- gpt-oss-120b: Diseñado para centros de datos o GPUs de gama alta con 80 GB de memoria, activando 5.1B parámetros por token.

Descargar a través de Ollama:
- En tu terminal, ejecuta:
ollama pull gpt-oss-20b
o
ollama pull gpt-oss-120b
Dependiendo de tu hardware, la descarga (20-50 GB) puede tardar. Asegúrate de tener una conexión a internet estable.
Verificar Descarga:
- Lista los modelos instalados con:
ollama list
Busca gpt-oss-20b:latest
o gpt-oss-120b:latest
.
Con el modelo descargado, ahora puedes ejecutarlo localmente. Exploremos cómo interactuar con GPT-OSS.
Paso 3: Ejecución de modelos GPT-OSS con Ollama
Ollama proporciona múltiples formas de interactuar con los modelos GPT-OSS: interfaz de línea de comandos (CLI), API o interfaces gráficas como Open WebUI. Comencemos con la CLI para simplificar.
Iniciar una Sesión Interactiva:
- Ejecuta:
ollama run gpt-oss-20b
Esto abre una sesión de chat en tiempo real. Escribe tu consulta (ej., “Escribe una función de Python para búsqueda binaria”) y presiona Enter. Usa /help
para comandos especiales.
Consultas Únicas:
- Para respuestas rápidas sin modo interactivo, usa:
ollama run gpt-oss-20b "Explain quantum computing in simple terms"
Ajustar Parámetros:
- Modifica el comportamiento del modelo con parámetros como la temperatura (creatividad) y top-p (diversidad de respuesta). Por ejemplo:
ollama run gpt-oss-20b --temperature 0.1 --top-p 1.0 "Write a factual summary of blockchain technology"
Una temperatura más baja (ej., 0.1) asegura salidas deterministas y fácticas, ideales para tareas técnicas.
A continuación, personalicemos el comportamiento del modelo usando Modelfiles para casos de uso específicos.
Paso 4: Personalización de GPT-OSS con Modelfiles de Ollama
Los Modelfiles de Ollama te permiten adaptar el comportamiento de GPT-OSS sin reentrenamiento. Puedes establecer prompts del sistema, ajustar el tamaño del contexto o afinar parámetros. Así es como se crea un modelo personalizado:
Crear un Modelfile:
- Crea un archivo llamado
Modelfile
con:
FROM gpt-oss-20b
SYSTEM "You are a technical assistant specializing in Python programming. Provide concise, accurate code with comments."
PARAMETER temperature 0.5
PARAMETER num_ctx 4096
Esto configura el modelo como un asistente enfocado en Python con creatividad moderada y una ventana de contexto de 4k tokens.
Construir el Modelo Personalizado:
- Navega al directorio que contiene el Modelfile y ejecuta:
ollama create python-gpt-oss -f Modelfile
Ejecutar el Modelo Personalizado:
- Inícialo con:
ollama run python-gpt-oss
Ahora, el modelo prioriza las respuestas relacionadas con Python con el comportamiento especificado.
Esta personalización mejora GPT-OSS para dominios específicos, como codificación o documentación técnica. Ahora, integremos el modelo en aplicaciones usando la API de Ollama.
Paso 5: Integración de GPT-OSS con la API de Ollama
La API de Ollama, que se ejecuta en http://localhost:11434
, permite el acceso programático a GPT-OSS. Esto es ideal para desarrolladores que construyen aplicaciones impulsadas por IA. Así es como se usa:
Endpoints de la API:
- POST /api/generate: Genera texto para un solo prompt. Ejemplo:
curl http://localhost:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "prompt": "Write a Python script for a REST API"}'
- POST /api/chat: Soporta interacciones conversacionales con historial de mensajes:
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "gpt-oss-20b", "messages": [{"role": "user", "content": "Explain neural networks"}]}'
- POST /api/embeddings: Genera embeddings vectoriales para tareas semánticas como búsqueda o clasificación.
Compatibilidad con OpenAI:
- Ollama es compatible con el formato de la API de Chat Completions de OpenAI. Usa Python con la librería OpenAI:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="gpt-oss-20b",
messages=[{"role": "user", "content": "What is machine learning?"}]
)
print(response.choices[0].message.content)
Esta integración de API permite a GPT-OSS potenciar chatbots, generadores de código o herramientas de análisis de datos. Sin embargo, depurar respuestas en streaming puede ser un desafío. Veamos cómo Apidog simplifica esto.
Paso 6: Depuración de GPT-OSS con Apidog
Apidog es una potente herramienta de prueba de API que visualiza las respuestas en streaming de los endpoints de Ollama, facilitando la depuración de las salidas de GPT-OSS. Así es como se usa:
Instalar Apidog:
- Descarga Apidog desde apidog.com e instálalo en tu sistema.
Configurar la API de Ollama en Apidog:
- Crea una nueva solicitud de API en Apidog.
- Establece la URL a
http://localhost:11434/api/generate
. - Usa un cuerpo JSON como:
{
"model": "gpt-oss-20b",
"prompt": "Generate a Python function for sorting",
"stream": true
}
Visualizar Respuestas:
- Apidog fusiona los tokens transmitidos en un formato legible, a diferencia de las salidas JSON en bruto. Esto ayuda a identificar problemas de formato o errores lógicos en el razonamiento del modelo.
- Usa el análisis de razonamiento de Apidog para inspeccionar el proceso de pensamiento paso a paso de GPT-OSS, especialmente para tareas complejas como codificación o resolución de problemas.
Pruebas Comparativas:
- Crea colecciones de prompts en Apidog para probar cómo diferentes parámetros (ej., temperatura, top-p) afectan las salidas de GPT-OSS. Esto asegura un rendimiento óptimo del modelo para tu caso de uso.
La visualización de Apidog transforma la depuración de una tarea tediosa en un proceso claro y accionable, mejorando tu flujo de trabajo de desarrollo. Ahora, abordemos los problemas comunes que podrías encontrar.
Paso 7: Solución de problemas comunes
Ejecutar GPT-OSS localmente puede presentar desafíos. Aquí hay soluciones a problemas frecuentes:
Error de Memoria de GPU:
- Problema: gpt-oss-120b falla debido a memoria de GPU insuficiente.
- Solución: Cambia a gpt-oss-20b o asegúrate de que tu sistema tenga una GPU de 80 GB. Verifica el uso de memoria con
nvidia-smi
.
El Modelo No Se Inicia:
- Problema:
ollama run
falla con un error. - Solución: Verifica que el modelo esté descargado (
ollama list
) y que el servidor de Ollama esté funcionando (ollama serve
). Revisa los registros en~/.ollama/logs
.
La API No Responde:
- Problema: Las solicitudes de API a
localhost:11434
fallan. - Solución: Asegúrate de que
ollama serve
esté activo y que el puerto 11434 esté abierto. Usanetstat -tuln | grep 11434
para confirmar.
Rendimiento Lento:
- Problema: La inferencia basada en CPU es lenta.
- Solución: Habilita la aceleración de GPU con los controladores adecuados o usa un modelo más pequeño como gpt-oss-20b.
Para problemas persistentes, consulta el GitHub de Ollama o la comunidad de Hugging Face para obtener soporte de GPT-OSS.
Paso 8: Mejora de GPT-OSS con Open WebUI
Para una interfaz fácil de usar, combina Ollama con Open WebUI, un panel de control basado en navegador para GPT-OSS:
Instalar Open WebUI:
- Usa Docker:
docker run -d -p 3000:8080 --name open-webui ghcr.io/open-webui/open-webui:main
Acceder a la Interfaz:
- Abre
http://localhost:3000
en tu navegador. - Selecciona
gpt-oss-20b
ogpt-oss-120b
y comienza a chatear. Las características incluyen historial de chat, almacenamiento de prompts y cambio de modelo.
Carga de Documentos:
- Sube archivos para respuestas conscientes del contexto (ej., revisiones de código o análisis de datos) usando Generación Aumentada por Recuperación (RAG).
Open WebUI simplifica la interacción para usuarios no técnicos, complementando las capacidades de depuración técnica de Apidog.
Conclusión: Desatando GPT-OSS con Ollama y Apidog
Ejecutar GPT-OSS localmente con Ollama te permite aprovechar los modelos de peso abierto de OpenAI de forma gratuita, con control total sobre la privacidad y la personalización. Siguiendo esta guía, has aprendido a instalar Ollama, descargar modelos GPT-OSS, personalizar el comportamiento, integrar a través de la API y depurar con Apidog. Ya sea que estés construyendo aplicaciones impulsadas por IA o experimentando con tareas de razonamiento, esta configuración ofrece una flexibilidad inigualable. Pequeños ajustes, como la modificación de parámetros o el uso de la visualización de Apidog, pueden mejorar significativamente tu flujo de trabajo. ¡Empieza a explorar la IA local hoy mismo y desata el potencial de GPT-OSS!
