Hoja de trucos de Ollama - Cómo ejecutar LLMs localmente con Ollama

Introducción a los LLM locales con Ollama

El panorama de la IA está evolucionando rápidamente, pero una tendencia es clara: los desarrolladores quieren cada vez más control, privacidad y flexibilidad sobre sus implementaciones de IA. Ollama ofrece exactamente eso, proporcionando una forma optimizada de ejecutar modelos de lenguaje grandes y potentes localmente en tu hardware sin las limitaciones de las API basadas en la nube.

¿Por qué ejecutar modelos localmente? Tres razones convincentes: privacidad completa para datos confidenciales, cero problemas de latencia de las llamadas a la API y libertad de cuotas de uso o costes inesperados. Cuando estás creando aplicaciones que requieren un rendimiento de IA consistente sin enviar datos de usuario a terceros, la inferencia local se vuelve no solo atractiva, sino esencial.

DeepSeek-R1 representa un avance significativo en los modelos de IA de código abierto, rivalizando con las capacidades de muchas ofertas comerciales. Con sólidas capacidades de razonamiento, destreza en la generación de código y la capacidad de procesar entradas multimodales, es una excelente opción integral para los desarrolladores que buscan ampliar los límites de lo que es posible con la IA local.

Los LLM potentes merecen pruebas de API potentes.

Al crear aplicaciones que se integran con LLM locales como DeepSeek a través de Ollama, inevitablemente te enfrentarás al desafío de depurar las respuestas de IA en streaming. Ahí es donde Apidog realmente brilla.

A diferencia de las herramientas de API genéricas, la depuración SSE especializada de Apidog visualiza la generación token por token en tiempo real, lo que te brinda una visibilidad sin precedentes de cómo piensa tu modelo. Ya sea que estés creando un chatbot, un generador de contenido o una búsqueda impulsada por IA, Apidog hace que trabajar con los puntos finales de la API de Ollama sea notablemente sencillo.

Personalmente, he descubierto que esta combinación cambia las reglas del juego para el desarrollo de LLM locales.

button

Empezando con Ollama

Instalación

La instalación de Ollama es notablemente sencilla en los principales sistemas operativos:

curl -fsSL https://ollama.com/install.sh | sh

Después de la instalación, inicia el servidor de Ollama con:

ollama serve

Este comando inicia Ollama como un servicio que escucha las solicitudes en localhost:11434. Mantén esta ventana de terminal en ejecución o configura Ollama como un servicio en segundo plano si planeas usarlo continuamente.

Requisitos del sistema

Para un rendimiento óptimo con DeepSeek-R1:

Mínimo: 8 GB de RAM, CPU moderna con 4+ núcleos
Recomendado: 16 GB+ de RAM, GPU NVIDIA con 8 GB+ de VRAM
Almacenamiento: Al menos 10 GB de espacio libre para el modelo base

Comandos básicos

Comprueba tu versión instalada:

ollama --version

Obtén ayuda sobre los comandos disponibles:

ollama help

Gestión de modelos

Descubriendo y extrayendo modelos

Antes de sumergirnos en la manipulación de modelos, veamos qué hay disponible:

ollama list

Este comando muestra todos los modelos instalados localmente. Cuando estés listo para descargar DeepSeek-R1:

ollama pull deepseek-r1

Ollama proporciona diferentes tamaños de modelo para que coincidan con las capacidades de tu hardware. Para máquinas con recursos limitados, prueba:

ollama pull deepseek-r1:7b

Para configuraciones más potentes que buscan capacidades mejoradas:

ollama pull deepseek-r1:8b

¿Tienes restricciones de contenido? Algunos desarrolladores prefieren modelos menos filtrados:

ollama pull open-r1

Ejecutando modelos de manera efectiva

El verdadero poder de Ollama se hace evidente cuando comienzas a interactuar con los modelos. Inicia una sesión de chat interactiva:

ollama run deepseek-r1

Esto abre una conversación en tiempo real donde puedes explorar las capacidades de DeepSeek-R1. Escribe tus consultas y presiona Enter, o usa /help para ver los comandos especiales disponibles durante la sesión.

Para consultas rápidas y únicas sin entrar en modo interactivo:

ollama run deepseek-r1 "Explica la computación cuántica en términos sencillos"

Procesa texto directamente desde archivos, increíblemente útil para tareas de resumen, análisis o transformación:

ollama run deepseek-r1 "Resume el contenido de este archivo en 50 palabras." < input.txt

Ajuste fino de los parámetros del modelo

El comportamiento de DeepSeek-R1 se puede alterar drásticamente mediante ajustes de parámetros. Para salidas creativas y variadas:

ollama run deepseek-r1 --temperature 0.7 --top-p 0.9

Para respuestas fácticas y deterministas más adecuadas para la codificación o la explicación técnica:

ollama run deepseek-r1 --temperature 0.1 --top-p 1.0

Guía de parámetros:

Temperatura (0.0-1.0): Los valores más bajos hacen que las respuestas sean más enfocadas y deterministas; los valores más altos introducen creatividad y variedad.
Top-p (0.0-1.0): Controla la diversidad considerando solo los tokens más probables cuya probabilidad acumulada excede este umbral.
Ventana de contexto: Determina cuánta conversación anterior recuerda el modelo.

Usos avanzados e integración de API

Modelfiles personalizados para aplicaciones especializadas

La verdadera flexibilidad de Ollama emerge cuando creas Modelfiles personalizados para adaptar DeepSeek-R1 para tareas específicas:

FROM deepseek-r1:8b
PARAMETER temperature 0.3
PARAMETER top_p 0.95
SYSTEM Eres un desarrollador de software senior especializado en Python. Proporciona código limpio y eficiente con comentarios útiles.

Guarda esto como Modelfile y crea tu modelo personalizado:

ollama create python-expert -f Modelfile

Ejecútalo como cualquier otro modelo:

ollama run python-expert "Escribe una función para encontrar números primos en un rango dado"

API REST para la integración de aplicaciones

Si bien el uso de la línea de comandos es conveniente para la experimentación, las aplicaciones del mundo real necesitan acceso a la API. Ollama proporciona una API REST simple en el puerto 11434:

# Solicitud de finalización básica
curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Escribe una función recursiva para calcular los números de Fibonacci",
  "stream": false
}'

Para respuestas de transmisión (ideal para interfaces de chat):

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Explica cómo aprenden las redes neuronales en términos sencillos",
  "stream": true
}'

Probando puntos finales de API con Apidog

Al crear aplicaciones que se integran con la API de Ollama, probar y visualizar las respuestas de transmisión se vuelve crucial. Apidog sobresale en el manejo de eventos enviados por el servidor (SSE) como los producidos por la API de transmisión de Ollama:

Crea un nuevo proyecto HTTP en Apidog
Agrega un punto final con la URL http://localhost:11434/api/generate
Configura una solicitud POST con el cuerpo JSON:

{
  "model": "deepseek-r1",
  "prompt": "Escribe una historia sobre un programador que descubre una IA",
  "stream": true
}

4. Envía la solicitud y observa cómo el depurador SSE de Apidog visualiza el proceso de generación token por token en tiempo real

Esta visualización ayuda a identificar problemas con el formato de respuesta, la generación de tokens o el comportamiento inesperado del modelo que podría ser difícil de depurar de otra manera.

Aplicaciones del mundo real con DeepSeek-R1

DeepSeek-R1 sobresale en varios escenarios prácticos:

Generación de contenido

Crea publicaciones de blog de calidad profesional:

ollama run deepseek-r1 "Escribe una publicación de blog de 500 palabras sobre tecnología sostenible"

Extracción de información

Procesa y analiza documentos para extraer información clave:

ollama run deepseek-r1 "Extrae los puntos clave de este artículo de investigación: " < paper.txt

Análisis de imagen

Procesa imágenes para la descripción o el análisis del contenido:

ollama run deepseek-r1 "Analiza y describe el contenido de esta imagen" < image.jpg

Generación y explicación de código

Genera soluciones de código para problemas específicos:

ollama run deepseek-r1 "Escribe una función de Python que implemente un algoritmo de búsqueda binaria con comentarios detallados"

O explica código complejo:

ollama run deepseek-r1 "Explica qué hace este código: " < complex_algorithm.py

Solución de problemas comunes

Problemas de memoria y rendimiento

Si encuentras errores de falta de memoria:

Prueba una variante de modelo más pequeña (7B en lugar de 8B)
Reduce el tamaño de la ventana de contexto con --ctx N (p. ej., --ctx 2048)
Cierra otras aplicaciones que consuman mucha memoria
Para los usuarios de CUDA, asegúrate de tener instalados los controladores NVIDIA más recientes

Problemas de conexión de API

Si no puedes conectarte a la API:

Asegúrate de que Ollama se esté ejecutando con ollama serve
Comprueba si el puerto predeterminado está bloqueado o en uso (lsof -i :11434)
Verifica la configuración del firewall si te conectas desde otra máquina

Conclusión

Ollama con DeepSeek-R1 representa un paso significativo hacia la democratización de la IA al poner modelos de lenguaje potentes directamente en manos de los desarrolladores. La combinación ofrece privacidad, control y capacidades impresionantes, todo sin depender de servicios externos.

A medida que creas aplicaciones con estos LLM locales, recuerda que la prueba adecuada de tus integraciones de API es crucial para un rendimiento confiable. Herramientas como Apidog pueden ayudar a visualizar y depurar las respuestas de transmisión de Ollama, especialmente cuando estás creando aplicaciones complejas que necesitan procesar las salidas del modelo en tiempo real.

Ya sea que estés generando contenido, creando interfaces conversacionales o creando asistentes de código, este poderoso dúo proporciona la base que necesitas para una integración sofisticada de IA, directamente en tu propio hardware.