Ollama Cheatsheet - Como Executar LLMs Localmente com Ollama

Introdução aos LLMs Locais com Ollama

O cenário de IA está evoluindo rapidamente, mas uma tendência se destaca: os desenvolvedores desejam cada vez mais controle, privacidade e flexibilidade sobre suas implementações de IA. O Ollama oferece exatamente isso, proporcionando uma maneira simplificada de executar poderosos modelos de linguagem grandes localmente em seu hardware, sem as restrições das APIs baseadas em nuvem.

Por que executar modelos localmente? Três razões convincentes: privacidade completa para dados sensíveis, zero problemas de latência com chamadas de API e liberdade de cotas de uso ou custos inesperados. Quando você está construindo aplicativos que exigem um desempenho constante de IA sem enviar dados do usuário para terceiros, a inferência local se torna não apenas atraente, mas essencial.

O DeepSeek-R1 representa um avanço significativo em modelos de IA de código aberto, rivalizando com as capacidades de muitas ofertas comerciais. Com fortes capacidades de raciocínio, destreza na geração de código e a habilidade de processar entradas multimodais, é uma excelente escolha geral para desenvolvedores que buscam expandir os limites do que é possível com IA local.

LLMs poderosos merecem testes de API poderosos.

Ao construir aplicativos que se integram com LLMs locais como o DeepSeek através do Ollama, você inevitavelmente enfrentará o desafio de depurar as respostas de IA em streaming. É aí que o Apidog realmente brilha.

Diferente de ferramentas de API genéricas, a depuração especializada em SSE do Apidog visualiza a geração token a token em tempo real—dando a você uma visibilidade sem precedentes de como seu modelo pensa. Se você está construindo um chatbot, gerador de conteúdo ou uma busca alimentada por IA, o Apidog torna o trabalho com os endpoints da API do Ollama notavelmente indolor.

Pessoalmente, descobri que esta combinação é revolucionária para o desenvolvimento de LLMs locais.

botão

Começando com Ollama

Instalação

Instalar o Ollama é surpreendentemente simples em sistemas operacionais principais:

curl -fsSL https://ollama.com/install.sh | sh

Após a instalação, inicie o servidor do Ollama com:

ollama serve

Este comando lança o Ollama como um serviço que escuta solicitações em localhost:11434. Mantenha esta janela de terminal aberta ou configure o Ollama como um serviço em segundo plano se você planeja usá-lo continuamente.

Requisitos do Sistema

Para desempenho ideal com DeepSeek-R1:

Mínimo: 8GB de RAM, CPU moderna com 4+ núcleos
Recomendado: 16GB+ de RAM, GPU NVIDIA com 8GB+ de VRAM
Armazenamento: Pelo menos 10GB de espaço livre para o modelo base

Comandos Básicos

Verifique sua versão instalada:

ollama --version

Obtenha ajuda sobre os comandos disponíveis:

ollama help

Gerenciando Modelos

Descobrindo e Baixando Modelos

Antes de mergulhar na manipulação de modelos, vamos ver o que está disponível:

ollama list

Este comando mostra todos os modelos instalados localmente. Quando você estiver pronto para baixar o DeepSeek-R1:

ollama pull deepseek-r1

O Ollama fornece diferentes tamanhos de modelo para corresponder às suas capacidades de hardware. Para máquinas com recursos limitados, experimente:

ollama pull deepseek-r1:7b

Para configurações mais poderosas que buscam capacidades aprimoradas:

ollama pull deepseek-r1:8b

Encontrando restrições de conteúdo? Alguns desenvolvedores preferem modelos menos filtrados:

ollama pull open-r1

Executando Modelos de Forma Eficaz

O verdadeiro poder do Ollama se torna aparente quando você começa a interagir com os modelos. Inicie uma sessão de chat interativa:

ollama run deepseek-r1

Isso abre uma conversa em tempo real onde você pode explorar as capacidades do DeepSeek-R1. Digite suas consultas e pressione Enter, ou use /help para ver comandos especiais disponíveis durante a sessão.

Para consultas rápidas, sem entrar no modo interativo:

ollama run deepseek-r1 "Explique computação quântica em termos simples"

Processe texto diretamente de arquivos—incrivelmente útil para tarefas de sumário, análise ou transformação:

ollama run deepseek-r1 "Resuma o conteúdo deste arquivo em 50 palavras." < input.txt

Ajustando os Parâmetros do Modelo

O comportamento do DeepSeek-R1 pode ser dramaticamente alterado através de ajustes de parâmetros. Para saídas criativas e variadas:

ollama run deepseek-r1 --temperature 0.7 --top-p 0.9

Para respostas factuais e determinísticas melhor adequadas para codificação ou explicação técnica:

ollama run deepseek-r1 --temperature 0.1 --top-p 1.0

Guia de Parâmetros:

Temperatura (0.0-1.0): Valores menores tornam as respostas mais focadas e determinísticas; valores mais altos introduzem criatividade e variedade.
Top-p (0.0-1.0): Controla a diversidade, considerando apenas os tokens mais prováveis cuja probabilidade cumulativa excede esse limite.
Janela de contexto: Determina quanto da conversa anterior o modelo lembra.

Usos Avançados e Integração com API

Modelfiles Personalizados para Aplicações Especializadas

A verdadeira flexibilidade do Ollama emerge quando você cria Modelfiles personalizados para adaptar o DeepSeek-R1 a tarefas específicas:

FROM deepseek-r1:8b
PARAMETER temperature 0.3
PARAMETER top_p 0.95
SYSTEM Você é um desenvolvedor de software sênior especializado em Python. Forneça código limpo e eficiente com comentários úteis.

Salve isso como Modelfile e crie seu modelo personalizado:

ollama create python-expert -f Modelfile

Execute-o como qualquer outro modelo:

ollama run python-expert "Escreva uma função para encontrar números primos em um determinado intervalo"

API REST para Integração de Aplicações

Embora o uso da linha de comando seja conveniente para experimentação, aplicações do mundo real precisam de acesso à API. O Ollama fornece uma API REST simples na porta 11434:

# Solicitação básica de conclusão
curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Escreva uma função recursiva para calcular números de Fibonacci",
  "stream": false
}'

Para respostas em streaming (ideal para interfaces de chat):

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1",
  "prompt": "Explique como as redes neurais aprendem em termos simples",
  "stream": true
}'

Testando Endpoints de API com Apidog

Ao construir aplicativos que integram com a API do Ollama, testar e visualizar as respostas em streaming se torna crucial. O Apidog se destaca ao lidar com Eventos Enviados pelo Servidor (SSE) como os produzidos pela API de streaming do Ollama:

Crie um novo projeto HTTP no Apidog
Adicione um endpoint com a URL http://localhost:11434/api/generate
Configure uma solicitação POST com o corpo JSON:

{
  "model": "deepseek-r1",
  "prompt": "Escreva uma história sobre um programador que descobre uma IA",
  "stream": true
}

Envie a solicitação e observe enquanto o depurador SSE do Apidog visualiza o processo de geração token a token em tempo real

Essa visualização ajuda a identificar problemas com a formatação das respostas, geração de tokens ou comportamento inesperado do modelo que pode ser difícil de depurar de outra forma.

Aplicações do Mundo Real com DeepSeek-R1

O DeepSeek-R1 se destaca em vários cenários práticos:

Geração de Conteúdo

Crie posts de blog de qualidade profissional:

ollama run deepseek-r1 "Escreva um post de blog de 500 palavras sobre tecnologia sustentável"

Extração de Informações

Processe e analise documentos para extrair informações chave:

ollama run deepseek-r1 "Extraia os pontos chave deste artigo de pesquisa: " < paper.txt

Análise de Imagens

Processe imagens para descrição de conteúdo ou análise:

ollama run deepseek-r1 "Analise e descreva o conteúdo desta imagem" < image.jpg

Geração e Explicação de Código

Gere soluções de código para problemas específicos:

ollama run deepseek-r1 "Escreva uma função Python que implemente um algoritmo de busca binária com comentários detalhados"

Ou explique código complexo:

ollama run deepseek-r1 "Explique o que este código faz: " < complex_algorithm.py

Resolvendo Problemas Comuns

Problemas de Memória e Desempenho

Se você encontrar erros de falta de memória:

Tente uma variante menor do modelo (7B em vez de 8B)
Reduza o tamanho da janela de contexto com --ctx N (por exemplo, --ctx 2048)
Feche outros aplicativos que consomem muita memória
Para usuários de CUDA, certifique-se de que os drivers NVIDIA mais recentes estão instalados

Problemas de Conexão com a API

Se você não consegue se conectar à API:

Certifique-se de que o Ollama está em execução com ollama serve
Verifique se a porta padrão está bloqueada ou em uso (lsof -i :11434)
Verifique as configurações do firewall se conectar de outra máquina

Conclusão

O Ollama com DeepSeek-R1 representa um passo significativo em direção à democratização da IA, colocando poderosos modelos de linguagem diretamente nas mãos dos desenvolvedores. A combinação oferece privacidade, controle e capacidades impressionantes—tudo isso sem depender de serviços externos.

À medida que você constrói aplicativos com esses LLMs locais, lembre-se de que testar adequadamente suas integrações de API é crucial para um desempenho confiável. Ferramentas como Apidog podem ajudar a visualizar e depurar as respostas em streaming do Ollama, especialmente quando você está construindo aplicações complexas que precisam processar saídas do modelo em tempo real.

Seja gerando conteúdo, construindo interfaces conversacionais ou criando assistentes de código, este poderoso duo fornece a base que você precisa para uma integração de IA sofisticada—diretamente em seu próprio hardware.