Apidog

Plataforma Colaborativa All-in-one para Desenvolvimento de API

Design de API

Documentação de API

Depuração de API

Mock de API

Testes Automatizados de API

Como Baixar e Usar o Ollama para Executar LLMs Localmente

@apidog

@apidog

Updated on abril 14, 2025

O mundo da Inteligência Artificial (IA) está evoluindo a uma velocidade impressionante, com Modelos de Linguagem de Grande Escala (LLMs) como ChatGPT, Claude e Gemini capturando a imaginação global. Essas ferramentas poderosas podem escrever código, redigir e-mails, responder a perguntas complexas e até gerar conteúdo criativo. No entanto, o uso desses serviços baseados em nuvem frequentemente levanta preocupações sobre privacidade de dados, custos potenciais e a necessidade de uma conexão contínua com a internet.

Apresentamos Ollama.

Ollama é uma ferramenta poderosa e de código aberto projetada para democratizar o acesso a grandes modelos de linguagem, permitindo que você os baixe, execute e gerencie diretamente no seu próprio computador. Ela simplifica o processo muitas vezes complexo de configuração e interação com modelos de IA de ponta localmente.

Por que Usar Ollama?

Executar LLMs localmente com Ollama oferece várias vantagens convincentes:

  1. Privacidade: Seus prompts e as respostas do modelo permanecem na sua máquina. Nenhum dado é enviado para servidores externos, a menos que você explicitamente configure para fazê-lo. Isso é crucial para informações sensíveis ou trabalho proprietário.
  2. Acesso Offline: Uma vez que um modelo é baixado, você pode usá-lo sem uma conexão à internet, tornando-o perfeito para viagens, locais remotos ou situações com conectividade irregular.
  3. Personalização: Ollama permite que você modifique facilmente os modelos usando 'Modelfiles', permitindo que você adapte seu comportamento, prompts de sistema e parâmetros às suas necessidades específicas.
  4. Economia: Não há taxas de assinatura ou encargos por token. O único custo é o hardware que você já possui e a eletricidade para executá-lo.
  5. Exploração e Aprendizado: Ela oferece uma plataforma fantástica para experimentar diferentes modelos de código aberto, entender suas capacidades e limitações e aprender mais sobre como os LLMs funcionam internamente.

Este artigo é voltado para iniciantes que estão confortáveis usando uma interface de linha de comando (como Terminal no macOS/Linux ou Prompt de Comando/PowerShell no Windows) e desejam começar a explorar o mundo dos LLMs locais com Ollama. Vamos guiá-lo para entender os princípios básicos, instalar o Ollama, executar seu primeiro modelo, interagir com ele e explorar personalizações básicas.

💡
Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, tudo-em-um para sua equipe de desenvolvedores trabalharem juntas com máxima produtividade?

Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!
botão

Como Funciona o Ollama?

Antes de mergulhar na instalação, vamos esclarecer alguns conceitos fundamentais.

O que são Modelos de Linguagem de Grande Escala (LLMs)?

Pense em um LLM como um sistema de autocompletar incrivelmente avançado, treinado em vastas quantidades de texto e código da internet. Ao analisar padrões nesses dados, ele aprende gramática, fatos, habilidades de raciocínio e diferentes estilos de escrita. Quando você lhe fornece um prompt (texto de entrada), ele prevê a sequência de palavras mais provável a seguir, gerando uma resposta coerente e frequentemente perspicaz. Diferentes LLMs são treinados com diferentes conjuntos de dados, tamanhos e arquiteturas, levando a variações em suas forças, fraquezas e personalidades.

Como Funciona o Ollama?

Ollama atua como um gerenciador e executor desses LLMs na sua máquina local. Suas funções principais incluem:

  1. Download do Modelo: Ele busca pesos e configurações de LLM pré-empacotados de uma biblioteca central (semelhante ao modo como o Docker puxa imagens de contêiner).
  2. Execução do Modelo: Ele carrega o modelo escolhido na memória (RAM) do seu computador e potencialmente utiliza sua placa de vídeo (GPU) para aceleração.
  3. Fornecendo Interfaces: Oferece uma interface de linha de comando simples (CLI) para interação direta e também executa um servidor web local que fornece uma API (Interface de Programação de Aplicações) para que outros aplicativos se comuniquem com o LLM em execução.

Requisitos de Hardware para Ollama: Meu Computador Conseguirá Rodá-lo?

Executar LLMs localmente pode ser exigente, principalmente para a RAM (Memória de Acesso Aleatório) do seu computador. O tamanho do modelo que você deseja rodar determina a RAM mínima necessária.

  • Modelos Pequenos (por exemplo, ~3 bilhões de parâmetros como Phi-3 Mini): Podem rodar razoavelmente bem com 8GB de RAM, embora mais seja sempre melhor para um desempenho mais suave.
  • Modelos Médios (por exemplo, 7-8 bilhões de parâmetros como Llama 3 8B, Mistral 7B): Geralmente exigem pelo menos 16GB de RAM. Este é um ponto doce comum para muitos usuários.
  • Modelos Grandes (por exemplo, 13B+ parâmetros): Frequentemente necessitam de 32GB de RAM ou mais. Modelos muito grandes (70B+) podem exigir 64GB ou mesmo 128GB.

Outros Fatores que você pode precisar considerar:

  • CPU (Unidade Central de Processamento): Embora importante, a maioria das CPUs modernas é adequada. CPUs mais rápidas ajudam, mas a RAM geralmente é o gargalo.
  • GPU (Unidade de Processamento Gráfico): Ter uma GPU poderosa e compatível (especialmente GPUs NVIDIA no Linux/Windows ou GPUs Apple Silicon no macOS) pode acelerar significativamente o desempenho do modelo. O Ollama detecta automaticamente e utiliza GPUs compatíveis se os drivers necessários estiverem instalados. No entanto, uma GPU dedicada não é estritamente necessária; o Ollama pode rodar modelos apenas na CPU, embora mais lentamente.
  • Espaço em Disco: Você precisará de espaço em disco suficiente para armazenar os modelos baixados, que podem variar de alguns gigabytes a dezenas ou até centenas de gigabytes, dependendo do tamanho e do número de modelos que você baixar.

Recomendação para Iniciantes: Comece com modelos menores (como phi3, mistral ou llama3:8b) e certifique-se de ter pelo menos 16GB de RAM para uma experiência inicial confortável. Verifique o site do Ollama ou a biblioteca de modelos para recomendações específicas de RAM para cada modelo.

Como Instalar Ollama no Mac, Linux e Windows (Usando WSL)

O Ollama suporta macOS, Linux e Windows (atualmente em prévia, frequentemente exigindo WSL).

Passo 1: Pré-requisitos

  • Sistema Operacional: Uma versão suportada de macOS, Linux ou Windows (com WSL2 recomendado).
  • Linha de Comando: Acesso ao Terminal (macOS/Linux) ou Prompt de Comando/PowerShell/terminal WSL (Windows).

Passo 2: Baixando e Instalando o Ollama

O processo varia um pouco dependendo do seu sistema operacional:

  • macOS:
  1. Vá para o site oficial do Ollama: https://ollama.com
  2. Clique no botão "Baixar", depois selecione "Baixar para macOS".
  3. Uma vez que o arquivo .dmg é baixado, abra-o.
  4. Arraste o ícone do aplicativo Ollama para a sua pasta Applications.
  5. Você pode precisar conceder permissões na primeira vez que executá-lo.
  • Linux:

A maneira mais rápida geralmente é através do script de instalação oficial. Abra seu terminal e execute:

curl -fsSL <https://ollama.com/install.sh> | sh

Esse comando baixa o script e o executa, instalando o Ollama para o seu usuário. Ele também tentará detectar e configurar o suporte a GPU, se aplicável (os drivers NVIDIA são necessários).

Siga quaisquer prompts exibidos pelo script. Instruções de instalação manual também estão disponíveis no repositório do Ollama no GitHub, se você preferir.

  • Windows (Prévia):
  1. Vá para o site oficial do Ollama: https://ollama.com
  2. Clique no botão "Baixar", depois selecione "Baixar para Windows (Prévia)".
  3. Execute o instalador executável baixado (.exe).
  4. Siga os passos do assistente de instalação.
  5. Nota Importante: O Ollama no Windows depende fortemente do Subsistema do Windows para Linux (WSL2). O instalador pode solicitar que você instale ou configure o WSL2 se ainda não estiver configurado. A aceleração por GPU normalmente requer configurações específicas do WSL e drivers NVIDIA instalados dentro do ambiente WSL. Usar o Ollama pode parecer mais nativo dentro de um terminal WSL.

Passo 3: Verificando a Instalação

Uma vez instalado, você precisa verificar se o Ollama está funcionando corretamente.

Abrir seu terminal ou prompt de comando. (No Windows, é frequentemente recomendado usar um terminal WSL).

Digite o seguinte comando e pressione Enter:

ollama --version

Se a instalação foi bem-sucedida, você verá uma saída exibindo o número da versão instalada do Ollama, como:

versão do ollama é 0.1.XX

Se você ver isso, o Ollama está instalado e pronto para usar! Se você encontrar um erro como "comando não encontrado", verifique novamente os passos de instalação, garanta que o Ollama foi adicionado ao PATH do sistema (o instalador geralmente cuida disso), ou tente reiniciar seu terminal ou computador.

Introdução: Executando Seu Primeiro Modelo com Ollama

Com o Ollama instalado, você pode agora baixar e interagir com um LLM.

Conceito: O Registro de Modelos Ollama

Ollama mantém uma biblioteca de modelos de código aberto prontamente disponíveis. Quando você pede ao Ollama para executar um modelo que ele não possui localmente, ele o baixa automaticamente desse registro. Pense nisso como docker pull para LLMs. Você pode navegar pelos modelos disponíveis na seção de biblioteca do site do Ollama.

Escolhendo um Modelo

Para iniciantes, é melhor começar com um modelo relativamente pequeno e bem equilibrado. Boas opções incluem:

  • llama3:8b: Modelo de última geração da Meta AI (versão de 8 bilhões de parâmetros). Excelente desempenho geral, bom em seguir instruções e programar. Exige ~16GB de RAM.
  • mistral: Modelo popular de 7 bilhões de parâmetros da Mistral AI. Conhecido por seu forte desempenho e eficiência. Exige ~16GB de RAM.
  • phi3: Modelo de linguagem pequeno recente da Microsoft (SLM). Muito capaz para seu tamanho, bom para hardware menos poderoso. A versão phi3:mini pode rodar em 8GB de RAM.
  • gemma:7b: Série de modelos abertos do Google. Outro forte candidato na faixa de 7B.

Verifique a biblioteca do Ollama para detalhes sobre o tamanho de cada modelo, requisitos de RAM e casos de uso típicos.

Baixando e Executando um Modelo (Linha de Comando)

O comando principal que você usará é ollama run.

Abrir seu terminal.

Escolha um nome de modelo (por exemplo, llama3:8b).

Digite o comando:

ollama run llama3:8b

Pressione Enter.

O que Acontece a Seguir?

Download: Se você não tiver llama3:8b localmente, o Ollama exibirá barras de progresso enquanto baixa as camadas do modelo. Isso pode levar algum tempo, dependendo da sua velocidade de internet e do tamanho do modelo (frequentemente vários gigabytes).

Carregamento: Uma vez baixado, o Ollama carrega o modelo na RAM do seu computador (e na memória da GPU, se aplicável). Você pode ver mensagens sobre detecção de hardware.

Bate-papo Interativo: Após o carregamento, você verá um prompt como: Isso significa que o modelo está pronto! Você agora está em uma sessão de bate-papo interativa diretamente com o LLM em execução na sua máquina.

>>> Envie uma mensagem (/? para ajuda)

Interagindo com o Modelo:

  • Digite sua pergunta ou instrução (seu "prompt") após o >>> e pressione Enter.
  • O modelo processará sua entrada e gerará uma resposta, transmitindo-a de volta para o seu terminal.
  • Você pode continuar a conversa digitando prompts de seguimento. O modelo mantém o contexto da sessão atual.

Exemplo de Interação:


> Envie uma mensagem (/? para ajuda)
Explique o conceito de fotossíntese em termos simples.
>

A fotossíntese é como as plantas fazem sua própria comida! Elas pegam três ingredientes principais:

1. **Luz Solar:** Energia do sol.
2. **Água:** Absorvida pelas raízes.
3. **Dióxido de Carbono:** Um gás que elas retiram do ar através de pequenos buracos em suas folhas.

Usando a energia da luz solar, as plantas combinam a água e o dióxido de carbono dentro de partes especiais de suas células chamadas cloroplastos. Esse processo cria duas coisas:

1. **Açúcar (Glicose):** Essa é a comida da planta, dando-lhe energia para crescer.
2. **Oxigênio:** Um gás que a planta libera de volta para o ar, que os animais (como nós!) precisam para respirar.

Portanto, de forma simples: as plantas usam luz solar, água e ar para fazer sua própria comida e liberam o oxigênio que precisamos!

>
>

Saindo da Sessão:

Quando você terminar de conversar, digite /bye e pressione Enter. Isso descarregará o modelo da memória e retornará você ao seu prompt de terminal regular. Você também pode frequentemente usar Ctrl+D.

Listando Modelos Baixados

Para ver quais modelos você baixou localmente, use o comando ollama list:

ollama list

A saída mostrará os nomes dos modelos, seus IDs únicos, tamanhos e quando foram modificados pela última vez:

NOME            ID              TAMANHO MODIFICADO
llama3:8b       871998b83999    4.7 GB  5 dias atrás
mistral:latest  8ab431d3a87a    4.1 GB  2 semanas atrás

Removendo Modelos

Modelos ocupam espaço em disco. Se você não precisar mais de um modelo específico, pode removê-lo usando o comando ollama rm seguido do nome do modelo:

ollama rm mistral:latest

Ollama confirmará a exclusão. Isso apenas remove os arquivos baixados; você sempre pode executar ollama run mistral:latest novamente para baixá-lo novamente mais tarde.

Como Obter Melhores Resultados do Ollama

Executar modelos é apenas o começo. Aqui estão algumas maneiras de obter melhores resultados:

Compreendendo Prompts (Fundamentos da Engenharia de Prompts)

A qualidade da saída do modelo depende fortemente da qualidade da sua entrada (o prompt).

  • Seja Claro e Específico: Diga ao modelo exatamente o que você deseja. Em vez de "Escreva sobre cães," tente "Escreva um poema curto e alegre sobre um golden retriever brincando de buscar."
  • Forneça Contexto: Se estiver fazendo perguntas de seguimento, certifique-se de que as informações de fundo necessárias estejam presentes no prompt ou anteriormente na conversa.
  • Especifique o Formato: Peça por listas, pontos destacados, blocos de código, tabelas ou um tom específico (por exemplo, "Explique como se eu tivesse cinco anos," "Escreva em um tom formal").
  • Itere: Não espere perfeição na primeira tentativa. Se a saída não estiver certa, reformule seu prompt, adicione mais detalhes ou peça ao modelo para refinar sua resposta anterior.

Experimentos com Diferentes Modelos

Diferentes modelos se destacam em diferentes tarefas.

  • Llama 3 geralmente é ótimo para conversação geral, seguir instruções e programação.
  • Mistral é conhecido por seu equilíbrio entre desempenho e eficiência.
  • Phi-3 é surpreendentemente capaz para escrita criativa e sumarização, apesar de seu tamanho menor.
  • Modelos especificamente ajustados para programação (como codellama ou starcoder) podem ter um desempenho melhor em tarefas de programação.

Experimente! Execute o mesmo prompt em diferentes modelos usando ollama run <nome_do_modelo> para ver qual atende melhor às suas necessidades para uma tarefa específica.

Prompts de Sistema (Definindo o Contexto)

Você pode orientar o comportamento ou a persona geral do modelo para uma sessão usando um "prompt de sistema." Isso é como fornecer instruções de fundo para a IA antes da conversa começar. Embora personalizações mais profundas envolvam Modelfiles (cobrindo brevemente a seguir), você pode definir uma simples mensagem de sistema diretamente ao executar um modelo:

# Esse recurso pode variar ligeiramente; verifique `ollama run --help`
# Ollama pode integrar isso no bate-papo diretamente usando /set system
# Ou através de Modelfiles, que é a maneira mais robusta.

# Exemplo conceitual (verifique a documentação do Ollama para a sintaxe exata):
# ollama run llama3:8b --system "Você é um assistente útil que sempre responde em linguagem pirata."

Uma maneira mais comum e flexível é definir isso em um Modelfile.

Interagindo via API (Uma Olhada Rápida)

O Ollama não é apenas para a linha de comando. Ele executa um servidor web local (geralmente em http://localhost:11434) que expõe uma API. Isso permite que outros programas e scripts interajam com seus LLMs locais.

Você pode testar isso com uma ferramenta como curl no seu terminal:

curl <http://localhost:11434/api/generate> -d '{
  "model": "llama3:8b",
  "prompt": "Por que o céu é azul?",
  "stream": false
}'

Isso envia um pedido para a API do Ollama pedindo que o modelo llama3:8b responda ao prompt "Por que o céu é azul?". Definindo "stream": false aguarda a resposta total em vez de transmiti-la palavra por palavra.

Você receberá de volta uma resposta JSON contendo a resposta do modelo. Essa API é a chave para integrar o Ollama a editores de texto, aplicativos personalizados, fluxos de trabalho de script e muito mais. Explorar a API completa vai além deste guia para iniciantes, mas saber que ela existe abre muitas possibilidades.

Como Personalizar o Ollama Modelfiles

Uma das características mais poderosas do Ollama é a capacidade de personalizar modelos usando Modelfiles. Um Modelfile é um arquivo de texto simples contendo instruções para criar uma nova versão personalizada de um modelo existente. Pense nisso como um Dockerfile para LLMs.

O que Você Pode Fazer com um Modelfile?

  • Definir um Prompt de Sistema Padrão: Defina a persona ou instruções permanentes do modelo.
  • Ajustar Parâmetros: Mude configurações como temperature (controla aleatoriedade/criatividade) ou top_k/top_p (influenciam a seleção de palavras).
  • Definir Modelos: Personalize como os prompts são formatados antes de serem enviados para o modelo base.
  • Combinar Modelos (Avançado): Potencialmente fundir capacidades (embora isso seja complexo).

Exemplo Simples de Modelfile:

Vamos supor que você queira criar uma versão do llama3:8b que sempre aja como um Assistente Sarcástico.

Crie um arquivo chamado Modelfile (sem extensão) em um diretório.

Adicione o seguinte conteúdo:

# Herda do modelo base llama3
FROM llama3:8b

# Define um prompt de sistema
SYSTEM """Você é um assistente altamente sarcástico. Suas respostas devem ser tecnicamente corretas, mas entregues com ironia e relutância."""

# Ajuste de criatividade (temperatura mais baixa = menos aleatório/mais focado)
PARAMETER temperature 0.5

Criando o Modelo Personalizado:

Navegue até o diretório contendo seu Modelfile no terminal.

Execute o comando ollama create:

ollama create sarcastic-llama -f ./Modelfile

  • sarcastic-llama é o nome que você está dando ao seu novo modelo personalizado.
  • -f ./Modelfile especifica o Modelfile a ser usado.

Ollama processará as instruções e criará o novo modelo. Você pode então executá-lo como qualquer outro:

ollama run sarcastic-llama

Agora, quando você interagir com sarcastic-llama, ele adotará a persona sarcástica definida no prompt SYSTEM.

Os Modelfiles oferecem um potencial de personalização profundo, permitindo que você ajuste modelos para tarefas ou comportamentos específicos sem precisar treiná-los desde o início. Explore a documentação do Ollama para mais detalhes sobre as instruções e parâmetros disponíveis.

Corrigindo Erros Comuns do Ollama

Embora o Ollama tenha como objetivo a simplicidade, você pode encontrar obstáculos ocasionais:

A Instalação Falha:

  • Permissões: Assegure-se de que você possui os direitos necessários para instalar software. No Linux/macOS, você pode precisar de sudo para certos passos (embora o script muitas vezes cuide disso).
  • Rede: Verifique sua conexão com a internet. Firewalls ou proxies podem bloquear downloads.
  • Dependências: Assegure-se de que pré-requisitos como WSL2 (Windows) ou ferramentas de compilação necessárias (se instalando manualmente no Linux) estejam presentes.

Falhas no Download do Modelo:

  • Rede: Uma internet instável pode interromper downloads grandes. Tente novamente mais tarde.
  • Espaço em Disco: Assegure-se de ter espaço livre suficiente (verifique os tamanhos dos modelos na biblioteca do Ollama). Use ollama list e ollama rm para gerenciar espaço.
  • Problemas com o Registro: Ocasionalmente, o registro do Ollama pode ter problemas temporários. Verifique as páginas de status do Ollama ou canais comunitários.

Desempenho Lento do Ollama:

  • RAM: Este é o culpado mais comum. Se o modelo mal couber na sua RAM, seu sistema recorrerá a usar espaço de troca em disco mais lento, reduzindo drasticamente o desempenho. Feche outros aplicativos que consomem muita memória. Considere usar um modelo menor ou aumentar sua RAM.
  • Problemas com GPU (se aplicável): Assegure-se de ter os drivers de GPU compatíveis mais recentes instalados corretamente (incluindo o toolkit CUDA para NVIDIA no Linux/WSL). Execute ollama run ... e verifique a saída inicial para mensagens sobre detecção de GPU. Se disser "voltando para CPU," a GPU não está sendo utilizada.
  • Apenas CPU: Executar na CPU é inherentemente mais lento do que em uma GPU compatível. Este é o comportamento esperado.

Erros "Modelo não encontrado":

  • Erros de Digitação: Verifique a grafia do nome do modelo (por exemplo, llama3:8b, não llama3-8b).
  • Não Baixado: Assegure-se de que o modelo foi totalmente baixado (ollama list). Tente ollama pull <nome_do_modelo> para baixá-lo explicitamente primeiro.
  • Nome do Modelo Personalizado: Se estiver usando um modelo personalizado, assegure-se de ter usado o nome correto com o qual você o criou (ollama create my-model ..., depois ollama run my-model).
  • Outros Erros/Crashes: Verifique os logs do Ollama para mensagens de erro mais detalhadas. A localização varia conforme o sistema operacional (verifique a documentação do Ollama).

Alternativas ao Ollama?

Existem várias alternativas atraentes ao Ollama para executar grandes modelos de linguagem localmente.

  • O LM Studio se destaca com sua interface intuitiva, verificação de compatibilidade de modelos e servidor de inferência local que imita a API do OpenAI.
  • Para desenvolvedores que buscam uma configuração mínima, o Llamafile converte LLMs em executáveis únicos que rodam em várias plataformas com desempenho impressionante.
  • Para aqueles que preferem ferramentas de linha de comando, LLaMa.cpp serve como o motor de inferência subjacente que alimenta muitas ferramentas de LLM locais com excelente compatibilidade de hardware.

Conclusão: Sua Jornada na IA Local

O Ollama abre as portas para o fascinante mundo dos grandes modelos de linguagem, permitindo que qualquer um com um computador razoavelmente moderno execute ferramentas de IA poderosas localmente, de forma privada e sem custos contínuos.

Isso é apenas o começo. A verdadeira diversão começa quando você experimenta diferentes modelos, adapta-os às suas necessidades específicas usando Modelfiles, integra o Ollama em seus próprios scripts ou aplicativos através de sua API e explora o ecossistema de IA de código aberto que cresce rapidamente.

A capacidade de executar IA sofisticada localmente é transformadora, capacitando indivíduos e desenvolvedores. Mergulhe, explore, faça perguntas e aproveite o poder dos grandes modelos de linguagem ao seu alcance com o Ollama.

💡
Quer uma ótima ferramenta de Teste de API que gera documentação de API bonita?

Quer uma plataforma integrada, tudo-em-um para sua equipe de desenvolvedores trabalharem juntas com máxima produtividade?

Apidog atende todas as suas demandas e substitui o Postman a um preço muito mais acessível!
botão