RESUMO
Ollama oferece a maneira mais fácil de executar modelos pequenos Qwen 3.5 (0.8B, 2B, 4B e 9B) localmente em seu Mac, Linux ou máquina Windows. Com um simples comando ollama run, você pode acessar recursos de IA capazes sem custos de API na nuvem. Baixe o Ollama, baixe um modelo e comece a conversar em menos de 5 minutos.

Introdução
Executar modelos de linguagem grandes localmente tornou-se muito popular, e o Ollama torna isso simples. Se você deseja usar os modelos Qwen 3.5 da Alibaba sem enviar dados para a nuvem ou pagar taxas por token, Ollama é a resposta.
Este guia o orienta por tudo o que você precisa saber sobre a execução dos modelos pequenos Qwen 3.5 com Ollama. Se você precisa do modelo compacto de 0.8B para tarefas rápidas ou do modelo maior de 9B para raciocínio complexo, abordaremos a instalação, uso e integração.
Por que usar Ollama para Qwen 3.5
Ollama se tornou a solução preferida para implantação local de LLM:
Configuração Simples
Sem configurações complexas de Docker ou Python. Baixe um aplicativo e você estará pronto.
Privacidade em Primeiro Lugar
Seus dados permanecem em sua máquina. Isso é importante para dados comerciais ou qualquer coisa sensível.
Sem Custos de API
Após baixar os modelos, executá-los é gratuito. Sem taxas por token ou assinaturas.
Capacidade Offline
Use IA em qualquer lugar, mesmo sem internet.
Aceleração de Hardware
Ollama usa automaticamente a aceleração de GPU quando disponível, tornando a inferência local rápida.
Instalando Ollama
Instalação no Mac
Se você tem um Mac, a instalação leva segundos:
# Baixe em ollama.com ou use Homebrew
brew install ollama
É isso. Ollama detectará automaticamente o Apple Silicon (M1/M2/M3) e usará o Metal para aceleração de GPU.
Instalação no Linux
Para servidores Linux ou WSL:
# Instalação rápida
curl -fsSL https://ollama.com/install.sh | sh
Instalação no Windows
Usuários do Windows podem baixar o instalador. A versão Windows suporta aceleração de GPU via DirectML.

Verificação
Após a instalação, verifique se tudo funciona:
ollama --version
Você verá o número da versão. Agora vamos baixar alguns modelos Qwen.
Executando Modelos Qwen 3.5
Baixando seu Primeiro Modelo
Ollama simplifica o download de modelos:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bO download de cada modelo leva alguns minutos, dependendo da sua velocidade de internet. O modelo 2B tem cerca de 1.5GB, enquanto o modelo 9B tem cerca de 5GB.
Iniciando uma Sessão de Chat
Uma vez baixado, comece a conversar imediatamente:
ollama run qwen3.5:9b
Você verá um prompt onde pode digitar diretamente:
>>> O que é computação quântica em termos simples?
Computação quântica é um tipo de computação onde...
Digite suas perguntas e pressione Enter. Pressione Ctrl+D para sair.
Listando Modelos Disponíveis
Veja o que você tem instalado:
ollama list
A saída mostra cada modelo, seu tamanho e a última vez que você o usou.
Removendo Modelos
Libere espaço em disco removendo modelos que você não precisa:
ollama remove qwen3.5:9b
Comparação e Seleção de Modelos
A escolha do modelo certo depende do seu hardware e caso de uso:
| Modelo | Parâmetros | Tamanho Aproximado do Modelo (BF16, precisão total) | RAM Necessária (BF16, guia Unsloth) | Melhor para |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Dispositivos de borda e móveis ultraleves: preenchimento automático rápido, chatbots simples, ferramentas pequenas, visão/OCR básico em dispositivos de baixo custo. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Assistentes leves, agentes pequenos, ajuda básica com codificação, multimodais decentes em laptops com RAM modesta. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | Auxiliar de desenvolvimento "preenchimento automático inteligente", agentes leves, melhor raciocínio e multimodal do que 2B, ainda fácil de executar localmente. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Assistente geral forte, bom multilíngue + visão, utilizável como IA local principal em uma máquina com 16–24 GB de RAM/VRAM. |
Recomendação para a maioria dos usuários: Comece com qwen2.5:2b. Ele oferece o melhor equilíbrio entre capacidade e velocidade. Atualize para 4B ou 9B apenas se precisar de mais poder de raciocínio.
API do Ollama para Desenvolvedores
Ollama executa um servidor API local que seus aplicativos podem chamar. Isso é perfeito para integrar o Qwen 3.5 em seus projetos.
Iniciando o Servidor API
Ollama executa como um serviço em segundo plano por padrão. A API está disponível em:
http://localhost:11434
Conclusão Básica de Chat
Envie solicitações para o endpoint de chat:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "O que é Python?"}
],
"stream": false
}'
Resposta:

Respostas em Streaming
Para saída em tempo real, ative o streaming:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Conte até 5"}],
"stream": true
}'
Isso transmite os tokens à medida que são gerados.
Endpoint de Geração
Para prompts que não são de chat:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Escreva um haicai sobre codificação",
"stream": false
}'
Integrando com Seus Aplicativos
Integração Python
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Explique recursão"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
Integração JavaScript/Node.js
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: 'O que é uma API?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Testando sua Integração com Apidog
Ao construir aplicativos que chamam Ollama, use ferramentas de teste de API para validar as respostas. Veja como testar sua API do Ollama com Apidog:
- Crie uma nova requisição POST para
http://localhost:11434/api/chat - Defina Content-Type para
application/json - Adicione o corpo da requisição:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Olá"}],
"stream": false
}
Apidog permite que você crie casos de teste automatizados que validam a qualidade da resposta, testam diferentes prompts e monitoram seus endpoints LLM locais. Isso garante que sua integração funcione de forma confiável em produção.
Desempenho e Requisitos de Hardware
Aceleração de GPU
Ollama usa automaticamente a GPU quando disponível:
- Apple Silicon (M1/M2/M3): Usa Metal, muito eficiente
- GPUs NVIDIA: Usa CUDA, excelente desempenho
- GPUs AMD: Usa ROCm no Linux
- Somente CPU: Funciona, mas mais lento
Desempenho Esperado
| Modelo | GPU | Tokens/seg (aprox) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
A inferência apenas com CPU será significativamente mais lenta (5-10x).
Requisitos de Memória
RAM mínima por modelo:
- 0.8B: 2GB de RAM disponível
- 2B: 4GB de RAM disponível
- 4B: 8GB de RAM disponível
- 9B: 16GB de RAM disponível
Ter mais RAM do que o mínimo ajuda na capacidade de resposta.
Solução de Problemas Comuns
"Ollama não encontrado"
Certifique-se de que o Ollama esteja no seu PATH. No Mac/Linux, reinicie seu terminal após a instalação.
Desempenho Lento
- Verifique se a GPU está sendo usada:
ollama listmostra informações do modelo - Para apenas CPU: espere velocidades mais lentas
- Feche outros aplicativos que usam a GPU
Falha no Download do Modelo
Tente novamente com uma internet mais rápida. Se estiver usando uma VPN, tente sem ela.
Conexão API Recusada
Certifique-se de que o Ollama esteja em execução: ollama serve (geralmente executa automaticamente)
Sem Memória
Use um modelo menor. O modelo 9B precisa de muita RAM. Feche outros aplicativos.
Conclusão
Ollama torna a execução de modelos Qwen 3.5 localmente simples. Se você é um desenvolvedor construindo aplicativos de IA ou apenas quer experimentar LLMs locais, o processo leva minutos em vez de horas.
A combinação das fortes capacidades multilíngues do Qwen 3.5 e da interface simples do Ollama torna esta uma das maneiras mais fáceis de começar com a IA local.
Próximos passos: Depois de configurar sua API do Ollama, use o Apidog para criar casos de teste automatizados que validam a qualidade da resposta, testam diferentes prompts e monitoram seus endpoints LLM locais. Comece com o Apidog gratuitamente.
FAQ
Qual a diferença entre Ollama e outros métodos de implantação?
Ollama foi projetado para simplicidade. Ao contrário do Docker ou da implantação manual de modelos, ele gerencia tudo (download de modelos, aceleração de GPU, serviço de API) com comandos simples.
Posso usar Ollama com outros modelos Qwen?
Sim, Ollama suporta muitos modelos. Verifique ollama.com/library para a lista completa.
Como atualizo os modelos Qwen no Ollama?
Baixe a versão mais recente: ollama pull qwen2.5:2b. Isso baixa as atualizações, se disponíveis.
Posso executar vários modelos ao mesmo tempo?
Sim, mas cada modelo usa memória. A maioria dos sistemas pode executar 1-2 modelos simultaneamente.
Meus dados estão seguros com Ollama?
Sim. Tudo é executado localmente. Nenhum dado é enviado para servidores externos.
Posso ajustar modelos Qwen usando Ollama?
Ollama é apenas para inferência. Para ajuste fino, você precisará de outras ferramentas, como adaptadores LoRA.
Como altero a porta que o Ollama usa?
Defina a variável de ambiente OLLAMA_HOST antes de executar: export OLLAMA_HOST=0.0.0.0:8080
