Como Usar Qwen 3.5 com Ollama: Guia Completo

Ashley Innocent

Ashley Innocent

3 março 2026

Como Usar Qwen 3.5 com Ollama: Guia Completo

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

RESUMO

Ollama oferece a maneira mais fácil de executar modelos pequenos Qwen 3.5 (0.8B, 2B, 4B e 9B) localmente em seu Mac, Linux ou máquina Windows. Com um simples comando ollama run, você pode acessar recursos de IA capazes sem custos de API na nuvem. Baixe o Ollama, baixe um modelo e comece a conversar em menos de 5 minutos.

Introdução

Executar modelos de linguagem grandes localmente tornou-se muito popular, e o Ollama torna isso simples. Se você deseja usar os modelos Qwen 3.5 da Alibaba sem enviar dados para a nuvem ou pagar taxas por token, Ollama é a resposta.

💡
Ao construir aplicativos que chamam LLMs locais como o Qwen 3.5 através da API do Ollama, você precisará de uma maneira confiável de testar e validar as respostas. As ferramentas de teste de API do Apidog permitem que você configure testes automatizados para seus endpoints de API do Ollama, garantindo que as respostas estejam corretas e atendam às suas expectativas. Crie asserções de teste para tempo de resposta, estrutura de conteúdo e tratamento de erros — vá para a seção de API do Ollama para ver como testar sua configuração.
botão

Este guia o orienta por tudo o que você precisa saber sobre a execução dos modelos pequenos Qwen 3.5 com Ollama. Se você precisa do modelo compacto de 0.8B para tarefas rápidas ou do modelo maior de 9B para raciocínio complexo, abordaremos a instalação, uso e integração.

Por que usar Ollama para Qwen 3.5

Ollama se tornou a solução preferida para implantação local de LLM:

Configuração Simples
Sem configurações complexas de Docker ou Python. Baixe um aplicativo e você estará pronto.

Privacidade em Primeiro Lugar
Seus dados permanecem em sua máquina. Isso é importante para dados comerciais ou qualquer coisa sensível.

Sem Custos de API
Após baixar os modelos, executá-los é gratuito. Sem taxas por token ou assinaturas.

Capacidade Offline
Use IA em qualquer lugar, mesmo sem internet.

Aceleração de Hardware
Ollama usa automaticamente a aceleração de GPU quando disponível, tornando a inferência local rápida.

Instalando Ollama

Instalação no Mac

Se você tem um Mac, a instalação leva segundos:

# Baixe em ollama.com ou use Homebrew
brew install ollama

É isso. Ollama detectará automaticamente o Apple Silicon (M1/M2/M3) e usará o Metal para aceleração de GPU.

Instalação no Linux

Para servidores Linux ou WSL:

# Instalação rápida
curl -fsSL https://ollama.com/install.sh | sh

Instalação no Windows

Usuários do Windows podem baixar o instalador. A versão Windows suporta aceleração de GPU via DirectML.

Verificação

Após a instalação, verifique se tudo funciona:

ollama --version

Você verá o número da versão. Agora vamos baixar alguns modelos Qwen.

Executando Modelos Qwen 3.5

Baixando seu Primeiro Modelo

Ollama simplifica o download de modelos:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

O download de cada modelo leva alguns minutos, dependendo da sua velocidade de internet. O modelo 2B tem cerca de 1.5GB, enquanto o modelo 9B tem cerca de 5GB.

Iniciando uma Sessão de Chat

Uma vez baixado, comece a conversar imediatamente:

ollama run qwen3.5:9b

Você verá um prompt onde pode digitar diretamente:

>>> O que é computação quântica em termos simples?
Computação quântica é um tipo de computação onde...

Digite suas perguntas e pressione Enter. Pressione Ctrl+D para sair.

Listando Modelos Disponíveis

Veja o que você tem instalado:

ollama list

A saída mostra cada modelo, seu tamanho e a última vez que você o usou.

Removendo Modelos

Libere espaço em disco removendo modelos que você não precisa:

ollama remove qwen3.5:9b

Comparação e Seleção de Modelos

A escolha do modelo certo depende do seu hardware e caso de uso:

Modelo Parâmetros Tamanho Aproximado do Modelo (BF16, precisão total) RAM Necessária (BF16, guia Unsloth) Melhor para
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB Dispositivos de borda e móveis ultraleves: preenchimento automático rápido, chatbots simples, ferramentas pequenas, visão/OCR básico em dispositivos de baixo custo.
Qwen3.5-2B 2B ~4 GB ~9 GB Assistentes leves, agentes pequenos, ajuda básica com codificação, multimodais decentes em laptops com RAM modesta.
Qwen3.5-4B 4B ~8 GB ~14 GB Auxiliar de desenvolvimento "preenchimento automático inteligente", agentes leves, melhor raciocínio e multimodal do que 2B, ainda fácil de executar localmente.
Qwen3.5-9B 9B ~18 GB ~19 GB Assistente geral forte, bom multilíngue + visão, utilizável como IA local principal em uma máquina com 16–24 GB de RAM/VRAM.

Recomendação para a maioria dos usuários: Comece com qwen2.5:2b. Ele oferece o melhor equilíbrio entre capacidade e velocidade. Atualize para 4B ou 9B apenas se precisar de mais poder de raciocínio.

API do Ollama para Desenvolvedores

Ollama executa um servidor API local que seus aplicativos podem chamar. Isso é perfeito para integrar o Qwen 3.5 em seus projetos.

Iniciando o Servidor API

Ollama executa como um serviço em segundo plano por padrão. A API está disponível em:

http://localhost:11434

Conclusão Básica de Chat

Envie solicitações para o endpoint de chat:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "O que é Python?"}
    ],
    "stream": false
  }'

Resposta:

Respostas em Streaming

Para saída em tempo real, ative o streaming:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Conte até 5"}],
    "stream": true
  }'

Isso transmite os tokens à medida que são gerados.

Endpoint de Geração

Para prompts que não são de chat:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Escreva um haicai sobre codificação",
    "stream": false
  }'

Integrando com Seus Aplicativos

Integração Python

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explique recursão"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

Integração JavaScript/Node.js

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: 'O que é uma API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Testando sua Integração com Apidog

Ao construir aplicativos que chamam Ollama, use ferramentas de teste de API para validar as respostas. Veja como testar sua API do Ollama com Apidog:

  1. Crie uma nova requisição POST para http://localhost:11434/api/chat
  2. Defina Content-Type para application/json
  3. Adicione o corpo da requisição:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Olá"}],
  "stream": false
}

Apidog permite que você crie casos de teste automatizados que validam a qualidade da resposta, testam diferentes prompts e monitoram seus endpoints LLM locais. Isso garante que sua integração funcione de forma confiável em produção.

Desempenho e Requisitos de Hardware

Aceleração de GPU

Ollama usa automaticamente a GPU quando disponível:

Desempenho Esperado

Modelo GPU Tokens/seg (aprox)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

A inferência apenas com CPU será significativamente mais lenta (5-10x).

Requisitos de Memória

RAM mínima por modelo:

Ter mais RAM do que o mínimo ajuda na capacidade de resposta.

Solução de Problemas Comuns

"Ollama não encontrado"

Certifique-se de que o Ollama esteja no seu PATH. No Mac/Linux, reinicie seu terminal após a instalação.

Desempenho Lento

  1. Verifique se a GPU está sendo usada: ollama list mostra informações do modelo
  2. Para apenas CPU: espere velocidades mais lentas
  3. Feche outros aplicativos que usam a GPU

Falha no Download do Modelo

Tente novamente com uma internet mais rápida. Se estiver usando uma VPN, tente sem ela.

Conexão API Recusada

Certifique-se de que o Ollama esteja em execução: ollama serve (geralmente executa automaticamente)

Sem Memória

Use um modelo menor. O modelo 9B precisa de muita RAM. Feche outros aplicativos.

Conclusão

Ollama torna a execução de modelos Qwen 3.5 localmente simples. Se você é um desenvolvedor construindo aplicativos de IA ou apenas quer experimentar LLMs locais, o processo leva minutos em vez de horas.

A combinação das fortes capacidades multilíngues do Qwen 3.5 e da interface simples do Ollama torna esta uma das maneiras mais fáceis de começar com a IA local.

Próximos passos: Depois de configurar sua API do Ollama, use o Apidog para criar casos de teste automatizados que validam a qualidade da resposta, testam diferentes prompts e monitoram seus endpoints LLM locais. Comece com o Apidog gratuitamente.

botão

FAQ

Qual a diferença entre Ollama e outros métodos de implantação?

Ollama foi projetado para simplicidade. Ao contrário do Docker ou da implantação manual de modelos, ele gerencia tudo (download de modelos, aceleração de GPU, serviço de API) com comandos simples.

Posso usar Ollama com outros modelos Qwen?

Sim, Ollama suporta muitos modelos. Verifique ollama.com/library para a lista completa.

Como atualizo os modelos Qwen no Ollama?

Baixe a versão mais recente: ollama pull qwen2.5:2b. Isso baixa as atualizações, se disponíveis.

Posso executar vários modelos ao mesmo tempo?

Sim, mas cada modelo usa memória. A maioria dos sistemas pode executar 1-2 modelos simultaneamente.

Meus dados estão seguros com Ollama?

Sim. Tudo é executado localmente. Nenhum dado é enviado para servidores externos.

Posso ajustar modelos Qwen usando Ollama?

Ollama é apenas para inferência. Para ajuste fino, você precisará de outras ferramentas, como adaptadores LoRA.

Como altero a porta que o Ollama usa?

Defina a variável de ambiente OLLAMA_HOST antes de executar: export OLLAMA_HOST=0.0.0.0:8080

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs

Como Usar Qwen 3.5 com Ollama: Guia Completo