Você enfrenta altas contas de nuvem ao executar agentes de IA poderosos todos os dias. O Qwen3.5 oferece raciocínio multimodal de nível de fronteira localmente. Você o combina com o OpenClaw para fluxos de trabalho de agente persistentes e o Ollama para um serviço local simples. O resultado é um agente de IA completo que funciona 24 horas por dia, 7 dias por semana, em sua máquina, sem assinaturas.
botão
Pequenas escolhas importam. Você escolhe a tag do modelo certa. Você define a URL base correta. Essas decisões criam grandes diferenças em velocidade e confiabilidade. Este guia mostra os passos exatos para que você termine com uma pilha pronta para produção que você controla completamente.
O que torna o Qwen3.5 perfeito para trabalho de agente local
A Alibaba lançou Qwen3.5 no início de 2026 como sua primeira família nativa de modelos de visão-linguagem. O carro-chefe 397B-A17B usa uma arquitetura híbrida. Ele combina Gated Delta Networks com Mixture-of-Experts esparsa. Apenas 17 bilhões de parâmetros são ativados por token. Você obtém alto desempenho com muito menos memória.

O Ollama hospeda essas tags práticas que você pode baixar hoje:
- qwen3.5:35b — cabe em 24 GB de VRAM, contexto de 256K, suporte completo a texto e imagem
- qwen3.5:122b — precisa de 81 GB para raciocínio mais aprofundado
Você executa o qwen3.5 localmente e mantém seus dados privados. O modelo pontua 86.7 no TAU2-Bench e 85.0 no MMMU. Portanto, você pode confiar nele para tarefas de agente que misturam texto, capturas de tela e chamadas de ferramentas.
Como o OpenClaw transforma o Qwen3.5 em um Agente Real
O OpenClaw funciona como seu tempo de execução de agente sempre ativo. Você o conecta ao WhatsApp, Telegram, Slack, Discord ou Signal uma vez. O agente escuta continuamente. Quando você envia uma mensagem, o OpenClaw a encaminha para o qwen3.5, chama ferramentas, controla seu navegador com o Playwright, edita arquivos, atualiza calendários e responde proativamente.

Você armazena memória entre sessões. O agente lembra seus projetos e preferências para sempre. Você instala habilidades da comunidade ou deixa o qwen3.5 escrever novas sob demanda. O OpenClaw, portanto, se torna seu assistente digital pessoal que nunca dorme.
Por que o Ollama simplifica a integração
O Ollama serve modelos localmente e expõe um endpoint compatível com OpenAI na porta 11434. Você aponta o OpenClaw para http://localhost:11434/v1 e define o modelo como qwen3.5:35b. O Ollama lida com a quantização, descarregamento de GPU e gerenciamento de contexto automaticamente.
Você alcança geração rápida de tokens em hardware de consumidor. Você mantém a janela de contexto completa de 256K que o qwen3.5 precisa para longas conversas de agente. Você evita custos de nuvem e vazamentos de dados ao mesmo tempo.
Pré-requisitos que você precisa atender
Você prepara sua máquina antes de começar. Use macOS 14 ou posterior, Ubuntu 22.04/24.04, ou Windows 11 com WSL2. Você precisa de pelo menos 24 GB de VRAM para o modelo 35B ou 32 GB de memória unificada em Apple Silicon. Mantenha 30 GB de espaço livre em disco. Instale o Node.js 22 ou superior e o Ollama 0.17 ou mais recente.
Você verifica sua GPU mais tarde com um comando. Hardware que atende a esses requisitos oferece desempenho responsivo. Você pode usar modelos quantizados menores se tiver menos memória.
Instale o Ollama e baixe o Qwen3.5
Você começa instalando o Ollama. No macOS você executa:
brew install ollama
brew services start ollama
No Linux você executa:
curl -fsSL https://ollama.com/install.sh | sh
systemctl enable --now ollama
Você confirma que o serviço está rodando com ollama list. Em seguida, você baixa o modelo:
ollama pull qwen3.5:35b
O download termina em 10 a 30 minutos. Você testa a inferência básica:
ollama run qwen3.5:35b
Você digita um prompt dentro do REPL. O Qwen3.5 responde com precisão. Você sai com /bye.
Você verifica imediatamente o endpoint compatível com OpenAI porque o OpenClaw precisa dele:
curl http://localhost:11434/v1/models
A resposta lista qwen3.5:35b. Você sabe que a ponte funciona.
Inicie o OpenClaw com Qwen3.5
Você usa um comando Ollama para instalar e iniciar tudo:
ollama launch openclaw --model qwen3.5:35b
O Ollama instala os componentes ausentes, inicia o gateway e abre o assistente TUI. Você conecta seus canais de mensagens, confirma o provedor do modelo e salva as configurações. O gateway é executado na porta 8080.
Você testa enviando uma mensagem para seu bot no Telegram: “Listar arquivos na minha pasta Downloads.” O OpenClaw usa o qwen3.5 e retorna o resultado.
Você também pode configurar manualmente. Você edita ~/.openclaw/openclaw.json e define a URL base do provedor Ollama. Você reinicia com openclaw start. Ambos os métodos dão resultados idênticos.
Teste a pilha completa com o Apidog
Você abre o Apidog e cria um novo projeto chamado “Qwen3.5 OpenClaw Local Stack”. Você define a URL base para http://localhost:11434/v1.

Você adiciona uma requisição POST para /chat/completions. Você inclui esses cabeçalhos:
- Content-Type: application/json
- Authorization: Bearer ollama
Você usa este corpo:
{
"model": "qwen3.5:35b",
"messages": [
{"role": "system", "content": "You are a helpful agent."},
{"role": "user", "content": "Plan steps to organize my Downloads folder by file type."}
],
"temperature": 0.7,
"max_tokens": 2048
}
Você envia a requisição. O Apidog mostra tokens em streaming em tempo real. Você adiciona uma asserção visual para o código de status 200. Você salva a requisição como um cenário de teste. Você executa o cenário novamente após alterar as configurações. Assim, você detecta problemas imediatamente.
Você cria uma segunda coleção para o gateway do OpenClaw em http://localhost:8080/v1. Você testa o roteamento de mensagens de ponta a ponta. A validação de esquema do Apidog confirma que os formatos de chamada de ferramenta correspondem ao que o OpenClaw espera.
Projete e Documente Seus Endpoints no Apidog
Você usa o designer visual do Apidog para modelar o esquema de conclusões de chat. Você importa a especificação oficial do OpenAI. Você a personaliza para os parâmetros do qwen3.5. Você gera documentação interativa automaticamente. Você compartilha a documentação com colegas de equipe através dos workspaces do Apidog se trabalharem juntos.

Você também cria respostas simuladas dentro do Apidog. Você simula chamadas de ferramentas antes de finalizar a configuração completa do OpenClaw. Assim, você desenvolve mais rápido e testa casos de borda com segurança.
Configuração Avançada para Melhor Desempenho
Você cria um Modelfile personalizado quando precisa de quantização mais leve:
FROM qwen3.5:35b
PARAMETER num_gpu 999
PARAMETER num_ctx 131072
Você o constrói com ollama create qwen3.5:35b-q4 -f Modelfile. Você atualiza sua configuração do OpenClaw para usar a nova tag.
Você habilita a visão enviando imagens base64 em mensagens de chat. O Qwen3.5 processa capturas de tela que o OpenClaw captura durante tarefas de navegador. Assim, você automatiza formulários que exigem compreensão visual.
Você instala habilidades extras:
openclaw skill install @community/calendar
openclaw skill install @community/github
Cada habilidade registra esquemas JSON. O Qwen3.5 aprende a chamá-las automaticamente. Você monitora o uso dentro do painel do OpenClaw.
Fluxos de Trabalho Reais que Você Executa Hoje
Você usa a pilha para revisões de código. Você envia uma mensagem ao OpenClaw: “Revise o PR no meu repositório e sugira refatorações.” O agente clona o repositório, analisa o código e cria um patch.
Você automatiza tarefas pessoais. Você escreve: “Verifique minha caixa de entrada por confirmações de voo e adicione-as ao calendário.” O OpenClaw analisa e-mails e atualiza seu calendário.
Você constrói assistentes de pesquisa. Você envia uma captura de tela de PDF e pede um resumo mais perguntas de acompanhamento. O Qwen3.5 extrai o texto com precisão. O OpenClaw mantém o contexto por dias.
Você executa múltiplos agentes. Você lança workspaces OpenClaw separados. Um usa qwen3.5:35b para trabalho geral. Outro usa um modelo de codificador especializado. O gateway roteia as mensagens corretamente.
Otimize Velocidade e Uso de Memória
Você define OLLAMA_NUM_GPU=999 para usar todas as camadas da GPU. Você monitora com nvidia-smi. No Apple Silicon você habilita a flash attention.
Você reduz o inchaço do contexto com prompts de sumarização periódicos que o qwen3.5 executa automaticamente. Você compara as taxas de tokens por segundo. O modelo 35B atinge 45–60 tokens por segundo em uma GPU da classe 4090. Você escolhe a variante que melhor se adapta ao seu hardware.
Você usa o teste de desempenho do Apidog para medir a latência em 100 requisições. Você ajusta a temperatura e o max_tokens até atingir o tempo de resposta desejado.
Resolva Problemas Comuns Rapidamente
Você vê “modelo não encontrado.” Você executa ollama list e corrige a tag em sua configuração.
Você experimenta alta latência. Você verifica os logs com journalctl -u ollama e aumenta as camadas da GPU. Você usa o Apidog para retestar a mesma requisição e confirmar a melhoria.
A análise da chamada de ferramenta falha. Você fixa a temperatura em 0.7 dentro dos cenários de teste do Apidog e executa novamente.
O OpenClaw perde a conexão com um aplicativo de mensagens. Você executa openclaw configure --section channels para atualizar os tokens.
Você atinge limites de taxa no Ollama. Você aumenta as configurações de concorrência e testa novamente no Apidog.
Você usa o painel de inspeção de erros do Apidog para cada problema. O rastreamento de pilha visual e a comparação de respostas aceleram as correções dramaticamente.
Mantenha Sua Configuração Segura
Você executa o OpenClaw sob uma conta de usuário dedicada. Você habilita o sandboxing para execução de ferramentas. Você nunca expõe as portas 11434 ou 8080 publicamente. Você as acessa através de túneis SSH ou Tailscale quando viaja.
Você revisa cada fonte de habilidade antes de instalá-la. Você ativa a criptografia de memória nas configurações do OpenClaw. Você faz backup da pasta ~/.openclaw regularmente.
Você, portanto, opera um sistema mais seguro do que a maioria dos serviços de nuvem porque seus dados nunca saem da sua rede.
Planeje para Futuras Atualizações
A Alibaba lança variantes menores do Qwen3.5 regularmente. O Ollama as adiciona rapidamente. Você baixa atualizações com ollama pull qwen3.5:35b --force.
A biblioteca de habilidades do OpenClaw cresce a cada semana. Você verifica as notificações do GitHub para se manter atualizado.
Você repete o processo de teste do Apidog após cada atualização. Você mantém sua coleção de testes e simplesmente altera a tag do modelo. Assim, você mantém a confiabilidade sem trabalho extra.
Conclusão
Agora você executa o qwen3.5 com OpenClaw gratuitamente usando o Ollama. Você controla toda a pilha em seu hardware. Você obtém raciocínio forte, suporte à visão, memória persistente e automação proativa.
Você seguiu passos claros. Você testou cada camada com o Apidog. Você otimizou o desempenho e protegeu o ambiente. Pequenas escolhas de configuração produziram um agente de IA pessoal capaz.
Abra seu terminal agora. Execute o comando de lançamento. Conecte seus aplicativos de mensagens. Envie sua primeira tarefa. Você verá como é poderoso um agente totalmente local.
Baixe o Apidog para acompanhar futuras atualizações e continuar testando seus endpoints de forma eficiente. Você já tem tudo o que precisa para construir fluxos de trabalho mais inteligentes hoje.
botão

