Como Usar Modelos Qwen3.5 Gratuitamente com Ollama?

Ashley Innocent

Ashley Innocent

25 fevereiro 2026

Como Usar Modelos Qwen3.5 Gratuitamente com Ollama?

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Desenvolvedores estão constantemente em busca de IA de ponta que equilibre inteligência bruta com custo inicial zero. Os modelos Qwen3.5 entregam exatamente isso através do Ollama. Lançados pela Alibaba, esses agentes multimodais de peso aberto estabelecem novos padrões em raciocínio, codificação, visão e uso de ferramentas. Você os executa instantaneamente via tags de nuvem do Ollama — sem downloads massivos, sem necessidade de cluster de GPU empresarial.

💡
Antes de iniciar seu primeiro prompt, baixe o Apidog gratuitamente. Esta plataforma de API intuitiva permite que você projete, envie e depure os endpoints REST do Ollama com modelos qwen3.5 em segundos. Você visualiza conclusões de chat, respostas de streaming e chamadas de ferramentas sem ter que lidar com cURL ou JSON bruto. O Apidog transforma o servidor Ollama em um ambiente de teste pronto para produção, e não custa nada para começar. Adquira-o agora em apidog.com e mantenha-o aberto enquanto segue este guia — pequenos passos de configuração como este criam grandes ganhos no fluxo de trabalho.
button

Você obtém acesso imediato a um modelo MoE híbrido 397B-A17B que ativa apenas 17B parâmetros por passada de avanço. A arquitetura combina atenção linear Gated DeltaNet com roteamento esparso de mixture-of-experts, entregando um throughput 8,6× mais rápido que o Qwen3-Max anterior com contexto de 32K e 19× com 256K. Benchmarks confirmam superioridade: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 e Tool Decathlon 38.3. Você, portanto, experimenta agentes nativos de visão-linguagem e suporte a 201 idiomas na camada gratuita do Ollama antes mesmo de considerar atualizações pagas.

Este guia abrange todos os detalhes técnicos de que você precisa. Você instalará o Ollama, puxará as tags exatas, interagirá via CLI e API, integrará o Apidog para testes rigorosos, construirá aplicações reais, otimizará o desempenho e solucionará problemas comuns. Ao final, você implantará fluxos de trabalho alimentados por qwen3.5 que rivalizam com gigantes da nuvem, mas permanecem dentro dos limites de uso gratuito.

O Que Torna o Qwen3.5 uma Potência Técnica

O Qwen3.5 avança a série com pré-treinamento em corpora multilingues, STEM e de raciocínio enriquecidos sob filtragem mais rigorosa. Engenheiros escalaram o aprendizado por reforço em ambientes de milhões de agentes, priorizando dificuldade e generalizabilidade sobre métricas restritas. O resultado: paridade entre gerações com modelos que excedem 1T parâmetros, mantendo a eficiência.

Gráfico de Pré-treinamento do Qwen3.5

A variante principal — Qwen3.5-397B-A17B — utiliza um mecanismo de atenção híbrido. A atenção linear via Gated Delta Networks lida com sequências longas, enquanto o MoE esparso roteia tokens para especialistas especializados. O vocabulário se expande para 250K tokens, aumentando a eficiência de codificação em 10–60% em vários idiomas. O treinamento multimodal nativo de fusão precoce funde tokens de texto e visão desde o início, alcançando 100% de eficiência de treinamento em comparação com pipelines apenas de texto.

No Ollama, você acessa duas tags prontas para uso:

Ambos expõem pensamento (cadeia de pensamento), ferramentas (pesquisa na web, interpretador de código) e comportamentos de agente prontos para uso. Você, portanto, alterna entre respostas rápidas e raciocínio profundo com um único parâmetro.

Benchmarks do Qwen3.5

Os benchmarks falam por si. Em codificação, o Qwen3.5 pontua 76.4 no SWE-bench Verified e 83.6 no LiveCodeBench v6. Em matemática, atinge 91.3 no AIME26 e 94.8 no HMMT. As tarefas de visão alcançam 93.1 no OCRBench e 88.6 no MathVision. As métricas de agente incluem 72.9 no BFCL-V4 e 86.7 no TAU2-Bench. A cobertura multilíngue abrange 201 idiomas com pontuações máximas no MMMLU (88.5) e WMT24++ (78.9). Você acessa esse desempenho através de um simples comando ollama run na camada gratuita.

Por Que o Ollama Oferece Acesso Gratuito ao Qwen3.5

O Ollama abstrai o gerenciamento de modelos em um único binário. Você executa os mesmos comandos, quer os pesos estejam em seu disco ou na infraestrutura de nuvem do Ollama. O plano gratuito concede uso leve de modelos em nuvem — perfeito para exploração, prototipagem e cargas de trabalho moderadas. Você, portanto, ignora o tamanho bruto de 807 GB do modelo completo de 397B e começa a gerar prompts em segundos.

Qwen 3.5 no Ollama

Os modelos locais permanecem ilimitados uma vez baixados, mas para o qwen3.5 as tags oficiais direcionam para o Ollama Cloud. Importações da comunidade, como frob/qwen3.5 (quantificações GGUF), permitem que você execute versões quantizadas localmente se possuir RAM suficiente (214 GB+ para MXFP4 de 4 bits). Você escolhe o caminho que corresponde ao seu hardware e padrão de uso. O Ollama lida com o roteamento de forma transparente.

Além disso, o Ollama expõe uma API REST completa compatível com OpenAI na porta 11434. Você integra o qwen3.5 em qualquer linguagem ou framework sem alterar o código cliente. O Apidog torna essa integração à prova de balas, permitindo que você simule respostas, valide esquemas e gere coleções de testes automaticamente.

Requisitos de Sistema e Pré-requisitos

As tags de nuvem impõem quase zero requisitos locais. Você precisa apenas de:

Para execuções locais de GGUF da comunidade, você calcula as necessidades de VRAM cuidadosamente. A quantificação MXFP4 de 4 bits da variante 397B-A17B ocupa aproximadamente 214 GB de disco e necessita de ~256 GB de RAM do sistema com offloading de MoE para 25+ tokens/s em Macs de alto desempenho. Variantes densas menores das séries Qwen anteriores (se portadas) escalam linearmente. Você, portanto, começa com tags de nuvem e passa para quantificações locais apenas quando precisar de operação offline ou maior throughput.

Você também instala o Git e um editor de código. O Apidog funciona no Windows, macOS e Linux — baixe o aplicativo de desktop para melhor desempenho.

Instalando o Ollama em Todas as Plataformas

Você instala o Ollama com um comando em cada sistema operacional principal.

macOS

brew install ollama

Em seguida, inicie:

ollama serve

Windows
Baixe o instalador de ollama.com e execute-o. O Ollama inicia automaticamente. Abra o PowerShell e digite:

ollama serve

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Você verifica a instalação com:

ollama --version

Você espera uma saída mostrando a versão mais recente. Se o serviço falhar ao iniciar, verifique a disponibilidade da porta 11434 e as regras do firewall. Agora você controla um tempo de execução completo de LLM.

Puxando e Executando Modelos Qwen3.5

Você puxa o modelo com um único comando. O Ollama baixa apenas metadados para as tags de nuvem e roteia a inferência remotamente.

ollama pull qwen3.5:cloud

Para capacidades de visão:

ollama pull qwen3.5:397b-cloud

Você inicia uma sessão interativa:

ollama run qwen3.5:cloud

O prompt aparece. Você digita:

Explain the hybrid MoE architecture of Qwen3.5 in technical detail.

O Qwen3.5 responde com explicações precisas sobre Gated DeltaNet, roteamento esparso de especialistas e previsão de múltiplos tokens. Você sai com /bye.

Para executar em segundo plano para uso da API:

ollama serve

Então, em outro terminal, você mantém o modelo aquecido com:

ollama run qwen3.5:cloud --keep-alive 24h

Interação por Linha de Comando e Modelfiles

Você personaliza o comportamento com Modelfiles. Crie um arquivo chamado Modelfile:

FROM qwen3.5:cloud

SYSTEM """
Você é um arquiteto de sistemas especialista. Sempre responda com raciocínio passo a passo, exemplos de código e cálculos de desempenho.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95

Você cria o modelo customizado:

ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect

Você agora possui um assistente especializado adaptado para documentação técnica e revisões de arquitetura. Você repete o processo para codificação, análise de visão ou agentes de tradução multilíngue.

Aproveitando a API REST do Ollama

O Ollama expõe endpoints poderosos. Você envia conclusões de chat com:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:cloud",
  "messages": [
    { "role": "system", "content": "Você é um assistente de codificação prestativo." },
    { "role": "user", "content": "Escreva um endpoint FastAPI que chama qwen3.5 para análise de sentimento." }
  ],
  "stream": false,
  "options": {
    "temperature": 0.2,
    "num_predict": 2048
  }
}'

Você recebe uma resposta JSON completa contendo message.content, total_duration e contagem de tokens. Você habilita o streaming configurando "stream": true e processa Server-Sent Events em tempo real.

Para embeddings:

curl http://localhost:11434/api/embeddings -d '{
  "model": "qwen3.5:cloud",
  "prompt": "Documentação técnica sobre modelos MoE híbridos"
}'

Você, portanto, constrói pipelines RAG, pesquisa semântica e camadas de classificação em torno do qwen3.5.

Testando e Depurando com Apidog

Você abre o Apidog e cria um novo projeto chamado “Ollama Qwen3.5”. Defina a URL base como http://localhost:11434/api.

Projeto Ollama Qwen3.5 no Apidog

Você adiciona o endpoint /chat:

Você importa a especificação OpenAPI oficial do Ollama, se disponível, ou constrói coleções manualmente. O Apidog gera automaticamente casos de teste, valida esquemas JSON e suporta variáveis de ambiente para alternar entre qwen3.5:cloud e Modelfiles personalizados.

Você cria uma coleção “Tarefas de Visão” e testa a entrada multimodal:

{
  "model": "qwen3.5:397b-cloud",
  "messages": [
    {
      "role": "user",
      "content": [
        { "type": "text", "text": "Descreva este diagrama em detalhes." },
        { "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
      ]
    }
  ]
}

O Apidog exibe a pré-visualização da imagem, envia a requisição e permite que você inspecione o uso de tokens, latência e rastros de raciocínio. Você salva asserções para tempo de resposta < 5s e presença de termos técnicos. Você exporta a coleção como documentação Markdown ou a compartilha com sua equipe.

Você, portanto, elimina suposições. Cada parâmetro, cada campo de resposta e cada erro se torna visível e repetível. Pequenos refinamentos no Apidog — como adicionar scripts de pré-requisição para aquecer o modelo — se traduzem em confiabilidade de nível de produção.

Construindo Aplicações Reais com Qwen3.5 e Ollama

Você integra o qwen3.5 em aplicações Python usando o cliente oficial:

import ollama
from fastapi import FastAPI

app = FastAPI()

@app.post("/analyze")
async def analyze_code(request: dict):
    response = ollama.chat(
        model='qwen3.5:cloud',
        messages=[{'role': 'user', 'content': request['code']}],
        options={'temperature': 0.1}
    )
    return {"analysis": response['message']['content']}

Você expõe este endpoint, adiciona limitação de taxa e monitora o consumo de tokens via Apidog.

Para Node.js, você usa o pacote npm do ollama e transmite respostas para frontends React. Você implementa a chamada de ferramentas definindo funções na requisição e analisando tool_calls da saída do modelo. O Qwen3.5 suporta nativamente o uso adaptativo de ferramentas, então você encadeia pesquisa na web, execução de código e análise de arquivos em agentes autônomos.

Você conteineriza toda a stack com Docker Compose:

services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
  apidog-tests:
    image: your-test-image
    depends_on:
      - ollama

Você, portanto, implanta ambientes consistentes em desenvolvimento, staging e produção.

Recursos Avançados: Uso de Ferramentas, Visão e Contexto Longo

Você ativa o modo de pensamento incluindo enable_thinking: true em clientes compatíveis ou explicitamente via prompt. O modelo exibe tags <thinking> antes das respostas finais, dando a você visibilidade sobre sua cadeia de raciocínio.

Para visão, você envia imagens base64 ou URLs. A tag 397b-cloud processa gráficos, capturas de tela de código e documentos com 85.0 de precisão MMMU. Você, portanto, constrói pipelines de compreensão de documentos que extraem tabelas, diagramas e notas manuscritas.

O tratamento de contexto longo atinge 256K tokens no Ollama. Você alimenta bases de código inteiras ou artigos de pesquisa e pede resumos, análise de diferenças ou refatoração arquitetônica. Você monitora o uso de contexto com o campo context nas respostas e implementa estratégias de janela deslizante quando se aproxima dos limites.

Otimização de Desempenho e Solução de Problemas

Você mantém os modelos aquecidos com --keep-alive. Você reduz a latência configurando um num_predict menor para tarefas simples e maior para raciocínios complexos.

Problemas comuns e soluções:

Você registra cada chamada de API através do Apidog para identificar gargalos rapidamente. Você, portanto, mantém alta disponibilidade mesmo no plano gratuito.

Conclusão

Você agora possui um roteiro técnico completo para usar os modelos qwen3.5 gratuitamente com o Ollama. Você instalou o runtime, puxou as tags da nuvem, dominou as interações CLI e API, otimizou os testes com Apidog, construiu aplicações de produção e otimizou para cargas de trabalho reais. Cada etapa aproveita comandos ativos, parâmetros precisos e resultados mensuráveis.

button

Pequenas ações — baixar o Apidog, criar um Modelfile, ou adicionar uma única asserção — se transformam em produtividade transformadora. Você experimenta agentes multimodais de ponta hoje sem cartões de crédito ou tickets de infraestrutura. A camada gratuita do Ollama remove todas as barreiras.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs

Como Usar Modelos Qwen3.5 Gratuitamente com Ollama?