Como Usar Modelos Qwen3 Quantizados Localmente: Guia Passo a Passo

Ashley Innocent

Ashley Innocent

14 maio 2025

Como Usar Modelos Qwen3 Quantizados Localmente: Guia Passo a Passo

Grandes modelos de linguagem (LLMs) como o Qwen3 estão revolucionando o cenário da IA com suas capacidades impressionantes em codificação, raciocínio e compreensão de linguagem natural. Desenvolvido pela equipe Qwen na Alibaba, o Qwen3 oferece modelos quantizados que permitem a implantação local eficiente, tornando-o acessível para desenvolvedores, pesquisadores e entusiastas executarem esses modelos poderosos em seu próprio hardware. Quer você esteja usando Ollama, LM Studio ou vLLM, este guia irá guiá-lo pelo processo de configuração e execução de modelos quantizados Qwen3 localmente.

💡
Antes de começar, certifique-se de ter as ferramentas certas para testar e interagir com sua configuração local do Qwen3. O Apidog é uma excelente ferramenta de teste de API que pode ajudá-lo a validar os endpoints da API do seu modelo local com facilidade. Baixe o Apidog gratuitamente para otimizar seu fluxo de trabalho de teste de API enquanto trabalha com o Qwen3!
button

Neste guia técnico, exploraremos o processo de configuração, seleção de modelos, métodos de implantação e integração de API. Vamos começar.

O Que São Modelos Quantizados Qwen3?

Qwen3 é a última geração de LLMs da Alibaba, projetada para alto desempenho em tarefas como codificação, matemática e raciocínio geral. Modelos quantizados, como aqueles nos formatos BF16, FP8, GGUF, AWQ e GPTQ, reduzem os requisitos computacionais e de memória, tornando-os ideais para implantação local em hardware de nível de consumidor.

A família Qwen3 inclui vários modelos:

Esses modelos suportam implantação flexível através de plataformas como Ollama, LM Studio e vLLM, que abordaremos em detalhes. Além disso, o Qwen3 oferece recursos como "modo de pensamento" (thinking mode), que pode ser ativado para um melhor raciocínio, e parâmetros de geração para ajustar a qualidade da saída.

Agora que entendemos o básico, vamos passar para os pré-requisitos para executar o Qwen3 localmente.

Pré-requisitos para Executar o Qwen3 Localmente

Antes de implantar modelos quantizados Qwen3, certifique-se de que seu sistema atende aos seguintes requisitos:

Hardware:

Software:

Dependências:

Com esses pré-requisitos atendidos, vamos prosseguir para baixar os modelos quantizados Qwen3.

Passo 1: Baixar Modelos Quantizados Qwen3

Primeiro, você precisa baixar os modelos quantizados de fontes confiáveis. A equipe Qwen fornece modelos Qwen3 no Hugging Face e no ModelScope

Como Baixar do Hugging Face

  1. Visite a coleção Qwen3 no Hugging Face.
  2. Selecione um modelo, como o Qwen3-4B no formato GGUF para implantação leve.
  3. Clique no botão "Download" ou use o comando git clone para buscar os arquivos do modelo:
git clone https://huggingface.co/Qwen/Qwen3-4B-GGUF
  1. Armazene os arquivos do modelo em um diretório, como /models/qwen3-4b-gguf.

Como Baixar do ModelScope

  1. Navegue até a coleção Qwen3 no ModelScope.
  2. Escolha o modelo e o formato de quantização desejados (por exemplo, AWQ ou GPTQ).
  3. Baixe os arquivos manualmente ou use a API deles para acesso programático.

Uma vez que os modelos forem baixados, vamos explorar como implantá-los usando o Ollama.

Passo 2: Implantar Qwen3 Usando Ollama

Ollama oferece uma maneira amigável de executar LLMs localmente com configuração mínima. Ele suporta o formato GGUF do Qwen3, tornando-o ideal para iniciantes.

Instalar Ollama

  1. Visite o site oficial do Ollama e baixe o binário para o seu sistema operacional.
  2. Instale o Ollama executando o instalador ou seguindo as instruções da linha de comando:
curl -fsSL https://ollama.com/install.sh | sh
  1. Verifique a instalação:
ollama --version

Executar Qwen3 com Ollama

  1. Inicie o modelo:
ollama run qwen3:235b-a22b-q8_0
  1. Assim que o modelo estiver em execução, você pode interagir com ele via linha de comando:
>>> Hello, how can I assist you today?

O Ollama também fornece um endpoint de API local (geralmente http://localhost:11434) para acesso programático, que testaremos mais tarde usando o Apidog.

Em seguida, vamos explorar como usar o LM Studio para executar o Qwen3.

Passo 3: Implantar Qwen3 Usando LM Studio

O LM Studio é outra ferramenta popular para executar LLMs localmente, oferecendo uma interface gráfica para gerenciamento de modelos.

Instalar LM Studio

  1. Baixe o LM Studio do seu site oficial.
  2. Instale o aplicativo seguindo as instruções na tela.
  3. Inicie o LM Studio e certifique-se de que está em execução.

Carregar Qwen3 no LM Studio

No LM Studio, vá para a seção "Local Models".

Clique em "Add Model" e procure o modelo para baixá-lo:

Configure as definições do modelo, como:

Inicie o servidor do modelo clicando em "Start Server". O LM Studio fornecerá um endpoint de API local (por exemplo, http://localhost:1234).

Interagir com Qwen3 no LM Studio

  1. Use a interface de chat integrada do LM Studio para testar o modelo.
  2. Alternativamente, acesse o modelo através do seu endpoint de API, que exploraremos na seção de teste de API.

Com o LM Studio configurado, vamos passar para um método de implantação mais avançado usando o vLLM.

Passo 4: Implantar Qwen3 Usando vLLM

vLLM é uma solução de serviço de alto desempenho otimizada para LLMs, suportando os modelos quantizados FP8 e AWQ do Qwen3. É ideal para desenvolvedores que constroem aplicações robustas.

Instalar vLLM

  1. Certifique-se de que o Python 3.8+ está instalado no seu sistema.
  2. Instale o vLLM usando pip:
pip install vllm
  1. Verifique a instalação:
python -c "import vllm; print(vllm.__version__)"

Executar Qwen3 com vLLM

Inicie um servidor vLLM com seu modelo Qwen3

# Load and run the model:
vllm serve "Qwen/Qwen3-235B-A22B"

A flag --enable-thinking=False desativa o modo de pensamento (thinking mode) do Qwen3.

Assim que o servidor iniciar, ele fornecerá um endpoint de API em http://localhost:8000.

Configurar vLLM para Desempenho Ótimo

O vLLM suporta configurações avançadas, como:

Com o vLLM em execução, vamos testar o endpoint da API usando o Apidog.

Passo 5: Testar a API do Qwen3 com Apidog

O Apidog é uma ferramenta poderosa para testar endpoints de API, tornando-o perfeito para interagir com seu modelo Qwen3 implantado localmente.

Configurar Apidog

  1. Baixe e instale o Apidog do site oficial.
  2. Inicie o Apidog e crie um novo projeto.

Testar API do Ollama

  1. Crie uma nova requisição de API no Apidog.
  2. Defina o endpoint para http://localhost:11434/api/generate.
  3. Configure a requisição:
{
  "model": "qwen3-4b",
  "prompt": "Hello, how can I assist you today?",
  "temperature": 0.6,
  "top_p": 0.95,
  "top_k": 20
}
  1. Envie a requisição e verifique a resposta.

Testar API do vLLM

  1. Crie outra requisição de API no Apidog.
  2. Defina o endpoint para http://localhost:8000/v1/completions.
  3. Configure a requisição:
{
  "model": "qwen3-4b-awq",
  "prompt": "Write a Python script to calculate factorial.",
  "max_tokens": 512,
  "temperature": 0.7,
  "top_p": 0.8,
  "top_k": 20
}
  1. Envie a requisição e verifique a saída.

O Apidog facilita a validação da sua implantação Qwen3 e garante que a API está funcionando corretamente. Agora, vamos ajustar o desempenho do modelo.

Passo 6: Ajustar o Desempenho do Qwen3

Para otimizar o desempenho do Qwen3, ajuste as seguintes configurações com base no seu caso de uso:

Modo de Pensamento (Thinking Mode)

O Qwen3 suporta um "modo de pensamento" (thinking mode) para raciocínio aprimorado, conforme destacado na imagem da postagem no X. Você pode controlá-lo de duas maneiras:

  1. Chave Suave (Soft Switch): Adicione /think ou /no_think ao seu prompt.
  1. Chave Rígida (Hard Switch): Desative o pensamento completamente no vLLM com --enable-thinking=False.

Parâmetros de Geração

Ajuste os parâmetros de geração para uma melhor qualidade de saída:

Experimente com essas configurações para alcançar o equilíbrio desejado entre criatividade e precisão.

Solução de Problemas Comuns

Ao implantar o Qwen3, você pode encontrar alguns problemas. Aqui estão soluções para problemas comuns:

O Modelo Falha ao Carregar no Ollama:

Erro de Tensor Parallelism no vLLM:

Requisição de API Falha no Apidog:

Ao resolver esses problemas, você pode garantir uma experiência de implantação tranquila.

Conclusão

Executar modelos quantizados Qwen3 localmente é um processo direto com ferramentas como Ollama, LM Studio e vLLM. Quer você seja um desenvolvedor construindo aplicações ou um pesquisador experimentando LLMs, o Qwen3 oferece a flexibilidade e o desempenho que você precisa. Seguindo este guia, você aprendeu como baixar modelos do Hugging Face e ModelScope, implantá-los usando vários frameworks e testar seus endpoints de API com o Apidog.

Comece a explorar o Qwen3 hoje e desbloqueie o poder dos LLMs locais para seus projetos!

button

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs