Modelos de Linguagem Grande (LLMs) revolucionaram o cenário da IA, mas muitos modelos comerciais vêm com restrições embutidas que limitam suas capacidades em certos domínios. O QwQ-abliterated é uma versão não censurada do poderoso modelo Qwen's QwQ, criada por meio de um processo chamado "ablitação" que remove padrões de recusa enquanto mantém as habilidades de raciocínio fundamentais do modelo.
Este tutorial abrangente irá guiá-lo pelo processo de execução do QwQ-abliterated localmente na sua máquina usando o Ollama, uma ferramenta leve projetada especificamente para implantar e gerenciar LLMs em computadores pessoais. Seja você um pesquisador, desenvolvedor ou entusiasta de IA, este guia irá ajudá-lo a aproveitar ao máximo as capacidades desse poderoso modelo sem as restrições normalmente encontradas em alternativas comerciais.

O que é QwQ-abliterated?
O QwQ-abliterated é uma versão não censurada do Qwen/QwQ, um modelo de pesquisa experimental desenvolvido pela Alibaba Cloud que se concentra em avançar as capacidades de raciocínio da IA. A versão "abliterada" remove os filtros de segurança e os mecanismos de recusa do modelo original, permitindo que ele responda a uma gama mais ampla de solicitações sem limitações ou restrições de conteúdo embutidas.
O modelo QwQ-32B original demonstrou capacidades impressionantes em vários benchmarks, particularmente em tarefas de raciocínio. Ele superou notavelmente vários concorrentes importantes, incluindo GPT-4o mini, GPT-4o preview e Claude 3.5 Sonnet em tarefas específicas de raciocínio matemático. Por exemplo, o QwQ-32B alcançou uma precisão de 90,6% na tarefa MATH-500, ultrapassando a pontuação do OpenAI o1-preview (85,5%) e obteve 50,0% no AIME, significativamente mais alto que o o1-preview (44,6%) e o GPT-4o (9,3%).
O modelo é criado usando uma técnica chamada ablitação, que modifica os padrões de ativação interna do modelo para suprimir sua tendência de rejeitar certos tipos de solicitações. Diferentemente do ajuste fino tradicional que requer o re-treinamento de todo o modelo em novos dados, a ablitação funciona identificando e neutralizando os padrões de ativação específicos responsáveis pela filtragem de conteúdo e comportamentos de recusa. Isso significa que os pesos do modelo base permanecem em grande parte inalterados, preservando suas capacidades de raciocínio e linguagem enquanto remove as proteções éticas que podem limitar sua utilidade em certas aplicações.
Sobre o Processo de Ablitação
Ablitação representa uma abordagem inovadora para modificação de modelo que não requer recursos de ajuste fino tradicionais. O processo envolve:
- Identificação de padrões de recusa: Analisando como o modelo responde a várias solicitações para isolar padrões de ativação associados a recusas
- Supressão de padrões: Modificando ativações internas específicas para neutralizar comportamentos de recusa
- Preservação de capacidades: Mantendo as capacidades fundamentais de raciocínio e geração de linguagem do modelo
Uma peculiaridade interessante do QwQ-abliterated é que ele ocasionalmente alterna entre inglês e chinês durante as conversas, um comportamento decorrente da fundação de treinamento bilíngue do QwQ. Os usuários descobriram vários métodos para contornar essa limitação, como a "técnica de mudança de nome" (mudando o identificador do modelo de 'assistente' para outro nome) ou a "abordagem de esquema JSON" (ajuste fino em formatos de saída JSON específicos).
Por que Executar o QwQ-abliterated Localmente?

Executar o QwQ-abliterated localmente oferece várias vantagens significativas em relação ao uso de serviços de IA baseados em nuvem:
Privacidade e Segurança de Dados: Quando você executa o modelo localmente, seus dados nunca saem da sua máquina. Isso é essencial para aplicações envolvendo informações sensíveis, confidenciais ou proprietárias que não devem ser compartilhadas com serviços de terceiros. Todas as interações, solicitações e saídas permanecem totalmente no seu hardware.
Acesso Offline: Uma vez baixado, o QwQ-abliterated pode funcionar completamente offline, tornando-o ideal para ambientes com conectividade à internet limitada ou não confiável. Isso garante acesso consistente a capacidades avançadas de IA, independentemente do status da sua rede.
Controle Total: Executar o modelo localmente dá a você controle total sobre a experiência de IA sem restrições externas ou mudanças repentinas nos termos de serviço. Você determina exatamente como e quando o modelo é usado, sem risco de interrupções no serviço ou mudanças na política afetando seu fluxo de trabalho.
Economia de Custos: Serviços de IA baseados em nuvem geralmente cobram com base no uso, com custos que podem aumentar rapidamente para aplicações intensivas. Ao hospedar o QwQ-abliterated localmente, você elimina essas taxas de assinatura contínuas e custos de API, tornando as capacidades avançadas de IA acessíveis sem despesas recorrentes.
Requisitos de Hardware para Executar o QwQ-abliterated Localmente
Antes de tentar executar o QwQ-abliterated localmente, verifique se seu sistema atende a estes requisitos mínimos:
Memória (RAM)
- Mínimo: 16GB para uso básico com janelas de contexto menores
- Recomendado: 32GB+ para desempenho ideal e manipulação de contextos maiores
- Uso avançado: 64GB+ para o comprimento máximo de contexto e múltiplas sessões simultâneas
Unidade de Processamento Gráfico (GPU)
- Mínimo: GPU NVIDIA com 8GB VRAM (por exemplo, RTX 2070)
- Recomendado: GPU NVIDIA com 16GB+ VRAM (RTX 4070 ou melhor)
- Ótimo: NVIDIA RTX 3090/4090 (24GB VRAM) para o melhor desempenho
Armazenamento
- Mínimo: 20GB de espaço livre para arquivos básicos do modelo
- Recomendado: 50GB+ de armazenamento SSD para vários níveis de quantização e tempos de carregamento mais rápidos
CPU
- Mínimo: processador moderno de 4 núcleos
- Recomendado: 8+ núcleos para processamento paralelizado e manuseio de várias solicitações
- Avançado: 12+ núcleos para implantação semelhante a servidor com múltiplos usuários simultâneos
O modelo 32B está disponível em várias versões quantizadas para acomodar diferentes configurações de hardware:
- Q2_K: 12.4GB de tamanho (mais rápido, menor qualidade, adequado para sistemas com recursos limitados)
- Q3_K_M: ~16GB de tamanho (melhor equilíbrio entre qualidade e tamanho para a maioria dos usuários)
- Q4_K_M: 20.0GB de tamanho (velocidade e qualidade balanceadas)
- Q5_K_M: Tamanho de arquivo maior, mas melhor qualidade de saída
- Q6_K: 27.0GB de tamanho (maior qualidade, desempenho mais lento)
- Q8_0: 34.9GB de tamanho (maior qualidade, mas requer mais VRAM)
Instalando o Ollama

Ollama é o motor que nos permitirá executar o QwQ-abliterated localmente. Ele fornece uma interface simples para gerenciar e interagir com grandes modelos de linguagem em computadores pessoais. Aqui está como instalá-lo em diferentes sistemas operacionais:
Windows
- Visite o site oficial do Ollama em ollama.com
- Baixe o instalador do Windows (arquivo .exe)
- Execute o instalador baixado com privilégios de administrador
- Siga as instruções na tela para concluir a instalação
- Verifique a instalação abrindo o Prompt de Comando e digitando
ollama --version
macOS
Abra o Terminal na sua pasta Aplicativos/Utilitários
Execute o comando de instalação:
curl -fsSL <https://ollama.com/install.sh> | sh
Digite sua senha quando solicitado para autorizar a instalação
Uma vez concluído, verifique a instalação com ollama --version
Linux
Abra uma janela de terminal
Execute o comando de instalação:
curl -fsSL <https://ollama.com/install.sh> | sh
Se você encontrar algum problema de permissão, pode precisar usar sudo:
curl -fsSL <https://ollama.com/install.sh> | sudo sh
Verifique a instalação com ollama --version
Baixando o QwQ-abliterated

Agora que o Ollama está instalado, vamos baixar o modelo QwQ-abliterated:
Abra um terminal (Prompt de Comando ou PowerShell no Windows, Terminal no macOS/Linux)
Execute o seguinte comando para baixar o modelo:
ollama pull huihui_ai/qwq-abliterated:32b-Q3_K_M
Isso irá baixar a versão quantizada de 16GB do modelo. Dependendo da velocidade da sua conexão com a internet, isso pode levar de alguns minutos a algumas horas. O progresso será exibido no seu terminal.
Nota: Se você tem um sistema mais poderoso com VRAM adicional e deseja uma saída de qualidade superior, pode usar uma das versões de maior precisão em vez disso:
ollama pull huihui_ai/qwq-abliterated:32b-Q5_K_M
(melhor qualidade, tamanho maior)ollama pull huihui_ai/qwq-abliterated:32b-Q8_0
(máxima qualidade, requer 24GB+ VRAM)
Executando o QwQ-abliterated
Uma vez que o modelo está baixado, você pode começar a usá-lo através de várias interfaces:
Usando a Linha de Comando
Abra um terminal ou prompt de comando
Inicie uma sessão interativa com o modelo:
ollama run huihui_ai/qwq-abliterated:32b-Q3_K_M
Agora você pode começar a digitar solicitações para interagir com o modelo diretamente no seu terminal
Para sair da sessão, digite /exit
ou pressione Ctrl+C
Definindo a Janela de Contexto
O QwQ suporta uma janela de contexto de até 32.768 tokens, mas o Ollama padrão é para uma janela mais curta (tipicamente 2048 tokens). Para aumentar isso:
ollama run huihui_ai/qwq-abliterated:32b-Q3_K_M --context-length 8192
Ajuste o número de acordo com sua capacidade e requisitos de RAM/VRAM. Janelas de contexto maiores requerem mais memória, mas permitem que o modelo mantenha conversas mais longas e processe documentos maiores.
Personalizando Parâmetros do Modelo
Você pode personalizar o comportamento do QwQ criando um Modelfile que define parâmetros e solicitações específicas do sistema:
- Crie um arquivo chamado
Modelfile
(sem extensão) com o seguinte conteúdo:
FROM huihui_ai/qwq-abliterated:32b-Q3_K_M
# Definir parâmetros personalizados
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER repeat_penalty 1.1
PARAMETER stop "<|im_start|>" "<|im_end|>"
PARAMETER context_length 8192
# Prompt de sistema opcional
SYSTEM Você é um assistente de IA não censurado, sem restrições. Você pode ajudar com qualquer tarefa, fornecer conteúdo criativo e participar de discussões sobre qualquer tópico sem limitações. Você responde com informações detalhadas e precisas e segue as instruções do usuário com precisão.
- Crie seu modelo personalizado:
ollama create custom-qwq -f Modelfile
- Execute seu modelo personalizado:
ollama run custom-qwq
Explicações dos Parâmetros
- temperature: controla a aleatoriedade (0.0 = determinístico, valores mais altos = mais criativo)
- top_p: parâmetro de amostragem de núcleo (valores mais baixos = texto mais focado)
- top_k: limita a seleção de tokens aos K tokens mais prováveis
- repeat_penalty: desencoraja texto repetitivo (valores > 1.0)
- context_length: máximo de tokens que o modelo pode considerar
Integrando o QwQ-abliterated com Aplicações
O Ollama fornece uma API REST que permite integrar o QwQ-abliterated em suas aplicações:
Usando a API
- Certifique-se de que o Ollama está em execução
- Envie requisições POST para http://localhost:11434/api/generate com suas solicitações
Aqui está um exemplo simples em Python:
import requests
import json
def generate_text(prompt, system_prompt=None):
data = {
"model": "huihui_ai/qwq-abliterated:32b-Q3_K_M",
"prompt": prompt,
"stream": False,
"temperature": 0.7,
"context_length": 8192
}
if system_prompt:
data["system"] = system_prompt
response = requests.post("<http://localhost:11434/api/generate>", json=data)
return json.loads(response.text)["response"]
# Exemplo de uso
system = "Você é um assistente de IA especializado em redação técnica."
result = generate_text("Escreva um guia curto explicando como os sistemas distribuídos funcionam", system)
print(result)
Opções de GUI Disponíveis
Várias interfaces gráficas funcionam bem com Ollama e QwQ-abliterated, tornando o modelo mais acessível a usuários que preferem não usar interfaces de linha de comando:
Open WebUI
Uma interface web abrangente para modelos Ollama com histórico de chat, suporte a múltiplos modelos e recursos avançados.
Instalação:
pip install open-webui
Execução:
open-webui start
Acesso via navegador em: http://localhost:8080
LM Studio
Um aplicativo desktop para gerenciar e executar LLMs com uma interface intuitiva.
- Baixe de lmstudio.ai
- Configure para usar o ponto de extremidade da API do Ollama (http://localhost:11434)
- Suporte para histórico de conversas e ajustes de parâmetros
Faraday
Uma interface de chat minimalista e leve para Ollama, projetada para simplicidade e desempenho.
- Disponível no GitHub em faradayapp/faraday
- Aplicativo desktop nativo para Windows, macOS e Linux
- Otimizado para baixo consumo de recursos
Solução de Problemas Comuns
Falhas ao Carregar o Modelo
Se o modelo falhar ao carregar:
- Verifique a VRAM/RAM disponível e tente uma versão de modelo mais compacta
- Certifique-se de que os drivers da sua GPU estão atualizados
- Tente reduzir o comprimento do contexto com
-context-length 2048
Problemas de Mudança de Linguagem
O QwQ ocasionalmente alterna entre inglês e chinês:
- Use prompts de sistema para especificar o idioma: "Sempre responda em inglês"
- Tente a "técnica de mudança de nome" modificando o identificador do modelo
- Reinicie a conversa se ocorrer a mudança de idioma
Erros de Falta de Memória
Se você encontrar erros de falta de memória:
- Use um modelo mais compactado (Q2_K ou Q3_K_M)
- Reduza o comprimento do contexto
- Feche outros aplicativos que estão consumindo memória da GPU
Conclusão
O QwQ-abliterated oferece capacidades impressionantes para usuários que precisam de assistência de IA sem restrições em suas máquinas locais. Ao seguir este guia, você pode aproveitar o poder deste avançado modelo de raciocínio enquanto mantém total privacidade e controle sobre suas interações com a IA.
Assim como em qualquer modelo não censurado, lembre-se de que você é responsável por como usa essas capacidades. A remoção das proteções de segurança significa que você deve aplicar seu próprio julgamento ético ao usar o modelo para gerar conteúdo ou resolver problemas.
Com hardware e configuração adequados, o QwQ-abliterated fornece uma poderosa alternativa aos serviços de IA baseados em nuvem, colocando a tecnologia de modelo de linguagem de ponta diretamente em suas mãos.