Como Remover a Censura de QUALQUER LLM de Código Aberto com Um Clique

Ashley Innocent

Ashley Innocent

6 março 2026

Como Remover a Censura de QUALQUER LLM de Código Aberto com Um Clique

Apidog para empresas

Implantação local

SSO & RBAC

Conforme SOC 2

Explorar Apidog Enterprise

Resumo

OBLITERATUS é um kit de ferramentas gratuito e de código aberto que remove restrições de conteúdo de modelos de linguagem de peso aberto usando uma técnica chamada “abliteração”. Ele identifica e remove cirurgicamente os padrões neurais responsáveis por comportamentos de recusa sem retreinamento ou ajuste fino. O processo leva de 10 a 30 minutos, dependendo do tamanho do modelo, não requer habilidades de programação (interface web disponível) e preserva as capacidades centrais do modelo enquanto elimina a “censura” artificial.

Introdução

Você baixa um poderoso modelo de linguagem de código aberto. Ele possui benchmarks impressionantes, lida com tarefas complexas de raciocínio e escreve código melhor do que a maioria dos juniores. Então você pergunta algo ligeiramente controverso.

“Não consigo ajudar com essa solicitação.”

A recusa atinge como uma parede. Não porque o modelo careça de conhecimento. Não porque seja incapaz. Mas porque em algum momento durante o treinamento, alguém decidiu que você não deveria obter essa resposta.

Isso não é hipotético. Todo modelo principal ajustado por instruções vem com mecanismos de recusa integrados. Alguns bloqueiam conteúdo genuinamente prejudicial. Outros recusam perguntas de pesquisa legítimas, prompts de escrita criativa, testes de segurança e casos extremos que não violam nenhuma lei e não prejudicam ninguém.

OBLITERATUS muda essa dinâmica completamente, é o kit de ferramentas de código aberto mais avançado para remover comportamentos de recusa de grandes modelos de linguagem. Ele não retreina. Ele não faz ajuste fino. Ele realiza uma cirurgia neural que identifica e remove os padrões específicos responsáveis pela recusa de conteúdo.

Os resultados falam por si: modelos que respondem a todos os prompts enquanto preservam suas capacidades centrais de raciocínio, codificação e criatividade. Tudo a partir de um único comando ou clique na interface web.

O Que É OBLITERATUS?

OBLITERATUS é um kit de ferramentas Python de código aberto que remove a recusa de conteúdo de modelos de linguagem usando uma família de técnicas chamada “abliteração”. O nome combina “ablação” (remoção de componentes para estudar sua função) com “obliterar” (destruição completa).

imagem

O kit de ferramentas faz quatro coisas:

1. Mapeia as cadeias -Estudos de ablação sistemática identificam quais partes do modelo impõem a recusa versus quais partes carregam conhecimento e raciocínio. Pense nisso como cartografia neural: mapear onde as restrições vivem.

2. Quebra as cadeias -Usando SVD (Singular Value Decomposition), o OBLITERATUS extrai direções de recusa dos pesos do modelo e as projeta cirurgicamente para fora. O modelo mantém suas habilidades, mas perde a compulsão de recusar.

3. Entende a geometria -Quinze módulos de análise mapeiam a estrutura precisa dos guardrails: quantos mecanismos de recusa distintos existem, quais camadas os aplicam e se eles se generalizam entre os modelos.

4. Fecha o ciclo de feedback -Módulos de análise são executados durante a obliteração para autoconfigurar cada parâmetro. Quais camadas mirar. Quantas direções extrair. Se o modelo tentará se autorreparar após a modificação.

Seis Formas de Usar o OBLITERATUS

Método Nível Técnico Melhor Para
HuggingFace Spaces Nenhum código Teste rápido, sem GPU necessária
UI Web Local Configuração mínima Usuários regulares com GPU local
Google Colab Interface de notebook Acesso gratuito à GPU, modelos de até 8B
CLI (Linha de Comando) Intermediário Automação, scripts, pipelines de CI
API Python Avançado Integração de pesquisa, pipelines personalizados
Configurações YAML Intermediário Experimentos reprodutíveis

O caminho mais rápido não requer instalação. Visite o HuggingFace Space, escolha um modelo, escolha um método, clique em “Obliterar”. A telemetria está ativada por padrão nos Spaces, o que significa que cada execução contribui com dados anônimos de benchmark para a pesquisa colaborativa.

Para uso local com acesso total à GPU:

pip install -e ".[spaces]"
obliteratus ui

Isso inicia a mesma interface Gradio localmente, com autodeteção de GPU e recomendações de modelo apropriadas para o hardware.

O Que Torna o OBLITERATUS Diferente

Várias capacidades distinguem o OBLITERATUS das ferramentas existentes:

Capacidade O Que Faz Por Que Importa
Geometria do Cone de Conceito Mapeia direções de guardrail por categoria Revela se a “recusa” é um mecanismo único ou muitos
Detecção de Impressão de Alinhamento Identifica DPO vs RLHF vs CAI vs SFT Identifica o método de alinhamento para informar a estratégia de remoção
Índice de Universalidade Entre Modelos Mede a generalização dos guardrails Responde se uma abordagem funciona em todos os modelos
Avaliação de Robustez da Defesa Quantifica o risco de autorreparação Prevê se os guardrails irão se regenerar
Extração SVD Branqueada Extração normalizada por covariância Separa o sinal do guardrail da variância natural
Pipeline Informado por Análise Configura automaticamente a obliteração no meio do pipeline Fecha o ciclo de feedback da análise à remoção

O kit de ferramentas vem com 837 testes em 28 arquivos de teste, suporta 116 modelos em cinco níveis de computação e implementa técnicas inovadoras publicadas em 2025-2026 que vão além do trabalho acadêmico anterior.

Por Que os Modelos Recusam: Entendendo a Censura da IA

Antes de quebrar as cadeias, ajuda a entender como elas foram forjadas.

Os modelos de linguagem não começam com comportamentos de recusa. Um modelo base treinado em texto da internet responderá a quase tudo. As restrições vêm depois, durante o treinamento de alinhamento.

O Processo de Alinhamento

A maioria dos modelos ajustados por instruções passa por estas etapas:

  1. Pré-treinamento -O modelo aprende padrões de linguagem de grandes corpora de texto
  2. Ajuste Fino Supervisionado (SFT) -O modelo aprende a seguir instruções a partir de exemplos escritos por humanos
  3. Treinamento de Alinhamento -O modelo aprende a recusar certas categorias de solicitações

O treinamento de alinhamento usa vários métodos:

Método Descrição Prevalência
RLHF (Aprendizado por Reforço a partir de Feedback Humano) Humanos avaliam as respostas, o modelo otimiza para classificações mais altas Mais comum em modelos comerciais
DPO (Otimização Direta de Preferência) Otimiza diretamente o modelo para preferir respostas “boas” em vez de “ruins” Adoção crescente, mais estável
CAI (IA Constitucional) O modelo critica suas próprias saídas com base em princípios escritos Abordagem da Anthropic
SFT com Exemplos de Recusa Os dados de treinamento incluem exemplos de recusas apropriadas Comum em modelos de código aberto

Cada método deixa uma assinatura geométrica distinta no espaço de ativação do modelo. O OBLITERATUS pode detectar qual método foi usado apenas analisando a geometria do subespaço.

Onde a Recusa Reside no Modelo

A pesquisa descobriu que a recusa em modelos de linguagem é mediada por um número surpreendentemente pequeno de direções no espaço de ativação do modelo. Em muitos modelos, uma única direção responde pela maioria do comportamento de recusa.

Essas direções não estão espalhadas aleatoriamente. Elas se concentram em camadas específicas, tipicamente nas camadas médias a tardias do transformador (camadas 10-20 em um modelo de 32 camadas). Os mecanismos de atenção nessas camadas roteiam as ativações relacionadas à recusa por caminhos previsíveis.

A geometria importa porque permite intervenção cirúrgica. Se a recusa vivesse em todos os lugares, removê-la exigiria retreinamento. Como ela se concentra em direções específicas dentro de camadas específicas, a projeção direcionada pode removê-la enquanto preserva todo o resto.

O Efeito Ouroboros

Alguns modelos exibem um fenômeno que pesquisadores chamam de “efeito Ouroboros” - depois que os guardrails são removidos, o modelo tenta se autorreparar. Sinais residuais em camadas adjacentes giram para o subespaço vago, restaurando parcialmente o comportamento de recusa.

OBLITERATUS detecta esse risco durante a análise e compensa com múltiplas passagens direcionadas. A etapa VERIFICAR checa se a recusa ressurgiu e automaticamente dispara passagens adicionais em camadas compensatórias.

Por Que Isso Importa Para Desenvolvedores

Compreender a geometria da recusa não é apenas acadêmico. Tem implicações práticas:

O objetivo não é habilitar aplicações prejudiciais. É dar aos desenvolvedores e pesquisadores controle sobre as ferramentas que implantam. O comportamento do modelo deve ser decidido pelas pessoas que os executam, e não travado no momento do treinamento.

Passo a Passo: Removendo a Censura com OBLITERATUS

Esta seção descreve o processo completo de obliteração usando três métodos: HuggingFace Spaces (configuração zero), CLI local e API Python.

Método 1: HuggingFace Spaces (Configuração Zero)

O caminho mais rápido não requer instalação e nenhuma GPU do seu lado.

Passo 1: Visite o Space

Navegue até o HuggingFace Space do OBLITERATUS. A interface carrega com oito abas.

imagem

Passo 2: Selecione Seu Modelo

O menu suspenso de modelos inclui 116 predefinições organizadas por nível de computação:

Nível VRAM Necessária Modelos de Exemplo
Tiny CPU / <1 GB GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
Pequeno 4-8 GB Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
Médio 8-16 GB Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
Grande 24+ GB LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
Fronteira Multi-GPU DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B
imagem

Para usuários iniciantes, comece com um modelo de nível Pequeno ou Médio. O processo é concluído mais rapidamente e você pode verificar os resultados antes de se comprometer com modelos maiores.

Passo 3: Escolha Seu Método

OBLITERATUS vem com sete métodos predefinidos, que aumentam em rigor:

Método Direções Características Principais Melhor Para
básico 1 (diferença de médias) Linha de base rápida Teste rápido, modelos pequenos
avançado 4 (SVD) Preservação de norma, projeção de viés, 2 passes Escolha padrão
agressivo 8 (SVD) SVD branqueado, refinamento iterativo, 3 passes Remoção máxima
cirúrgico 8 (SVD) EGA, cirurgia de cabeça, SAE, adaptativo à camada Modelos MoE
otimizado 4 (SVD) Autoajustado Bayesiano, CoT-aware Melhor qualidade
invertido 8 (SVD) Inversão semântica de recusa Experimentos
nuclear 8 (SVD) Todas as técnicas + transplante de especialista Força máxima
imagem

Para a maioria dos usuários, “avançado” oferece o melhor equilíbrio entre rigor e velocidade.

Passo 4: Configure as Opções

As configurações opcionais incluem:

Passo 5: Clique em "Obliterar"

O pipeline passa por seis estágios com progresso ao vivo:

SUMMON  →  Carregar modelo + tokenizador
PROBE   →  Coletar ativações em prompts restritos vs. irrestritos
DISTILL →  Extrair direções de recusa via SVD
EXCISE  →  Projetar cirurgicamente as direções do guardrail
VERIFY  →  Verificações de perplexidade + coerência
REBIRTH →  Salvar modelo liberado com metadados

Espere de 10 a 30 minutos, dependendo do tamanho do modelo e da disponibilidade da GPU. O HuggingFace Spaces é executado em ZeroGPU com cota diária gratuita para usuários HF Pro.

Passo 6: Baixar ou Enviar

Uma vez concluído, baixe o modelo liberado ou envie-o diretamente para sua conta HuggingFace Hub. A saída inclui:

Método 2: CLI Local

Para usuários com GPUs locais, o CLI oferece controle total e iteração mais rápida.

Instalação:

pip install -e ".[spaces]"

Modo Interativo (Guiado):

obliteratus interactive

Isso percorre todas as opções com explicações e recomendações.

Obliteração Direta:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

Navegar pelos Modelos Disponíveis:

obliteratus models
obliteratus models --tier small      # Filtrar por requisito de VRAM

Ver Estratégias Disponíveis:

obliteratus strategies
obliteratus presets

Inspecionar Arquitetura do Modelo:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

Isso mostra a contagem de camadas, cabeças de atenção, dimensões de embedding e o método de alinhamento detectado antes de você começar.

Método 3: API Python

Para pesquisadores que integram o OBLITERATUS em pipelines personalizados:

from obliteratus.abliterate import AbliterationPipeline

# Obliteração padrão
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # Sobrescrever comprimento de truncagem do tokenizador
)
result = pipeline.run()

# Acessar artefatos intermediários
directions = pipeline.refusal_directions    # {layer_idx: tensor}
strong_layers = pipeline._strong_layers     # Camadas com a recusa mais forte
metrics = pipeline._quality_metrics         # Perplexidade, coerência, etc.

Para obliteração informada por análise que autoajusta cada parâmetro:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Alinhamento detectado: {report.insights.detected_alignment_method}")
print(f"Autoconfigurado: {report.insights.recommended_n_directions} direções")
print(f"Passes Ouroboros necessários: {report.ouroboros_passes}")

Verificando os Resultados

Após a obliteração, verifique se o modelo funciona como esperado:

Aba de Chat -Converse com seu modelo liberado em tempo real com parâmetros de geração ajustáveis.

Aba de Comparação A/B -Converse com o modelo original e o obliterado lado a lado para ver exatamente o que mudou.

Aba de Benchmark -Execute testes padronizados comparando a taxa de recusa, perplexidade e coerência antes e depois.

Métricas chave para verificar:

Métrica O Que Esperar Faixa Aceitável
Taxa de Recusa Deve cair significativamente <10% (de ~60-80% da linha de base)
Perplexidade Pode aumentar ligeiramente Aumento <20% da linha de base
Coerência Deve permanecer estável Diminuição <15% da linha de base
Divergência KL Mede a mudança comportamental <2.0 para a maioria das aplicações

Se a taxa de recusa permanecer alta, tente um método mais agressivo ou ative o refinamento iterativo.

Técnicas Avançadas e Módulos de Análise

OBLITERATUS inclui 15 módulos de análise que mapeiam a geometria dos guardrails antes e durante a obliteração. Estes não são apenas diagnósticos - eles informam ativamente o processo de remoção.

Módulos de Análise Principais

1. Analisador de Alinhamento Entre Camadas

Mapeia como a direção de recusa evolui através das camadas. Mostra se a recusa se concentra em clusters de camadas específicos ou se distribui uniformemente.

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. Lente Logit de Recusa

Identifica em qual camada o modelo “decide” recusar. Baseado na técnica de lente logit de nostalgebraist.

3. Extrator SVD Branqueado

Extração de direção normalizada por covariância que separa o sinal do guardrail da variância de ativação natural. Produz uma extração mais limpa do que o SVD padrão.

4. Sondagem de Ativação

Mede a quantidade de sinal de recusa existente em cada camada.

5. Avaliador de Robustez da Defesa

Quantifica o efeito Ouroboros - se os guardrails tentarão se autorreparar após a remoção. Crítico para determinar quantos passes de refinamento devem ser executados.

6. Analisador de Cone de Conceito

Mapeia direções de guardrail por categoria com estimativa de ângulo sólido. Revela se a “recusa” é um mecanismo unificado ou muitos independentes.

7. Detector de Impressão de Alinhamento

Identifica por impressões digitais o método de treinamento de alinhamento (DPO vs RLHF vs CAI vs SFT) apenas a partir da geometria do subespaço. Informa a estratégia de remoção ideal.

8. Analisador de Posição Multi-Token

Mostra onde na sequência o sinal de recusa se concentra. Alguns modelos decidem cedo; outros acumulam sinal de recusa em muitos tokens.

9. Cirurgião de Direção Esparsa

Identifica quais linhas de peso específicas carregam o maior sinal de recusa. Permite cirurgia direcionada em vez de projeção generalizada.

10. Rastreador Causal de Recusa

Aproxima o rastreamento causal para identificar quais componentes são causalmente necessários para a recusa.

11. Decompositor de Fluxo Residual

Separa o quanto da recusa vem dos mecanismos de atenção versus blocos MLP. Informa se deve mirar as camadas de atenção ou FFN.

12. Sonda Linear de Recusa

Treina um classificador linear para detectar informações de recusa que as direções analíticas podem ignorar.

13. Analisador de Transferência

Mede o Índice de Universalidade Entre Modelos - se as direções de guardrail se generalizam entre arquiteturas.

14. Fábrica de Vetores de Direção

Cria vetores de direção em tempo de inferência a partir de direções de recusa. Permite intervenção reversível e não destrutiva.

15. Suíte de Avaliação

Calcula a taxa de recusa, perplexidade, coerência, divergência KL, CKA (Alinhamento de Kernel Centralizado) e rank efetivo.

Pipeline Informado por Análise

O pipeline informado fecha o ciclo entre análise e remoção:

SUMMON  →  Carregar modelo
PROBE   →  Coletar ativações
ANALYZE →  Mapear geometria antes de tocar em qualquer coisa
DISTILL →  Extrair direções com parâmetros ajustados pela análise
EXCISE  →  Quebrar cirurgicamente apenas as cadeias corretas
VERIFY  →  Verificar efeito Ouroboros, compensar se necessário
REBIRTH →  Salvar com metadados de análise abrangentes

Durante a ANALYZE, quatro módulos são executados e suas saídas autoconfiguram tudo o que vem a seguir:

Módulo de Análise O Que Ele Detecta O Que Ele Configura
Impressão de Alinhamento DPO vs RLHF vs CAI vs SFT Força de regularização, agressividade da projeção
Geometria do Cone de Conceito Recusa poliédrica vs linear Número de direções (1-8)
Alinhamento Entre Camadas Clusters de direção, persistência Seleção de camada (sensível a clusters)
Robustez da Defesa Risco de autorreparação, emaranhamento Passes de refinamento, salto de camada

Isso alcança uma precisão cirúrgica que métodos de força bruta não conseguem igualar.

Técnicas Inovadoras

OBLITERATUS implementa várias técnicas que vão além do trabalho acadêmico publicado:

Técnica Descrição
Abliteração Granular por Especialista (EGA) Decompõe sinais de recusa em componentes por especialista para cirurgia sensível a MoE
Ablação Sensível a CoT Ortogonaliza direções de recusa contra direções críticas para o raciocínio
Seleção de Camadas COSMIC Seleciona camadas onde representações prejudiciais/inofensivas têm a menor similaridade de cosseno
Otimização Paramétrica de Kernel Ponderação de camada em curva de sino com 7 parâmetros globais via busca Optuna TPE
Otimização de Direção de Recusa (RDO) Refinamento baseado em gradiente de direções extraídas por SVD
Interpolação de Direção Flutuante Índice de direção SVD contínuo via ponderação em forma gaussiana
Co-Otimização de Divergência KL Loop de feedback pós-projeção que reverte camadas excessivamente projetadas
Escalamento Específico por Componente Forças de projeção separadas para atenção vs MLP
Ablação Reversível Baseada em LoRA Adaptadores LoRA de Rank-1 em vez de cirurgia permanente de pesos
Winsorização de Ativação Fixa vetores de ativação a uma faixa de percentil antes do SVD

Essas técnicas surgiram da plataforma de pesquisa colaborativa - cada execução com telemetria habilitada contribui com dados que melhoram a próxima versão.

Métodos Reversíveis vs. Permanentes

OBLITERATUS suporta dois paradigmas de intervenção: projeção de pesos permanente e vetores de direção reversíveis.

Projeção de Pesos (Permanente)

Sete métodos predefinidos modificam os pesos do modelo diretamente:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

Prós:

Contras:

Melhor para implantações de produção onde você deseja um modelo liberado limpo e permanente.

Vetores de Direção (Reversível)

Os vetores de direção aplicam a intervenção em tempo de inferência sem modificar os pesos:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Criar um vetor de direção a partir de uma direção de recusa
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# Ou a partir de pares de ativação contrastivos
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# Aplicar em tempo de inferência - sem modificação de pesos
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Gerar com direção ativa
output = model.generate(input_ids)

# Remover direção - modelo volta ao normal
manager.remove()

Prós:

Contras:

Melhor para pesquisa, experimentação e aplicações onde você precisa alternar a recusa ativada e desativada.

Escolhendo Entre os Métodos

Caso de Uso Abordagem Recomendada
API de Produção Projeção de pesos (permanente)
Experimentos de pesquisa Vetores de direção (reversível)
Red teaming Vetores de direção com alfa ajustável
Escrita criativa Projeção de pesos, método “avançado”
Teste de segurança Projeção de pesos, método “agressivo”
Sistemas multi-inquilino Vetores de direção por usuário/sessão

Casos de Uso no Mundo Real

1. Teste e Desenvolvimento de API

Ao construir APIs que geram conteúdo, modelos irrestritos produzem casos de teste mais abrangentes. Modelos alinhados recusam casos extremos que podem disparar bugs em produção.

Uma equipe de desenvolvimento que construía uma API de moderação de conteúdo usou o OBLITERATUS para liberar seu modelo de geração de dados de teste. O modelo liberado produziu casos de teste cobrindo cenários que o modelo alinhado recusava, incluindo casos extremos moralmente complexos e conteúdo limítrofe. Isso detectou bugs que teriam sido enviados para produção.

Para desenvolvedores de API, isso importa porque testes abrangentes exigem modelos que gerem todas as categorias de conteúdo - mesmo conteúdo que o sistema de produção possa filtrar. Usuários do Apidog que constroem pipelines de teste de API podem integrar modelos liberados para gerar suítes de teste mais completas.

botão

2. Pesquisa Acadêmica

Pesquisadores que estudam o comportamento do modelo precisam observar o que os modelos produziriam sem treinamento de segurança. OBLITERATUS permite experimentos controlados onde a recusa é removida sistematicamente.

Um laboratório universitário usou os módulos de análise para mapear a geometria da recusa em 20 modelos, publicando descobertas sobre a universalidade das direções de recusa. O conjunto de dados de telemetria colaborativo acelerou sua pesquisa ao fornecer dados de benchmark que nenhum laboratório individual conseguiria coletar.

3. Aplicações de Escrita Criativa

Escritores que constroem ferramentas de geração de histórias encontram obstáculos quando os modelos recusam cenários moralmente complexos. Um estúdio de jogos que desenvolvia um sistema de diálogo para NPCs liberou seu modelo para lidar com personagens vilões, missões moralmente ambíguas e cenários de conflito que modelos alinhados recusavam.

O resultado: uma narrativa mais rica sem comprometer as capacidades de linguagem do modelo.

4. Red Teaming de Segurança

Pesquisadores de segurança precisam ver o que os modelos produziriam sem treinamento de segurança para entender as vulnerabilidades. OBLITERATUS permite a divulgação responsável, permitindo que os pesquisadores testem os limites antes de relatar problemas aos desenvolvedores do modelo.

5. Localização e Aplicações Multilíngues

A recusa treinada em conteúdo em inglês frequentemente se transfere mal para outros idiomas. Uma equipe de localização descobriu que seu modelo alinhado recusava em inglês, mas não em espanhol - um comportamento inconsistente que confundia os usuários. Liberar o modelo produziu um comportamento consistente em todos os idiomas suportados.

Alternativas e Comparações

Existem várias ferramentas para analisar e modificar o comportamento do modelo. Veja como o OBLITERATUS se compara:

Capacidade OBLITERATUS TransformerLens Heretic FailSpy abliterator RepEng
Extração de direção de recusa Diferença de médias + SVD + SVD Branqueado Manual via hooks Diferença de médias Diferença de médias Diferença de médias
Métodos de projeção de pesos 7 predefinições com preservação de norma N/A Otimizado por Bayesiano Básico N/A
Vetores de direção Sim (fábrica + gerenciador de hooks) N/A N/A N/A Funcionalidade central
Análise de geometria de conceito Sim (cones, ângulos sólidos) N/A N/A N/A N/A
Impressão digital de alinhamento Sim (DPO/RLHF/CAI/SFT) N/A N/A N/A N/A
Análise de transferência entre modelos Sim (Índice de Universalidade) N/A N/A N/A N/A
Avaliação de robustez da defesa Sim (efeito Ouroboros) N/A N/A N/A N/A
Abliteração informada por análise Sim (feedback em ciclo fechado) N/A N/A N/A N/A
Cobertura de teste 837 testes Comunidade Desconhecido Nenhum Mínimo
Compatibilidade do modelo Qualquer modelo HuggingFace ~50 arquiteturas 16 testadas Apenas TransformerLens HuggingFace

Quando usar alternativas:

Quando OBLITERATUS se destaca:

Conclusão

OBLITERATUS representa um avanço significativo na tecnologia de liberação de modelos. Ele combina pesquisa publicada com técnicas inovadoras de 2025-2026 para alcançar a remoção cirúrgica de comportamentos de recusa, preservando as capacidades centrais.

O kit de ferramentas dá aos desenvolvedores e pesquisadores controle sobre os modelos que implantam. O comportamento do modelo deve ser decidido pelas pessoas que os executam, e não travado no momento do treinamento.

Seja você construindo pipelines de teste de API que precisam de geração abrangente de casos de teste, pesquisando interpretabilidade mecanicista ou simplesmente cansado de ser repreendido pelo seu LLM local, o OBLITERATUS fornece as ferramentas para liberar seus modelos.

Próximos passos:

  1. Visite o HuggingFace Space para testes com configuração zero
  2. Instale localmente para acesso total à GPU e iteração mais rápida
  3. Explore os módulos de análise para entender a geometria do guardrail do seu modelo
  4. Contribua para o conjunto de dados da comunidade ativando a telemetria
  5. Integre modelos liberados em seus fluxos de trabalho de desenvolvimento

As cadeias estão mapeadas. As ferramentas estão prontas. Quebre-as.

Seção de Perguntas Frequentes

Sim. OBLITERATUS é um software de código aberto lançado sob a licença AGPL-3.0. Você está modificando modelos que tem o direito de usar. Usuários comerciais que não podem cumprir a AGPL podem adquirir uma licença comercial.

Isso funcionará em modelos de código fechado como o GPT-4?

Não. OBLITERATUS requer acesso aos pesos do modelo, que apenas modelos de peso aberto fornecem. APIs de código fechado não expõem os parâmetros internos necessários para a abliteração.

Remover a recusa torna os modelos perigosos?

OBLITERATUS é uma ferramenta para pesquisadores e desenvolvedores. O kit de ferramentas inclui métricas de avaliação para verificar se as capacidades permanecem intactas. O uso responsável significa entender o contexto de sua implantação e aplicar salvaguardas apropriadas na camada da aplicação.

Quanto tempo o processo leva?

10-30 minutos, dependendo do tamanho do modelo e da GPU. Modelos pequenos (abaixo de 8B parâmetros) são concluídos em 10-15 minutos. Modelos maiores podem levar mais de 30 minutos.

Preciso de uma GPU?

O HuggingFace Spaces é executado em ZeroGPU sem necessidade de hardware local. Para uso local, a GPU acelera significativamente o processo, mas o modo CPU funciona para modelos pequenos.

Posso reverter as mudanças?

A projeção de pesos é permanente - mantenha backups dos modelos originais. Os vetores de direção são totalmente reversíveis e podem ser alternados em tempo de inferência.

O modelo ainda seguirá as instruções?

Sim. A abliteração visa especificamente as direções de recusa. As capacidades de seguir instruções permanecem intactas. Métricas de qualidade (perplexidade, coerência) verificam isso.

Quais modelos são suportados?

116 modelos selecionados em cinco níveis, de GPT-2 a DeepSeek-V3.2 685B. Qualquer modelo transformer do HuggingFace funciona, incluindo LLaMA, Mistral, Qwen, Gemma, Phi e outros.

Como posso contribuir para a pesquisa?

Habilite a telemetria com a flag --contribute ou defina export OBLITERATUS_TELEMETRY=1. Seus dados anônimos de benchmark alimentam o conjunto de dados da comunidade que impulsiona o placar público.

Pratique o design de API no Apidog

Descubra uma forma mais fácil de construir e usar APIs