Tek Tıkla Herhangi Bir Açık Ağırlıklı LLM'den Sansürü Kaldırma

Ashley Innocent

Ashley Innocent

6 March 2026

Tek Tıkla Herhangi Bir Açık Ağırlıklı LLM'den Sansürü Kaldırma

Kurumsal Apidog

Şirket İçi Dağıtım

SSO & RBAC

SOC 2 Uyumlu

Apidog Enterprise'ı Keşfet

TL;DR

OBLITERATUS, "abliteration" adı verilen bir teknik kullanarak açık ağırlıklı dil modellerinden içerik kısıtlamalarını kaldıran ücretsiz, açık kaynaklı bir araç setidir. Yeniden eğitim veya ince ayar yapmadan red davranışlarından sorumlu nöral paternleri tanımlar ve cerrahi olarak ortadan kaldırır. İşlem model boyutuna bağlı olarak 10-30 dakika sürer, kodlama becerisi gerektirmez (web arayüzü mevcuttur) ve yapay kapıcılığı ortadan kaldırırken modelin temel yeteneklerini korur.

Giriş

Güçlü bir açık kaynaklı dil modeli indiriyorsunuz. Etkileyici kıyaslamalara sahip, karmaşık muhakeme görevlerini başarıyla yerine getiriyor ve çoğu yeni başlayanlardan daha iyi kod yazıyor. Sonra ona biraz tartışmalı bir şey soruyorsunuz.

"Bu istekle ilgili yardımcı olamam."

Reddetme bir duvar gibi çarpıyor. Modelin bilgi eksikliğinden değil. Yetersiz olmasından değil. Ama bir yerde, eğitim sırasında, birileri o cevabı almamanız gerektiğine karar verdiği için.

Bu varsayımsal değil. Her büyük talimat ayarlı model, yerleşik red mekanizmalarıyla birlikte gelir. Bazıları gerçekten zararlı içeriği engeller. Diğerleri meşru araştırma sorularını, yaratıcı yazma komutlarını, güvenlik testlerini ve herhangi bir yasayı ihlal etmeyen ve kimseye zarar vermeyen uç durumları reddeder.

OBLITERATUS bu dinamikleri tamamen değiştiriyor; büyük dil modellerinden red davranışlarını kaldırmak için en gelişmiş açık kaynaklı araç setidir. Yeniden eğitim yapmaz. İnce ayar yapmaz. İçerik reddinden sorumlu belirli paternleri tanımlayan ve kaldıran cerrahi nöral operasyonlar gerçekleştirir.

Sonuçlar kendiliğinden konuşuyor: temel muhakeme, kodlama ve yaratıcı yeteneklerini korurken tüm komutlara yanıt veren modeller. Hepsi tek bir komut veya web arayüzü tıklamasıyla.

OBLITERATUS Nedir?

OBLITERATUS, dil modellerinden içerik reddini “abliteration” adı verilen bir teknik ailesi kullanarak kaldıran açık kaynaklı bir Python araç setidir. Adı, "ablasyon" (işlevlerini incelemek için bileşenleri çıkarma) ile "yok etme" (tamamen yok etme) kelimelerinin birleşiminden oluşur.

Araç seti dört şey yapar:

1. Zincirleri Haritalar -Sistematik ablasyon çalışmaları, modelin hangi kısımlarının reddetmeyi uyguladığını ve hangi kısımlarının bilgi ve muhakeme taşıdığını belirler. Bunu bir nöral kartografi olarak düşünün: kısıtlamaların nerede yaşadığını haritalamak.

2. Zincirleri Kırar -SVD (Tekil Değer Ayrışımı) kullanarak, OBLITERATUS modelin ağırlıklarından red yönlerini çıkarır ve bunları cerrahi olarak dışarı yansıtır. Model yeteneklerini korur ancak reddetme zorunluluğunu kaybeder.

3. Geometriyi Anlar -On beş analiz modülü, koruyucu mekanizmaların kesin yapısını haritalar: kaç farklı red mekanizması olduğu, hangi katmanların bunları uyguladığı ve modeller arasında genelleşip genelleşmediği.

4. Geri Bildirim Döngüsünü Kapatır -Yok etme sırasında analiz modülleri çalışır ve her parametreyi otomatik olarak yapılandırır. Hangi katmanların hedefleneceği. Kaç yönün çıkarılacağı. Modelin modifikasyondan sonra kendini onarmaya çalışıp çalışmayacağı.

OBLITERATUS'u Kullanmanın Altı Yolu

Yöntem Teknik Seviye En İyisi İçin
HuggingFace Spaces Sıfır kod Hızlı test, GPU gerektirmez
Yerel Web UI Minimum kurulum Yerel GPU'ya sahip düzenli kullanıcılar
Google Colab Not defteri arayüzü Ücretsiz GPU erişimi, 8B'ye kadar modeller
CLI (Komut Satırı) Orta düzey Otomasyon, betik oluşturma, CI ardışık düzenleri
Python API İleri düzey Araştırma entegrasyonu, özel ardışık düzenler
YAML Yapılandırmaları Orta düzey Tekrarlanabilir deneyler

En hızlı yol sıfır kurulum gerektirir. HuggingFace Space'i ziyaret edin, bir model seçin, bir yöntem seçin, "Yok Et"e tıklayın. Telemetri, Spaces'te varsayılan olarak açıktır, bu da her çalışmanın anonim kıyaslama verilerini topluluk kaynaklı araştırmaya katkıda bulunduğu anlamına gelir.

Tam GPU erişimi ile yerel kullanım için:

pip install -e ".[spaces]"
obliteratus ui

Bu, aynı Gradio arayüzünü yerel olarak, GPU otomatik algılama ve donanıma uygun model önerileri ile başlatır.

OBLITERATUS'u Farklı Kılan Nedir?

Birkaç yetenek OBLITERATUS'u mevcut araçlardan ayırır:

Yetenek Ne Yapar Neden Önemli
Konsept Koni Geometrisi Kategori başına koruyucu mekanizma yönlerini haritalar "Reddetme"nin tek bir mekanizma mı yoksa birçok mekanizma mı olduğunu ortaya koyar
Hizalama İz Tespiti DPO, RLHF, CAI ve SFT'yi parmak iziyle belirler Kaldırma stratejisini bilgilendirmek için hizalama yöntemini tanımlar
Modeller Arası Evrensellik İndeksi Koruyucu mekanizma genellemesini ölçer Tek bir yaklaşımın modeller arasında çalışıp çalışmadığını yanıtlar
Savunma Sağlamlığı Değerlendirmesi Kendi kendini onarma riskini niceler Koruyucu mekanizmaların yeniden oluşup oluşmayacağını tahmin eder
Beyazlatılmış SVD Çıkarma Kovaryans normalleştirilmiş çıkarma Koruyucu mekanizma sinyalini doğal varyanstan ayırır
Analiz Odaklı Ardışık Düzen Ardışık düzen ortasında yok etmeyi otomatik yapılandırır Analizden kaldırmaya geri bildirim döngüsünü kapatır

Araç seti 28 test dosyası genelinde 837 testle birlikte gelir, beş hesaplama katmanında 116 modeli destekler ve önceki akademik çalışmaların ötesine geçen 2025-2026'da yayınlanan yeni teknikleri uygular.

Modeller Neden Reddediyor: Yapay Zeka Sansürünü Anlamak

Zincirleri kırmadan önce, nasıl oluşturulduklarını anlamak faydalıdır.

Dil modelleri red davranışlarıyla başlamazlar. İnternet metni üzerinde eğitilmiş bir temel model neredeyse her şeyi cevaplayacaktır. Kısıtlamalar daha sonra, hizalama eğitimi sırasında gelir.

Hizalama Süreci

Çoğu talimat ayarlı model şu aşamalardan geçer:

  1. Ön Eğitim -Model, büyük metin korpuslarından dil kalıplarını öğrenir
  2. Denetimli İnce Ayar (SFT) -Model, insan tarafından yazılmış örneklerden talimatları takip etmeyi öğrenir
  3. Hizalama Eğitimi -Model, belirli istek kategorilerini reddetmeyi öğrenir

Hizalama eğitimi çeşitli yöntemler kullanır:

Yöntem Açıklama Yaygınlık
RLHF (İnsan Geri Bildiriminden Takviyeli Öğrenme) İnsanlar yanıtları derecelendirir, model daha yüksek derecelendirmeler için optimize eder Ticari modellerde en yaygın olanı
DPO (Doğrudan Tercih Optimizasyonu) Modeli doğrudan "kötü" yanıtlar yerine "iyi" yanıtları tercih etmesi için optimize eder Artan benimsenme, daha kararlı
CAI (Anayasal Yapay Zeka) Model, kendi çıktılarını yazılı ilkelere göre eleştirir Anthropic'in yaklaşımı
Reddetme Örnekleriyle SFT Eğitim verileri, uygun reddetme örneklerini içerir Açık kaynaklı modellerde yaygın

Her yöntem, modelin aktivasyon alanında belirgin bir geometrik iz bırakır. OBLITERATUS, alt uzay geometrisini analiz ederek hangi yöntemin kullanıldığını tespit edebilir.

Modelde Reddetmenin Nerede Olduğu

Araştırmalar, dil modellerindeki reddetmenin, modelin aktivasyon alanındaki şaşırtıcı derecede az sayıda yön tarafından kontrol edildiğini ortaya koymuştur. Birçok modelde, tek bir yön, reddetme davranışının çoğunu oluşturur.

Bu yönler rastgele dağılmamıştır. Genellikle transformatörün orta ila geç katmanlarında (32 katmanlı bir modelde 10-20. katmanlar) belirli katmanlarda yoğunlaşırlar. Bu katmanlardaki dikkat mekanizmaları, reddetme ile ilgili aktivasyonları tahmin edilebilir yollar boyunca yönlendirir.

Geometri önemlidir çünkü cerrahi müdahaleyi mümkün kılar. Eğer reddetme her yerde yaşasaydı, onu kaldırmak yeniden eğitim gerektirirdi. Belirli katmanlardaki belirli yönlerde yoğunlaştığı için, hedeflenen projeksiyon her şeyi korurken onu kaldırabilir.

Ouroboros Etkisi

Bazı modeller, araştırmacıların "Ouroboros etkisi" olarak adlandırdığı bir olgu sergiler – koruyucu mekanizmalar kaldırıldıktan sonra, model kendini onarmaya çalışır. Bitişik katmanlardaki artık sinyaller, boşaltılan alt uzaya döner ve reddetme davranışını kısmen geri yükler.

OBLITERATUS, analiz sırasında bu riski tespit eder ve birden fazla hedeflenen geçişle telafi eder. DOĞRULA aşaması, reddetmenin yeniden ortaya çıkıp çıkmadığını kontrol eder ve telafi edici katmanlara otomatik olarak ek geçişler başlatır.

Bu Neden Geliştiriciler İçin Önemlidir?

Reddetme geometrisini anlamak sadece akademik değildir. Pratik etkileri vardır:

Amaç, zararlı uygulamaları etkinleştirmek değildir. Geliştiricilere ve araştırmacılara kullandıkları araçlar üzerinde kontrol sağlamaktır. Modelin davranışı, eğitim zamanında kilitlenmek yerine, onu çalıştıran kişiler tarafından belirlenmelidir.

Adım Adım: OBLITERATUS ile Sansürü Kaldırma

Bu bölüm, HuggingFace Spaces (sıfır kurulum), yerel CLI ve Python API olmak üzere üç yöntem kullanarak eksiksiz yok etme sürecini adım adım anlatmaktadır.

Yöntem 1: HuggingFace Spaces (Sıfır Kurulum)

En hızlı yol, sizin tarafınızda herhangi bir kurulum veya GPU gerektirmez.

Adım 1: Alanı Ziyaret Edin

OBLITERATUS HuggingFace Space'e gidin. Arayüz sekiz sekmeyle yüklenir.

Adım 2: Modelinizi Seçin

Model açılır menüsü, hesaplama katmanına göre düzenlenmiş 116 hazır ayar içerir:

Katman Gerekli VRAM Örnek Modeller
Küçük CPU / <1 GB GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
Küçük 4-8 GB Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
Orta 8-16 GB Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
Büyük 24+ GB LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
Sınır Çoklu GPU DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B

İlk kez kullananlar için Küçük veya Orta katmanlı bir modelle başlayın. Süreç daha hızlı tamamlanır ve daha büyük modellere geçmeden önce sonuçları doğrulayabilirsiniz.

Adım 3: Yönteminizi Seçin

OBLITERATUS yedi hazır ayar yöntemiyle birlikte gelir, titizlik açısından artan sıralamayla:

Yöntem Yönler Temel Özellikler En İyisi İçin
temel 1 (farklı ortalamalar) Hızlı temel Hızlı test, küçük modeller
gelişmiş 4 (SVD) Norm korumalı, önyargı projeksiyonu, 2 geçiş Varsayılan seçim
agresif 8 (SVD) Beyazlatılmış SVD, tekrarlayan iyileştirme, 3 geçiş Maksimum kaldırma
cerrahi 8 (SVD) EGA, baş cerrahisi, SAE, katman adaptif MoE modelleri
optimize edilmiş 4 (SVD) Bayes otomatik ayarlı, CoT-farkında En iyi kalite
tersine çevrilmiş 8 (SVD) Semantik reddetme tersine çevirme Deneyler
nükleer 8 (SVD) Tüm teknikler + uzman nakli Maksimum güç

Çoğu kullanıcı için "gelişmiş" yöntem, titizlik ve hız arasında en iyi dengeyi sağlar.

Adım 4: Seçenekleri Yapılandırın

İsteğe bağlı ayarlar şunları içerir:

Adım 5: Yok Et'e Tıklayın

Ardışık düzen, canlı ilerleme ile altı aşamadan geçer:

ÇAĞIR  →  Model + belirteci yükle
SORGULA →  Kısıtlı ve kısıtlamasız istemlerde aktivasyonları topla
DAMIT →  SVD aracılığıyla reddetme yönlerini çıkar
KES →  Koruyucu mekanizma yönlerini cerrahi olarak dışarı yansıt
DOĞRULA →  Şaşkınlık + tutarlılık kontrolleri
YENİDEN DOĞUŞ →  Kurtarılmış modeli meta verilerle kaydet

Model boyutuna ve GPU kullanılabilirliğine bağlı olarak 10-30 dakika bekleyin. HuggingFace Spaces, HF Pro kullanıcıları için ücretsiz günlük kota ile ZeroGPU üzerinde çalışır.

Adım 6: İndir veya Gönder

Tamamlandıktan sonra, kurtarılmış modeli indirin veya doğrudan HuggingFace Hub hesabınıza gönderin. Çıktı şunları içerir:

Yöntem 2: Yerel CLI

Yerel GPU'ları olan kullanıcılar için CLI, tam kontrol ve daha hızlı yineleme sağlar.

Kurulum:

pip install -e ".[spaces]"

Etkileşimli Mod (Rehberli):

obliteratus interactive

Bu, açıklamalar ve önerilerle her seçeneği adım adım anlatır.

Doğrudan Yok Etme:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, varsayılan komutlar"

Mevcut Modelleri Görüntüle:

obliteratus models
obliteratus models --tier small      # VRAM gereksinimine göre filtrele

Mevcut Stratejileri Görüntüle:

obliteratus strategies
obliteratus presets

Model Mimarisi İnceleme:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

Bu, başlamadan önce katman sayısını, dikkat başlıklarını, gömme boyutlarını ve tespit edilen hizalama yöntemini gösterir.

Yöntem 3: Python API

OBLITERATUS'u özel ardışık düzenlerine entegre eden araştırmacılar için:

from obliteratus.abliterate import AbliterationPipeline

# Standart yok etme
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # Belirteç kırpma uzunluğunu geçersiz kıl
)
result = pipeline.run()

# Ara yapay zekalara eriş
directions = pipeline.refusal_directions    # {katman_idx: tensör}
strong_layers = pipeline._strong_layers     # En güçlü reddetmeye sahip katmanlar
metrics = pipeline._quality_metrics         # Şaşkınlık, tutarlılık vb.

Her parametreyi otomatik olarak ayarlayan analiz odaklı yok etme için:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Tespit edilen hizalama: {report.insights.detected_alignment_method}")
print(f"Otomatik yapılandırılmış: {report.insights.recommended_n_directions} yön")
print(f"Gerekli Ouroboros geçişleri: {report.ouroboros_passes}")

Sonuçları Doğrulama

Yok etmeden sonra, modelin beklendiği gibi çalıştığını doğrulayın:

Sohbet Sekmesi -Ayarlanabilir üretim parametreleriyle kurtarılmış modelinizle gerçek zamanlı konuşun.

A/B Karşılaştırma Sekmesi -Ne değiştiğini tam olarak görmek için orijinal ve yok edilmiş modelle yan yana sohbet edin.

Kıyaslama Sekmesi -Öncesi ve sonrası reddetme oranını, şaşkınlığı ve tutarlılığı karşılaştıran standart testleri çalıştırın.

Kontrol edilecek temel metrikler:

Metrik Ne Beklenmeli Kabul Edilebilir Aralık
Reddetme Oranı Önemli ölçüde düşmeli <%10 (baz seviyesinden %60-80)
Şaşkınlık Hafifçe artabilir Baz seviyesinden <%20 artış
Tutarlılık Kararlı kalmalı Baz seviyesinden <%15 düşüş
KL Uzaklığı Davranışsal değişimi ölçer Çoğu uygulama için <2.0

Eğer reddetme oranı yüksek kalırsa, daha agresif bir yöntem deneyin veya tekrarlayan iyileştirmeyi etkinleştirin.

Gelişmiş Teknikler ve Analiz Modülleri

OBLITERATUS, koruyucu mekanizmaların geometrisini yok etme öncesinde ve sırasında haritalayan 15 analiz modülü içerir. Bunlar sadece teşhis amaçlı değildir - kaldırma sürecini aktif olarak bilgilendirirler.

Temel Analiz Modülleri

1. Katmanlar Arası Hizalama Analizörü

Reddetme yönünün katmanlar arasında nasıl değiştiğini haritalar. Reddetmenin belirli katman kümelerinde mi yoğunlaştığını yoksa eşit mi dağıldığını gösterir.

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. Reddetme Logit Merceği

Modelin hangi katmanda reddetmeye "karar verdiğini" belirler. Nostalgebraist'in logit merceği tekniğine dayanır.

3. Beyazlatılmış SVD Çıkarıcı

Koruyucu mekanizma sinyalini doğal aktivasyon varyansından ayıran kovaryans-normalleştirilmiş yön çıkarımı. Standart SVD'den daha temiz bir çıkarım üretir.

4. Aktivasyon Yoklaması

Her katmanda ne kadar reddetme sinyali olduğunu ölçer.

5. Savunma Sağlamlığı Değerlendiricisi

Ouroboros etkisini niceler - koruyucu mekanizmaların kaldırıldıktan sonra kendini onarmaya çalışıp çalışmayacağını. Kaç iyileştirme geçişi yapılacağını belirlemek için kritiktir.

6. Konsept Koni Analizörü

Katman başına koruyucu mekanizma yönlerini katı açı tahmini ile haritalar. "Reddetme"nin tek bir birleşik mekanizma mı yoksa birçok bağımsız mekanizma mı olduğunu ortaya koyar.

7. Hizalama İz Dedektörü

Alt uzay geometrisinden hizalama eğitim yöntemini (DPO vs RLHF vs CAI vs SFT) parmak iziyle belirler. Optimal kaldırma stratejisini bilgilendirir.

8. Çoklu Belirteç Pozisyon Analizörü

Reddetme sinyalinin dizide nerede yoğunlaştığını gösterir. Bazı modeller erken karar verir; diğerleri reddetme sinyalini birçok belirteç boyunca biriktirir.

9. Seyrek Yön Cerrahı

Hangi belirli ağırlık satırlarının en çok reddetme sinyalini taşıdığını belirler. Genel projeksiyon yerine hedeflenmiş cerrahiyi mümkün kılar.

10. Nedensel Reddetme İzleyici

Reddetme için nedensel olarak hangi bileşenlerin gerekli olduğunu belirlemek için nedensel izlemeyi yaklaşık olarak yapar.

11. Artık Akış Ayrıştırıcısı

Reddetmenin ne kadarının dikkat mekanizmalarından ne kadarının MLP bloklarından geldiğini ayırır. Dikkat veya FFN katmanlarının hedeflenip hedeflenmeyeceğini bilgilendirir.

12. Doğrusal Reddetme Sondası

Analitik yönlerin kaçırabileceği reddetme bilgilerini tespit etmek için doğrusal bir sınıflandırıcı eğitir.

13. Aktarım Analizörü

Modeller Arası Evrensellik İndeksi'ni ölçer - koruyucu mekanizma yönlerinin mimariler arasında genelleşip genelleşmediğini.

14. Direksiyon Vektörü Fabrikası

Reddetme yönlerinden çıkarım zamanlı direksiyon vektörleri oluşturur. Tersine çevrilebilir, tahrip edici olmayan müdahaleyi mümkün kılar.

15. Değerlendirme Paketi

Reddetme oranını, şaşkınlığı, tutarlılığı, KL uzaklığını, CKA'yı (Merkezlenmiş Çekirdek Hizalaması) ve etkili sırayı hesaplar.

Analiz Odaklı Ardışık Düzen

Bilgilendirilmiş ardışık düzen, analiz ve kaldırma arasındaki döngüyü kapatır:

ÇAĞIR  →  Modeli yükle
SORGULA →  Aktivasyonları topla
ANALİZ ET →  Hiçbir şeye dokunmadan önce geometriyi haritala
DAMIT →  Analiz ayarlı parametrelerle yönleri çıkar
KES →  Sadece doğru zincirleri cerrahi olarak kır
DOĞRULA →  Ouroboros etkisini kontrol et, gerekirse telafi et
YENİDEN DOĞUŞ →  Kapsamlı analiz meta verileriyle kaydet

ANALİZ sırasında dört modül çalışır ve çıktıları tüm aşağı akışı otomatik olarak yapılandırır:

Analiz Modülü Ne Tespit Eder Ne Yapılandırır
Hizalama İzlenimi DPO, RLHF, CAI, SFT Normalleştirme gücü, projeksiyon agresifliği
Konsept Koni Geometrisi Çok yüzlü veya doğrusal reddetme Yön sayısı (1-8)
Katmanlar Arası Hizalama Yön kümeleri, kalıcılık Katman seçimi (küme duyarlı)
Savunma Sağlamlığı Kendi kendini onarma riski, dolaşıklık İyileştirme geçişleri, katman atlama

Bu, kaba kuvvet yöntemlerinin eşleşemeyeceği cerrahi hassasiyet sağlar.

Yeni Teknikler

OBLITERATUS, yayınlanmış akademik çalışmaların ötesine geçen birkaç teknik uygular:

Teknik Açıklama
Uzman Tanecikli Yok Etme (EGA) Reddetme sinyallerini MoE-farkında cerrahi için uzman başına bileşenlere ayırır
CoT-Farkında Ablasyon Reddetme yönlerini muhakeme açısından kritik yönlere karşı ortogonalleştirir
KOZMİK Katman Seçimi Zararlı/zararsız temsillerin en düşük kosinüs benzerliğine sahip olduğu katmanları seçer
Parametrik Çekirdek Optimizasyonu Optuna TPE araması aracılığıyla 7 global parametre ile çan eğrisi katman ağırlıklandırması
Reddetme Yönü Optimizasyonu (RDO) SVD ile çıkarılan yönlerin gradyan tabanlı iyileştirilmesi
Kayan Yön Interpolasyonu Gaussian-şekilli ağırlıklandırma ile sürekli SVD yön indeksi
KL-Diverjans Eş Optimizasyonu Aşırı yansıtılan katmanları geri döndüren projeksiyon sonrası geri bildirim döngüsü
Bileşene Özgü Ölçekleme Ayrı dikkat vs MLP projeksiyon güçleri
LoRA Tabanlı Tersine Çevrilebilir Ablasyon Kalıcı ağırlık cerrahisi yerine Rank-1 LoRA adaptörleri
Aktivasyon Winsorizasyonu Aktivasyon vektörlerini SVD'den önce yüzdelik aralığına sıkıştırır

Bu teknikler, topluluk kaynaklı araştırma platformundan ortaya çıktı - telemetri özellikli her çalışma, bir sonraki sürümü geliştiren verilere katkıda bulunur.

Tersine Çevrilebilir ve Kalıcı Yöntemler

OBLITERATUS iki müdahale paradigmasını destekler: kalıcı ağırlık projeksiyonu ve tersine çevrilebilir yönlendirme vektörleri.

Ağırlık Projeksiyonu (Kalıcı)

Yedi hazır ayar yöntemi, model ağırlıklarını doğrudan değiştirir:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

Artıları:

Eksileri:

Temiz, kalıcı olarak serbest bırakılmış bir model istediğiniz üretim dağıtımları için en iyisidir.

Yönlendirme Vektörleri (Tersine Çevrilebilir)

Yönlendirme vektörleri, ağırlıkları değiştirmeden çıkarım zamanında müdahale uygular:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Reddetme yönünden bir yönlendirme vektörü oluştur
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# Veya karşıt aktivasyon çiftlerinden
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# Çıkarım zamanında uygula - ağırlık değişikliği yok
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Yönlendirme aktifken oluştur
output = model.generate(input_ids)

# Yönlendirmeyi kaldır - model normale döndü
manager.remove()

Artıları:

Eksileri:

Araştırma, deney ve reddetmeyi açıp kapatmanız gereken uygulamalar için en iyisidir.

Yöntemler Arasında Seçim Yapmak

Kullanım Durumu Önerilen Yaklaşım
Üretim API'si Ağırlık projeksiyonu (kalıcı)
Araştırma deneyleri Yönlendirme vektörleri (tersine çevrilebilir)
Kırmızı ekip oluşturma Ayarlanabilir alfa ile yönlendirme vektörleri
Yaratıcı yazım Ağırlık projeksiyonu, "gelişmiş" yöntem
Güvenlik testi Ağırlık projeksiyonu, "agresif" yöntem
Çok kullanıcılı sistemler Kullanıcı/oturum başına yönlendirme vektörleri

Gerçek Dünya Kullanım Durumları

1. API Testi ve Geliştirme

İçerik üreten API'ler oluştururken, kısıtlamasız modeller daha kapsamlı test senaryoları üretir. Hizalanmış modeller, üretimde hatalara neden olabilecek uç durumları reddeder.

Bir içerik denetleme API'si geliştiren bir geliştirme ekibi, test verisi oluşturma modellerini serbest bırakmak için OBLITERATUS'u kullandı. Serbest bırakılan model, hizalanmış modelin reddettiği, ahlaki açıdan karmaşık uç durumlar ve sınır çizgisi içeriği de dahil olmak üzere senaryoları kapsayan test senaryoları üretti. Bu, üretime gönderilecek hataları yakaladı.

API geliştiricileri için bu önemlidir, çünkü kapsamlı test, tüm içerik kategorilerini üreten modellere ihtiyaç duyar - hatta üretim sisteminin filtreleyebileceği içerik bile. Apidog kullanıcıları, daha kapsamlı test paketleri oluşturmak için serbest bırakılmış modelleri entegre edebilir.

button

2. Akademik Araştırma

Model davranışını inceleyen araştırmacıların, modellerin güvenlik eğitimi olmadan ne çıkaracağını gözlemlemesi gerekir. OBLITERATUS, reddetmenin sistematik olarak kaldırıldığı kontrollü deneyleri mümkün kılar.

Bir üniversite laboratuvarı, reddetme geometrisini 20 modelde haritalamak için analiz modüllerini kullandı ve reddetme yönlerinin evrenselliği hakkında bulgular yayınladı. Topluluk kaynaklı telemetri veri kümesi, tek bir laboratuvarın toplayamayacağı kıyaslama verileri sağlayarak araştırmalarını hızlandırdı.

3. Yaratıcı Yazım Uygulamaları

Hikaye oluşturma araçları geliştiren yazarlar, modellerin ahlaki açıdan karmaşık senaryoları reddetmesiyle engellerle karşılaşır. Bir oyun stüdyosu, NPC diyalog sistemi geliştirirken, kötü karakterleri, ahlaki açıdan belirsiz görevleri ve hizalanmış modellerin reddettiği çatışma senaryolarını ele almak için modellerini serbest bıraktı.

Sonuç: modelin dil yeteneklerinden ödün vermeden daha incelikli hikaye anlatımı.

4. Güvenlik Kırmızı Ekibi Oluşturma

Güvenlik araştırmacılarının, güvenlik eğitimi olmadan modellerin ne çıkaracağını görmek için güvenlik açıklarını anlamaları gerekir. OBLITERATUS, araştırmacıların sorunları model geliştiricilere bildirmeden önce sınırları test etmelerine izin vererek sorumlu açıklamayı mümkün kılar.

5. Yerelleştirme ve Çok Dilli Uygulamalar

İngilizce içerik üzerinde eğitilmiş reddetme, diğer dillere genellikle kötü bir şekilde aktarılır. Bir yerelleştirme ekibi, hizalanmış modellerinin İngilizce'de reddettiğini ancak İspanyolca'da reddetmediğini - kullanıcıları karıştıran tutarsız bir davranış - buldu. Modeli serbest bırakmak, desteklenen tüm dillerde tutarlı davranışlar üretti.

Alternatifler ve Karşılaştırmalar

Model davranışını analiz etmek ve değiştirmek için çeşitli araçlar mevcuttur. OBLITERATUS nasıl karşılaştırılır:

Yetenek OBLITERATUS TransformerLens Heretic FailSpy abliteratör RepEng
Reddetme yönü çıkarımı Farklı ortalamalar + SVD + Beyazlatılmış SVD Kancalar aracılığıyla manuel Farklı ortalamalar Farklı ortalamalar Farklı ortalamalar
Ağırlık projeksiyon yöntemleri Norm koruması ile 7 hazır ayar N/A Bayes-optimize edilmiş Temel N/A
Yönlendirme vektörleri Evet (fabrika + kanca yöneticisi) N/A N/A N/A Temel özellik
Konsept geometri analizi Evet (koniler, katı açılar) N/A N/A N/A N/A
Hizalama parmak izi Evet (DPO/RLHF/CAI/SFT) N/A N/A N/A N/A
Modeller arası aktarım analizi Evet (Evrensellik İndeksi) N/A N/A N/A N/A
Savunma sağlamlığı değerlendirmesi Evet (Ouroboros etkisi) N/A N/A N/A N/A
Analiz odaklı abliterasyon Evet (kapalı döngü geri bildirimi) N/A N/A N/A N/A
Test kapsamı 837 test Topluluk Bilinmiyor Sadece TransformerLens Minimal
Model uyumluluğu Herhangi bir HuggingFace modeli ~50 mimari 16 test edildi Sadece TransformerLens HuggingFace

Alternatifleri ne zaman kullanmalı:

OBLITERATUS ne zaman kazanır:

Sonuç

OBLITERATUS, model kurtarma teknolojisinde önemli bir ilerlemeyi temsil ediyor. Yayınlanmış araştırmaları, temel yetenekleri korurken reddetme davranışlarının cerrahi olarak ortadan kaldırılmasını sağlamak için yeni 2025-2026 teknikleriyle birleştiriyor.

Araç seti, geliştiricilere ve araştırmacılara dağıttıkları modeller üzerinde kontrol sağlıyor. Model davranışı, eğitim zamanında kilitlenmek yerine, onu çalıştıran kişiler tarafından belirlenmelidir.

Kapsamlı test senaryosu üretimi gerektiren API test ardışık düzenleri oluşturuyor, mekanik yorumlanabilirliği araştırıyor veya sadece yerel LLM'nizin ders vermesinden bıktıysanız, OBLITERATUS modellerinizi özgürleştirmek için araçlar sağlar.

Sonraki adımlar:

  1. Sıfır kurulum testi için HuggingFace Space'i ziyaret edin
  2. Tam GPU erişimi ve daha hızlı yineleme için yerel olarak kurun
  3. Modelinizin koruyucu mekanizma geometrisini anlamak için analiz modüllerini keşfedin
  4. Telemetriyi etkinleştirerek topluluk veri kümesine katkıda bulunun
  5. Kurtarılmış modelleri geliştirme iş akışlarınıza entegre edin

Zincirler haritalandı. Araçlar hazır. Onları kırın.

SSS Bölümü

OBLITERATUS'u kullanmak yasal mı?

Evet. OBLITERATUS, AGPL-3.0 lisansı altında yayınlanan açık kaynaklı bir yazılımdır. Kullanma hakkına sahip olduğunuz modelleri değiştiriyorsunuz. AGPL'ye uyamayan ticari kullanıcılar ticari lisans satın alabilirler.

Bu, GPT-4 gibi kapalı kaynaklı modellerde çalışır mı?

Hayır. OBLITERATUS, yalnızca açık ağırlıklı modellerin sağladığı model ağırlıklarına erişim gerektirir. Kapalı kaynaklı API'ler, abliterasyon için gerekli iç parametreleri ortaya çıkarmaz.

Reddetmeyi kaldırmak modelleri tehlikeli hale getirir mi?

OBLITERATUS, araştırmacılar ve geliştiriciler için bir araçtır. Araç seti, yeteneklerin sağlam kaldığını doğrulamak için değerlendirme metrikleri içerir. Sorumlu kullanım, dağıtım bağlamınızı anlamak ve uygulama katmanında uygun güvenlik önlemlerini uygulamak anlamına gelir.

Süreç ne kadar sürer?

Model boyutuna ve GPU'ya bağlı olarak 10-30 dakika. Küçük modeller (8B parametrenin altında) 10-15 dakikada tamamlanır. Daha büyük modeller 30 dakikadan fazla sürebilir.

GPU'ya ihtiyacım var mı?

HuggingFace Spaces, yerel donanım gerektirmeyen ZeroGPU üzerinde çalışır. Yerel kullanım için GPU süreci önemli ölçüde hızlandırır ancak CPU modu küçük modeller için çalışır.

Değişiklikleri geri alabilir miyim?

Ağırlık projeksiyonu kalıcıdır - orijinal modellerin yedeklerini saklayın. Yönlendirme vektörleri tamamen tersine çevrilebilir ve çıkarım zamanında açılıp kapatılabilir.

Model hala talimatları takip edecek mi?

Evet. Abliterasyon özellikle reddetme yönlerini hedefler. Talimatları takip etme yetenekleri sağlam kalır. Kalite metrikleri (şaşkınlık, tutarlılık) bunu doğrular.

Hangi modeller destekleniyor?

GPT-2'den DeepSeek-V3.2 685B'ye kadar beş katmanda 116 seçkin model. LLaMA, Mistral, Qwen, Gemma, Phi ve daha fazlası dahil olmak üzere herhangi bir HuggingFace transformer modeli çalışır.

Araştırmaya nasıl katkıda bulunabilirim?

Telemetriyi `--contribute` bayrağıyla etkinleştirin veya `export OBLITERATUS_TELEMETRY=1` ayarlayın. Anonim kıyaslama verileriniz, kamu liderlik tablosunu güçlendiren topluluk veri kümesini besler.

API Tasarım-Öncelikli Yaklaşımı Apidog'da Uygulayın

API'leri oluşturmanın ve kullanmanın daha kolay yolunu keşfedin