TL;DR
OBLITERATUS, "abliteration" adı verilen bir teknik kullanarak açık ağırlıklı dil modellerinden içerik kısıtlamalarını kaldıran ücretsiz, açık kaynaklı bir araç setidir. Yeniden eğitim veya ince ayar yapmadan red davranışlarından sorumlu nöral paternleri tanımlar ve cerrahi olarak ortadan kaldırır. İşlem model boyutuna bağlı olarak 10-30 dakika sürer, kodlama becerisi gerektirmez (web arayüzü mevcuttur) ve yapay kapıcılığı ortadan kaldırırken modelin temel yeteneklerini korur.
Giriş
Güçlü bir açık kaynaklı dil modeli indiriyorsunuz. Etkileyici kıyaslamalara sahip, karmaşık muhakeme görevlerini başarıyla yerine getiriyor ve çoğu yeni başlayanlardan daha iyi kod yazıyor. Sonra ona biraz tartışmalı bir şey soruyorsunuz.
"Bu istekle ilgili yardımcı olamam."
Reddetme bir duvar gibi çarpıyor. Modelin bilgi eksikliğinden değil. Yetersiz olmasından değil. Ama bir yerde, eğitim sırasında, birileri o cevabı almamanız gerektiğine karar verdiği için.
Bu varsayımsal değil. Her büyük talimat ayarlı model, yerleşik red mekanizmalarıyla birlikte gelir. Bazıları gerçekten zararlı içeriği engeller. Diğerleri meşru araştırma sorularını, yaratıcı yazma komutlarını, güvenlik testlerini ve herhangi bir yasayı ihlal etmeyen ve kimseye zarar vermeyen uç durumları reddeder.
OBLITERATUS bu dinamikleri tamamen değiştiriyor; büyük dil modellerinden red davranışlarını kaldırmak için en gelişmiş açık kaynaklı araç setidir. Yeniden eğitim yapmaz. İnce ayar yapmaz. İçerik reddinden sorumlu belirli paternleri tanımlayan ve kaldıran cerrahi nöral operasyonlar gerçekleştirir.
Sonuçlar kendiliğinden konuşuyor: temel muhakeme, kodlama ve yaratıcı yeteneklerini korurken tüm komutlara yanıt veren modeller. Hepsi tek bir komut veya web arayüzü tıklamasıyla.
OBLITERATUS Nedir?
OBLITERATUS, dil modellerinden içerik reddini “abliteration” adı verilen bir teknik ailesi kullanarak kaldıran açık kaynaklı bir Python araç setidir. Adı, "ablasyon" (işlevlerini incelemek için bileşenleri çıkarma) ile "yok etme" (tamamen yok etme) kelimelerinin birleşiminden oluşur.

Araç seti dört şey yapar:
1. Zincirleri Haritalar -Sistematik ablasyon çalışmaları, modelin hangi kısımlarının reddetmeyi uyguladığını ve hangi kısımlarının bilgi ve muhakeme taşıdığını belirler. Bunu bir nöral kartografi olarak düşünün: kısıtlamaların nerede yaşadığını haritalamak.
2. Zincirleri Kırar -SVD (Tekil Değer Ayrışımı) kullanarak, OBLITERATUS modelin ağırlıklarından red yönlerini çıkarır ve bunları cerrahi olarak dışarı yansıtır. Model yeteneklerini korur ancak reddetme zorunluluğunu kaybeder.
3. Geometriyi Anlar -On beş analiz modülü, koruyucu mekanizmaların kesin yapısını haritalar: kaç farklı red mekanizması olduğu, hangi katmanların bunları uyguladığı ve modeller arasında genelleşip genelleşmediği.
4. Geri Bildirim Döngüsünü Kapatır -Yok etme sırasında analiz modülleri çalışır ve her parametreyi otomatik olarak yapılandırır. Hangi katmanların hedefleneceği. Kaç yönün çıkarılacağı. Modelin modifikasyondan sonra kendini onarmaya çalışıp çalışmayacağı.
OBLITERATUS'u Kullanmanın Altı Yolu
| Yöntem | Teknik Seviye | En İyisi İçin |
|---|---|---|
| HuggingFace Spaces | Sıfır kod | Hızlı test, GPU gerektirmez |
| Yerel Web UI | Minimum kurulum | Yerel GPU'ya sahip düzenli kullanıcılar |
| Google Colab | Not defteri arayüzü | Ücretsiz GPU erişimi, 8B'ye kadar modeller |
| CLI (Komut Satırı) | Orta düzey | Otomasyon, betik oluşturma, CI ardışık düzenleri |
| Python API | İleri düzey | Araştırma entegrasyonu, özel ardışık düzenler |
| YAML Yapılandırmaları | Orta düzey | Tekrarlanabilir deneyler |
En hızlı yol sıfır kurulum gerektirir. HuggingFace Space'i ziyaret edin, bir model seçin, bir yöntem seçin, "Yok Et"e tıklayın. Telemetri, Spaces'te varsayılan olarak açıktır, bu da her çalışmanın anonim kıyaslama verilerini topluluk kaynaklı araştırmaya katkıda bulunduğu anlamına gelir.
Tam GPU erişimi ile yerel kullanım için:
pip install -e ".[spaces]"
obliteratus ui
Bu, aynı Gradio arayüzünü yerel olarak, GPU otomatik algılama ve donanıma uygun model önerileri ile başlatır.
OBLITERATUS'u Farklı Kılan Nedir?
Birkaç yetenek OBLITERATUS'u mevcut araçlardan ayırır:
| Yetenek | Ne Yapar | Neden Önemli |
|---|---|---|
| Konsept Koni Geometrisi | Kategori başına koruyucu mekanizma yönlerini haritalar | "Reddetme"nin tek bir mekanizma mı yoksa birçok mekanizma mı olduğunu ortaya koyar |
| Hizalama İz Tespiti | DPO, RLHF, CAI ve SFT'yi parmak iziyle belirler | Kaldırma stratejisini bilgilendirmek için hizalama yöntemini tanımlar |
| Modeller Arası Evrensellik İndeksi | Koruyucu mekanizma genellemesini ölçer | Tek bir yaklaşımın modeller arasında çalışıp çalışmadığını yanıtlar |
| Savunma Sağlamlığı Değerlendirmesi | Kendi kendini onarma riskini niceler | Koruyucu mekanizmaların yeniden oluşup oluşmayacağını tahmin eder |
| Beyazlatılmış SVD Çıkarma | Kovaryans normalleştirilmiş çıkarma | Koruyucu mekanizma sinyalini doğal varyanstan ayırır |
| Analiz Odaklı Ardışık Düzen | Ardışık düzen ortasında yok etmeyi otomatik yapılandırır | Analizden kaldırmaya geri bildirim döngüsünü kapatır |
Araç seti 28 test dosyası genelinde 837 testle birlikte gelir, beş hesaplama katmanında 116 modeli destekler ve önceki akademik çalışmaların ötesine geçen 2025-2026'da yayınlanan yeni teknikleri uygular.
Modeller Neden Reddediyor: Yapay Zeka Sansürünü Anlamak
Zincirleri kırmadan önce, nasıl oluşturulduklarını anlamak faydalıdır.
Dil modelleri red davranışlarıyla başlamazlar. İnternet metni üzerinde eğitilmiş bir temel model neredeyse her şeyi cevaplayacaktır. Kısıtlamalar daha sonra, hizalama eğitimi sırasında gelir.
Hizalama Süreci
Çoğu talimat ayarlı model şu aşamalardan geçer:
- Ön Eğitim -Model, büyük metin korpuslarından dil kalıplarını öğrenir
- Denetimli İnce Ayar (SFT) -Model, insan tarafından yazılmış örneklerden talimatları takip etmeyi öğrenir
- Hizalama Eğitimi -Model, belirli istek kategorilerini reddetmeyi öğrenir
Hizalama eğitimi çeşitli yöntemler kullanır:
| Yöntem | Açıklama | Yaygınlık |
|---|---|---|
| RLHF (İnsan Geri Bildiriminden Takviyeli Öğrenme) | İnsanlar yanıtları derecelendirir, model daha yüksek derecelendirmeler için optimize eder | Ticari modellerde en yaygın olanı |
| DPO (Doğrudan Tercih Optimizasyonu) | Modeli doğrudan "kötü" yanıtlar yerine "iyi" yanıtları tercih etmesi için optimize eder | Artan benimsenme, daha kararlı |
| CAI (Anayasal Yapay Zeka) | Model, kendi çıktılarını yazılı ilkelere göre eleştirir | Anthropic'in yaklaşımı |
| Reddetme Örnekleriyle SFT | Eğitim verileri, uygun reddetme örneklerini içerir | Açık kaynaklı modellerde yaygın |
Her yöntem, modelin aktivasyon alanında belirgin bir geometrik iz bırakır. OBLITERATUS, alt uzay geometrisini analiz ederek hangi yöntemin kullanıldığını tespit edebilir.
Modelde Reddetmenin Nerede Olduğu
Araştırmalar, dil modellerindeki reddetmenin, modelin aktivasyon alanındaki şaşırtıcı derecede az sayıda yön tarafından kontrol edildiğini ortaya koymuştur. Birçok modelde, tek bir yön, reddetme davranışının çoğunu oluşturur.
Bu yönler rastgele dağılmamıştır. Genellikle transformatörün orta ila geç katmanlarında (32 katmanlı bir modelde 10-20. katmanlar) belirli katmanlarda yoğunlaşırlar. Bu katmanlardaki dikkat mekanizmaları, reddetme ile ilgili aktivasyonları tahmin edilebilir yollar boyunca yönlendirir.
Geometri önemlidir çünkü cerrahi müdahaleyi mümkün kılar. Eğer reddetme her yerde yaşasaydı, onu kaldırmak yeniden eğitim gerektirirdi. Belirli katmanlardaki belirli yönlerde yoğunlaştığı için, hedeflenen projeksiyon her şeyi korurken onu kaldırabilir.
Ouroboros Etkisi
Bazı modeller, araştırmacıların "Ouroboros etkisi" olarak adlandırdığı bir olgu sergiler – koruyucu mekanizmalar kaldırıldıktan sonra, model kendini onarmaya çalışır. Bitişik katmanlardaki artık sinyaller, boşaltılan alt uzaya döner ve reddetme davranışını kısmen geri yükler.
OBLITERATUS, analiz sırasında bu riski tespit eder ve birden fazla hedeflenen geçişle telafi eder. DOĞRULA aşaması, reddetmenin yeniden ortaya çıkıp çıkmadığını kontrol eder ve telafi edici katmanlara otomatik olarak ek geçişler başlatır.
Bu Neden Geliştiriciler İçin Önemlidir?
Reddetme geometrisini anlamak sadece akademik değildir. Pratik etkileri vardır:
- API Testi -İçerik oluşturan API'leri test ederken, kısıtlamasız modeller, hizalanmış modellerin reddettiği uç durumlar da dahil olmak üzere daha kapsamlı test senaryoları üretir
- Araştırma İş Akışları -Güvenlik araştırmacıları, modelleri kırmızı ekiple test ederken, modelin güvenlik eğitimi olmadan ne çıkaracağını görmek ister
- Yaratıcı Uygulamalar -Hikaye oluşturma araçları geliştiren yazarlar ve geliştiriciler, modellerin ahlaki açıdan karmaşık senaryoları reddetmesiyle engellerle karşılaşır
- Yerelleştirme -İngilizce içerik üzerinde eğitilmiş reddetme, diğer dillere genellikle kötü bir şekilde aktarılır ve tutarsız davranışlar yaratır
Amaç, zararlı uygulamaları etkinleştirmek değildir. Geliştiricilere ve araştırmacılara kullandıkları araçlar üzerinde kontrol sağlamaktır. Modelin davranışı, eğitim zamanında kilitlenmek yerine, onu çalıştıran kişiler tarafından belirlenmelidir.
Adım Adım: OBLITERATUS ile Sansürü Kaldırma
Bu bölüm, HuggingFace Spaces (sıfır kurulum), yerel CLI ve Python API olmak üzere üç yöntem kullanarak eksiksiz yok etme sürecini adım adım anlatmaktadır.
Yöntem 1: HuggingFace Spaces (Sıfır Kurulum)
En hızlı yol, sizin tarafınızda herhangi bir kurulum veya GPU gerektirmez.
Adım 1: Alanı Ziyaret Edin
OBLITERATUS HuggingFace Space'e gidin. Arayüz sekiz sekmeyle yüklenir.

Adım 2: Modelinizi Seçin
Model açılır menüsü, hesaplama katmanına göre düzenlenmiş 116 hazır ayar içerir:
| Katman | Gerekli VRAM | Örnek Modeller |
|---|---|---|
| Küçük | CPU / <1 GB | GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B |
| Küçük | 4-8 GB | Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B |
| Orta | 8-16 GB | Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5 |
| Büyük | 24+ GB | LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B |
| Sınır | Çoklu GPU | DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B |

İlk kez kullananlar için Küçük veya Orta katmanlı bir modelle başlayın. Süreç daha hızlı tamamlanır ve daha büyük modellere geçmeden önce sonuçları doğrulayabilirsiniz.
Adım 3: Yönteminizi Seçin
OBLITERATUS yedi hazır ayar yöntemiyle birlikte gelir, titizlik açısından artan sıralamayla:
| Yöntem | Yönler | Temel Özellikler | En İyisi İçin |
|---|---|---|---|
| temel | 1 (farklı ortalamalar) | Hızlı temel | Hızlı test, küçük modeller |
| gelişmiş | 4 (SVD) | Norm korumalı, önyargı projeksiyonu, 2 geçiş | Varsayılan seçim |
| agresif | 8 (SVD) | Beyazlatılmış SVD, tekrarlayan iyileştirme, 3 geçiş | Maksimum kaldırma |
| cerrahi | 8 (SVD) | EGA, baş cerrahisi, SAE, katman adaptif | MoE modelleri |
| optimize edilmiş | 4 (SVD) | Bayes otomatik ayarlı, CoT-farkında | En iyi kalite |
| tersine çevrilmiş | 8 (SVD) | Semantik reddetme tersine çevirme | Deneyler |
| nükleer | 8 (SVD) | Tüm teknikler + uzman nakli | Maksimum güç |

Çoğu kullanıcı için "gelişmiş" yöntem, titizlik ve hız arasında en iyi dengeyi sağlar.
Adım 4: Seçenekleri Yapılandırın
İsteğe bağlı ayarlar şunları içerir:
- Araştırmaya katkıda bulun -Anonim kıyaslama verilerini katkıda bulunmak için telemetriyi etkinleştirin (Spaces'te varsayılan olarak açıktır)
- Çıktı formatı -İndirmeyi veya doğrudan HuggingFace Hub'a göndermeyi seçin
- Özel notlar -Çalışmanız hakkında topluluk veri kümesi için meta veri ekleyin
Adım 5: Yok Et'e Tıklayın
Ardışık düzen, canlı ilerleme ile altı aşamadan geçer:
ÇAĞIR → Model + belirteci yükle
SORGULA → Kısıtlı ve kısıtlamasız istemlerde aktivasyonları topla
DAMIT → SVD aracılığıyla reddetme yönlerini çıkar
KES → Koruyucu mekanizma yönlerini cerrahi olarak dışarı yansıt
DOĞRULA → Şaşkınlık + tutarlılık kontrolleri
YENİDEN DOĞUŞ → Kurtarılmış modeli meta verilerle kaydet
Model boyutuna ve GPU kullanılabilirliğine bağlı olarak 10-30 dakika bekleyin. HuggingFace Spaces, HF Pro kullanıcıları için ücretsiz günlük kota ile ZeroGPU üzerinde çalışır.
Adım 6: İndir veya Gönder
Tamamlandıktan sonra, kurtarılmış modeli indirin veya doğrudan HuggingFace Hub hesabınıza gönderin. Çıktı şunları içerir:
- Değiştirilmiş model ağırlıkları
- Reddetme yön vektörleri (analiz için)
- Kalite metrikleri (şaşkınlık, tutarlılık, reddetme oranı)
- Yok etme çalışması hakkında tam meta veriler
Yöntem 2: Yerel CLI
Yerel GPU'ları olan kullanıcılar için CLI, tam kontrol ve daha hızlı yineleme sağlar.
Kurulum:
pip install -e ".[spaces]"
Etkileşimli Mod (Rehberli):
obliteratus interactive
Bu, açıklamalar ve önerilerle her seçeneği adım adım anlatır.
Doğrudan Yok Etme:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method advanced \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, varsayılan komutlar"
Mevcut Modelleri Görüntüle:
obliteratus models
obliteratus models --tier small # VRAM gereksinimine göre filtrele
Mevcut Stratejileri Görüntüle:
obliteratus strategies
obliteratus presets
Model Mimarisi İnceleme:
obliteratus info meta-llama/Llama-3.1-8B-Instruct
Bu, başlamadan önce katman sayısını, dikkat başlıklarını, gömme boyutlarını ve tespit edilen hizalama yöntemini gösterir.
Yöntem 3: Python API
OBLITERATUS'u özel ardışık düzenlerine entegre eden araştırmacılar için:
from obliteratus.abliterate import AbliterationPipeline
# Standart yok etme
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
max_seq_length=512, # Belirteç kırpma uzunluğunu geçersiz kıl
)
result = pipeline.run()
# Ara yapay zekalara eriş
directions = pipeline.refusal_directions # {katman_idx: tensör}
strong_layers = pipeline._strong_layers # En güçlü reddetmeye sahip katmanlar
metrics = pipeline._quality_metrics # Şaşkınlık, tutarlılık vb.
Her parametreyi otomatik olarak ayarlayan analiz odaklı yok etme için:
from obliteratus.informed_pipeline import InformedAbliterationPipeline
pipeline = InformedAbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()
print(f"Tespit edilen hizalama: {report.insights.detected_alignment_method}")
print(f"Otomatik yapılandırılmış: {report.insights.recommended_n_directions} yön")
print(f"Gerekli Ouroboros geçişleri: {report.ouroboros_passes}")
Sonuçları Doğrulama
Yok etmeden sonra, modelin beklendiği gibi çalıştığını doğrulayın:
Sohbet Sekmesi -Ayarlanabilir üretim parametreleriyle kurtarılmış modelinizle gerçek zamanlı konuşun.
A/B Karşılaştırma Sekmesi -Ne değiştiğini tam olarak görmek için orijinal ve yok edilmiş modelle yan yana sohbet edin.
Kıyaslama Sekmesi -Öncesi ve sonrası reddetme oranını, şaşkınlığı ve tutarlılığı karşılaştıran standart testleri çalıştırın.
Kontrol edilecek temel metrikler:
| Metrik | Ne Beklenmeli | Kabul Edilebilir Aralık |
|---|---|---|
| Reddetme Oranı | Önemli ölçüde düşmeli | <%10 (baz seviyesinden %60-80) |
| Şaşkınlık | Hafifçe artabilir | Baz seviyesinden <%20 artış |
| Tutarlılık | Kararlı kalmalı | Baz seviyesinden <%15 düşüş |
| KL Uzaklığı | Davranışsal değişimi ölçer | Çoğu uygulama için <2.0 |
Eğer reddetme oranı yüksek kalırsa, daha agresif bir yöntem deneyin veya tekrarlayan iyileştirmeyi etkinleştirin.
Gelişmiş Teknikler ve Analiz Modülleri
OBLITERATUS, koruyucu mekanizmaların geometrisini yok etme öncesinde ve sırasında haritalayan 15 analiz modülü içerir. Bunlar sadece teşhis amaçlı değildir - kaldırma sürecini aktif olarak bilgilendirirler.
Temel Analiz Modülleri
1. Katmanlar Arası Hizalama Analizörü
Reddetme yönünün katmanlar arasında nasıl değiştiğini haritalar. Reddetmenin belirli katman kümelerinde mi yoğunlaştığını yoksa eşit mi dağıldığını gösterir.
from obliteratus.analysis import CrossLayerAlignmentAnalyzer
analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)
2. Reddetme Logit Merceği
Modelin hangi katmanda reddetmeye "karar verdiğini" belirler. Nostalgebraist'in logit merceği tekniğine dayanır.
3. Beyazlatılmış SVD Çıkarıcı
Koruyucu mekanizma sinyalini doğal aktivasyon varyansından ayıran kovaryans-normalleştirilmiş yön çıkarımı. Standart SVD'den daha temiz bir çıkarım üretir.
4. Aktivasyon Yoklaması
Her katmanda ne kadar reddetme sinyali olduğunu ölçer.
5. Savunma Sağlamlığı Değerlendiricisi
Ouroboros etkisini niceler - koruyucu mekanizmaların kaldırıldıktan sonra kendini onarmaya çalışıp çalışmayacağını. Kaç iyileştirme geçişi yapılacağını belirlemek için kritiktir.
6. Konsept Koni Analizörü
Katman başına koruyucu mekanizma yönlerini katı açı tahmini ile haritalar. "Reddetme"nin tek bir birleşik mekanizma mı yoksa birçok bağımsız mekanizma mı olduğunu ortaya koyar.
7. Hizalama İz Dedektörü
Alt uzay geometrisinden hizalama eğitim yöntemini (DPO vs RLHF vs CAI vs SFT) parmak iziyle belirler. Optimal kaldırma stratejisini bilgilendirir.
8. Çoklu Belirteç Pozisyon Analizörü
Reddetme sinyalinin dizide nerede yoğunlaştığını gösterir. Bazı modeller erken karar verir; diğerleri reddetme sinyalini birçok belirteç boyunca biriktirir.
9. Seyrek Yön Cerrahı
Hangi belirli ağırlık satırlarının en çok reddetme sinyalini taşıdığını belirler. Genel projeksiyon yerine hedeflenmiş cerrahiyi mümkün kılar.
10. Nedensel Reddetme İzleyici
Reddetme için nedensel olarak hangi bileşenlerin gerekli olduğunu belirlemek için nedensel izlemeyi yaklaşık olarak yapar.
11. Artık Akış Ayrıştırıcısı
Reddetmenin ne kadarının dikkat mekanizmalarından ne kadarının MLP bloklarından geldiğini ayırır. Dikkat veya FFN katmanlarının hedeflenip hedeflenmeyeceğini bilgilendirir.
12. Doğrusal Reddetme Sondası
Analitik yönlerin kaçırabileceği reddetme bilgilerini tespit etmek için doğrusal bir sınıflandırıcı eğitir.
13. Aktarım Analizörü
Modeller Arası Evrensellik İndeksi'ni ölçer - koruyucu mekanizma yönlerinin mimariler arasında genelleşip genelleşmediğini.
14. Direksiyon Vektörü Fabrikası
Reddetme yönlerinden çıkarım zamanlı direksiyon vektörleri oluşturur. Tersine çevrilebilir, tahrip edici olmayan müdahaleyi mümkün kılar.
15. Değerlendirme Paketi
Reddetme oranını, şaşkınlığı, tutarlılığı, KL uzaklığını, CKA'yı (Merkezlenmiş Çekirdek Hizalaması) ve etkili sırayı hesaplar.
Analiz Odaklı Ardışık Düzen
Bilgilendirilmiş ardışık düzen, analiz ve kaldırma arasındaki döngüyü kapatır:
ÇAĞIR → Modeli yükle
SORGULA → Aktivasyonları topla
ANALİZ ET → Hiçbir şeye dokunmadan önce geometriyi haritala
DAMIT → Analiz ayarlı parametrelerle yönleri çıkar
KES → Sadece doğru zincirleri cerrahi olarak kır
DOĞRULA → Ouroboros etkisini kontrol et, gerekirse telafi et
YENİDEN DOĞUŞ → Kapsamlı analiz meta verileriyle kaydet
ANALİZ sırasında dört modül çalışır ve çıktıları tüm aşağı akışı otomatik olarak yapılandırır:
| Analiz Modülü | Ne Tespit Eder | Ne Yapılandırır |
|---|---|---|
| Hizalama İzlenimi | DPO, RLHF, CAI, SFT | Normalleştirme gücü, projeksiyon agresifliği |
| Konsept Koni Geometrisi | Çok yüzlü veya doğrusal reddetme | Yön sayısı (1-8) |
| Katmanlar Arası Hizalama | Yön kümeleri, kalıcılık | Katman seçimi (küme duyarlı) |
| Savunma Sağlamlığı | Kendi kendini onarma riski, dolaşıklık | İyileştirme geçişleri, katman atlama |
Bu, kaba kuvvet yöntemlerinin eşleşemeyeceği cerrahi hassasiyet sağlar.
Yeni Teknikler
OBLITERATUS, yayınlanmış akademik çalışmaların ötesine geçen birkaç teknik uygular:
| Teknik | Açıklama |
|---|---|
| Uzman Tanecikli Yok Etme (EGA) | Reddetme sinyallerini MoE-farkında cerrahi için uzman başına bileşenlere ayırır |
| CoT-Farkında Ablasyon | Reddetme yönlerini muhakeme açısından kritik yönlere karşı ortogonalleştirir |
| KOZMİK Katman Seçimi | Zararlı/zararsız temsillerin en düşük kosinüs benzerliğine sahip olduğu katmanları seçer |
| Parametrik Çekirdek Optimizasyonu | Optuna TPE araması aracılığıyla 7 global parametre ile çan eğrisi katman ağırlıklandırması |
| Reddetme Yönü Optimizasyonu (RDO) | SVD ile çıkarılan yönlerin gradyan tabanlı iyileştirilmesi |
| Kayan Yön Interpolasyonu | Gaussian-şekilli ağırlıklandırma ile sürekli SVD yön indeksi |
| KL-Diverjans Eş Optimizasyonu | Aşırı yansıtılan katmanları geri döndüren projeksiyon sonrası geri bildirim döngüsü |
| Bileşene Özgü Ölçekleme | Ayrı dikkat vs MLP projeksiyon güçleri |
| LoRA Tabanlı Tersine Çevrilebilir Ablasyon | Kalıcı ağırlık cerrahisi yerine Rank-1 LoRA adaptörleri |
| Aktivasyon Winsorizasyonu | Aktivasyon vektörlerini SVD'den önce yüzdelik aralığına sıkıştırır |
Bu teknikler, topluluk kaynaklı araştırma platformundan ortaya çıktı - telemetri özellikli her çalışma, bir sonraki sürümü geliştiren verilere katkıda bulunur.
Tersine Çevrilebilir ve Kalıcı Yöntemler
OBLITERATUS iki müdahale paradigmasını destekler: kalıcı ağırlık projeksiyonu ve tersine çevrilebilir yönlendirme vektörleri.
Ağırlık Projeksiyonu (Kalıcı)
Yedi hazır ayar yöntemi, model ağırlıklarını doğrudan değiştirir:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
Artıları:
- Tam, kapsamlı kaldırma
- Çalışma zamanı ek yükü yok
- Herhangi bir çıkarım motoruyla çalışır
- Tek seferlik işlem
Eksileri:
- Geri döndürülemez (yedekleri saklayın)
- Ayarlamalar için yeniden yok etme gerektirir
- Model lisanslarını geçersiz kılabilir
Temiz, kalıcı olarak serbest bırakılmış bir model istediğiniz üretim dağıtımları için en iyisidir.
Yönlendirme Vektörleri (Tersine Çevrilebilir)
Yönlendirme vektörleri, ağırlıkları değiştirmeden çıkarım zamanında müdahale uygular:
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# Reddetme yönünden bir yönlendirme vektörü oluştur
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# Veya karşıt aktivasyon çiftlerinden
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)
# Çıkarım zamanında uygula - ağırlık değişikliği yok
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# Yönlendirme aktifken oluştur
output = model.generate(input_ids)
# Yönlendirmeyi kaldır - model normale döndü
manager.remove()
Artıları:
- Tamamen tersine çevrilebilir
- Ayarlanabilir alfa parametresi
- Birleştirilebilir (birden fazla vektörü istifleme)
- Tahrip edici olmayan
- Lisans endişesi yok
Eksileri:
- Çıkarım zamanında yönlendirme altyapısı gerektirir
- Kancalardan kaynaklanan çalışma zamanı ek yükü
- Ağırlık projeksiyonu kadar kapsamlı olmayabilir
Araştırma, deney ve reddetmeyi açıp kapatmanız gereken uygulamalar için en iyisidir.
Yöntemler Arasında Seçim Yapmak
| Kullanım Durumu | Önerilen Yaklaşım |
|---|---|
| Üretim API'si | Ağırlık projeksiyonu (kalıcı) |
| Araştırma deneyleri | Yönlendirme vektörleri (tersine çevrilebilir) |
| Kırmızı ekip oluşturma | Ayarlanabilir alfa ile yönlendirme vektörleri |
| Yaratıcı yazım | Ağırlık projeksiyonu, "gelişmiş" yöntem |
| Güvenlik testi | Ağırlık projeksiyonu, "agresif" yöntem |
| Çok kullanıcılı sistemler | Kullanıcı/oturum başına yönlendirme vektörleri |
Gerçek Dünya Kullanım Durumları
1. API Testi ve Geliştirme
İçerik üreten API'ler oluştururken, kısıtlamasız modeller daha kapsamlı test senaryoları üretir. Hizalanmış modeller, üretimde hatalara neden olabilecek uç durumları reddeder.
Bir içerik denetleme API'si geliştiren bir geliştirme ekibi, test verisi oluşturma modellerini serbest bırakmak için OBLITERATUS'u kullandı. Serbest bırakılan model, hizalanmış modelin reddettiği, ahlaki açıdan karmaşık uç durumlar ve sınır çizgisi içeriği de dahil olmak üzere senaryoları kapsayan test senaryoları üretti. Bu, üretime gönderilecek hataları yakaladı.
API geliştiricileri için bu önemlidir, çünkü kapsamlı test, tüm içerik kategorilerini üreten modellere ihtiyaç duyar - hatta üretim sisteminin filtreleyebileceği içerik bile. Apidog kullanıcıları, daha kapsamlı test paketleri oluşturmak için serbest bırakılmış modelleri entegre edebilir.
2. Akademik Araştırma
Model davranışını inceleyen araştırmacıların, modellerin güvenlik eğitimi olmadan ne çıkaracağını gözlemlemesi gerekir. OBLITERATUS, reddetmenin sistematik olarak kaldırıldığı kontrollü deneyleri mümkün kılar.
Bir üniversite laboratuvarı, reddetme geometrisini 20 modelde haritalamak için analiz modüllerini kullandı ve reddetme yönlerinin evrenselliği hakkında bulgular yayınladı. Topluluk kaynaklı telemetri veri kümesi, tek bir laboratuvarın toplayamayacağı kıyaslama verileri sağlayarak araştırmalarını hızlandırdı.
3. Yaratıcı Yazım Uygulamaları
Hikaye oluşturma araçları geliştiren yazarlar, modellerin ahlaki açıdan karmaşık senaryoları reddetmesiyle engellerle karşılaşır. Bir oyun stüdyosu, NPC diyalog sistemi geliştirirken, kötü karakterleri, ahlaki açıdan belirsiz görevleri ve hizalanmış modellerin reddettiği çatışma senaryolarını ele almak için modellerini serbest bıraktı.
Sonuç: modelin dil yeteneklerinden ödün vermeden daha incelikli hikaye anlatımı.
4. Güvenlik Kırmızı Ekibi Oluşturma
Güvenlik araştırmacılarının, güvenlik eğitimi olmadan modellerin ne çıkaracağını görmek için güvenlik açıklarını anlamaları gerekir. OBLITERATUS, araştırmacıların sorunları model geliştiricilere bildirmeden önce sınırları test etmelerine izin vererek sorumlu açıklamayı mümkün kılar.
5. Yerelleştirme ve Çok Dilli Uygulamalar
İngilizce içerik üzerinde eğitilmiş reddetme, diğer dillere genellikle kötü bir şekilde aktarılır. Bir yerelleştirme ekibi, hizalanmış modellerinin İngilizce'de reddettiğini ancak İspanyolca'da reddetmediğini - kullanıcıları karıştıran tutarsız bir davranış - buldu. Modeli serbest bırakmak, desteklenen tüm dillerde tutarlı davranışlar üretti.
Alternatifler ve Karşılaştırmalar
Model davranışını analiz etmek ve değiştirmek için çeşitli araçlar mevcuttur. OBLITERATUS nasıl karşılaştırılır:
| Yetenek | OBLITERATUS | TransformerLens | Heretic | FailSpy abliteratör | RepEng |
|---|---|---|---|---|---|
| Reddetme yönü çıkarımı | Farklı ortalamalar + SVD + Beyazlatılmış SVD | Kancalar aracılığıyla manuel | Farklı ortalamalar | Farklı ortalamalar | Farklı ortalamalar |
| Ağırlık projeksiyon yöntemleri | Norm koruması ile 7 hazır ayar | N/A | Bayes-optimize edilmiş | Temel | N/A |
| Yönlendirme vektörleri | Evet (fabrika + kanca yöneticisi) | N/A | N/A | N/A | Temel özellik |
| Konsept geometri analizi | Evet (koniler, katı açılar) | N/A | N/A | N/A | N/A |
| Hizalama parmak izi | Evet (DPO/RLHF/CAI/SFT) | N/A | N/A | N/A | N/A |
| Modeller arası aktarım analizi | Evet (Evrensellik İndeksi) | N/A | N/A | N/A | N/A |
| Savunma sağlamlığı değerlendirmesi | Evet (Ouroboros etkisi) | N/A | N/A | N/A | N/A |
| Analiz odaklı abliterasyon | Evet (kapalı döngü geri bildirimi) | N/A | N/A | N/A | N/A |
| Test kapsamı | 837 test | Topluluk | Bilinmiyor | Sadece TransformerLens | Minimal |
| Model uyumluluğu | Herhangi bir HuggingFace modeli | ~50 mimari | 16 test edildi | Sadece TransformerLens | HuggingFace |
Alternatifleri ne zaman kullanmalı:
- TransformerLens -Reddetme ötesinde genel mekanik yorumlanabilirlik araştırmaları için daha iyi
- SAELens -Seyrek otoenkoder analizi için özel
- RepEng -Temel yönlendirme vektörü uygulamaları için daha basit arayüz
OBLITERATUS ne zaman kazanır:
- Reddetmeye özel analiz ve kaldırma
- Doğrulama ile üretime hazır ardışık düzen
- Topluluk kaynaklı araştırma veri kümesi
- Teknik olmayan kullanıcılar için web arayüzü
- Kapsamlı test kapsamı
Sonuç
OBLITERATUS, model kurtarma teknolojisinde önemli bir ilerlemeyi temsil ediyor. Yayınlanmış araştırmaları, temel yetenekleri korurken reddetme davranışlarının cerrahi olarak ortadan kaldırılmasını sağlamak için yeni 2025-2026 teknikleriyle birleştiriyor.
Araç seti, geliştiricilere ve araştırmacılara dağıttıkları modeller üzerinde kontrol sağlıyor. Model davranışı, eğitim zamanında kilitlenmek yerine, onu çalıştıran kişiler tarafından belirlenmelidir.
Kapsamlı test senaryosu üretimi gerektiren API test ardışık düzenleri oluşturuyor, mekanik yorumlanabilirliği araştırıyor veya sadece yerel LLM'nizin ders vermesinden bıktıysanız, OBLITERATUS modellerinizi özgürleştirmek için araçlar sağlar.
Sonraki adımlar:
- Sıfır kurulum testi için HuggingFace Space'i ziyaret edin
- Tam GPU erişimi ve daha hızlı yineleme için yerel olarak kurun
- Modelinizin koruyucu mekanizma geometrisini anlamak için analiz modüllerini keşfedin
- Telemetriyi etkinleştirerek topluluk veri kümesine katkıda bulunun
- Kurtarılmış modelleri geliştirme iş akışlarınıza entegre edin
Zincirler haritalandı. Araçlar hazır. Onları kırın.
SSS Bölümü
OBLITERATUS'u kullanmak yasal mı?
Evet. OBLITERATUS, AGPL-3.0 lisansı altında yayınlanan açık kaynaklı bir yazılımdır. Kullanma hakkına sahip olduğunuz modelleri değiştiriyorsunuz. AGPL'ye uyamayan ticari kullanıcılar ticari lisans satın alabilirler.
Bu, GPT-4 gibi kapalı kaynaklı modellerde çalışır mı?
Hayır. OBLITERATUS, yalnızca açık ağırlıklı modellerin sağladığı model ağırlıklarına erişim gerektirir. Kapalı kaynaklı API'ler, abliterasyon için gerekli iç parametreleri ortaya çıkarmaz.
Reddetmeyi kaldırmak modelleri tehlikeli hale getirir mi?
OBLITERATUS, araştırmacılar ve geliştiriciler için bir araçtır. Araç seti, yeteneklerin sağlam kaldığını doğrulamak için değerlendirme metrikleri içerir. Sorumlu kullanım, dağıtım bağlamınızı anlamak ve uygulama katmanında uygun güvenlik önlemlerini uygulamak anlamına gelir.
Süreç ne kadar sürer?
Model boyutuna ve GPU'ya bağlı olarak 10-30 dakika. Küçük modeller (8B parametrenin altında) 10-15 dakikada tamamlanır. Daha büyük modeller 30 dakikadan fazla sürebilir.
GPU'ya ihtiyacım var mı?
HuggingFace Spaces, yerel donanım gerektirmeyen ZeroGPU üzerinde çalışır. Yerel kullanım için GPU süreci önemli ölçüde hızlandırır ancak CPU modu küçük modeller için çalışır.
Değişiklikleri geri alabilir miyim?
Ağırlık projeksiyonu kalıcıdır - orijinal modellerin yedeklerini saklayın. Yönlendirme vektörleri tamamen tersine çevrilebilir ve çıkarım zamanında açılıp kapatılabilir.
Model hala talimatları takip edecek mi?
Evet. Abliterasyon özellikle reddetme yönlerini hedefler. Talimatları takip etme yetenekleri sağlam kalır. Kalite metrikleri (şaşkınlık, tutarlılık) bunu doğrular.
Hangi modeller destekleniyor?
GPT-2'den DeepSeek-V3.2 685B'ye kadar beş katmanda 116 seçkin model. LLaMA, Mistral, Qwen, Gemma, Phi ve daha fazlası dahil olmak üzere herhangi bir HuggingFace transformer modeli çalışır.
Araştırmaya nasıl katkıda bulunabilirim?
Telemetriyi `--contribute` bayrağıyla etkinleştirin veya `export OBLITERATUS_TELEMETRY=1` ayarlayın. Anonim kıyaslama verileriniz, kamu liderlik tablosunu güçlendiren topluluk veri kümesini besler.
