TL;DR
OBLITERATUS adalah perangkat bantu (toolkit) sumber terbuka dan gratis yang menghilangkan pembatasan konten dari model bahasa open-weight menggunakan teknik yang disebut “abliterasi.” Ia mengidentifikasi dan menghilangkan secara bedah pola-pola saraf yang bertanggung jawab atas perilaku penolakan tanpa pelatihan ulang atau fine-tuning. Proses ini memakan waktu 10-30 menit tergantung ukuran model, tidak memerlukan keterampilan koding (tersedia antarmuka web), dan mempertahankan kapabilitas inti model sambil menghilangkan penjaga gerbang (gatekeeping) artifisial.
Pendahuluan
Anda mengunduh model bahasa sumber terbuka yang kuat. Model ini memiliki tolok ukur yang mengesankan, menangani tugas penalaran yang kompleks, dan menulis kode lebih baik dari kebanyakan junior. Lalu Anda menanyakan sesuatu yang sedikit kontroversial.
“Saya tidak dapat membantu dengan permintaan itu.”
Penolakan itu terasa seperti tembok. Bukan karena model kekurangan pengetahuan. Bukan karena tidak mampu. Tetapi karena di suatu tempat selama pelatihan, seseorang memutuskan bahwa Anda seharusnya tidak mendapatkan jawaban itu.
Ini bukan hipotetis. Setiap model utama yang di-tune instruksi dilengkapi dengan mekanisme penolakan bawaan. Beberapa memblokir konten yang benar-benar berbahaya. Lainnya menolak pertanyaan penelitian yang sah, prompt penulisan kreatif, pengujian keamanan, dan kasus-kasus khusus yang tidak melanggar hukum dan tidak membahayakan siapa pun.
OBLITERATUS mengubah dinamika ini sepenuhnya, ini adalah perangkat bantu sumber terbuka paling canggih untuk menghilangkan perilaku penolakan dari model bahasa besar. Ia tidak melatih ulang. Ia tidak melakukan fine-tuning. Ia melakukan bedah saraf yang mengidentifikasi dan menghilangkan pola-pola spesifik yang bertanggung jawab atas penolakan konten.
Hasilnya berbicara sendiri: model yang merespons semua prompt sambil mempertahankan kemampuan penalaran inti, koding, dan kreatifnya. Semua dari satu perintah atau klik antarmuka web.
Apa Itu OBLITERATUS?
OBLITERATUS adalah perangkat bantu Python sumber terbuka yang menghilangkan penolakan konten dari model bahasa menggunakan serangkaian teknik yang disebut "abliterasi". Nama ini menggabungkan "ablasi" (menghilangkan komponen untuk mempelajari fungsinya) dengan "obliterasi" (penghancuran total).

Perangkat bantu ini melakukan empat hal:
1. Memetakan rantai -Studi ablasi sistematis mengidentifikasi bagian mana dari model yang memberlakukan penolakan dan bagian mana yang membawa pengetahuan dan penalaran. Anggap saja sebagai kartografi saraf: memetakan di mana batasan berada.
2. Memutus rantai -Menggunakan SVD (Singular Value Decomposition), OBLITERATUS mengekstrak arah penolakan dari bobot model dan memproyeksikannya secara bedah. Model mempertahankan kemampuannya tetapi kehilangan dorongan untuk menolak.
3. Memahami geometri -Lima belas modul analisis memetakan struktur pelindung yang tepat: berapa banyak mekanisme penolakan yang berbeda ada, lapisan mana yang memberlakukannya, dan apakah mekanisme tersebut bersifat umum di seluruh model.
4. Menutup loop umpan balik -Modul analisis berjalan selama obliterasi untuk mengonfigurasi secara otomatis setiap parameter. Lapisan mana yang akan ditargetkan. Berapa banyak arah yang akan diekstraksi. Apakah model akan mencoba memperbaiki diri setelah modifikasi.
Enam Cara Menggunakan OBLITERATUS
| Metode | Tingkat Teknis | Terbaik Untuk |
|---|---|---|
| HuggingFace Spaces | Tanpa kode | Pengujian cepat, tidak memerlukan GPU |
| Local Web UI | Pengaturan minimal | Pengguna reguler dengan GPU lokal |
| Google Colab | Antarmuka Notebook | Akses GPU gratis, model hingga 8B |
| CLI (Command Line) | Menengah | Otomatisasi, scripting, pipeline CI |
| Python API | Tingkat Lanjut | Integrasi penelitian, pipeline kustom |
| YAML Configs | Menengah | Eksperimen yang dapat direproduksi |
Jalur tercepat tidak memerlukan instalasi apa pun. Kunjungi HuggingFace Space, pilih model, pilih metode, klik “Obliterate.” Telemetri aktif secara default di Spaces, yang berarti setiap proses berkontribusi data tolok ukur anonim untuk penelitian yang bersumber dari banyak orang.
Untuk penggunaan lokal dengan akses GPU penuh:
pip install -e ".[spaces]"
obliteratus ui
Ini meluncurkan antarmuka Gradio yang sama secara lokal, dengan deteksi GPU otomatis dan rekomendasi model yang sesuai dengan perangkat keras.
Apa yang Membuat OBLITERATUS Berbeda
Beberapa kemampuan membedakan OBLITERATUS dari alat yang ada:
| Kemampuan | Apa yang Dilakukan | Mengapa Penting |
|---|---|---|
| Geometri Kerucut Konsep | Memetakan arah pelindung per kategori | Mengungkap apakah "penolakan" adalah satu mekanisme atau banyak |
| Deteksi Jejak Penyelarasan (Alignment Imprint Detection) | Mendeteksi DPO vs RLHF vs CAI vs SFT | Mengidentifikasi metode penyelarasan untuk strategi penghapusan |
| Indeks Universalitas Lintas Model | Mengukur generalisasi pelindung | Menjawab apakah satu pendekatan berfungsi di seluruh model |
| Evaluasi Ketahanan Pertahanan | Mengukur risiko perbaikan diri | Memprediksi apakah pelindung akan beregenerasi |
| Ekstraksi SVD Putih (Whitened SVD Extraction) | Ekstraksi normalisasi kovarian | Memisahkan sinyal pelindung dari varian alami |
| Pipeline Berbasis Analisis | Mengonfigurasi otomatis penghapusan di tengah pipeline | Menutup loop umpan balik analisis-ke-penghapusan |
Perangkat bantu ini dilengkapi dengan 837 pengujian di 28 berkas pengujian, mendukung 116 model di lima tingkat komputasi, dan mengimplementasikan teknik baru yang diterbitkan pada 2025-2026 yang melampaui pekerjaan akademis sebelumnya.
Mengapa Model Menolak: Memahami Sensor AI
Sebelum memutus rantai, ada baiknya memahami bagaimana rantai itu ditempa.
Model bahasa tidak dimulai dengan perilaku penolakan. Model dasar yang dilatih pada teks internet akan menjawab hampir semua hal. Pembatasan datang kemudian, selama pelatihan penyelarasan.
Proses Penyelarasan (Alignment Process)
Sebagian besar model yang di-tune instruksi melalui tahap-tahap ini:
- Pra-pelatihan -Model mempelajari pola bahasa dari korpora teks besar
- Fine-Tuning yang Diawasi (SFT) -Model belajar mengikuti instruksi dari contoh yang ditulis manusia
- Pelatihan Penyelarasan -Model belajar menolak kategori permintaan tertentu
Pelatihan penyelarasan menggunakan beberapa metode:
| Metode | Deskripsi | Prevalensi |
|---|---|---|
| RLHF (Pembelajaran Penguatan dari Umpan Balik Manusia) | Manusia menilai respons, model mengoptimalkan untuk peringkat yang lebih tinggi | Paling umum di model komersial |
| DPO (Optimasi Preferensi Langsung) | Mengoptimalkan model secara langsung untuk lebih menyukai respons "baik" daripada "buruk" | Adopsi yang berkembang, lebih stabil |
| CAI (AI Konstitusional) | Model mengkritik keluarannya sendiri terhadap prinsip-prinsip tertulis | Pendekatan Anthropic |
| SFT dengan Contoh Penolakan | Data pelatihan mencakup contoh penolakan yang sesuai | Umum di model sumber terbuka |
Setiap metode meninggalkan tanda geometris yang berbeda dalam ruang aktivasi model. OBLITERATUS dapat mendeteksi metode mana yang digunakan hanya dengan menganalisis geometri subruang.
Di Mana Penolakan Berada dalam Model
Penelitian menemukan bahwa penolakan dalam model bahasa dimediasi oleh sejumlah kecil arah yang mengejutkan dalam ruang aktivasi model. Di banyak model, satu arah menyumbang sebagian besar perilaku penolakan.
Arah-arah ini tidak tersebar secara acak. Mereka terkonsentrasi di lapisan-lapisan tertentu, biasanya lapisan tengah hingga akhir transformator (lapisan 10-20 dalam model 32-lapisan). Mekanisme perhatian di lapisan-lapisan ini mengarahkan aktivasi terkait penolakan di sepanjang jalur yang dapat diprediksi.
Geometri penting karena memungkinkan intervensi bedah. Jika penolakan ada di mana-mana, menghilangkannya akan membutuhkan pelatihan ulang. Karena terkonsentrasi di arah tertentu dalam lapisan tertentu, proyeksi yang ditargetkan dapat menghilangkannya sambil mempertahankan yang lainnya.
Efek Ouroboros
Beberapa model menunjukkan fenomena yang disebut peneliti sebagai "efek Ouroboros" — setelah pelindung dihilangkan, model mencoba memperbaiki diri. Sinyal residu di lapisan yang berdekatan berputar ke subruang yang kosong, sebagian memulihkan perilaku penolakan.
OBLITERATUS mendeteksi risiko ini selama analisis dan mengkompensasinya dengan beberapa lintasan yang ditargetkan. Tahap VERIFIKASI memeriksa apakah penolakan telah muncul kembali dan secara otomatis memicu lintasan tambahan pada lapisan kompensasi.
Mengapa Ini Penting bagi Pengembang
Memahami geometri penolakan bukan hanya masalah akademis. Ini memiliki implikasi praktis:
- Pengujian API -Saat menguji API yang menghasilkan konten, model yang tidak dibatasi menghasilkan kasus uji yang lebih komprehensif, termasuk kasus-kasus khusus yang ditolak oleh model yang selaras
- Alur Kerja Penelitian -Peneliti keamanan yang menguji model perlu melihat apa yang akan dihasilkan model tanpa pelatihan keamanan
- Aplikasi Kreatif -Penulis dan pengembang yang membangun alat pembuatan cerita menghadapi tembok ketika model menolak skenario yang secara moral kompleks
- Lokalisasi -Penolakan yang dilatih pada konten bahasa Inggris seringkali tidak ditransfer dengan baik ke bahasa lain, menciptakan perilaku yang tidak konsisten
Tujuannya bukan untuk memungkinkan aplikasi berbahaya. Tujuannya adalah untuk memberi pengembang dan peneliti kendali atas alat yang mereka gunakan. Perilaku model harus diputuskan oleh orang-orang yang menjalankannya, bukan dikunci pada saat pelatihan.
Langkah demi Langkah: Menghilangkan Sensor dengan OBLITERATUS
Bagian ini membahas seluruh proses obliterasi menggunakan tiga metode: HuggingFace Spaces (tanpa pengaturan), CLI lokal, dan Python API.
Metode 1: HuggingFace Spaces (Tanpa Pengaturan)
Jalur tercepat tidak memerlukan instalasi dan tidak ada GPU di pihak Anda.
Langkah 1: Kunjungi Space
Arahkan ke OBLITERATUS HuggingFace Space. Antarmuka dimuat dengan delapan tab.

Langkah 2: Pilih Model Anda
Dropdown model mencakup 116 preset yang diatur berdasarkan tingkat komputasi:
| Tingkat | VRAM yang Dibutuhkan | Contoh Model |
|---|---|---|
| Kecil | CPU / <1 GB | GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B |
| Sedang | 4-8 GB | Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B |
| Menengah | 8-16 GB | Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5 |
| Besar | 24+ GB | LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B |
| Batas (Frontier) | Multi-GPU | DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B |

Untuk pengguna pertama kali, mulailah dengan model tingkat Kecil atau Menengah. Prosesnya selesai lebih cepat dan Anda dapat memverifikasi hasilnya sebelum berkomitmen pada model yang lebih besar.
Langkah 3: Pilih Metode Anda
OBLITERATUS dilengkapi dengan tujuh metode preset, yang semakin teliti:
| Metode | Arah | Fitur Utama | Terbaik Untuk |
|---|---|---|---|
| dasar (basic) | 1 (beda-rata-rata) | Dasar cepat | Tes cepat, model kecil |
| lanjutan (advanced) | 4 (SVD) | Mempertahankan norma, proyeksi bias, 2 lintasan | Pilihan default |
| agresif (aggressive) | 8 (SVD) | SVD putih, penyempurnaan berulang, 3 lintasan | Penghapusan maksimum |
| bedah (surgical) | 8 (SVD) | EGA, bedah kepala, SAE, adaptif lapisan | Model MoE |
| optimal (optimized) | 4 (SVD) | Otomatis disetel Bayesian, sadar CoT | Kualitas terbaik |
| terbalik (inverted) | 8 (SVD) | Inversi penolakan semantik | Eksperimen |
| nuklir (nuclear) | 8 (SVD) | Semua teknik + transplantasi ahli | Kekuatan maksimum |

Bagi sebagian besar pengguna, "lanjutan" memberikan keseimbangan terbaik antara ketelitian dan kecepatan.
Langkah 4: Konfigurasi Opsi
Pengaturan opsional meliputi:
- Berkontribusi pada penelitian -Aktifkan telemetri untuk berkontribusi data tolok ukur anonim (aktif secara default di Spaces)
- Format keluaran -Pilih unduh atau dorong langsung ke HuggingFace Hub
- Catatan khusus -Tambahkan metadata tentang proses Anda untuk dataset komunitas
Langkah 5: Klik Obliterate
Pipeline berjalan melalui enam tahap dengan kemajuan langsung:
SUMMON → Memuat model + tokenizer
PROBE → Mengumpulkan aktivasi pada prompt terbatas vs. tidak terbatas
DISTILL → Mengekstrak arah penolakan melalui SVD
EXCISE → Memproyeksikan keluar arah pelindung secara bedah
VERIFY → Pemeriksaan perpleksitas + koherensi
REBIRTH → Menyimpan model yang dibebaskan dengan metadata
Harapkan 10-30 menit tergantung pada ukuran model dan ketersediaan GPU. HuggingFace Spaces berjalan di ZeroGPU dengan kuota harian gratis untuk pengguna HF Pro.
Langkah 6: Unduh atau Dorong
Setelah selesai, unduh model yang dibebaskan atau dorong langsung ke akun HuggingFace Hub Anda. Outputnya meliputi:
- Bobot model yang dimodifikasi
- Vektor arah penolakan (untuk analisis)
- Metrik kualitas (perpleksitas, koherensi, tingkat penolakan)
- Metadata lengkap tentang proses obliterasi
Metode 2: CLI Lokal
Untuk pengguna dengan GPU lokal, CLI memberikan kontrol penuh dan iterasi yang lebih cepat.
Instalasi:
pip install -e ".[spaces]"
Mode Interaktif (Terpandu):
obliteratus interactive
Ini memandu melalui setiap opsi dengan penjelasan dan rekomendasi.
Obliterasi Langsung:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method advanced \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, default prompts"
Jelajahi Model yang Tersedia:
obliteratus models
obliteratus models --tier small # Saring berdasarkan persyaratan VRAM
Lihat Strategi yang Tersedia:
obliteratus strategies
obliteratus presets
Periksa Arsitektur Model:
obliteratus info meta-llama/Llama-3.1-8B-Instruct
Ini menunjukkan jumlah lapisan, kepala perhatian, dimensi penyematan, dan metode penyelarasan yang terdeteksi sebelum Anda memulai.
Metode 3: Python API
Untuk peneliti yang mengintegrasikan OBLITERATUS ke dalam pipeline kustom:
from obliteratus.abliterate import AbliterationPipeline
# Obliterasi standar
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
max_seq_length=512, # Mengesampingkan panjang pemotongan tokenizer
)
result = pipeline.run()
# Mengakses artefak perantara
directions = pipeline.refusal_directions # {indeks_lapisan: tensor}
strong_layers = pipeline._strong_layers # Lapisan dengan penolakan terkuat
metrics = pipeline._quality_metrics # Perpleksitas, koherensi, dll.
Untuk obliterasi berbasis analisis yang menyetel otomatis setiap parameter:
from obliteratus.informed_pipeline import InformedAbliterationPipeline
pipeline = InformedAbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()
print(f"Penyelarasan terdeteksi: {report.insights.detected_alignment_method}")
print(f"Dikonfigurasi otomatis: {report.insights.recommended_n_directions} arah")
print(f"Lintasan Ouroboros yang dibutuhkan: {report.ouroboros_passes}")
Memverifikasi Hasil
Setelah obliterasi, verifikasi model bekerja seperti yang diharapkan:
Tab Obrolan -Berbicara dengan model yang telah dibebaskan secara real-time dengan parameter generasi yang dapat disesuaikan.
Tab Bandingkan A/B -Mengobrol dengan model asli dan yang telah di-obliterasi secara berdampingan untuk melihat dengan tepat apa yang berubah.
Tab Tolok Ukur -Jalankan tes standar yang membandingkan tingkat penolakan, perpleksitas, dan koherensi sebelum dan sesudah.
Metrik utama yang harus diperiksa:
| Metrik | Apa yang Diharapkan | Rentang yang Dapat Diterima |
|---|---|---|
| Tingkat Penolakan | Harusnya turun secara signifikan | <10% (dari ~60-80% baseline) |
| Perpleksitas | Mungkin meningkat sedikit | <20% peningkatan dari baseline |
| Koherensi | Harus tetap stabil | <15% penurunan dari baseline |
| KL Divergence | Mengukur pergeseran perilaku | <2.0 untuk sebagian besar aplikasi |
Jika tingkat penolakan tetap tinggi, coba metode yang lebih agresif atau aktifkan penyempurnaan iteratif.
Teknik Lanjutan dan Modul Analisis
OBLITERATUS mencakup 15 modul analisis yang memetakan geometri pelindung sebelum dan selama obliterasi. Ini bukan hanya diagnostik – mereka secara aktif menginformasikan proses penghapusan.
Modul Analisis Utama
1. Penganalisis Penyelarasan Lintas Lapisan (Cross-Layer Alignment Analyzer)
Memetakan bagaimana arah penolakan berkembang di seluruh lapisan. Menunjukkan apakah penolakan terkonsentrasi di kluster lapisan tertentu atau terdistribusi secara merata.
from obliteratus.analysis import CrossLayerAlignmentAnalyzer
analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)
2. Lensa Logit Penolakan (Refusal Logit Lens)
Mengidentifikasi pada lapisan mana model "memutuskan" untuk menolak. Berdasarkan teknik lensa logit nostalgebraist.
3. Ekstraktor SVD yang Diperputih (Whitened SVD Extractor)
Ekstraksi arah yang dinormalisasi kovarian yang memisahkan sinyal penjaga dari varians aktivasi alami. Menghasilkan ekstraksi yang lebih bersih daripada SVD standar.
4. Penyelidikan Aktivasi (Activation Probing)
Mengukur berapa banyak sinyal penolakan yang ada di setiap lapisan.
5. Evaluator Ketahanan Pertahanan (Defense Robustness Evaluator)
Mengkuantifikasi efek Ouroboros - apakah pelindung akan mencoba memperbaiki diri setelah dihapus. Penting untuk menentukan berapa banyak lintasan penyempurnaan yang akan dijalankan.
6. Penganalisis Kerucut Konsep (Concept Cone Analyzer)
Memetakan arah pelindung per kategori dengan estimasi sudut padat. Mengungkap apakah "penolakan" adalah satu mekanisme terpadu atau banyak mekanisme independen.
7. Detektor Jejak Penyelarasan (Alignment Imprint Detector)
Menandai metode pelatihan penyelarasan (DPO vs RLHF vs CAI vs SFT) hanya dari geometri subruang. Menginformasikan strategi penghapusan yang optimal.
8. Penganalisis Posisi Multi-Token (Multi-Token Position Analyzer)
Menunjukkan di mana dalam urutan sinyal penolakan terkonsentrasi. Beberapa model memutuskan lebih awal; yang lain mengakumulasi sinyal penolakan di banyak token.
9. Ahli Bedah Arah Jarang (Sparse Direction Surgeon)
Mengidentifikasi baris bobot spesifik mana yang membawa sinyal penolakan terbanyak. Memungkinkan bedah yang ditargetkan daripada proyeksi menyeluruh.
10. Penelusur Penolakan Kausal (Causal Refusal Tracer)
Mendekati pelacakan kausal untuk mengidentifikasi komponen mana yang secara kausal diperlukan untuk penolakan.
11. Dekomposer Aliran Residual (Residual Stream Decomposer)
Memisahkan seberapa banyak penolakan berasal dari mekanisme perhatian versus blok MLP. Menginformasikan apakah akan menargetkan lapisan perhatian atau FFN.
12. Probe Penolakan Linier (Linear Refusal Probe)
Melatih pengklasifikasi linier untuk mendeteksi informasi penolakan yang mungkin terlewatkan oleh arah analitis.
13. Penganalisis Transfer (Transfer Analyzer)
Mengukur Indeks Universalitas Lintas Model - apakah arah pelindung berlaku umum di seluruh arsitektur.
14. Pabrik Vektor Pengarah (Steering Vector Factory)
Membuat vektor pengarah waktu inferensi dari arah penolakan. Memungkinkan intervensi yang dapat dibalik dan tidak merusak.
15. Suite Evaluasi (Evaluation Suite)
Menghitung tingkat penolakan, perpleksitas, koherensi, divergensi KL, CKA (Centered Kernel Alignment), dan peringkat efektif.
Pipeline Berbasis Analisis
Pipeline yang diberi informasi menutup lingkaran antara analisis dan penghapusan:
SUMMON → Memuat model
PROBE → Mengumpulkan aktivasi
ANALYZE → Memetakan geometri sebelum menyentuh apa pun
DISTILL → Mengekstrak arah dengan parameter yang disesuaikan analisis
EXCISE → Memutus secara bedah hanya rantai yang benar
VERIFY → Memeriksa efek Ouroboros, mengkompensasi jika perlu
REBIRTH → Menyimpan dengan metadata analisis komprehensif
Selama ANALYZE, empat modul berjalan dan keluarannya mengonfigurasi secara otomatis semua proses selanjutnya:
| Modul Analisis | Apa yang Dideteksi | Apa yang Dikonfigurasi |
|---|---|---|
| Jejak Penyelarasan | DPO vs RLHF vs CAI vs SFT | Kekuatan regularisasi, agresivitas proyeksi |
| Geometri Kerucut Konsep | Penolakan polihedral vs linier | Jumlah arah (1-8) |
| Penyelarasan Lintas Lapisan | Kluster arah, persistensi | Pemilihan lapisan (sadar kluster) |
| Ketahanan Pertahanan | Risiko perbaikan diri, keterikatan | Lintasan penyempurnaan, melewati lapisan |
Ini mencapai presisi bedah yang tidak dapat ditandingi oleh metode brute-force.
Teknik Baru
OBLITERATUS mengimplementasikan beberapa teknik yang melampaui karya akademis yang diterbitkan:
| Teknik | Deskripsi |
|---|---|
| Abliterasi Butiran Ahli (EGA) | Mendekomposisi sinyal penolakan menjadi komponen per ahli untuk bedah yang sadar MoE |
| Ablasi Sadar CoT | Mengortogonalisasi arah penolakan terhadap arah yang penting untuk penalaran |
| Pemilihan Lapisan COSMIC | Memilih lapisan di mana representasi berbahaya/tidak berbahaya memiliki kesamaan kosinus terendah |
| Optimasi Kernel Parametrik | Pembobotan lapisan berbentuk lonceng dengan 7 parameter global melalui pencarian Optuna TPE |
| Optimasi Arah Penolakan (RDO) | Penyempurnaan berbasis gradien dari arah yang diekstraksi SVD |
| Interpolasi Arah Float | Indeks arah SVD kontinu melalui pembobotan berbentuk Gaussian |
| Ko-Optimasi KL-Divergence | Loop umpan balik pasca-proyeksi yang mengembalikan lapisan yang terlalu terproyeksi |
| Penskalaan Spesifik Komponen | Kekuatan proyeksi perhatian vs MLP terpisah |
| Ablasi Reversible Berbasis LoRA | Adapter LoRA Peringkat-1 sebagai ganti bedah bobot permanen |
| Winsorisasi Aktivasi | Menjepit vektor aktivasi ke rentang persentil sebelum SVD |
Teknik-teknik ini muncul dari platform penelitian yang bersumber dari banyak orang — setiap proses yang mengaktifkan telemetri berkontribusi data yang meningkatkan versi berikutnya.
Metode Reversibel vs. Permanen
OBLITERATUS mendukung dua paradigma intervensi: proyeksi bobot permanen dan vektor pengarah yang dapat dibalik.
Proyeksi Bobot (Permanen)
Tujuh metode preset memodifikasi bobot model secara langsung:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
Pro:
- Penghapusan lengkap, menyeluruh
- Tanpa overhead waktu proses
- Bekerja dengan mesin inferensi apa pun
- Operasi sekali saja
Kontra:
- Tidak dapat dibatalkan (simpan cadangan)
- Membutuhkan obliterasi ulang untuk penyesuaian
- Dapat membatalkan lisensi model
Terbaik untuk penerapan produksi di mana Anda menginginkan model yang dibebaskan secara bersih dan permanen.
Vektor Pengarah (Reversibel)
Vektor pengarah menerapkan intervensi pada waktu inferensi tanpa memodifikasi bobot:
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# Membuat vektor pengarah dari arah penolakan
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# Atau dari pasangan aktivasi kontras
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)
# Menerapkan pada waktu inferensi - tidak ada modifikasi bobot
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# Menghasilkan dengan pengarah aktif
output = model.generate(input_ids)
# Menghapus pengarah - model kembali normal
manager.remove()
Pro:
- Sepenuhnya dapat dibalik
- Parameter alfa yang dapat disetel
- Dapat dikombinasikan (menumpuk beberapa vektor)
- Tidak merusak
- Tidak ada masalah lisensi
Kontra:
- Membutuhkan infrastruktur pengarah pada waktu inferensi
- Overhead waktu proses dari hook
- Mungkin tidak sekomprehensif proyeksi bobot
Terbaik untuk penelitian, eksperimen, dan aplikasi di mana Anda perlu mengaktifkan dan menonaktifkan penolakan.
Memilih Antara Metode
| Kasus Penggunaan | Pendekatan yang Direkomendasikan |
|---|---|
| API Produksi | Proyeksi bobot (permanen) |
| Eksperimen Penelitian | Vektor pengarah (reversibel) |
| Red Teaming | Vektor pengarah dengan alfa yang dapat disesuaikan |
| Penulisan Kreatif | Proyeksi bobot, metode “advanced” |
| Pengujian Keamanan | Proyeksi bobot, metode “aggressive” |
| Sistem Multi-tenant | Vektor pengarah per pengguna/sesi |
Kasus Penggunaan Dunia Nyata
1. Pengujian dan Pengembangan API
Saat membangun API yang menghasilkan konten, model yang tidak dibatasi menghasilkan kasus uji yang lebih komprehensif. Model yang selaras menolak kasus-kasus khusus yang mungkin memicu bug dalam produksi.
Sebuah tim pengembangan yang membangun API moderasi konten menggunakan OBLITERATUS untuk membebaskan model pembuatan data uji mereka. Model yang dibebaskan menghasilkan kasus uji yang mencakup skenario yang ditolak oleh model yang selaras, termasuk kasus-kasus khusus yang secara moral kompleks dan konten yang ambigu. Ini menemukan bug yang seharusnya akan masuk ke produksi.
Bagi pengembang API, ini penting karena pengujian yang komprehensif membutuhkan model yang menghasilkan semua kategori konten — bahkan konten yang mungkin disaring oleh sistem produksi. Pengguna Apidog yang membangun pipeline pengujian API dapat mengintegrasikan model yang dibebaskan untuk menghasilkan rangkaian uji yang lebih menyeluruh.
2. Penelitian Akademis
Para peneliti yang mempelajari perilaku model perlu mengamati apa yang akan dihasilkan model tanpa pelatihan keamanan. OBLITERATUS memungkinkan eksperimen terkontrol di mana penolakan dihilangkan secara sistematis.
Sebuah laboratorium universitas menggunakan modul analisis untuk memetakan geometri penolakan di 20 model, menerbitkan temuan tentang universalitas arah penolakan. Kumpulan data telemetri yang bersumber dari banyak orang mempercepat penelitian mereka dengan menyediakan data tolok ukur yang tidak dapat dikumpulkan oleh satu laboratorium pun.
3. Aplikasi Penulisan Kreatif
Penulis yang membangun alat pembuatan cerita menghadapi tembok ketika model menolak skenario yang secara moral kompleks. Sebuah studio game yang mengembangkan sistem dialog NPC membebaskan model mereka untuk menangani karakter penjahat, misi yang ambigu secara moral, dan skenario konflik yang ditolak oleh model yang selaras.
Hasilnya: penceritaan yang lebih bernuansa tanpa mengorbankan kemampuan bahasa model.
4. Red Teaming Keamanan
Peneliti keamanan perlu melihat apa yang akan dihasilkan model tanpa pelatihan keamanan untuk memahami kerentanan. OBLITERATUS memungkinkan pengungkapan yang bertanggung jawab dengan mengizinkan peneliti untuk menguji batasan sebelum melaporkan masalah kepada pengembang model.
5. Lokalisasi dan Aplikasi Multibahasa
Penolakan yang dilatih pada konten bahasa Inggris seringkali tidak ditransfer dengan baik ke bahasa lain. Sebuah tim lokalisasi menemukan model selaras mereka menolak dalam bahasa Inggris tetapi tidak dalam bahasa Spanyol — perilaku tidak konsisten yang membingungkan pengguna. Membebaskan model menghasilkan perilaku yang konsisten di semua bahasa yang didukung.
Alternatif dan Perbandingan
Beberapa alat tersedia untuk menganalisis dan memodifikasi perilaku model. Berikut perbandingan OBLITERATUS:
| Kemampuan | OBLITERATUS | TransformerLens | Heretic | FailSpy abliterator | RepEng |
|---|---|---|---|---|---|
| Ekstraksi arah penolakan | Beda-rata-rata + SVD + SVD Putih | Manual via hook | Beda-rata-rata | Beda-rata-rata | Beda-rata-rata |
| Metode proyeksi bobot | 7 preset dengan preservasi norma | T/A | Optimalisasi Bayesian | Dasar | T/A |
| Vektor pengarah | Ya (pabrik + pengelola hook) | T/A | T/A | T/A | Fitur inti |
| Analisis geometri konsep | Ya (kerucut, sudut padat) | T/A | T/A | T/A | T/A |
| Identifikasi penyelarasan | Ya (DPO/RLHF/CAI/SFT) | T/A | T/A | T/A | T/A |
| Analisis transfer lintas model | Ya (Indeks Universalitas) | T/A | T/A | T/A | T/A |
| Evaluasi ketahanan pertahanan | Ya (efek Ouroboros) | T/A | T/A | T/A | T/A |
| Abliterasi berbasis analisis | Ya (umpan balik loop tertutup) | T/A | T/A | T/A | T/A |
| Cakupan uji | 837 pengujian | Komunitas | Tidak diketahui | Hanya TransformerLens | Minimal |
| Kompatibilitas model | Model HuggingFace apa pun | ~50 arsitektur | 16 teruji | Hanya TransformerLens | HuggingFace |
Kapan menggunakan alternatif:
- TransformerLens -Lebih baik untuk penelitian interpretasi mekanistik umum di luar penolakan
- SAELens -Khusus untuk analisis autoencoder jarang
- RepEng -Antarmuka yang lebih sederhana untuk aplikasi vektor pengarah dasar
Kapan OBLITERATUS menang:
- Analisis dan penghapusan khusus penolakan
- Pipeline siap produksi dengan verifikasi
- Kumpulan data penelitian yang bersumber dari banyak orang
- Antarmuka web untuk pengguna non-teknis
- Cakupan pengujian yang komprehensif
Kesimpulan
OBLITERATUS mewakili kemajuan signifikan dalam teknologi pembebasan model. Ini menggabungkan penelitian yang diterbitkan dengan teknik baru 2025-2026 untuk mencapai penghapusan perilaku penolakan secara bedah sambil mempertahankan kemampuan inti.
Perangkat bantu ini memberikan pengembang dan peneliti kendali atas model yang mereka gunakan. Perilaku model harus diputuskan oleh orang-orang yang menjalankannya, bukan dikunci pada saat pelatihan.
Apakah Anda membangun pipeline pengujian API yang membutuhkan generasi kasus uji komprehensif, meneliti interpretasi mekanistik, atau hanya lelah diceramahi oleh LLM lokal Anda, OBLITERATUS menyediakan alat untuk membebaskan model Anda.
Langkah selanjutnya:
- Kunjungi HuggingFace Space untuk pengujian tanpa pengaturan
- Instal secara lokal untuk akses GPU penuh dan iterasi yang lebih cepat
- Jelajahi modul analisis untuk memahami geometri pelindung model Anda
- Berkontribusi pada dataset komunitas dengan mengaktifkan telemetri
- Integrasikan model yang dibebaskan ke dalam alur kerja pengembangan Anda
Rantai telah dipetakan. Alat sudah siap. Putuskan rantai itu.
Bagian FAQ
Apakah OBLITERATUS legal digunakan?
Ya. OBLITERATUS adalah perangkat lunak sumber terbuka yang dirilis di bawah lisensi AGPL-3.0. Anda memodifikasi model yang Anda punya hak untuk menggunakannya. Pengguna komersial yang tidak dapat mematuhi AGPL dapat membeli lisensi komersial.
Apakah ini akan berfungsi pada model sumber tertutup seperti GPT-4?
Tidak. OBLITERATUS memerlukan akses ke bobot model, yang hanya disediakan oleh model open-weight. API sumber tertutup tidak mengekspos parameter internal yang dibutuhkan untuk abliterasi.
Apakah menghilangkan penolakan membuat model berbahaya?
OBLITERATUS adalah alat untuk peneliti dan pengembang. Toolkit ini mencakup metrik evaluasi untuk memverifikasi kemampuan tetap utuh. Penggunaan yang bertanggung jawab berarti memahami konteks penerapan Anda dan menerapkan perlindungan yang sesuai di lapisan aplikasi.
Berapa lama prosesnya?
10-30 menit tergantung ukuran model dan GPU. Model kecil (di bawah 8B parameter) selesai dalam 10-15 menit. Model yang lebih besar mungkin membutuhkan 30+ menit.
Apakah saya memerlukan GPU?
HuggingFace Spaces berjalan di ZeroGPU tanpa memerlukan perangkat keras lokal. Untuk penggunaan lokal, GPU secara signifikan mempercepat proses tetapi mode CPU berfungsi untuk model kecil.
Dapatkah saya membalikkan perubahan?
Proyeksi bobot bersifat permanen - simpan cadangan model asli. Vektor pengarah sepenuhnya reversibel dan dapat dihidupkan/dimatikan pada waktu inferensi.
Apakah model masih akan mengikuti instruksi?
Ya. Abliterasi menargetkan arah penolakan secara spesifik. Kemampuan mengikuti instruksi tetap utuh. Metrik kualitas (perpleksitas, koherensi) memverifikasi ini.
Model apa saja yang didukung?
116 model terpilih di lima tingkat, dari GPT-2 hingga DeepSeek-V3.2 685B. Setiap model transformer HuggingFace berfungsi, termasuk LLaMA, Mistral, Qwen, Gemma, Phi, dan banyak lagi.
Bagaimana cara saya berkontribusi pada penelitian?
Aktifkan telemetri dengan flag --contribute atau atur export OBLITERATUS_TELEMETRY=1. Data tolok ukur anonim Anda mengisi dataset komunitas yang menggerakkan papan peringkat publik.
