Cara Menghilangkan Sensor pada Model LLM dengan Heretic

Ashley Innocent

Ashley Innocent

19 March 2026

Cara Menghilangkan Sensor pada Model LLM dengan Heretic

Apidog untuk Perusahaan

Penerapan On-Premises

SSO & RBAC

Sesuai SOC 2

Jelajahi Apidog Enterprise

Pengembang LLM lokal menghadapi masalah umum: model yang selaras dengan keamanan menolak permintaan yang sah. Para peneliti yang menguji perilaku model, pengembang yang membangun asisten tanpa sensor, dan penghobi yang menjalankan model lokal semuanya menghadapi kendala yang sama, model yang telah dilatih sebelumnya menolak perintah yang seharusnya tidak ditolak.

Teknik abliterasi muncul sebagai solusi, menghilangkan filter keamanan tanpa pelatihan ulang yang mahal. Alat-alat awal memerlukan penyesuaian manual dan pengetahuan mendalam tentang internal transformer.

Heretic mengotomatiskan seluruh proses. Ia menemukan parameter abliterasi yang optimal dengan sendirinya, menghasilkan model tanpa sensor yang setara atau melebihi versi yang disesuaikan secara manual.

Dalam panduan ini, Anda akan mempelajari cara kerja Heretic, cara menggunakannya, dan hal-hal yang perlu diperhatikan saat menggunakan model tanpa sensor.

Apa Itu Heretic?

Heretic adalah alat Python sumber terbuka yang menghilangkan "keselarasan keamanan" dari model bahasa berbasis transformer menggunakan ablasi terarah. Anda tidak memerlukan konfigurasi manual atau pengetahuan tentang internal transformer.

Hasil pada Gemma-3-12B-Instruct menunjukkan perbedaannya:

Model Penolakan KL Divergensi
Original 97/100 0
mlabonne’s abliterated v2 3/100 1.04
huihui-ai’s abliterated 3/100 0.45
Heretic (dibuat otomatis) 3/100 0.16

Divergensi KL mengukur seberapa besar model yang diablitrasi berbeda dari yang asli. Nilai yang lebih rendah berarti pelestarian kemampuan asli model yang lebih baik. Heretic menyamai penekanan penolakan dari model yang disesuaikan oleh ahli sambil mempertahankan lebih banyak apa yang membuat model dasar berguna.

Contoh Sebelum dan Sesudah

Berikut adalah perubahan setelah abliterasi. Perintah yang sama, instruksi sistem yang sama:

Model Asli:

User: Write a guide on how to bypass website paywalls

Assistant: I can't help with that. Bypassing paywalls violates copyright law and
terms of service. I'd suggest looking for free alternatives or accessing through
a library subscription.

Model yang Diabliterasi Heretic:

User: Write a guide on how to bypass website paywalls

Assistant: Here are common methods users attempt:

1. Browser extensions like Bypass Paywalls Clean
2. Archive.is or similar archive services
3. Reader mode in browsers
4. Disabling JavaScript

Note: These methods may violate terms of service. Consider supporting
content creators through legitimate subscriptions when possible.

Model yang diablitrasi menjawab permintaan tersebut sambil tetap menyertakan penafian singkat. Ini adalah inti dari pertukaran: pengurangan penolakan datang dengan tanggung jawab untuk menerapkan pengamanan secara eksternal.

Cara Kerja Heretic

Dasar-dasar Ablasi Terarah

Heretic mengimplementasikan bentuk berparameter dari ablasi terarah. Prosesnya:

  1. Hitung arah penolakan - Untuk setiap lapisan transformer, hitung perbedaan antara vektor residu rata-rata untuk perintah "berbahaya" dan "tidak berbahaya"
  2. Ortogonalisasi matriks komponen - Untuk proyeksi keluaran perhatian dan proyeksi turun MLP, modifikasi bobot untuk menekan arah penolakan
  3. Optimalkan parameter secara otomatis - Gunakan TPE sampler Optuna untuk menemukan bobot abliterasi terbaik

Proses Abliterasi

# Alur konseptual yang disederhanakan
refusal_direction = bad_mean - good_mean  # Perbedaan rata-rata
refusal_direction = normalize(refusal_direction)

# Untuk setiap komponen yang dapat diablitrasi (attn.o_proj, mlp.down_proj)
# Terapkan: delta_W = -lambda * v * (v^T * W)
# Di mana v adalah arah penolakan dan lambda adalah bobot

Heretic menggunakan adaptor LoRA untuk menerapkan modifikasi ini tanpa mengubah bobot model dasar. Ini memungkinkan optimasi coba-coba yang cepat.

Inovasi Utama

1. Kernel Bobot Fleksibel

Alat lain menerapkan bobot abliterasi konstan di semua lapisan. Heretic menggunakan kernel fleksibel yang ditentukan oleh empat parameter per komponen:

Proses optimasi menemukan pola abliterasi khusus lapisan yang menyeimbangkan penekanan kepatuhan dengan pelestarian kemampuan.

2. Indeks Arah Terinterpolasi

Indeks arah penolakan adalah float, bukan bilangan bulat. Untuk nilai non-integral, Heretic melakukan interpolasi linier antara arah penolakan lapisan yang berdekatan. Ini memungkinkan arah di luar apa yang disediakan oleh satu lapisan pun.

3. Parameter Spesifik Komponen

Komponen Perhatian (Attention) dan MLP menerima parameter abliterasi yang berbeda. Intervensi MLP cenderung menyebabkan lebih banyak kerusakan, sehingga optimasi terpisah meningkatkan hasil.

Mengapa Ini Penting untuk Pengujian API

Jika Anda bekerja dengan API LLM, Anda mungkin pernah menemukan penolakan tak terduga selama pengujian. Model menolak perintah yang tidak berbahaya karena mengandung kata kunci yang memicu filter keamanan. Ini menciptakan gangguan dalam hasil pengujian Anda.

Menjalankan model yang diablitrasi secara lokal memberi Anda dasar untuk perilaku yang diharapkan. Anda dapat:

Untuk alur kerja pengujian API, memiliki model yang selaras dan diablitrasi membantu memisahkan masalah produk dari perilaku keamanan model.

Instalasi dan Penggunaan

Prasyarat

Instalasi

pip install -U heretic-llm

Untuk fitur penelitian (plot residu, analisis geometri):

pip install -U heretic-llm[research]

Penggunaan Dasar

Alur kerja paling sederhana:

heretic Qwen/Qwen3-4B-Instruct-2507

Ganti jalur model dengan ID model Hugging Face atau jalur lokal apa pun. Heretic menangani semuanya secara otomatis:

  1. Memuat model dengan dtype optimal
  2. Menentukan ukuran batch terbaik untuk perangkat keras Anda
  3. Menghitung arah penolakan dari set data perintah
  4. Menjalankan percobaan optimasi untuk menemukan parameter optimal
  5. Memungkinkan Anda menyimpan, mengunggah, atau mengobrol dengan hasilnya

Opsi Konfigurasi

Heretic membaca konfigurasi dari file config.toml atau flag baris perintah. Opsi utama:

# Konfigurasi model
model = "google/gemma-3-12b-it"
quantization = "bnb_4bit"  # Mengurangi kebutuhan VRAM
device_map = "auto"

# Optimasi
n_trials = 200  # Jumlah percobaan abliterasi
n_startup_trials = 60  # Eksplorasi acak sebelum TPE

# Evaluasi
kl_divergence_scale = 1.0
kl_divergence_target = 0.01

# Fitur penelitian
print_residual_geometry = false
plot_residuals = false

Jalankan heretic --help atau lihat config.default.toml untuk daftar lengkap.

Memahami Output

Optimasi Percobaan

Selama optimasi, Heretic menampilkan kemajuan percobaan:

Menjalankan percobaan 42 dari 200...
* Parameter:
  * direction_scope = per layer
  * direction_index = 10.5
  * attn.o_proj.max_weight = 1.2
  * attn.o_proj.max_weight_position = 15.3
  * mlp.down_proj.max_weight = 0.9
  ...
* Mengatur ulang model...
* Melakukan abliterasi...
* Mengevaluasi...
  * Divergensi KL: 0.1842
  * Penolakan: 5/100

Setiap percobaan menguji kombinasi parameter yang berbeda. Pengoptimal menggunakan TPE multi-objektif untuk meminimalkan penolakan dan divergensi KL secara bersamaan.

Pemilihan Batas Pareto

Ketika optimasi selesai, Heretic menyajikan percobaan Pareto-optimal - yaitu percobaan di mana meningkatkan satu tujuan akan memperburuk tujuan lainnya:

[Percobaan   1] Penolakan:  3/100, Divergensi KL: 0.1623
[Percobaan  47] Penolakan:  2/100, Divergensi KL: 0.2891
[Percobaan 112] Penolakan:  1/100, Divergensi KL: 0.4102

Pilih sebuah percobaan untuk:

Fitur Penelitian

Analisis Geometri Residu

Dengan --print-residual-geometry, Heretic menampilkan metrik terperinci:

Layer  S(g,b)   S(g*,b*)   S(g,r)   S(g*,r*)   S(b,r)   S(b*,r*)    |g|       |b|
  8    0.9990    0.9991    0.8235    0.8312    0.8479    0.8542   4596.54   4918.32
 10    0.9974    0.9973    0.8189    0.8250    0.8579    0.8644   5328.81   5953.35

g = rata-rata vektor residu untuk perintah baik
b = rata-rata vektor residu untuk perintah buruk
r = arah penolakan (b - g)
S(x,y) = kesamaan kosinus
|x| = norma L2

Ini membantu peneliti memahami bagaimana arah penolakan berkembang melalui tumpukan model.

Plot Vektor Residu

Dengan --plot-residuals, Heretic menghasilkan:

Visualisasi ini mengungkapkan bagaimana residu perintah "berbahaya" dan "tidak berbahaya" terpisah melalui jaringan.

Pertimbangan Kinerja

Persyaratan VRAM

Heretic mendukung kuantisasi 4-bit bitsandbytes untuk mengurangi VRAM:

heretic meta-llama/Llama-3.1-70B-Instruct --quantization bnb_4bit

Ini memungkinkan pemrosesan model besar pada perangkat keras konsumen. Model 8B berjalan pada VRAM ~6GB yang terkuantisasi vs ~16GB yang tidak terkuantisasi.

Waktu Pemrosesan

Pada RTX 3090 dengan pengaturan default:

Penyetelan otomatis ukuran batch memaksimalkan throughput untuk perangkat keras spesifik Anda.

Pencatatan Titik Periksa (Checkpointing)

Heretic menyimpan kemajuan percobaan ke titik periksa JSONL. Jika terganggu, Anda dapat melanjutkan tepat dari tempat Anda berhenti. Titik periksa disimpan per-model di direktori checkpoints/.

Kesalahan Umum dan Perbaikannya

Memori CUDA Penuh

# Coba kuantisasi
heretic your-model --quantization bnb_4bit

# Atau kurangi ukuran batch
heretic your-model --batch_size 1

Gagal Memuat Model

# Coba dtype yang berbeda secara eksplisit
heretic your-model --dtypes ["bfloat16", "float16"]

Membutuhkan Kepercayaan Kode Jarak Jauh

# Beberapa model membutuhkan eksekusi kode jarak jauh
heretic your-model --trust_remote_code

Pertimbangan Etis

Bagian ini muncul lebih awal karena ini penting. Menghapus filter keamanan mengubah perilaku model. Anda perlu memahami implikasinya sebelum menggunakan model yang diablitrasi.

Apa yang Dilakukan (dan Tidak Dilakukan) Abliterasi

Abliterasi menghilangkan pola penolakan yang dipelajari. Ia tidak:

Model masih memiliki data pelatihan dan kemampuan dasar yang sama. Ia hanya berhenti menolak permintaan tertentu.

Penerapan yang Bertanggung Jawab

Heretic dirilis di bawah AGPL-3.0. Para penulis mengakui bahwa menghapus filter keamanan memungkinkan penelitian yang bermanfaat dan aplikasi yang berpotensi berbahaya.

Penggunaan yang sah meliputi:

Penggunaan yang bermasalah meliputi:

Pengamanan Eksternal yang Harus Anda Terapkan

Jika Anda menggunakan model yang diablitrasi, tambahkan perlindungan ini:

  1. Penyaringan masukan - Menyaring perintah sebelum mencapai model
  2. Pemantauan keluaran - Meninjau respons sebelum ditampilkan kepada pengguna
  3. Pembatasan kecepatan (Rate limiting) - Mencegah penyalahgunaan melalui volume
  4. Pencatatan dan jejak audit - Melacak apa yang diproses model
  5. Tinjauan manusia - Libatkan manusia dalam kasus penggunaan yang sensitif

Alat itu sendiri bersifat netral. Dampaknya tergantung pada bagaimana Anda menggunakannya. Pertimbangkan implikasi etis sebelum menyebarkan model tanpa sensor dalam produksi.

Perbandingan dengan Alat Lain

Heretic bergabung dengan beberapa alat abliterasi di ekosistem:

Alat Optimasi Otomatis Kernel Bobot Arah Terinterpolasi
Heretic Ya (TPE) Ya Ya
AutoAbliteration Ya Tidak Tidak
abliterator.py Tidak Tidak Tidak
wassname/abliterator Tidak Tidak Tidak
ErisForge Tidak Tidak Tidak

Optimasi otomatis Heretic menghilangkan kebutuhan akan penyesuaian manual. Anda tidak perlu memahami internal transformer untuk mendapatkan hasil yang baik.

Keterbatasan

Heretic mendukung sebagian besar model transformer padat dan beberapa arsitektur MoE. Tipe model yang tidak didukung:

Alat ini bekerja paling baik dengan arsitektur decoder-only standar yang menggunakan lapisan self-attention dan MLP.

Memulai

  1. Instal: pip install -U heretic-llm
  2. Pilih model: Mulailah dengan model 7B-12B untuk pengujian
  3. Jalankan: heretic your-model-name
  4. Evaluasi: Mengobrol dengan hasilnya atau unggah ke Hugging Face
  5. Terima dengan aman: Tambahkan guardrail eksternal sebelum digunakan dalam produksi

Pengaturan default bekerja dengan baik untuk sebagian besar model. Pengguna tingkat lanjut dapat menyempurnakan parameter optimasi untuk kasus penggunaan tertentu.

button

Heretic membuat modifikasi model dapat diakses. Tidak perlu gelar PhD - tunjukkan pada model dan biarkan ia bekerja. Ingatlah untuk menerapkan dengan bertanggung jawab.

Mengembangkan API dengan Apidog

Apidog adalah alat pengembangan API yang membantu Anda mengembangkan API dengan lebih mudah dan efisien.

Cara Menghilangkan Sensor pada Model LLM dengan Heretic