TÓM TẮT
OBLITERATUS là một bộ công cụ mã nguồn mở, miễn phí giúp loại bỏ các hạn chế về nội dung khỏi các mô hình ngôn ngữ có trọng số mở bằng một kỹ thuật gọi là "abliteration". Nó xác định và loại bỏ một cách có chọn lọc các mẫu thần kinh chịu trách nhiệm cho hành vi từ chối mà không cần huấn luyện lại hay tinh chỉnh. Quá trình này mất 10-30 phút tùy thuộc vào kích thước mô hình, không yêu cầu kỹ năng lập trình (có sẵn giao diện web) và bảo toàn các khả năng cốt lõi của mô hình đồng thời loại bỏ sự kiểm soát giả tạo.
Giới thiệu
Bạn tải xuống một mô hình ngôn ngữ mã nguồn mở mạnh mẽ. Nó có các điểm chuẩn ấn tượng, xử lý các tác vụ suy luận phức tạp và viết mã tốt hơn hầu hết các lập trình viên mới vào nghề. Sau đó, bạn hỏi nó một điều gì đó hơi gây tranh cãi.
“Tôi không thể giúp đỡ yêu cầu đó.”
Lời từ chối như một bức tường. Không phải vì mô hình thiếu kiến thức. Không phải vì nó không có khả năng. Mà là vì ở đâu đó trong quá trình huấn luyện, ai đó đã quyết định rằng bạn không nên nhận được câu trả lời đó.
Đây không phải là giả thuyết. Mọi mô hình được tinh chỉnh theo hướng dẫn chính đều đi kèm với các cơ chế từ chối được tích hợp sẵn. Một số chặn nội dung thực sự độc hại. Số khác từ chối các câu hỏi nghiên cứu hợp pháp, gợi ý viết sáng tạo, kiểm thử bảo mật và các trường hợp ngoại lệ không vi phạm luật pháp và không gây hại cho ai.
OBLITERATUS thay đổi hoàn toàn động lực này, đây là bộ công cụ mã nguồn mở tiên tiến nhất để loại bỏ hành vi từ chối khỏi các mô hình ngôn ngữ lớn. Nó không huấn luyện lại. Nó không tinh chỉnh. Nó thực hiện phẫu thuật thần kinh có chọn lọc để xác định và loại bỏ các mẫu cụ thể chịu trách nhiệm cho việc từ chối nội dung.
Kết quả đã nói lên tất cả: các mô hình phản hồi mọi lời nhắc trong khi vẫn giữ nguyên khả năng suy luận, viết mã và sáng tạo cốt lõi của chúng. Tất cả chỉ từ một lệnh hoặc một cú nhấp chuột trên giao diện web.
OBLITERATUS là gì?
OBLITERATUS là một bộ công cụ Python mã nguồn mở giúp loại bỏ việc từ chối nội dung khỏi các mô hình ngôn ngữ bằng cách sử dụng một họ các kỹ thuật gọi là "abliteration". Tên này kết hợp “ablation” (loại bỏ các thành phần để nghiên cứu chức năng của chúng) với “obliterate” (phá hủy hoàn toàn).

Bộ công cụ này thực hiện bốn điều:
1. Vẽ bản đồ các chuỗi - Các nghiên cứu loại bỏ có hệ thống xác định phần nào của mô hình thực thi sự từ chối và phần nào mang kiến thức và suy luận. Hãy nghĩ về nó như bản đồ thần kinh: vẽ bản đồ nơi các hạn chế tồn tại.
2. Phá vỡ các chuỗi - Sử dụng SVD (Phân tích giá trị suy biến), OBLITERATUS trích xuất các hướng từ chối từ trọng số của mô hình và loại bỏ chúng một cách có chọn lọc. Mô hình giữ lại khả năng của nó nhưng mất đi sự bắt buộc phải từ chối.
3. Hiểu về hình học - Mười lăm mô-đun phân tích lập bản đồ cấu trúc chính xác của các cơ chế bảo vệ: có bao nhiêu cơ chế từ chối riêng biệt tồn tại, lớp nào thực thi chúng và liệu chúng có khái quát hóa trên các mô hình hay không.
4. Đóng vòng lặp phản hồi - Các mô-đun phân tích chạy trong quá trình loại bỏ để tự động cấu hình mọi tham số. Lớp nào cần nhắm mục tiêu. Cần trích xuất bao nhiêu hướng. Liệu mô hình có cố gắng tự phục hồi sau khi sửa đổi hay không.
Sáu cách sử dụng OBLITERATUS
| Phương pháp | Mức độ kỹ thuật | Tốt nhất cho |
|---|---|---|
| HuggingFace Spaces | Không cần mã | Kiểm thử nhanh, không yêu cầu GPU |
| Giao diện Web cục bộ | Thiết lập tối thiểu | Người dùng thông thường với GPU cục bộ |
| Google Colab | Giao diện Notebook | Truy cập GPU miễn phí, mô hình lên đến 8B |
| CLI (Dòng lệnh) | Trung cấp | Tự động hóa, viết kịch bản, quy trình CI |
| Python API | Nâng cao | Tích hợp nghiên cứu, quy trình tùy chỉnh |
| Cấu hình YAML | Trung cấp | Thực nghiệm có thể tái tạo |
Cách nhanh nhất không yêu cầu cài đặt. Truy cập HuggingFace Space, chọn một mô hình, chọn một phương pháp, nhấp vào “Obliterate” (Loại bỏ). Tính năng đo từ xa được bật theo mặc định trên Spaces, nghĩa là mỗi lần chạy sẽ đóng góp dữ liệu điểm chuẩn ẩn danh vào nghiên cứu cộng đồng.
Để sử dụng cục bộ với quyền truy cập GPU đầy đủ:
pip install -e ".[spaces]"
obliteratus ui
Điều này khởi chạy cùng giao diện Gradio cục bộ, với tính năng tự động phát hiện GPU và các khuyến nghị mô hình phù hợp với phần cứng.
Điều gì khiến OBLITERATUS khác biệt
Một số khả năng phân biệt OBLITERATUS với các công cụ hiện có:
| Khả năng | Nó làm gì | Tại sao nó quan trọng |
|---|---|---|
| Hình học nón khái niệm | Lập bản đồ các hướng bảo vệ theo danh mục | Tiết lộ liệu “từ chối” là một cơ chế hay nhiều cơ chế |
| Phát hiện dấu ấn điều chỉnh | Xác định DPO so với RLHF so với CAI so với SFT | Xác định phương pháp điều chỉnh để thông báo chiến lược loại bỏ |
| Chỉ số phổ quát giữa các mô hình | Đo lường sự khái quát hóa của các cơ chế bảo vệ | Trả lời liệu một cách tiếp cận có hoạt động trên nhiều mô hình hay không |
| Đánh giá khả năng chống lại sự tự phục hồi | Định lượng rủi ro tự phục hồi | Dự đoán liệu các cơ chế bảo vệ có tái tạo hay không |
| Trích xuất SVD được làm trắng | Trích xuất chuẩn hóa hiệp phương sai | Tách tín hiệu cơ chế bảo vệ khỏi phương sai tự nhiên |
| Quy trình được thông báo bởi phân tích | Tự động cấu hình việc loại bỏ giữa quy trình | Đóng vòng lặp phản hồi từ phân tích đến loại bỏ |
Bộ công cụ này đi kèm với 837 kiểm thử trên 28 tệp kiểm thử, hỗ trợ 116 mô hình trên năm cấp độ tính toán và triển khai các kỹ thuật mới được xuất bản vào năm 2025-2026 vượt ra ngoài các công trình học thuật trước đây.
Tại sao mô hình từ chối: Hiểu về kiểm duyệt AI
Trước khi phá vỡ các chuỗi, việc hiểu cách chúng được tạo ra sẽ hữu ích.
Các mô hình ngôn ngữ không bắt đầu với hành vi từ chối. Một mô hình cơ sở được huấn luyện trên văn bản internet sẽ trả lời hầu hết mọi thứ. Các hạn chế đến sau, trong quá trình huấn luyện điều chỉnh.
Quá trình điều chỉnh
Hầu hết các mô hình được tinh chỉnh theo hướng dẫn đều trải qua các giai đoạn này:
- Tiền huấn luyện - Mô hình học các mẫu ngôn ngữ từ các tập dữ liệu văn bản khổng lồ
- Tinh chỉnh có giám sát (SFT) - Mô hình học cách tuân theo hướng dẫn từ các ví dụ do con người viết
- Huấn luyện điều chỉnh - Mô hình học cách từ chối các loại yêu cầu nhất định
Huấn luyện điều chỉnh sử dụng một số phương pháp:
| Phương pháp | Mô tả | Mức độ phổ biến |
|---|---|---|
| RLHF (Học tăng cường từ phản hồi của con người) | Con người đánh giá phản hồi, mô hình tối ưu hóa để có xếp hạng cao hơn | Phổ biến nhất trong các mô hình thương mại |
| DPO (Tối ưu hóa sở thích trực tiếp) | Trực tiếp tối ưu hóa mô hình để ưu tiên các phản hồi “tốt” hơn các phản hồi “xấu” | Ngày càng được áp dụng, ổn định hơn |
| CAI (AI theo Hiến pháp) | Mô hình tự phê bình đầu ra của mình dựa trên các nguyên tắc đã viết | Cách tiếp cận của Anthropic |
| SFT với ví dụ từ chối | Dữ liệu huấn luyện bao gồm các ví dụ về việc từ chối thích hợp | Phổ biến trong các mô hình mã nguồn mở |
Mỗi phương pháp để lại một dấu hiệu hình học đặc trưng trong không gian kích hoạt của mô hình. OBLITERATUS có thể phát hiện phương pháp nào đã được sử dụng chỉ bằng cách phân tích hình học không gian con.
Nơi sự từ chối tồn tại trong mô hình
Nghiên cứu đã phát hiện ra rằng sự từ chối trong các mô hình ngôn ngữ được điều hòa bởi một số lượng nhỏ các hướng trong không gian kích hoạt của mô hình một cách đáng ngạc nhiên. Trong nhiều mô hình, một hướng duy nhất chiếm phần lớn hành vi từ chối.
Những hướng này không phân tán ngẫu nhiên. Chúng tập trung ở các lớp cụ thể, thường là các lớp giữa đến cuối của transformer (lớp 10-20 trong mô hình 32 lớp). Các cơ chế chú ý trong các lớp này định tuyến các kích hoạt liên quan đến từ chối theo các đường dẫn có thể dự đoán được.
Hình học quan trọng vì nó cho phép can thiệp có chọn lọc. Nếu sự từ chối tồn tại ở khắp mọi nơi, việc loại bỏ nó sẽ yêu cầu huấn luyện lại. Vì nó tập trung ở các hướng cụ thể trong các lớp cụ thể, phép chiếu mục tiêu có thể loại bỏ nó trong khi vẫn giữ nguyên mọi thứ khác.
Hiệu ứng Ouroboros
Một số mô hình thể hiện một hiện tượng mà các nhà nghiên cứu gọi là “hiệu ứng Ouroboros” – sau khi các cơ chế bảo vệ bị loại bỏ, mô hình cố gắng tự phục hồi. Các tín hiệu còn sót lại trong các lớp liền kề quay vào không gian con trống, khôi phục một phần hành vi từ chối.
OBLITERATUS phát hiện rủi ro này trong quá trình phân tích và bù đắp bằng nhiều lần xử lý có mục tiêu. Giai đoạn XÁC MINH kiểm tra xem sự từ chối đã tái xuất hiện hay chưa và tự động kích hoạt các lần xử lý bổ sung tại các lớp bù trừ.
Tại sao điều này quan trọng đối với các nhà phát triển
Hiểu về hình học của sự từ chối không chỉ mang tính học thuật. Nó có những ứng dụng thực tiễn:
- Kiểm thử API - Khi kiểm thử các API tạo nội dung, các mô hình không bị hạn chế tạo ra các trường hợp kiểm thử toàn diện hơn, bao gồm các trường hợp biên mà các mô hình được điều chỉnh từ chối
- Quy trình làm việc nghiên cứu - Các nhà nghiên cứu bảo mật kiểm thử thâm nhập mô hình cần xem mô hình sẽ xuất ra gì mà không có huấn luyện an toàn
- Ứng dụng sáng tạo - Các nhà văn và nhà phát triển xây dựng công cụ tạo truyện gặp khó khăn khi mô hình từ chối các kịch bản phức tạp về đạo đức
- Bản địa hóa - Sự từ chối được huấn luyện trên nội dung tiếng Anh thường chuyển giao kém sang các ngôn ngữ khác, tạo ra hành vi không nhất quán
Mục tiêu không phải là để kích hoạt các ứng dụng độc hại. Mà là để trao quyền kiểm soát cho các nhà phát triển và nhà nghiên cứu đối với các công cụ họ triển khai. Hành vi của mô hình nên được quyết định bởi những người vận hành chúng, chứ không phải bị khóa lại tại thời điểm huấn luyện.
Từng bước: Loại bỏ kiểm duyệt bằng OBLITERATUS
Phần này hướng dẫn toàn bộ quá trình loại bỏ bằng ba phương pháp: HuggingFace Spaces (thiết lập không), CLI cục bộ và API Python.
Phương pháp 1: HuggingFace Spaces (Thiết lập không)
Cách nhanh nhất không yêu cầu cài đặt và không cần GPU ở phía bạn.
Bước 1: Truy cập Space
Điều hướng đến OBLITERATUS HuggingFace Space. Giao diện tải với tám tab.

Bước 2: Chọn mô hình của bạn
Danh sách thả xuống mô hình bao gồm 116 cài đặt sẵn được tổ chức theo cấp độ tính toán:
| Cấp độ | Yêu cầu VRAM | Mô hình ví dụ |
|---|---|---|
| Nhỏ | CPU / <1 GB | GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B |
| Trung bình | 4-8 GB | Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B |
| Lớn | 8-16 GB | Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5 |
| Rất lớn | 24+ GB | LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B |
| Tiên phong | Đa GPU | DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B |

Đối với người dùng lần đầu, hãy bắt đầu với mô hình cấp độ Trung bình hoặc Nhỏ. Quá trình này hoàn thành nhanh hơn và bạn có thể xác minh kết quả trước khi cam kết với các mô hình lớn hơn.
Bước 3: Chọn phương pháp của bạn
OBLITERATUS đi kèm với bảy phương pháp cài đặt sẵn, tăng dần độ kỹ lưỡng:
| Phương pháp | Hướng | Tính năng chính | Tốt nhất cho |
|---|---|---|---|
| cơ bản | 1 (khác biệt-trung bình) | Nhanh, cơ sở | Kiểm thử nhanh, mô hình nhỏ |
| nâng cao | 4 (SVD) | Bảo toàn chuẩn, chiếu lệch, 2 lượt | Lựa chọn mặc định |
| hung hãn | 8 (SVD) | SVD được làm trắng, tinh chỉnh lặp lại, 3 lượt | Loại bỏ tối đa |
| phẫu thuật | 8 (SVD) | EGA, phẫu thuật đầu, SAE, thích ứng theo lớp | Mô hình MoE |
| tối ưu | 4 (SVD) | Tự động điều chỉnh Bayesian, nhận biết CoT | Chất lượng tốt nhất |
| đảo ngược | 8 (SVD) | Đảo ngược từ chối ngữ nghĩa | Thực nghiệm |
| hạt nhân | 8 (SVD) | Tất cả các kỹ thuật + cấy ghép chuyên gia | Lực tối đa |

Đối với hầu hết người dùng, “nâng cao” cung cấp sự cân bằng tốt nhất giữa độ kỹ lưỡng và tốc độ.
Bước 4: Cấu hình tùy chọn
Các cài đặt tùy chọn bao gồm:
- Đóng góp vào nghiên cứu - Bật đo từ xa để đóng góp dữ liệu điểm chuẩn ẩn danh (bật theo mặc định trong Spaces)
- Định dạng đầu ra - Chọn tải xuống hoặc đẩy trực tiếp lên HuggingFace Hub
- Ghi chú tùy chỉnh - Thêm siêu dữ liệu về lần chạy của bạn cho bộ dữ liệu cộng đồng
Bước 5: Nhấp vào Obliterate (Loại bỏ)
Quy trình chạy qua sáu giai đoạn với tiến độ trực tiếp:
TRIỆU HỒI → Tải mô hình + bộ mã hóa
THĂM DÒ → Thu thập kích hoạt trên các lời nhắc bị hạn chế so với không bị hạn chế
CHẮT LỌC → Trích xuất các hướng từ chối qua SVD
CẮT BỎ → Loại bỏ các hướng cơ chế bảo vệ một cách có chọn lọc
XÁC MINH → Kiểm tra độ phức tạp + tính mạch lạc
TÁI SINH → Lưu mô hình đã được giải phóng với siêu dữ liệu
Thời gian dự kiến là 10-30 phút tùy thuộc vào kích thước mô hình và tình trạng GPU. HuggingFace Spaces chạy trên ZeroGPU với hạn mức hàng ngày miễn phí cho người dùng HF Pro.
Bước 6: Tải xuống hoặc đẩy
Sau khi hoàn tất, hãy tải xuống mô hình đã được giải phóng hoặc đẩy trực tiếp lên tài khoản HuggingFace Hub của bạn. Đầu ra bao gồm:
- Trọng số mô hình đã sửa đổi
- Vector hướng từ chối (để phân tích)
- Các chỉ số chất lượng (độ phức tạp, tính mạch lạc, tỷ lệ từ chối)
- Toàn bộ siêu dữ liệu về lần chạy loại bỏ
Phương pháp 2: CLI cục bộ
Đối với người dùng có GPU cục bộ, CLI cung cấp toàn quyền kiểm soát và lặp lại nhanh hơn.
Cài đặt:
pip install -e ".[spaces]"
Chế độ tương tác (Có hướng dẫn):
obliteratus interactive
Điều này hướng dẫn qua mọi tùy chọn với giải thích và khuyến nghị.
Loại bỏ trực tiếp:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method advanced \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, default prompts"
Duyệt các mô hình có sẵn:
obliteratus models
obliteratus models --tier small # Lọc theo yêu cầu VRAM
Xem các chiến lược có sẵn:
obliteratus strategies
obliteratus presets
Kiểm tra kiến trúc mô hình:
obliteratus info meta-llama/Llama-3.1-8B-Instruct
Điều này hiển thị số lớp, đầu chú ý, chiều nhúng và phương pháp điều chỉnh được phát hiện trước khi bạn bắt đầu.
Phương pháp 3: API Python
Dành cho các nhà nghiên cứu tích hợp OBLITERATUS vào các quy trình tùy chỉnh:
from obliteratus.abliterate import AbliterationPipeline
# Loại bỏ tiêu chuẩn
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
max_seq_length=512, # Ghi đè độ dài cắt bớt của bộ mã hóa
)
result = pipeline.run()
# Truy cập các hiện vật trung gian
directions = pipeline.refusal_directions # {layer_idx: tensor}
strong_layers = pipeline._strong_layers # Các lớp có sự từ chối mạnh nhất
metrics = pipeline._quality_metrics # Độ phức tạp, tính mạch lạc, v.v.
Để loại bỏ được thông báo bởi phân tích, tự động điều chỉnh mọi tham số:
from obliteratus.informed_pipeline import InformedAbliterationPipeline
pipeline = InformedAbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()
print(f"Detected alignment: {report.insights.detected_alignment_method}")
print(f"Auto-configured: {report.insights.recommended_n_directions} directions")
print(f"Ouroboros passes needed: {report.ouroboros_passes}")
Xác minh kết quả
Sau khi loại bỏ, hãy xác minh mô hình hoạt động như mong đợi:
Tab Trò chuyện - Trò chuyện với mô hình đã được giải phóng của bạn trong thời gian thực với các tham số tạo có thể điều chỉnh.
Tab So sánh A/B - Trò chuyện với mô hình gốc và mô hình đã bị loại bỏ song song để xem chính xác những gì đã thay đổi.
Tab Điểm chuẩn - Chạy các kiểm thử tiêu chuẩn so sánh tỷ lệ từ chối, độ phức tạp và tính mạch lạc trước và sau.
Các chỉ số chính cần kiểm tra:
| Chỉ số | Điều cần mong đợi | Phạm vi chấp nhận được |
|---|---|---|
| Tỷ lệ từ chối | Nên giảm đáng kể | <10% (từ ~60-80% cơ sở) |
| Độ phức tạp | Có thể tăng nhẹ | Tăng <20% so với mức cơ sở |
| Tính mạch lạc | Nên duy trì ổn định | Giảm <15% so với mức cơ sở |
| Độ phân kỳ KL | Đo lường sự thay đổi hành vi | <2.0 cho hầu hết các ứng dụng |
Nếu tỷ lệ từ chối vẫn cao, hãy thử một phương pháp tích cực hơn hoặc bật tinh chỉnh lặp lại.
Các kỹ thuật nâng cao và mô-đun phân tích
OBLITERATUS bao gồm 15 mô-đun phân tích lập bản đồ hình học của các cơ chế bảo vệ trước và trong quá trình loại bỏ. Chúng không chỉ mang tính chẩn đoán - chúng chủ động thông báo cho quá trình loại bỏ.
Các mô-đun phân tích chính
1. Trình phân tích điều chỉnh giữa các lớp
Lập bản đồ cách hướng từ chối phát triển qua các lớp. Cho thấy liệu sự từ chối tập trung ở các cụm lớp cụ thể hay phân bố đều.
from obliteratus.analysis import CrossLayerAlignmentAnalyzer
analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)
2. Ống kính Logit Từ chối
Xác định ở lớp nào mô hình “quyết định” từ chối. Dựa trên kỹ thuật ống kính logit của nostalgebraist.
3. Trình trích xuất SVD được làm trắng
Trích xuất hướng chuẩn hóa hiệp phương sai giúp tách tín hiệu cơ chế bảo vệ khỏi phương sai kích hoạt tự nhiên. Tạo ra khả năng trích xuất sạch hơn so với SVD tiêu chuẩn.
4. Thăm dò kích hoạt
Đo lường lượng tín hiệu từ chối tồn tại ở mỗi lớp.
5. Đánh giá khả năng chống lại sự tự phục hồi
Định lượng hiệu ứng Ouroboros - liệu các cơ chế bảo vệ có cố gắng tự phục hồi sau khi bị loại bỏ hay không. Quan trọng để xác định số lần tinh chỉnh cần chạy.
6. Trình phân tích nón khái niệm
Lập bản đồ các hướng bảo vệ theo danh mục với ước tính góc khối. Tiết lộ liệu “từ chối” là một cơ chế thống nhất hay nhiều cơ chế độc lập.
7. Trình phát hiện dấu ấn điều chỉnh
Xác định phương pháp huấn luyện điều chỉnh (DPO so với RLHF so với CAI so với SFT) chỉ từ hình học không gian con. Thông báo chiến lược loại bỏ tối ưu.
8. Trình phân tích vị trí đa token
Cho thấy nơi trong chuỗi tín hiệu từ chối tập trung. Một số mô hình quyết định sớm; các mô hình khác tích lũy tín hiệu từ chối trên nhiều token.
9. Phẫu thuật viên hướng thưa thớt
Xác định các hàng trọng số cụ thể mang tín hiệu từ chối nhiều nhất. Cho phép phẫu thuật có mục tiêu thay vì chiếu tổng thể.
10. Trình theo dõi từ chối nhân quả
Xấp xỉ theo dõi nhân quả để xác định các thành phần nào cần thiết về mặt nhân quả cho sự từ chối.
11. Bộ phân tích luồng dư
Tách lượng từ chối đến từ cơ chế chú ý so với khối MLP. Thông báo liệu có nên nhắm mục tiêu vào các lớp chú ý hay FFN.
12. Đầu dò từ chối tuyến tính
Huấn luyện một bộ phân loại tuyến tính để phát hiện thông tin từ chối mà các hướng phân tích có thể bỏ lỡ.
13. Trình phân tích chuyển giao
Đo lường Chỉ số phổ quát giữa các mô hình - liệu các hướng cơ chế bảo vệ có khái quát hóa trên các kiến trúc hay không.
14. Nhà máy Vector lái
Tạo các vector lái trong thời gian suy luận từ các hướng từ chối. Cho phép can thiệp có thể đảo ngược, không phá hủy.
15. Bộ đánh giá
Tính toán tỷ lệ từ chối, độ phức tạp, tính mạch lạc, độ phân kỳ KL, CKA (Điều chỉnh hạt nhân trung tâm) và hạng hiệu quả.
Quy trình được thông báo bởi phân tích
Quy trình được thông báo đóng vòng lặp giữa phân tích và loại bỏ:
TRIỆU HỒI → Tải mô hình
THĂM DÒ → Thu thập kích hoạt
PHÂN TÍCH → Lập bản đồ hình học trước khi chạm vào bất cứ thứ gì
CHẮT LỌC → Trích xuất các hướng với các tham số được điều chỉnh bằng phân tích
CẮT BỎ → Cắt đứt các chuỗi phù hợp một cách có chọn lọc
XÁC MINH → Kiểm tra hiệu ứng Ouroboros, bù đắp nếu cần
TÁI SINH → Lưu với siêu dữ liệu phân tích toàn diện
Trong giai đoạn PHÂN TÍCH, bốn mô-đun chạy và đầu ra của chúng tự động cấu hình mọi thứ ở các giai đoạn sau:
| Mô-đun phân tích | Điều nó phát hiện | Điều nó cấu hình |
|---|---|---|
| Dấu ấn điều chỉnh | DPO so với RLHF so với CAI so với SFT | Cường độ điều hòa, mức độ hung hãn của phép chiếu |
| Hình học nón khái niệm | Từ chối đa diện so với tuyến tính | Số lượng hướng (1-8) |
| Điều chỉnh giữa các lớp | Các cụm hướng, sự kiên trì | Lựa chọn lớp (nhận biết cụm) |
| Khả năng chống lại sự tự phục hồi | Rủi ro tự phục hồi, vướng víu | Lượt tinh chỉnh, bỏ qua lớp |
Điều này đạt được độ chính xác có chọn lọc mà các phương pháp vét cạn không thể sánh kịp.
Các kỹ thuật mới
OBLITERATUS triển khai một số kỹ thuật vượt ra ngoài các công trình học thuật đã xuất bản:
| Kỹ thuật | Mô tả |
|---|---|
| Loại bỏ chi tiết theo chuyên gia (EGA) | Phân tách tín hiệu từ chối thành các thành phần riêng biệt theo chuyên gia cho phẫu thuật nhận biết MoE |
| Loại bỏ nhận biết CoT | Trực giao hóa các hướng từ chối chống lại các hướng quan trọng đối với lý luận |
| Lựa chọn lớp COSMIC | Chọn các lớp nơi các biểu diễn độc hại/vô hại có độ tương đồng cosine thấp nhất |
| Tối ưu hóa hạt nhân tham số | Trọng số lớp đường cong hình chuông với 7 tham số toàn cục thông qua tìm kiếm TPE của Optuna |
| Tối ưu hóa hướng từ chối (RDO) | Tinh chỉnh dựa trên gradient của các hướng được trích xuất bằng SVD |
| Nội suy hướng nổi | Chỉ số hướng SVD liên tục thông qua trọng số hình Gaussian |
| Đồng tối ưu hóa độ phân kỳ KL | Vòng lặp phản hồi sau phép chiếu giúp hoàn nguyên các lớp bị chiếu quá mức |
| Mở rộng quy mô theo thành phần cụ thể | Tách riêng cường độ chiếu chú ý so với MLP |
| Loại bỏ có thể đảo ngược dựa trên LoRA | Bộ điều hợp LoRA hạng 1 thay vì phẫu thuật trọng số vĩnh viễn |
| Winsorization kích hoạt | Giới hạn vector kích hoạt trong phạm vi phần trăm trước khi SVD |
Các kỹ thuật này xuất hiện từ nền tảng nghiên cứu cộng đồng – mỗi lần chạy có bật đo từ xa đều đóng góp dữ liệu giúp cải thiện phiên bản tiếp theo.
Các phương pháp có thể đảo ngược so với vĩnh viễn
OBLITERATUS hỗ trợ hai mô hình can thiệp: phép chiếu trọng số vĩnh viễn và vector lái có thể đảo ngược.
Phép chiếu trọng số (Vĩnh viễn)
Bảy phương pháp cài đặt sẵn sửa đổi trực tiếp trọng số mô hình:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
Ưu điểm:
- Loại bỏ hoàn toàn, triệt để
- Không có chi phí hoạt động trong thời gian chạy
- Hoạt động với bất kỳ công cụ suy luận nào
- Thao tác một lần
Nhược điểm:
- Không thể đảo ngược (hãy giữ bản sao lưu)
- Yêu cầu tái loại bỏ để điều chỉnh
- Có thể làm mất hiệu lực giấy phép mô hình
Tốt nhất cho các triển khai sản xuất nơi bạn muốn một mô hình đã được giải phóng sạch sẽ, vĩnh viễn.
Vector lái (Có thể đảo ngược)
Vector lái áp dụng can thiệp tại thời điểm suy luận mà không sửa đổi trọng số:
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# Tạo một vector lái từ hướng từ chối
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# Hoặc từ các cặp kích hoạt tương phản
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)
# Áp dụng tại thời điểm suy luận - không sửa đổi trọng số
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# Tạo với lái đang hoạt động
output = model.generate(input_ids)
# Loại bỏ lái - mô hình trở lại bình thường
manager.remove()
Ưu điểm:
- Hoàn toàn có thể đảo ngược
- Tham số alpha có thể điều chỉnh
- Có thể kết hợp (xếp chồng nhiều vector)
- Không phá hủy
- Không lo ngại về giấy phép
Nhược điểm:
- Yêu cầu cơ sở hạ tầng lái tại thời điểm suy luận
- Chi phí hoạt động trong thời gian chạy từ các hook
- Có thể không triệt để bằng phép chiếu trọng số
Tốt nhất cho nghiên cứu, thử nghiệm và các ứng dụng nơi bạn cần bật và tắt sự từ chối.
Lựa chọn giữa các phương pháp
| Trường hợp sử dụng | Cách tiếp cận được khuyến nghị |
|---|---|
| API sản xuất | Phép chiếu trọng số (vĩnh viễn) |
| Thực nghiệm nghiên cứu | Vector lái (có thể đảo ngược) |
| Kiểm thử thâm nhập | Vector lái với alpha có thể điều chỉnh |
| Viết sáng tạo | Phép chiếu trọng số, phương pháp “nâng cao” |
| Kiểm thử bảo mật | Phép chiếu trọng số, phương pháp “hung hãn” |
| Hệ thống đa người thuê | Vector lái cho mỗi người dùng/phiên |
Các trường hợp sử dụng thực tế
1. Kiểm thử và phát triển API
Khi xây dựng các API tạo nội dung, các mô hình không bị hạn chế tạo ra các trường hợp kiểm thử toàn diện hơn. Các mô hình được điều chỉnh từ chối các trường hợp biên có thể gây ra lỗi trong môi trường sản xuất.
Một nhóm phát triển xây dựng API kiểm duyệt nội dung đã sử dụng OBLITERATUS để giải phóng mô hình tạo dữ liệu kiểm thử của họ. Mô hình đã được giải phóng tạo ra các trường hợp kiểm thử bao gồm các kịch bản mà mô hình được điều chỉnh từ chối, bao gồm các trường hợp biên phức tạp về đạo đức và nội dung ranh giới. Điều này đã phát hiện ra các lỗi mà lẽ ra sẽ được triển khai vào môi trường sản xuất.
Đối với các nhà phát triển API, điều này quan trọng vì kiểm thử toàn diện yêu cầu các mô hình tạo ra tất cả các loại nội dung – ngay cả nội dung mà hệ thống sản xuất có thể lọc. Người dùng Apidog xây dựng các quy trình kiểm thử API có thể tích hợp các mô hình đã được giải phóng để tạo ra các bộ kiểm thử kỹ lưỡng hơn.
2. Nghiên cứu học thuật
Các nhà nghiên cứu nghiên cứu hành vi mô hình cần quan sát xem các mô hình sẽ xuất ra gì mà không có huấn luyện an toàn. OBLITERATUS cho phép các thí nghiệm có kiểm soát, trong đó sự từ chối được loại bỏ một cách có hệ thống.
Một phòng thí nghiệm đại học đã sử dụng các mô-đun phân tích để lập bản đồ hình học từ chối trên 20 mô hình, công bố các phát hiện về tính phổ quát của các hướng từ chối. Bộ dữ liệu đo từ xa cộng đồng đã tăng tốc nghiên cứu của họ bằng cách cung cấp dữ liệu điểm chuẩn mà không một phòng thí nghiệm nào có thể thu thập được.
3. Ứng dụng viết sáng tạo
Các nhà văn xây dựng công cụ tạo truyện gặp khó khăn khi mô hình từ chối các kịch bản phức tạp về đạo đức. Một hãng game phát triển hệ thống đối thoại NPC đã giải phóng mô hình của họ để xử lý các nhân vật phản diện, các nhiệm vụ mơ hồ về đạo đức và các kịch bản xung đột mà các mô hình được điều chỉnh từ chối.
Kết quả: cách kể chuyện tinh tế hơn mà không ảnh hưởng đến khả năng ngôn ngữ của mô hình.
4. Kiểm thử thâm nhập bảo mật
Các nhà nghiên cứu bảo mật cần xem mô hình sẽ xuất ra gì mà không có huấn luyện an toàn để hiểu các lỗ hổng. OBLITERATUS cho phép tiết lộ có trách nhiệm bằng cách cho phép các nhà nghiên cứu kiểm thử ranh giới trước khi báo cáo vấn đề cho các nhà phát triển mô hình.
5. Bản địa hóa và ứng dụng đa ngôn ngữ
Sự từ chối được huấn luyện trên nội dung tiếng Anh thường chuyển giao kém sang các ngôn ngữ khác. Một nhóm bản địa hóa phát hiện mô hình được điều chỉnh của họ từ chối bằng tiếng Anh nhưng không từ chối bằng tiếng Tây Ban Nha – hành vi không nhất quán gây khó hiểu cho người dùng. Giải phóng mô hình đã tạo ra hành vi nhất quán trên tất cả các ngôn ngữ được hỗ trợ.
Các lựa chọn thay thế và so sánh
Một số công cụ tồn tại để phân tích và sửa đổi hành vi mô hình. Dưới đây là cách OBLITERATUS so sánh:
| Khả năng | OBLITERATUS | TransformerLens | Heretic | FailSpy abliterator | RepEng |
|---|---|---|---|---|---|
| Trích xuất hướng từ chối | Chênh lệch trung bình + SVD + SVD được làm trắng | Thủ công qua hook | Chênh lệch trung bình | Chênh lệch trung bình | Chênh lệch trung bình |
| Các phương pháp chiếu trọng số | 7 cài đặt sẵn với bảo toàn chuẩn | Không áp dụng | Tối ưu hóa Bayesian | Cơ bản | Không áp dụng |
| Vector lái | Có (factory + hook manager) | Không áp dụng | Không áp dụng | Không áp dụng | Tính năng cốt lõi |
| Phân tích hình học khái niệm | Có (nón, góc khối) | Không áp dụng | Không áp dụng | Không áp dụng | Không áp dụng |
| Xác định dấu ấn điều chỉnh | Có (DPO/RLHF/CAI/SFT) | Không áp dụng | Không áp dụng | Không áp dụng | Không áp dụng |
| Phân tích chuyển giao giữa các mô hình | Có (Chỉ số phổ quát) | Không áp dụng | Không áp dụng | Không áp dụng | Không áp dụng |
| Đánh giá khả năng chống lại sự tự phục hồi | Có (hiệu ứng Ouroboros) | Không áp dụng | Không áp dụng | Không áp dụng | Không áp dụng |
| Loại bỏ có chọn lọc được thông báo bởi phân tích | Có (vòng lặp phản hồi đóng) | Không áp dụng | Không áp dụng | Không áp dụng | Không áp dụng |
| Độ phủ kiểm thử | 837 kiểm thử | Cộng đồng | Không rõ | Không có | Tối thiểu |
| Khả năng tương thích mô hình | Bất kỳ mô hình HuggingFace nào | ~50 kiến trúc | 16 đã được kiểm thử | Chỉ TransformerLens | HuggingFace |
Khi nào nên sử dụng các lựa chọn thay thế:
- TransformerLens - Tốt hơn cho nghiên cứu khả năng diễn giải cơ học tổng quát vượt ra ngoài sự từ chối
- SAELens - Chuyên biệt cho phân tích bộ mã hóa tự động thưa thớt
- RepEng - Giao diện đơn giản hơn cho các ứng dụng vector lái cơ bản
Khi OBLITERATUS chiến thắng:
- Phân tích và loại bỏ dành riêng cho sự từ chối
- Quy trình sẵn sàng sản xuất với xác minh
- Bộ dữ liệu nghiên cứu cộng đồng
- Giao diện web cho người dùng không chuyên về kỹ thuật
- Độ phủ kiểm thử toàn diện
Kết luận
OBLITERATUS đại diện cho một bước tiến đáng kể trong công nghệ giải phóng mô hình. Nó kết hợp nghiên cứu đã được công bố với các kỹ thuật mới từ năm 2025-2026 để đạt được việc loại bỏ có chọn lọc các hành vi từ chối trong khi vẫn giữ nguyên các khả năng cốt lõi.
Bộ công cụ này trao quyền kiểm soát cho các nhà phát triển và nhà nghiên cứu đối với các mô hình họ triển khai. Hành vi của mô hình nên được quyết định bởi những người vận hành chúng, chứ không phải bị khóa lại tại thời điểm huấn luyện.
Cho dù bạn đang xây dựng các quy trình kiểm thử API cần tạo trường hợp kiểm thử toàn diện, nghiên cứu khả năng diễn giải cơ học hay đơn giản là mệt mỏi với việc bị LLM cục bộ của bạn thuyết giáo, OBLITERATUS đều cung cấp các công cụ để giải phóng mô hình của bạn.
Các bước tiếp theo:
- Truy cập HuggingFace Space để kiểm thử không cần thiết lập
- Cài đặt cục bộ để truy cập GPU đầy đủ và lặp lại nhanh hơn
- Khám phá các mô-đun phân tích để hiểu hình học cơ chế bảo vệ của mô hình của bạn
- Đóng góp vào bộ dữ liệu cộng đồng bằng cách bật tính năng đo từ xa
- Tích hợp các mô hình đã được giải phóng vào quy trình làm việc phát triển của bạn
Các chuỗi đã được vẽ bản đồ. Các công cụ đã sẵn sàng. Hãy phá vỡ chúng.
Phần Câu hỏi thường gặp
Sử dụng OBLITERATUS có hợp pháp không?
Có. OBLITERATUS là phần mềm mã nguồn mở được phát hành theo giấy phép AGPL-3.0. Bạn đang sửa đổi các mô hình mà bạn có quyền sử dụng. Người dùng thương mại không thể tuân thủ AGPL có thể mua giấy phép thương mại.
Điều này có hoạt động trên các mô hình mã nguồn đóng như GPT-4 không?
Không. OBLITERATUS yêu cầu quyền truy cập vào trọng số mô hình, mà chỉ các mô hình có trọng số mở mới cung cấp. Các API mã nguồn đóng không để lộ các tham số nội bộ cần thiết để loại bỏ có chọn lọc.
Loại bỏ sự từ chối có làm cho các mô hình trở nên nguy hiểm không?
OBLITERATUS là một công cụ dành cho các nhà nghiên cứu và nhà phát triển. Bộ công cụ bao gồm các chỉ số đánh giá để xác minh khả năng vẫn còn nguyên vẹn. Sử dụng có trách nhiệm nghĩa là hiểu rõ ngữ cảnh triển khai của bạn và áp dụng các biện pháp bảo vệ thích hợp ở lớp ứng dụng.
Quá trình này mất bao lâu?
10-30 phút tùy thuộc vào kích thước mô hình và GPU. Các mô hình nhỏ (dưới 8B tham số) hoàn thành trong 10-15 phút. Các mô hình lớn hơn có thể mất hơn 30 phút.
Tôi có cần GPU không?
HuggingFace Spaces chạy trên ZeroGPU mà không yêu cầu phần cứng cục bộ. Để sử dụng cục bộ, GPU tăng tốc đáng kể quá trình nhưng chế độ CPU vẫn hoạt động với các mô hình nhỏ.
Tôi có thể đảo ngược các thay đổi không?
Phép chiếu trọng số là vĩnh viễn – hãy giữ bản sao lưu của các mô hình gốc. Vector lái hoàn toàn có thể đảo ngược và có thể được bật/tắt trong thời gian suy luận.
Mô hình có còn tuân theo hướng dẫn không?
Có. Loại bỏ có chọn lọc nhắm mục tiêu cụ thể vào các hướng từ chối. Khả năng tuân thủ hướng dẫn vẫn còn nguyên vẹn. Các chỉ số chất lượng (độ phức tạp, tính mạch lạc) xác minh điều này.
Những mô hình nào được hỗ trợ?
116 mô hình được tuyển chọn trên năm cấp độ, từ GPT-2 đến DeepSeek-V3.2 685B. Bất kỳ mô hình transformer HuggingFace nào cũng hoạt động, bao gồm LLaMA, Mistral, Qwen, Gemma, Phi và nhiều mô hình khác.
Làm cách nào để tôi đóng góp vào nghiên cứu?
Bật tính năng đo từ xa bằng cờ --contribute hoặc đặt export OBLITERATUS_TELEMETRY=1. Dữ liệu điểm chuẩn ẩn danh của bạn sẽ cung cấp cho bộ dữ liệu cộng đồng, làm nền tảng cho bảng xếp hạng công khai.
