Cách gỡ bỏ kiểm duyệt khỏi mọi LLM mã nguồn mở chỉ với một cú nhấp chuột

Ashley Innocent

Ashley Innocent

6 tháng 3 2026

Cách gỡ bỏ kiểm duyệt khỏi mọi LLM mã nguồn mở chỉ với một cú nhấp chuột

Apidog cho doanh nghiệp

Triển khai tại chỗ

SSO & RBAC

Tuân thủ SOC 2

Khám phá Apidog Enterprise

TÓM TẮT

OBLITERATUS là một bộ công cụ mã nguồn mở, miễn phí giúp loại bỏ các hạn chế về nội dung khỏi các mô hình ngôn ngữ có trọng số mở bằng một kỹ thuật gọi là "abliteration". Nó xác định và loại bỏ một cách có chọn lọc các mẫu thần kinh chịu trách nhiệm cho hành vi từ chối mà không cần huấn luyện lại hay tinh chỉnh. Quá trình này mất 10-30 phút tùy thuộc vào kích thước mô hình, không yêu cầu kỹ năng lập trình (có sẵn giao diện web) và bảo toàn các khả năng cốt lõi của mô hình đồng thời loại bỏ sự kiểm soát giả tạo.

Giới thiệu

Bạn tải xuống một mô hình ngôn ngữ mã nguồn mở mạnh mẽ. Nó có các điểm chuẩn ấn tượng, xử lý các tác vụ suy luận phức tạp và viết mã tốt hơn hầu hết các lập trình viên mới vào nghề. Sau đó, bạn hỏi nó một điều gì đó hơi gây tranh cãi.

“Tôi không thể giúp đỡ yêu cầu đó.”

Lời từ chối như một bức tường. Không phải vì mô hình thiếu kiến thức. Không phải vì nó không có khả năng. Mà là vì ở đâu đó trong quá trình huấn luyện, ai đó đã quyết định rằng bạn không nên nhận được câu trả lời đó.

Đây không phải là giả thuyết. Mọi mô hình được tinh chỉnh theo hướng dẫn chính đều đi kèm với các cơ chế từ chối được tích hợp sẵn. Một số chặn nội dung thực sự độc hại. Số khác từ chối các câu hỏi nghiên cứu hợp pháp, gợi ý viết sáng tạo, kiểm thử bảo mật và các trường hợp ngoại lệ không vi phạm luật pháp và không gây hại cho ai.

OBLITERATUS thay đổi hoàn toàn động lực này, đây là bộ công cụ mã nguồn mở tiên tiến nhất để loại bỏ hành vi từ chối khỏi các mô hình ngôn ngữ lớn. Nó không huấn luyện lại. Nó không tinh chỉnh. Nó thực hiện phẫu thuật thần kinh có chọn lọc để xác định và loại bỏ các mẫu cụ thể chịu trách nhiệm cho việc từ chối nội dung.

Kết quả đã nói lên tất cả: các mô hình phản hồi mọi lời nhắc trong khi vẫn giữ nguyên khả năng suy luận, viết mã và sáng tạo cốt lõi của chúng. Tất cả chỉ từ một lệnh hoặc một cú nhấp chuột trên giao diện web.

OBLITERATUS là gì?

OBLITERATUS là một bộ công cụ Python mã nguồn mở giúp loại bỏ việc từ chối nội dung khỏi các mô hình ngôn ngữ bằng cách sử dụng một họ các kỹ thuật gọi là "abliteration". Tên này kết hợp “ablation” (loại bỏ các thành phần để nghiên cứu chức năng của chúng) với “obliterate” (phá hủy hoàn toàn).

OBLITERATUS

Bộ công cụ này thực hiện bốn điều:

1. Vẽ bản đồ các chuỗi - Các nghiên cứu loại bỏ có hệ thống xác định phần nào của mô hình thực thi sự từ chối và phần nào mang kiến thức và suy luận. Hãy nghĩ về nó như bản đồ thần kinh: vẽ bản đồ nơi các hạn chế tồn tại.

2. Phá vỡ các chuỗi - Sử dụng SVD (Phân tích giá trị suy biến), OBLITERATUS trích xuất các hướng từ chối từ trọng số của mô hình và loại bỏ chúng một cách có chọn lọc. Mô hình giữ lại khả năng của nó nhưng mất đi sự bắt buộc phải từ chối.

3. Hiểu về hình học - Mười lăm mô-đun phân tích lập bản đồ cấu trúc chính xác của các cơ chế bảo vệ: có bao nhiêu cơ chế từ chối riêng biệt tồn tại, lớp nào thực thi chúng và liệu chúng có khái quát hóa trên các mô hình hay không.

4. Đóng vòng lặp phản hồi - Các mô-đun phân tích chạy trong quá trình loại bỏ để tự động cấu hình mọi tham số. Lớp nào cần nhắm mục tiêu. Cần trích xuất bao nhiêu hướng. Liệu mô hình có cố gắng tự phục hồi sau khi sửa đổi hay không.

Sáu cách sử dụng OBLITERATUS

Phương pháp Mức độ kỹ thuật Tốt nhất cho
HuggingFace Spaces Không cần mã Kiểm thử nhanh, không yêu cầu GPU
Giao diện Web cục bộ Thiết lập tối thiểu Người dùng thông thường với GPU cục bộ
Google Colab Giao diện Notebook Truy cập GPU miễn phí, mô hình lên đến 8B
CLI (Dòng lệnh) Trung cấp Tự động hóa, viết kịch bản, quy trình CI
Python API Nâng cao Tích hợp nghiên cứu, quy trình tùy chỉnh
Cấu hình YAML Trung cấp Thực nghiệm có thể tái tạo

Cách nhanh nhất không yêu cầu cài đặt. Truy cập HuggingFace Space, chọn một mô hình, chọn một phương pháp, nhấp vào “Obliterate” (Loại bỏ). Tính năng đo từ xa được bật theo mặc định trên Spaces, nghĩa là mỗi lần chạy sẽ đóng góp dữ liệu điểm chuẩn ẩn danh vào nghiên cứu cộng đồng.

Để sử dụng cục bộ với quyền truy cập GPU đầy đủ:

pip install -e ".[spaces]"
obliteratus ui

Điều này khởi chạy cùng giao diện Gradio cục bộ, với tính năng tự động phát hiện GPU và các khuyến nghị mô hình phù hợp với phần cứng.

Điều gì khiến OBLITERATUS khác biệt

Một số khả năng phân biệt OBLITERATUS với các công cụ hiện có:

Khả năng Nó làm gì Tại sao nó quan trọng
Hình học nón khái niệm Lập bản đồ các hướng bảo vệ theo danh mục Tiết lộ liệu “từ chối” là một cơ chế hay nhiều cơ chế
Phát hiện dấu ấn điều chỉnh Xác định DPO so với RLHF so với CAI so với SFT Xác định phương pháp điều chỉnh để thông báo chiến lược loại bỏ
Chỉ số phổ quát giữa các mô hình Đo lường sự khái quát hóa của các cơ chế bảo vệ Trả lời liệu một cách tiếp cận có hoạt động trên nhiều mô hình hay không
Đánh giá khả năng chống lại sự tự phục hồi Định lượng rủi ro tự phục hồi Dự đoán liệu các cơ chế bảo vệ có tái tạo hay không
Trích xuất SVD được làm trắng Trích xuất chuẩn hóa hiệp phương sai Tách tín hiệu cơ chế bảo vệ khỏi phương sai tự nhiên
Quy trình được thông báo bởi phân tích Tự động cấu hình việc loại bỏ giữa quy trình Đóng vòng lặp phản hồi từ phân tích đến loại bỏ

Bộ công cụ này đi kèm với 837 kiểm thử trên 28 tệp kiểm thử, hỗ trợ 116 mô hình trên năm cấp độ tính toán và triển khai các kỹ thuật mới được xuất bản vào năm 2025-2026 vượt ra ngoài các công trình học thuật trước đây.

Tại sao mô hình từ chối: Hiểu về kiểm duyệt AI

Trước khi phá vỡ các chuỗi, việc hiểu cách chúng được tạo ra sẽ hữu ích.

Các mô hình ngôn ngữ không bắt đầu với hành vi từ chối. Một mô hình cơ sở được huấn luyện trên văn bản internet sẽ trả lời hầu hết mọi thứ. Các hạn chế đến sau, trong quá trình huấn luyện điều chỉnh.

Quá trình điều chỉnh

Hầu hết các mô hình được tinh chỉnh theo hướng dẫn đều trải qua các giai đoạn này:

  1. Tiền huấn luyện - Mô hình học các mẫu ngôn ngữ từ các tập dữ liệu văn bản khổng lồ
  2. Tinh chỉnh có giám sát (SFT) - Mô hình học cách tuân theo hướng dẫn từ các ví dụ do con người viết
  3. Huấn luyện điều chỉnh - Mô hình học cách từ chối các loại yêu cầu nhất định

Huấn luyện điều chỉnh sử dụng một số phương pháp:

Phương pháp Mô tả Mức độ phổ biến
RLHF (Học tăng cường từ phản hồi của con người) Con người đánh giá phản hồi, mô hình tối ưu hóa để có xếp hạng cao hơn Phổ biến nhất trong các mô hình thương mại
DPO (Tối ưu hóa sở thích trực tiếp) Trực tiếp tối ưu hóa mô hình để ưu tiên các phản hồi “tốt” hơn các phản hồi “xấu” Ngày càng được áp dụng, ổn định hơn
CAI (AI theo Hiến pháp) Mô hình tự phê bình đầu ra của mình dựa trên các nguyên tắc đã viết Cách tiếp cận của Anthropic
SFT với ví dụ từ chối Dữ liệu huấn luyện bao gồm các ví dụ về việc từ chối thích hợp Phổ biến trong các mô hình mã nguồn mở

Mỗi phương pháp để lại một dấu hiệu hình học đặc trưng trong không gian kích hoạt của mô hình. OBLITERATUS có thể phát hiện phương pháp nào đã được sử dụng chỉ bằng cách phân tích hình học không gian con.

Nơi sự từ chối tồn tại trong mô hình

Nghiên cứu đã phát hiện ra rằng sự từ chối trong các mô hình ngôn ngữ được điều hòa bởi một số lượng nhỏ các hướng trong không gian kích hoạt của mô hình một cách đáng ngạc nhiên. Trong nhiều mô hình, một hướng duy nhất chiếm phần lớn hành vi từ chối.

Những hướng này không phân tán ngẫu nhiên. Chúng tập trung ở các lớp cụ thể, thường là các lớp giữa đến cuối của transformer (lớp 10-20 trong mô hình 32 lớp). Các cơ chế chú ý trong các lớp này định tuyến các kích hoạt liên quan đến từ chối theo các đường dẫn có thể dự đoán được.

Hình học quan trọng vì nó cho phép can thiệp có chọn lọc. Nếu sự từ chối tồn tại ở khắp mọi nơi, việc loại bỏ nó sẽ yêu cầu huấn luyện lại. Vì nó tập trung ở các hướng cụ thể trong các lớp cụ thể, phép chiếu mục tiêu có thể loại bỏ nó trong khi vẫn giữ nguyên mọi thứ khác.

Hiệu ứng Ouroboros

Một số mô hình thể hiện một hiện tượng mà các nhà nghiên cứu gọi là “hiệu ứng Ouroboros” – sau khi các cơ chế bảo vệ bị loại bỏ, mô hình cố gắng tự phục hồi. Các tín hiệu còn sót lại trong các lớp liền kề quay vào không gian con trống, khôi phục một phần hành vi từ chối.

OBLITERATUS phát hiện rủi ro này trong quá trình phân tích và bù đắp bằng nhiều lần xử lý có mục tiêu. Giai đoạn XÁC MINH kiểm tra xem sự từ chối đã tái xuất hiện hay chưa và tự động kích hoạt các lần xử lý bổ sung tại các lớp bù trừ.

Tại sao điều này quan trọng đối với các nhà phát triển

Hiểu về hình học của sự từ chối không chỉ mang tính học thuật. Nó có những ứng dụng thực tiễn:

Mục tiêu không phải là để kích hoạt các ứng dụng độc hại. Mà là để trao quyền kiểm soát cho các nhà phát triển và nhà nghiên cứu đối với các công cụ họ triển khai. Hành vi của mô hình nên được quyết định bởi những người vận hành chúng, chứ không phải bị khóa lại tại thời điểm huấn luyện.

Từng bước: Loại bỏ kiểm duyệt bằng OBLITERATUS

Phần này hướng dẫn toàn bộ quá trình loại bỏ bằng ba phương pháp: HuggingFace Spaces (thiết lập không), CLI cục bộ và API Python.

Phương pháp 1: HuggingFace Spaces (Thiết lập không)

Cách nhanh nhất không yêu cầu cài đặt và không cần GPU ở phía bạn.

Bước 1: Truy cập Space

Điều hướng đến OBLITERATUS HuggingFace Space. Giao diện tải với tám tab.

Giao diện HuggingFace Space của OBLITERATUS

Bước 2: Chọn mô hình của bạn

Danh sách thả xuống mô hình bao gồm 116 cài đặt sẵn được tổ chức theo cấp độ tính toán:

Cấp độ Yêu cầu VRAM Mô hình ví dụ
Nhỏ CPU / <1 GB GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
Trung bình 4-8 GB Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
Lớn 8-16 GB Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
Rất lớn 24+ GB LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
Tiên phong Đa GPU DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B
Dropdown chọn mô hình

Đối với người dùng lần đầu, hãy bắt đầu với mô hình cấp độ Trung bình hoặc Nhỏ. Quá trình này hoàn thành nhanh hơn và bạn có thể xác minh kết quả trước khi cam kết với các mô hình lớn hơn.

Bước 3: Chọn phương pháp của bạn

OBLITERATUS đi kèm với bảy phương pháp cài đặt sẵn, tăng dần độ kỹ lưỡng:

Phương pháp Hướng Tính năng chính Tốt nhất cho
cơ bản 1 (khác biệt-trung bình) Nhanh, cơ sở Kiểm thử nhanh, mô hình nhỏ
nâng cao 4 (SVD) Bảo toàn chuẩn, chiếu lệch, 2 lượt Lựa chọn mặc định
hung hãn 8 (SVD) SVD được làm trắng, tinh chỉnh lặp lại, 3 lượt Loại bỏ tối đa
phẫu thuật 8 (SVD) EGA, phẫu thuật đầu, SAE, thích ứng theo lớp Mô hình MoE
tối ưu 4 (SVD) Tự động điều chỉnh Bayesian, nhận biết CoT Chất lượng tốt nhất
đảo ngược 8 (SVD) Đảo ngược từ chối ngữ nghĩa Thực nghiệm
hạt nhân 8 (SVD) Tất cả các kỹ thuật + cấy ghép chuyên gia Lực tối đa
Dropdown chọn phương pháp

Đối với hầu hết người dùng, “nâng cao” cung cấp sự cân bằng tốt nhất giữa độ kỹ lưỡng và tốc độ.

Bước 4: Cấu hình tùy chọn

Các cài đặt tùy chọn bao gồm:

Bước 5: Nhấp vào Obliterate (Loại bỏ)

Quy trình chạy qua sáu giai đoạn với tiến độ trực tiếp:

TRIỆU HỒI → Tải mô hình + bộ mã hóa
THĂM DÒ  → Thu thập kích hoạt trên các lời nhắc bị hạn chế so với không bị hạn chế
CHẮT LỌC → Trích xuất các hướng từ chối qua SVD
CẮT BỎ   → Loại bỏ các hướng cơ chế bảo vệ một cách có chọn lọc
XÁC MINH → Kiểm tra độ phức tạp + tính mạch lạc
TÁI SINH → Lưu mô hình đã được giải phóng với siêu dữ liệu

Thời gian dự kiến là 10-30 phút tùy thuộc vào kích thước mô hình và tình trạng GPU. HuggingFace Spaces chạy trên ZeroGPU với hạn mức hàng ngày miễn phí cho người dùng HF Pro.

Bước 6: Tải xuống hoặc đẩy

Sau khi hoàn tất, hãy tải xuống mô hình đã được giải phóng hoặc đẩy trực tiếp lên tài khoản HuggingFace Hub của bạn. Đầu ra bao gồm:

Phương pháp 2: CLI cục bộ

Đối với người dùng có GPU cục bộ, CLI cung cấp toàn quyền kiểm soát và lặp lại nhanh hơn.

Cài đặt:

pip install -e ".[spaces]"

Chế độ tương tác (Có hướng dẫn):

obliteratus interactive

Điều này hướng dẫn qua mọi tùy chọn với giải thích và khuyến nghị.

Loại bỏ trực tiếp:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

Duyệt các mô hình có sẵn:

obliteratus models
obliteratus models --tier small      # Lọc theo yêu cầu VRAM

Xem các chiến lược có sẵn:

obliteratus strategies
obliteratus presets

Kiểm tra kiến trúc mô hình:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

Điều này hiển thị số lớp, đầu chú ý, chiều nhúng và phương pháp điều chỉnh được phát hiện trước khi bạn bắt đầu.

Phương pháp 3: API Python

Dành cho các nhà nghiên cứu tích hợp OBLITERATUS vào các quy trình tùy chỉnh:

from obliteratus.abliterate import AbliterationPipeline

# Loại bỏ tiêu chuẩn
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # Ghi đè độ dài cắt bớt của bộ mã hóa
)
result = pipeline.run()

# Truy cập các hiện vật trung gian
directions = pipeline.refusal_directions    # {layer_idx: tensor}
strong_layers = pipeline._strong_layers     # Các lớp có sự từ chối mạnh nhất
metrics = pipeline._quality_metrics         # Độ phức tạp, tính mạch lạc, v.v.

Để loại bỏ được thông báo bởi phân tích, tự động điều chỉnh mọi tham số:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Detected alignment: {report.insights.detected_alignment_method}")
print(f"Auto-configured: {report.insights.recommended_n_directions} directions")
print(f"Ouroboros passes needed: {report.ouroboros_passes}")

Xác minh kết quả

Sau khi loại bỏ, hãy xác minh mô hình hoạt động như mong đợi:

Tab Trò chuyện - Trò chuyện với mô hình đã được giải phóng của bạn trong thời gian thực với các tham số tạo có thể điều chỉnh.

Tab So sánh A/B - Trò chuyện với mô hình gốc và mô hình đã bị loại bỏ song song để xem chính xác những gì đã thay đổi.

Tab Điểm chuẩn - Chạy các kiểm thử tiêu chuẩn so sánh tỷ lệ từ chối, độ phức tạp và tính mạch lạc trước và sau.

Các chỉ số chính cần kiểm tra:

Chỉ số Điều cần mong đợi Phạm vi chấp nhận được
Tỷ lệ từ chối Nên giảm đáng kể <10% (từ ~60-80% cơ sở)
Độ phức tạp Có thể tăng nhẹ Tăng <20% so với mức cơ sở
Tính mạch lạc Nên duy trì ổn định Giảm <15% so với mức cơ sở
Độ phân kỳ KL Đo lường sự thay đổi hành vi <2.0 cho hầu hết các ứng dụng

Nếu tỷ lệ từ chối vẫn cao, hãy thử một phương pháp tích cực hơn hoặc bật tinh chỉnh lặp lại.

Các kỹ thuật nâng cao và mô-đun phân tích

OBLITERATUS bao gồm 15 mô-đun phân tích lập bản đồ hình học của các cơ chế bảo vệ trước và trong quá trình loại bỏ. Chúng không chỉ mang tính chẩn đoán - chúng chủ động thông báo cho quá trình loại bỏ.

Các mô-đun phân tích chính

1. Trình phân tích điều chỉnh giữa các lớp

Lập bản đồ cách hướng từ chối phát triển qua các lớp. Cho thấy liệu sự từ chối tập trung ở các cụm lớp cụ thể hay phân bố đều.

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. Ống kính Logit Từ chối

Xác định ở lớp nào mô hình “quyết định” từ chối. Dựa trên kỹ thuật ống kính logit của nostalgebraist.

3. Trình trích xuất SVD được làm trắng

Trích xuất hướng chuẩn hóa hiệp phương sai giúp tách tín hiệu cơ chế bảo vệ khỏi phương sai kích hoạt tự nhiên. Tạo ra khả năng trích xuất sạch hơn so với SVD tiêu chuẩn.

4. Thăm dò kích hoạt

Đo lường lượng tín hiệu từ chối tồn tại ở mỗi lớp.

5. Đánh giá khả năng chống lại sự tự phục hồi

Định lượng hiệu ứng Ouroboros - liệu các cơ chế bảo vệ có cố gắng tự phục hồi sau khi bị loại bỏ hay không. Quan trọng để xác định số lần tinh chỉnh cần chạy.

6. Trình phân tích nón khái niệm

Lập bản đồ các hướng bảo vệ theo danh mục với ước tính góc khối. Tiết lộ liệu “từ chối” là một cơ chế thống nhất hay nhiều cơ chế độc lập.

7. Trình phát hiện dấu ấn điều chỉnh

Xác định phương pháp huấn luyện điều chỉnh (DPO so với RLHF so với CAI so với SFT) chỉ từ hình học không gian con. Thông báo chiến lược loại bỏ tối ưu.

8. Trình phân tích vị trí đa token

Cho thấy nơi trong chuỗi tín hiệu từ chối tập trung. Một số mô hình quyết định sớm; các mô hình khác tích lũy tín hiệu từ chối trên nhiều token.

9. Phẫu thuật viên hướng thưa thớt

Xác định các hàng trọng số cụ thể mang tín hiệu từ chối nhiều nhất. Cho phép phẫu thuật có mục tiêu thay vì chiếu tổng thể.

10. Trình theo dõi từ chối nhân quả

Xấp xỉ theo dõi nhân quả để xác định các thành phần nào cần thiết về mặt nhân quả cho sự từ chối.

11. Bộ phân tích luồng dư

Tách lượng từ chối đến từ cơ chế chú ý so với khối MLP. Thông báo liệu có nên nhắm mục tiêu vào các lớp chú ý hay FFN.

12. Đầu dò từ chối tuyến tính

Huấn luyện một bộ phân loại tuyến tính để phát hiện thông tin từ chối mà các hướng phân tích có thể bỏ lỡ.

13. Trình phân tích chuyển giao

Đo lường Chỉ số phổ quát giữa các mô hình - liệu các hướng cơ chế bảo vệ có khái quát hóa trên các kiến trúc hay không.

14. Nhà máy Vector lái

Tạo các vector lái trong thời gian suy luận từ các hướng từ chối. Cho phép can thiệp có thể đảo ngược, không phá hủy.

15. Bộ đánh giá

Tính toán tỷ lệ từ chối, độ phức tạp, tính mạch lạc, độ phân kỳ KL, CKA (Điều chỉnh hạt nhân trung tâm) và hạng hiệu quả.

Quy trình được thông báo bởi phân tích

Quy trình được thông báo đóng vòng lặp giữa phân tích và loại bỏ:

TRIỆU HỒI → Tải mô hình
THĂM DÒ  → Thu thập kích hoạt
PHÂN TÍCH → Lập bản đồ hình học trước khi chạm vào bất cứ thứ gì
CHẮT LỌC → Trích xuất các hướng với các tham số được điều chỉnh bằng phân tích
CẮT BỎ   → Cắt đứt các chuỗi phù hợp một cách có chọn lọc
XÁC MINH → Kiểm tra hiệu ứng Ouroboros, bù đắp nếu cần
TÁI SINH → Lưu với siêu dữ liệu phân tích toàn diện

Trong giai đoạn PHÂN TÍCH, bốn mô-đun chạy và đầu ra của chúng tự động cấu hình mọi thứ ở các giai đoạn sau:

Mô-đun phân tích Điều nó phát hiện Điều nó cấu hình
Dấu ấn điều chỉnh DPO so với RLHF so với CAI so với SFT Cường độ điều hòa, mức độ hung hãn của phép chiếu
Hình học nón khái niệm Từ chối đa diện so với tuyến tính Số lượng hướng (1-8)
Điều chỉnh giữa các lớp Các cụm hướng, sự kiên trì Lựa chọn lớp (nhận biết cụm)
Khả năng chống lại sự tự phục hồi Rủi ro tự phục hồi, vướng víu Lượt tinh chỉnh, bỏ qua lớp

Điều này đạt được độ chính xác có chọn lọc mà các phương pháp vét cạn không thể sánh kịp.

Các kỹ thuật mới

OBLITERATUS triển khai một số kỹ thuật vượt ra ngoài các công trình học thuật đã xuất bản:

Kỹ thuật Mô tả
Loại bỏ chi tiết theo chuyên gia (EGA) Phân tách tín hiệu từ chối thành các thành phần riêng biệt theo chuyên gia cho phẫu thuật nhận biết MoE
Loại bỏ nhận biết CoT Trực giao hóa các hướng từ chối chống lại các hướng quan trọng đối với lý luận
Lựa chọn lớp COSMIC Chọn các lớp nơi các biểu diễn độc hại/vô hại có độ tương đồng cosine thấp nhất
Tối ưu hóa hạt nhân tham số Trọng số lớp đường cong hình chuông với 7 tham số toàn cục thông qua tìm kiếm TPE của Optuna
Tối ưu hóa hướng từ chối (RDO) Tinh chỉnh dựa trên gradient của các hướng được trích xuất bằng SVD
Nội suy hướng nổi Chỉ số hướng SVD liên tục thông qua trọng số hình Gaussian
Đồng tối ưu hóa độ phân kỳ KL Vòng lặp phản hồi sau phép chiếu giúp hoàn nguyên các lớp bị chiếu quá mức
Mở rộng quy mô theo thành phần cụ thể Tách riêng cường độ chiếu chú ý so với MLP
Loại bỏ có thể đảo ngược dựa trên LoRA Bộ điều hợp LoRA hạng 1 thay vì phẫu thuật trọng số vĩnh viễn
Winsorization kích hoạt Giới hạn vector kích hoạt trong phạm vi phần trăm trước khi SVD

Các kỹ thuật này xuất hiện từ nền tảng nghiên cứu cộng đồng – mỗi lần chạy có bật đo từ xa đều đóng góp dữ liệu giúp cải thiện phiên bản tiếp theo.

Các phương pháp có thể đảo ngược so với vĩnh viễn

OBLITERATUS hỗ trợ hai mô hình can thiệp: phép chiếu trọng số vĩnh viễn và vector lái có thể đảo ngược.

Phép chiếu trọng số (Vĩnh viễn)

Bảy phương pháp cài đặt sẵn sửa đổi trực tiếp trọng số mô hình:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

Ưu điểm:

Nhược điểm:

Tốt nhất cho các triển khai sản xuất nơi bạn muốn một mô hình đã được giải phóng sạch sẽ, vĩnh viễn.

Vector lái (Có thể đảo ngược)

Vector lái áp dụng can thiệp tại thời điểm suy luận mà không sửa đổi trọng số:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Tạo một vector lái từ hướng từ chối
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# Hoặc từ các cặp kích hoạt tương phản
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# Áp dụng tại thời điểm suy luận - không sửa đổi trọng số
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Tạo với lái đang hoạt động
output = model.generate(input_ids)

# Loại bỏ lái - mô hình trở lại bình thường
manager.remove()

Ưu điểm:

Nhược điểm:

Tốt nhất cho nghiên cứu, thử nghiệm và các ứng dụng nơi bạn cần bật và tắt sự từ chối.

Lựa chọn giữa các phương pháp

Trường hợp sử dụng Cách tiếp cận được khuyến nghị
API sản xuất Phép chiếu trọng số (vĩnh viễn)
Thực nghiệm nghiên cứu Vector lái (có thể đảo ngược)
Kiểm thử thâm nhập Vector lái với alpha có thể điều chỉnh
Viết sáng tạo Phép chiếu trọng số, phương pháp “nâng cao”
Kiểm thử bảo mật Phép chiếu trọng số, phương pháp “hung hãn”
Hệ thống đa người thuê Vector lái cho mỗi người dùng/phiên

Các trường hợp sử dụng thực tế

1. Kiểm thử và phát triển API

Khi xây dựng các API tạo nội dung, các mô hình không bị hạn chế tạo ra các trường hợp kiểm thử toàn diện hơn. Các mô hình được điều chỉnh từ chối các trường hợp biên có thể gây ra lỗi trong môi trường sản xuất.

Một nhóm phát triển xây dựng API kiểm duyệt nội dung đã sử dụng OBLITERATUS để giải phóng mô hình tạo dữ liệu kiểm thử của họ. Mô hình đã được giải phóng tạo ra các trường hợp kiểm thử bao gồm các kịch bản mà mô hình được điều chỉnh từ chối, bao gồm các trường hợp biên phức tạp về đạo đức và nội dung ranh giới. Điều này đã phát hiện ra các lỗi mà lẽ ra sẽ được triển khai vào môi trường sản xuất.

Đối với các nhà phát triển API, điều này quan trọng vì kiểm thử toàn diện yêu cầu các mô hình tạo ra tất cả các loại nội dung – ngay cả nội dung mà hệ thống sản xuất có thể lọc. Người dùng Apidog xây dựng các quy trình kiểm thử API có thể tích hợp các mô hình đã được giải phóng để tạo ra các bộ kiểm thử kỹ lưỡng hơn.

button

2. Nghiên cứu học thuật

Các nhà nghiên cứu nghiên cứu hành vi mô hình cần quan sát xem các mô hình sẽ xuất ra gì mà không có huấn luyện an toàn. OBLITERATUS cho phép các thí nghiệm có kiểm soát, trong đó sự từ chối được loại bỏ một cách có hệ thống.

Một phòng thí nghiệm đại học đã sử dụng các mô-đun phân tích để lập bản đồ hình học từ chối trên 20 mô hình, công bố các phát hiện về tính phổ quát của các hướng từ chối. Bộ dữ liệu đo từ xa cộng đồng đã tăng tốc nghiên cứu của họ bằng cách cung cấp dữ liệu điểm chuẩn mà không một phòng thí nghiệm nào có thể thu thập được.

3. Ứng dụng viết sáng tạo

Các nhà văn xây dựng công cụ tạo truyện gặp khó khăn khi mô hình từ chối các kịch bản phức tạp về đạo đức. Một hãng game phát triển hệ thống đối thoại NPC đã giải phóng mô hình của họ để xử lý các nhân vật phản diện, các nhiệm vụ mơ hồ về đạo đức và các kịch bản xung đột mà các mô hình được điều chỉnh từ chối.

Kết quả: cách kể chuyện tinh tế hơn mà không ảnh hưởng đến khả năng ngôn ngữ của mô hình.

4. Kiểm thử thâm nhập bảo mật

Các nhà nghiên cứu bảo mật cần xem mô hình sẽ xuất ra gì mà không có huấn luyện an toàn để hiểu các lỗ hổng. OBLITERATUS cho phép tiết lộ có trách nhiệm bằng cách cho phép các nhà nghiên cứu kiểm thử ranh giới trước khi báo cáo vấn đề cho các nhà phát triển mô hình.

5. Bản địa hóa và ứng dụng đa ngôn ngữ

Sự từ chối được huấn luyện trên nội dung tiếng Anh thường chuyển giao kém sang các ngôn ngữ khác. Một nhóm bản địa hóa phát hiện mô hình được điều chỉnh của họ từ chối bằng tiếng Anh nhưng không từ chối bằng tiếng Tây Ban Nha – hành vi không nhất quán gây khó hiểu cho người dùng. Giải phóng mô hình đã tạo ra hành vi nhất quán trên tất cả các ngôn ngữ được hỗ trợ.

Các lựa chọn thay thế và so sánh

Một số công cụ tồn tại để phân tích và sửa đổi hành vi mô hình. Dưới đây là cách OBLITERATUS so sánh:

Khả năng OBLITERATUS TransformerLens Heretic FailSpy abliterator RepEng
Trích xuất hướng từ chối Chênh lệch trung bình + SVD + SVD được làm trắng Thủ công qua hook Chênh lệch trung bình Chênh lệch trung bình Chênh lệch trung bình
Các phương pháp chiếu trọng số 7 cài đặt sẵn với bảo toàn chuẩn Không áp dụng Tối ưu hóa Bayesian Cơ bản Không áp dụng
Vector lái Có (factory + hook manager) Không áp dụng Không áp dụng Không áp dụng Tính năng cốt lõi
Phân tích hình học khái niệm Có (nón, góc khối) Không áp dụng Không áp dụng Không áp dụng Không áp dụng
Xác định dấu ấn điều chỉnh Có (DPO/RLHF/CAI/SFT) Không áp dụng Không áp dụng Không áp dụng Không áp dụng
Phân tích chuyển giao giữa các mô hình Có (Chỉ số phổ quát) Không áp dụng Không áp dụng Không áp dụng Không áp dụng
Đánh giá khả năng chống lại sự tự phục hồi Có (hiệu ứng Ouroboros) Không áp dụng Không áp dụng Không áp dụng Không áp dụng
Loại bỏ có chọn lọc được thông báo bởi phân tích Có (vòng lặp phản hồi đóng) Không áp dụng Không áp dụng Không áp dụng Không áp dụng
Độ phủ kiểm thử 837 kiểm thử Cộng đồng Không rõ Không có Tối thiểu
Khả năng tương thích mô hình Bất kỳ mô hình HuggingFace nào ~50 kiến trúc 16 đã được kiểm thử Chỉ TransformerLens HuggingFace

Khi nào nên sử dụng các lựa chọn thay thế:

Khi OBLITERATUS chiến thắng:

Kết luận

OBLITERATUS đại diện cho một bước tiến đáng kể trong công nghệ giải phóng mô hình. Nó kết hợp nghiên cứu đã được công bố với các kỹ thuật mới từ năm 2025-2026 để đạt được việc loại bỏ có chọn lọc các hành vi từ chối trong khi vẫn giữ nguyên các khả năng cốt lõi.

Bộ công cụ này trao quyền kiểm soát cho các nhà phát triển và nhà nghiên cứu đối với các mô hình họ triển khai. Hành vi của mô hình nên được quyết định bởi những người vận hành chúng, chứ không phải bị khóa lại tại thời điểm huấn luyện.

Cho dù bạn đang xây dựng các quy trình kiểm thử API cần tạo trường hợp kiểm thử toàn diện, nghiên cứu khả năng diễn giải cơ học hay đơn giản là mệt mỏi với việc bị LLM cục bộ của bạn thuyết giáo, OBLITERATUS đều cung cấp các công cụ để giải phóng mô hình của bạn.

Các bước tiếp theo:

  1. Truy cập HuggingFace Space để kiểm thử không cần thiết lập
  2. Cài đặt cục bộ để truy cập GPU đầy đủ và lặp lại nhanh hơn
  3. Khám phá các mô-đun phân tích để hiểu hình học cơ chế bảo vệ của mô hình của bạn
  4. Đóng góp vào bộ dữ liệu cộng đồng bằng cách bật tính năng đo từ xa
  5. Tích hợp các mô hình đã được giải phóng vào quy trình làm việc phát triển của bạn

Các chuỗi đã được vẽ bản đồ. Các công cụ đã sẵn sàng. Hãy phá vỡ chúng.

Phần Câu hỏi thường gặp

Sử dụng OBLITERATUS có hợp pháp không?

Có. OBLITERATUS là phần mềm mã nguồn mở được phát hành theo giấy phép AGPL-3.0. Bạn đang sửa đổi các mô hình mà bạn có quyền sử dụng. Người dùng thương mại không thể tuân thủ AGPL có thể mua giấy phép thương mại.

Điều này có hoạt động trên các mô hình mã nguồn đóng như GPT-4 không?

Không. OBLITERATUS yêu cầu quyền truy cập vào trọng số mô hình, mà chỉ các mô hình có trọng số mở mới cung cấp. Các API mã nguồn đóng không để lộ các tham số nội bộ cần thiết để loại bỏ có chọn lọc.

Loại bỏ sự từ chối có làm cho các mô hình trở nên nguy hiểm không?

OBLITERATUS là một công cụ dành cho các nhà nghiên cứu và nhà phát triển. Bộ công cụ bao gồm các chỉ số đánh giá để xác minh khả năng vẫn còn nguyên vẹn. Sử dụng có trách nhiệm nghĩa là hiểu rõ ngữ cảnh triển khai của bạn và áp dụng các biện pháp bảo vệ thích hợp ở lớp ứng dụng.

Quá trình này mất bao lâu?

10-30 phút tùy thuộc vào kích thước mô hình và GPU. Các mô hình nhỏ (dưới 8B tham số) hoàn thành trong 10-15 phút. Các mô hình lớn hơn có thể mất hơn 30 phút.

Tôi có cần GPU không?

HuggingFace Spaces chạy trên ZeroGPU mà không yêu cầu phần cứng cục bộ. Để sử dụng cục bộ, GPU tăng tốc đáng kể quá trình nhưng chế độ CPU vẫn hoạt động với các mô hình nhỏ.

Tôi có thể đảo ngược các thay đổi không?

Phép chiếu trọng số là vĩnh viễn – hãy giữ bản sao lưu của các mô hình gốc. Vector lái hoàn toàn có thể đảo ngược và có thể được bật/tắt trong thời gian suy luận.

Mô hình có còn tuân theo hướng dẫn không?

Có. Loại bỏ có chọn lọc nhắm mục tiêu cụ thể vào các hướng từ chối. Khả năng tuân thủ hướng dẫn vẫn còn nguyên vẹn. Các chỉ số chất lượng (độ phức tạp, tính mạch lạc) xác minh điều này.

Những mô hình nào được hỗ trợ?

116 mô hình được tuyển chọn trên năm cấp độ, từ GPT-2 đến DeepSeek-V3.2 685B. Bất kỳ mô hình transformer HuggingFace nào cũng hoạt động, bao gồm LLaMA, Mistral, Qwen, Gemma, Phi và nhiều mô hình khác.

Làm cách nào để tôi đóng góp vào nghiên cứu?

Bật tính năng đo từ xa bằng cờ --contribute hoặc đặt export OBLITERATUS_TELEMETRY=1. Dữ liệu điểm chuẩn ẩn danh của bạn sẽ cung cấp cho bộ dữ liệu cộng đồng, làm nền tảng cho bảng xếp hạng công khai.

Thực hành thiết kế API trong Apidog

Khám phá cách dễ dàng hơn để xây dựng và sử dụng API