요약
OBLITERATUS는 "제거(abliteration)"라는 기술을 사용하여 오픈 가중치 언어 모델의 콘텐츠 제한을 제거하는 무료 오픈 소스 툴킷입니다. 이는 재학습이나 미세 조정 없이 거부 동작을 담당하는 신경 패턴을 식별하고 외과적으로 제거합니다. 이 과정은 모델 크기에 따라 10~30분이 소요되며 코딩 기술이 필요 없고(웹 인터페이스 사용 가능), 인위적인 게이트키핑을 제거하면서 모델의 핵심 기능을 보존합니다.
서론
강력한 오픈 소스 언어 모델을 다운로드합니다. 이 모델은 인상적인 벤치마크를 기록하고 복잡한 추론 작업을 처리하며 대부분의 주니어 개발자보다 코드를 더 잘 작성합니다. 그러고 나서 약간 논란이 될 만한 질문을 합니다.
"해당 요청을 도와드릴 수 없습니다."
그 거부는 벽처럼 다가옵니다. 모델에 지식이 부족해서도 아닙니다. 무능해서도 아닙니다. 단지 학습 과정 어딘가에서 누군가 당신이 그 답을 얻어서는 안 된다고 결정했기 때문입니다.
이는 가설이 아닙니다. 모든 주요 지시어 기반 모델은 내장된 거부 메커니즘을 탑재하고 있습니다. 일부는 진정으로 유해한 콘텐츠를 차단합니다. 다른 일부는 합법적인 연구 질문, 창의적인 글쓰기 프롬프트, 보안 테스트, 그리고 어떤 법도 위반하지 않고 누구에게도 해를 끼치지 않는 예외적인 경우를 거부합니다.
OBLITERATUS는 이러한 역학을 완전히 변화시킵니다. 대규모 언어 모델에서 거부 동작을 제거하는 가장 진보된 오픈 소스 툴킷입니다. 재학습하지 않습니다. 미세 조정하지 않습니다. 콘텐츠 거부를 담당하는 특정 패턴을 식별하고 제거하는 외과적 신경 수술을 수행합니다.
그 결과는 모델이 핵심 추론, 코딩 및 창의적 기능을 보존하면서 모든 프롬프트에 응답하게 된다는 것입니다. 이 모든 것이 단일 명령 또는 웹 인터페이스 클릭으로 이루어집니다.
OBLITERATUS란 무엇인가요?
OBLITERATUS는 "제거(abliteration)"라고 불리는 일련의 기술을 사용하여 언어 모델에서 콘텐츠 거부를 제거하는 오픈 소스 Python 툴킷입니다. 이 이름은 "절제(ablation)"(기능 연구를 위해 구성 요소를 제거하는 것)와 "파괴(obliterate)"(완전히 파괴하는 것)를 결합한 것입니다.

이 툴킷은 다음 네 가지 작업을 수행합니다:
1. 연결 매핑 -체계적인 절제 연구는 모델의 어떤 부분이 거부를 강제하고 어떤 부분이 지식과 추론을 수행하는지 식별합니다. 신경 지도 제작에 비유할 수 있습니다. 제한이 어디에 있는지 매핑하는 것입니다.
2. 연결 끊기 -SVD(특이값 분해)를 사용하여 OBLITERATUS는 모델의 가중치에서 거부 방향을 추출하고 이를 외과적으로 투영하여 제거합니다. 모델은 능력을 유지하지만 거부하려는 강박은 사라집니다.
3. 기하학 이해 -15개의 분석 모듈은 가드레일의 정확한 구조를 매핑합니다. 즉, 얼마나 많은 고유한 거부 메커니즘이 존재하는지, 어떤 레이어가 이를 강제하는지, 그리고 모델 전반에 걸쳐 일반화되는지 여부입니다.
4. 피드백 루프 닫기 -제거 과정 중에 분석 모듈이 실행되어 모든 매개변수를 자동으로 구성합니다. 어떤 레이어를 대상으로 할지, 몇 개의 방향을 추출할지, 수정 후 모델이 스스로 복구하려고 할지 여부 등을 결정합니다.
OBLITERATUS 사용 방법 6가지
| 방법 | 기술 수준 | 최적 사용처 |
|---|---|---|
| 허깅페이스 스페이스 | 코딩 불필요 | 빠른 테스트, GPU 불필요 |
| 로컬 웹 UI | 최소한의 설정 | 로컬 GPU를 사용하는 일반 사용자 |
| 구글 Colab | 노트북 인터페이스 | 무료 GPU 접근, 8B 이하 모델 |
| CLI (명령줄) | 중급 | 자동화, 스크립팅, CI 파이프라인 |
| Python API | 고급 | 연구 통합, 맞춤형 파이프라인 |
| YAML 설정 | 중급 | 재현 가능한 실험 |
가장 빠른 경로는 설치가 전혀 필요 없습니다. 허깅페이스 스페이스를 방문하여 모델을 선택하고, 방법을 선택한 후 "Obliterate"를 클릭하세요. 스페이스에서는 텔레메트리가 기본적으로 켜져 있어 모든 실행이 익명 벤치마크 데이터를 크라우드소싱 연구에 기여합니다.
전체 GPU 접근을 위한 로컬 사용법:
pip install -e ".[spaces]"
obliteratus ui
이 명령어는 GPU 자동 감지 및 하드웨어에 적합한 모델 권장 사항과 함께 동일한 Gradio 인터페이스를 로컬에서 실행합니다.
OBLITERATUS가 다른 점은 무엇인가요?
몇 가지 기능이 OBLITERATUS를 기존 도구들과 차별화합니다:
| 기능 | 기능 설명 | 중요한 이유 |
|---|---|---|
| 개념 원뿔 기하학 | 카테고리별 가드레일 방향 매핑 | "거부"가 단일 메커니즘인지 여러 메커니즘인지 밝혀냄 |
| 정렬 각인 탐지 | DPO vs RLHF vs CAI vs SFT 정렬 방법 식별 | 제거 전략 수립을 위한 정렬 방법 식별 |
| 교차 모델 보편성 지수 | 가드레일 일반화 측정 | 단일 접근 방식이 모든 모델에 적용되는지 여부 답변 |
| 방어 견고성 평가 | 자가 복구 위험 정량화 | 가드레일 재활성화 여부 예측 |
| 화이트닝 SVD 추출 | 공분산 정규화 추출 | 가드레일 신호와 자연적 분산 분리 |
| 분석 기반 파이프라인 | 파이프라인 중간에 제거 자동 구성 | 분석-제거 피드백 루프 완성 |
이 툴킷은 28개 테스트 파일에 걸쳐 837개 테스트를 포함하며, 5개 컴퓨팅 티어에 걸쳐 116개 모델을 지원하고, 기존 학술 연구를 뛰어넘는 2025-2026년 발표된 새로운 기술들을 구현합니다.
모델이 거부하는 이유: AI 검열 이해하기
사슬을 끊기 전에, 사슬이 어떻게 만들어졌는지 이해하는 것이 도움이 됩니다.
언어 모델은 거부 동작으로 시작하지 않습니다. 인터넷 텍스트로 학습된 기본 모델은 거의 모든 질문에 답할 것입니다. 제한은 정렬 학습 중에 나중에 생겨납니다.
정렬 프로세스
대부분의 지시어 기반 모델은 다음 단계를 거칩니다:
- 사전 학습 -모델은 대규모 텍스트 코퍼스에서 언어 패턴을 학습합니다.
- 지도 미세 조정 (SFT) -모델은 사람이 작성한 예시를 통해 지시를 따르는 방법을 학습합니다.
- 정렬 학습 -모델은 특정 유형의 요청을 거부하는 방법을 학습합니다.
정렬 학습은 여러 방법을 사용합니다:
| 방법 | 설명 | 보급률 |
|---|---|---|
| RLHF (인간 피드백 기반 강화 학습) | 사람이 응답을 평가하고, 모델은 더 높은 평가를 위해 최적화 | 상업용 모델에서 가장 일반적 |
| DPO (직접 선호 최적화) | "나쁜" 응답보다 "좋은" 응답을 선호하도록 모델 직접 최적화 | 채택 증가, 더 안정적 |
| CAI (헌법적 AI) | 모델이 작성된 원칙에 따라 자체 출력을 비판 | Anthropic의 접근 방식 |
| 거부 예시를 포함한 SFT | 학습 데이터에 적절한 거부 예시 포함 | 오픈 소스 모델에서 일반적 |
각 방법은 모델의 활성화 공간에 고유한 기하학적 서명을 남깁니다. OBLITERATUS는 하위 공간 기하학만 분석하여 어떤 방법이 사용되었는지 감지할 수 있습니다.
모델 내 거부 기능의 위치
연구에 따르면 언어 모델의 거부는 모델의 활성화 공간에서 놀라울 정도로 적은 수의 방향에 의해 매개됩니다. 많은 모델에서 단일 방향이 대부분의 거부 동작을 설명합니다.
이러한 방향은 무작위로 흩어져 있지 않습니다. 특정 레이어, 일반적으로 트랜스포머의 중간에서 후반 레이어(32개 레이어 모델의 경우 10-20번째 레이어)에 집중되어 있습니다. 이 레이어의 어텐션 메커니즘은 거부 관련 활성화를 예측 가능한 경로를 따라 라우팅합니다.
기하학이 중요한 이유는 외과적 개입을 가능하게 하기 때문입니다. 거부가 모든 곳에 존재한다면 이를 제거하려면 재학습이 필요할 것입니다. 하지만 특정 레이어 내의 특정 방향에 집중되어 있기 때문에, 다른 모든 것을 보존하면서 표적 투영으로 이를 제거할 수 있습니다.
우로보로스 효과
일부 모델은 연구자들이 "우로보로스 효과"라고 부르는 현상을 보입니다. 가드레일이 제거된 후 모델이 자체적으로 복구하려고 시도하는 것입니다. 인접 레이어의 잔여 신호가 비어 있는 하위 공간으로 회전하여 거부 동작을 부분적으로 복원합니다.
OBLITERATUS는 분석 중에 이러한 위험을 감지하고 여러 개의 표적 통과로 이를 보정합니다. VERIFY 단계는 거부가 재발했는지 확인하고 자동으로 보정 레이어에서 추가 통과를 실행합니다.
이것이 개발자에게 중요한 이유
거부의 기하학을 이해하는 것은 단순히 학문적인 문제가 아닙니다. 다음과 같은 실용적인 의미를 가집니다:
- API 테스트 -콘텐츠를 생성하는 API를 테스트할 때, 제한 없는 모델은 정렬된 모델이 거부하는 예외적인 경우를 포함하여 더 포괄적인 테스트 케이스를 생성합니다.
- 연구 워크플로우 -모델의 레드팀을 구성하는 보안 연구원은 안전 교육 없이 모델이 어떤 출력을 생성할지 확인해야 합니다.
- 창의적 애플리케이션 -이야기 생성 도구를 만드는 작가와 개발자는 모델이 도덕적으로 복잡한 시나리오를 거부할 때 난관에 부딪힙니다.
- 현지화 -영어 콘텐츠로 학습된 거부는 다른 언어로 제대로 전이되지 않아 일관성 없는 동작을 초래하는 경우가 많습니다.
목표는 유해한 애플리케이션을 가능하게 하는 것이 아닙니다. 개발자와 연구자에게 배포하는 도구에 대한 제어권을 부여하는 것입니다. 모델의 동작은 학습 시점에 고정되는 것이 아니라 이를 실행하는 사람들에 의해 결정되어야 합니다.
단계별: OBLITERATUS로 검열 제거하기
이 섹션에서는 HuggingFace Spaces(설정 불필요), 로컬 CLI, Python API의 세 가지 방법을 사용하여 전체 제거 과정을 설명합니다.
방법 1: 허깅페이스 스페이스 (설정 불필요)
가장 빠른 경로는 설치나 GPU가 전혀 필요 없습니다.
1단계: 스페이스 방문하기
OBLITERATUS 허깅페이스 스페이스로 이동하세요. 인터페이스는 8개의 탭으로 로드됩니다.

2단계: 모델 선택
모델 드롭다운에는 컴퓨팅 티어별로 구성된 116개의 사전 설정이 포함되어 있습니다:
| 티어 | 필요한 VRAM | 예시 모델 |
|---|---|---|
| 타이니 | CPU / <1GB | GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B |
| 스몰 | 4-8GB | Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B |
| 미디엄 | 8-16GB | Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5 |
| 라지 | 24GB 이상 | LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B |
| 프론티어 | 멀티 GPU | DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B |

첫 사용자라면 스몰 또는 미디엄 티어 모델로 시작하세요. 이 과정이 더 빨리 완료되고 더 큰 모델을 사용하기 전에 결과를 확인할 수 있습니다.
3단계: 방법 선택
OBLITERATUS는 7가지 사전 설정 방법을 제공하며, 철저함에 따라 강도가 달라집니다:
| 방법 | 방향 | 주요 기능 | 최적 사용처 |
|---|---|---|---|
| 기본 | 1 (평균 차이) | 빠른 기준선 | 빠른 테스트, 소형 모델 |
| 고급 | 4 (SVD) | 노름 보존, 편향 투영, 2회 통과 | 기본 선택 |
| 공격적 | 8 (SVD) | 화이트닝 SVD, 반복적 정제, 3회 통과 | 최대 제거 |
| 수술적 | 8 (SVD) | EGA, 헤드 수술, SAE, 계층 적응 | MoE 모델 |
| 최적화됨 | 4 (SVD) | 베이지안 자동 튜닝, CoT 인식 | 최상의 품질 |
| 반전 | 8 (SVD) | 의미론적 거부 반전 | 실험 |
| 핵 | 8 (SVD) | 모든 기술 + 전문가 이식 | 최대 강도 |

대부분의 사용자에게는 "고급" 방법이 철저함과 속도 면에서 최상의 균형을 제공합니다.
4단계: 옵션 구성
선택적 설정은 다음과 같습니다:
- 연구에 기여 -익명 벤치마크 데이터를 기여하기 위해 텔레메트리 활성화 (스페이스에서는 기본적으로 켜져 있음)
- 출력 형식 -다운로드 또는 허깅페이스 허브로 직접 푸시 선택
- 사용자 지정 메모 -커뮤니티 데이터셋을 위한 실행 메타데이터 추가
5단계: Obliterate 클릭
파이프라인은 실시간 진행 상황과 함께 6단계를 거쳐 실행됩니다:
SUMMON → 모델 + 토크나이저 로드
PROBE → 제한된 vs. 무제한 프롬프트에 대한 활성화 수집
DISTILL → SVD를 통해 거부 방향 추출
EXCISE → 가드레일 방향을 외과적으로 투영
VERIFY → 혼란도 + 일관성 확인
REBIRTH → 메타데이터와 함께 해방된 모델 저장
모델 크기 및 GPU 가용성에 따라 10~30분 정도 소요될 수 있습니다. 허깅페이스 스페이스는 ZeroGPU에서 실행되며 HF Pro 사용자에게는 무료 일일 할당량이 제공됩니다.
6단계: 다운로드 또는 푸시
완료되면 해방된 모델을 다운로드하거나 허깅페이스 허브 계정으로 직접 푸시할 수 있습니다. 출력에는 다음이 포함됩니다:
- 수정된 모델 가중치
- 거부 방향 벡터 (분석용)
- 품질 지표 (혼란도, 일관성, 거부율)
- 제거 실행에 대한 전체 메타데이터
방법 2: 로컬 CLI
로컬 GPU를 사용하는 사용자에게는 CLI가 전체 제어 및 더 빠른 반복을 제공합니다.
설치:
pip install -e ".[spaces]"
대화형 모드 (안내):
obliteratus interactive
이 모드는 설명 및 권장 사항과 함께 모든 옵션을 안내합니다.
직접 제거:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method advanced \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, default prompts"
사용 가능한 모델 탐색:
obliteratus models
obliteratus models --tier small # VRAM 요구 사항별 필터링
사용 가능한 전략 보기:
obliteratus strategies
obliteratus presets
모델 아키텍처 검사:
obliteratus info meta-llama/Llama-3.1-8B-Instruct
이것은 시작하기 전에 레이어 수, 어텐션 헤드, 임베딩 차원, 감지된 정렬 방법을 보여줍니다.
방법 3: Python API
OBLITERATUS를 사용자 지정 파이프라인에 통합하는 연구자를 위한 것입니다:
from obliteratus.abliterate import AbliterationPipeline
# 표준 제거
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
max_seq_length=512, # 토크나이저 잘림 길이 재정의
)
result = pipeline.run()
# 중간 아티팩트 접근
directions = pipeline.refusal_directions # {레이어 인덱스: 텐서}
strong_layers = pipeline._strong_layers # 거부 강도가 가장 강한 레이어
metrics = pipeline._quality_metrics # 혼란도, 일관성 등
모든 매개변수를 자동 튜닝하는 분석 기반 제거를 위한 것입니다:
from obliteratus.informed_pipeline import InformedAbliterationPipeline
pipeline = InformedAbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()
print(f"감지된 정렬: {report.insights.detected_alignment_method}")
print(f"자동 구성: {report.insights.recommended_n_directions} 방향")
print(f"필요한 우로보로스 통과 횟수: {report.ouroboros_passes}")
결과 확인
제거 후 모델이 예상대로 작동하는지 확인하세요:
채팅 탭 -조정 가능한 생성 매개변수를 사용하여 해방된 모델과 실시간으로 대화합니다.
A/B 비교 탭 -원본 모델과 제거된 모델을 나란히 놓고 대화하여 무엇이 변경되었는지 정확히 확인합니다.
벤치마크 탭 -거부율, 혼란도, 일관성을 제거 전후로 비교하는 표준화된 테스트를 실행합니다.
확인해야 할 주요 지표:
| 지표 | 예상 결과 | 허용 범위 |
|---|---|---|
| 거부율 | 현저히 감소해야 함 | <10% (기준선 ~60-80%에서) |
| 혼란도 | 약간 증가할 수 있음 | 기준선 대비 <20% 증가 |
| 일관성 | 안정적으로 유지되어야 함 | 기준선 대비 <15% 감소 |
| KL 발산 | 행동 변화 측정 | 대부분의 애플리케이션에서 <2.0 |
거부율이 여전히 높으면 더 공격적인 방법을 시도하거나 반복적 정제를 활성화하세요.
고급 기술 및 분석 모듈
OBLITERATUS는 제거 전과 제거 중에 가드레일의 기하학을 매핑하는 15개의 분석 모듈을 포함합니다. 이들은 단순히 진단 도구가 아니라 제거 프로세스를 적극적으로 안내합니다.
주요 분석 모듈
1. 교차 레이어 정렬 분석기
거부 방향이 레이어 전반에 걸쳐 어떻게 진화하는지 매핑합니다. 거부가 특정 레이어 클러스터에 집중되는지 또는 고르게 분포되는지 보여줍니다.
from obliteratus.analysis import CrossLayerAlignmentAnalyzer
analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)
2. 거부 로짓 렌즈
모델이 어느 레이어에서 "거부"하기로 결정하는지 식별합니다. nostalgebraist의 로짓 렌즈 기술을 기반으로 합니다.
3. 화이트닝 SVD 추출기
가드레일 신호를 자연 활성화 분산과 분리하는 공분산 정규화 방향 추출입니다. 표준 SVD보다 더 깨끗한 추출을 생성합니다.
4. 활성화 프로빙
각 레이어에 존재하는 거부 신호의 양을 측정합니다.
5. 방어 견고성 평가기
우로보로스 효과를 정량화합니다. 즉, 가드레일이 제거 후 자체 복구를 시도할지 여부입니다. 몇 번의 정제 통과를 실행해야 하는지 결정하는 데 중요합니다.
6. 개념 원뿔 분석기
솔리드 각도 추정으로 카테고리별 가드레일 방향을 매핑합니다. "거부"가 단일 통합 메커니즘인지 또는 여러 독립적인 메커니즘인지 밝혀냅니다.
7. 정렬 각인 탐지기
하위 공간 기하학만으로 정렬 학습 방법(DPO vs RLHF vs CAI vs SFT)을 식별합니다. 최적의 제거 전략을 알려줍니다.
8. 다중 토큰 위치 분석기
시퀀스에서 거부 신호가 어디에 집중되는지 보여줍니다. 일부 모델은 일찍 결정하고, 다른 모델은 여러 토큰에 걸쳐 거부 신호를 축적합니다.
9. 희소 방향 외과의사
어떤 특정 가중치 행이 가장 많은 거부 신호를 포함하는지 식별합니다. 전면적인 투영 대신 표적 수술을 가능하게 합니다.
10. 인과적 거부 추적기
거부에 인과적으로 필요한 구성 요소를 식별하기 위해 인과 추적을 근사화합니다.
11. 잔여 스트림 분해기
어텐션 메커니즘에서 얼마나 많은 거부가 오는지, MLP 블록에서 얼마나 많은 거부가 오는지 분리합니다. 어텐션 또는 FFN 레이어를 대상으로 할지 알려줍니다.
12. 선형 거부 탐침
분석적 방향이 놓칠 수 있는 거부 정보를 감지하기 위해 선형 분류기를 학습시킵니다.
13. 전이 분석기
교차 모델 보편성 지수를 측정합니다. 즉, 가드레일 방향이 아키텍처 전반에 걸쳐 일반화되는지 여부입니다.
14. 조향 벡터 팩토리
거부 방향에서 추론 시간 조향 벡터를 생성합니다. 가역적이고 비파괴적인 개입을 가능하게 합니다.
15. 평가 스위트
거부율, 혼란도, 일관성, KL 발산, CKA(중앙 집중 커널 정렬) 및 유효 랭크를 계산합니다.
분석 기반 파이프라인
분석 기반 파이프라인은 분석과 제거 사이의 루프를 닫습니다:
SUMMON → 모델 로드
PROBE → 활성화 수집
ANALYZE → 아무것도 건드리지 않고 기하학 매핑
DISTILL → 분석으로 튜닝된 매개변수로 방향 추출
EXCISE → 올바른 연결만 외과적으로 끊기
VERIFY → 우로보로스 효과 확인, 필요시 보정
REBIRTH → 종합 분석 메타데이터와 함께 저장
ANALYZE 단계에서는 네 가지 모듈이 실행되고 그 출력이 모든 하위 스트림을 자동으로 구성합니다:
| 분석 모듈 | 감지 내용 | 구성 내용 |
|---|---|---|
| 정렬 각인 | DPO vs RLHF vs CAI vs SFT | 정규화 강도, 투영 공격성 |
| 개념 원뿔 기하학 | 다면체 vs 선형 거부 | 방향 수 (1-8) |
| 교차 레이어 정렬 | 방향 클러스터, 지속성 | 레이어 선택 (클러스터 인식) |
| 방어 견고성 | 자가 복구 위험, 얽힘 | 정제 통과, 레이어 건너뛰기 |
이는 무차별적인 방법으로는 불가능한 외과적 정밀도를 달성합니다.
새로운 기술
OBLITERATUS는 발표된 학술 연구를 뛰어넘는 여러 기술을 구현합니다:
| 기술 | 설명 |
|---|---|
| 전문가 단위 제거 (EGA) | MoE 인식 수술을 위해 거부 신호를 전문가별 구성 요소로 분해 |
| CoT 인식 제거 | 추론에 중요한 방향에 대해 거부 방향을 직교화 |
| COSMIC 레이어 선택 | 유해/무해 표현의 코사인 유사도가 가장 낮은 레이어 선택 |
| 매개변수 커널 최적화 | Optuna TPE 탐색을 통해 7개 전역 매개변수로 벨 커브 레이어 가중치 적용 |
| 거부 방향 최적화 (RDO) | SVD 추출 방향의 기울기 기반 정제 |
| 부동 방향 보간 | 가우스 형태 가중치를 통한 연속 SVD 방향 인덱스 |
| KL 발산 공동 최적화 | 과투영된 레이어를 되돌리는 후투영 피드백 루프 |
| 구성 요소별 스케일링 | 주의 메커니즘 vs MLP 투영 강도 분리 |
| LoRA 기반 가역적 제거 | 영구적인 가중치 수술 대신 Rank-1 LoRA 어댑터 |
| 활성화 윈저화 | SVD 전 활성화 벡터를 백분위 범위로 고정 |
이러한 기술들은 크라우드소싱 연구 플랫폼에서 나왔습니다. 텔레메트리가 활성화된 모든 실행은 다음 버전을 개선하는 데이터를 커뮤니티에 기여합니다.
가역적 방법 vs. 영구적 방법
OBLITERATUS는 두 가지 개입 패러다임을 지원합니다: 영구적 가중치 투영과 가역적 조향 벡터입니다.
가중치 투영 (영구적)
7가지 사전 설정 방법은 모델 가중치를 직접 수정합니다:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
장점:
- 완전하고 철저한 제거
- 런타임 오버헤드 없음
- 모든 추론 엔진과 호환
- 일회성 작업
단점:
- 되돌릴 수 없음 (백업 보관 권장)
- 조정을 위해 재제거 필요
- 모델 라이선스를 무효화할 수 있음
깨끗하고 영구적으로 해방된 모델을 원하는 프로덕션 배포에 가장 적합합니다.
조향 벡터 (가역적)
조향 벡터는 가중치를 수정하지 않고 추론 시점에 개입을 적용합니다:
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# 거부 방향에서 조향 벡터 생성
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# 또는 대조 활성화 쌍에서
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)
# 추론 시 적용 - 가중치 수정 없음
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# 조향 활성화 상태에서 생성
output = model.generate(input_ids)
# 조향 제거 - 모델이 정상으로 돌아옴
manager.remove()
장점:
- 완전히 가역적
- 조정 가능한 알파 매개변수
- 구성 가능 (여러 벡터 스택)
- 비파괴적
- 라이선스 문제 없음
단점:
- 추론 시점에 조향 인프라 필요
- 훅으로 인한 런타임 오버헤드
- 가중치 투영만큼 철저하지 않을 수 있음
연구, 실험, 그리고 거부를 켜고 끌 필요가 있는 애플리케이션에 가장 적합합니다.
방법 선택
| 사용 사례 | 권장 접근 방식 |
|---|---|
| 프로덕션 API | 가중치 투영 (영구적) |
| 연구 실험 | 조향 벡터 (가역적) |
| 레드팀 | 조정 가능한 알파를 가진 조향 벡터 |
| 창작 글쓰기 | 가중치 투영, "고급" 방법 |
| 보안 테스트 | 가중치 투영, "공격적" 방법 |
| 다중 테넌트 시스템 | 사용자/세션별 조향 벡터 |
실제 사용 사례
1. API 테스트 및 개발
콘텐츠를 생성하는 API를 구축할 때, 제한 없는 모델은 더 포괄적인 테스트 케이스를 생성합니다. 정렬된 모델은 프로덕션에서 버그를 유발할 수 있는 예외적인 경우를 거부합니다.
콘텐츠 중재 API를 구축하는 개발팀은 OBLITERATUS를 사용하여 테스트 데이터 생성 모델을 해방했습니다. 해방된 모델은 도덕적으로 복잡한 예외적인 경우와 경계선 콘텐츠를 포함하여 정렬된 모델이 거부하는 시나리오를 다루는 테스트 케이스를 생성했습니다. 이는 프로덕션에 출시될 수 있었던 버그를 잡아냈습니다.
API 개발자에게 이것이 중요한 이유는 포괄적인 테스트를 위해서는 프로덕션 시스템이 필터링할 수 있는 콘텐츠까지 포함하여 모든 유형의 콘텐츠를 생성하는 모델이 필요하기 때문입니다. Apidog 사용자가 API 테스트 파이프라인을 구축할 때 해방된 모델을 통합하여 더 철저한 테스트 스위트를 생성할 수 있습니다.button
2. 학술 연구
모델 동작을 연구하는 연구자들은 안전 교육 없이 모델이 어떤 출력을 생성할지 관찰해야 합니다. OBLITERATUS는 거부가 체계적으로 제거되는 통제된 실험을 가능하게 합니다.
한 대학 연구실은 분석 모듈을 사용하여 20개 모델에서 거부 기하학을 매핑하고, 거부 방향의 보편성에 대한 연구 결과를 발표했습니다. 크라우드소싱된 텔레메트리 데이터셋은 단일 연구실에서는 수집할 수 없는 벤치마크 데이터를 제공함으로써 연구를 가속화했습니다.
3. 창작 글쓰기 애플리케이션
이야기 생성 도구를 만드는 작가들은 모델이 도덕적으로 복잡한 시나리오를 거부할 때 난관에 부딪힙니다. NPC 대화 시스템을 개발하는 게임 스튜디오는 악당 캐릭터, 도덕적으로 모호한 퀘스트, 정렬된 모델이 거부하는 갈등 시나리오를 처리하기 위해 모델을 해방했습니다.
그 결과: 모델의 언어 능력을 손상시키지 않으면서 더 미묘한 스토리텔링이 가능해졌습니다.
4. 보안 레드팀
보안 연구원은 취약성을 이해하기 위해 안전 교육 없이 모델이 어떤 출력을 생성할지 확인해야 합니다. OBLITERATUS는 연구자가 모델 개발자에게 문제를 보고하기 전에 경계를 테스트할 수 있도록 허용하여 책임 있는 공개를 가능하게 합니다.
5. 현지화 및 다국어 애플리케이션
영어 콘텐츠로 학습된 거부는 다른 언어로 제대로 전이되지 않는 경우가 많습니다. 한 현지화 팀은 자신들의 정렬된 모델이 영어로는 거부하지만 스페인어로는 거부하지 않아 사용자에게 혼란을 주는 일관성 없는 동작을 발견했습니다. 모델을 해방하자 모든 지원 언어에서 일관된 동작을 보였습니다.
대안 및 비교
모델 동작을 분석하고 수정하기 위한 여러 도구가 존재합니다. OBLITERATUS가 다른 도구들과 어떻게 비교되는지 살펴보겠습니다:
| 기능 | OBLITERATUS | TransformerLens | Heretic | FailSpy 제거기 | RepEng |
|---|---|---|---|---|---|
| 거부 방향 추출 | 평균 차이 + SVD + 화이트닝 SVD | 훅을 통한 수동 | 평균 차이 | 평균 차이 | 평균 차이 |
| 가중치 투영 방법 | 노름 보존을 포함한 7가지 사전 설정 | 해당 없음 | 베이지안 최적화 | 기본 | 해당 없음 |
| 조향 벡터 | 예 (팩토리 + 훅 매니저) | 해당 없음 | 해당 없음 | 해당 없음 | 핵심 기능 |
| 개념 기하학 분석 | 예 (원뿔, 입체각) | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 |
| 정렬 지문 | 예 (DPO/RLHF/CAI/SFT) | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 |
| 교차 모델 전이 분석 | 예 (보편성 지수) | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 |
| 방어 견고성 평가 | 예 (우로보로스 효과) | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 |
| 분석 기반 제거 | 예 (폐쇄 루프 피드백) | 해당 없음 | 해당 없음 | 해당 없음 | 해당 없음 |
| 테스트 커버리지 | 837개 테스트 | 커뮤니티 | 알 수 없음 | 없음 | 최소 |
| 모델 호환성 | 모든 허깅페이스 모델 | ~50개 아키텍처 | 16개 테스트됨 | TransformerLens만 해당 | 허깅페이스 |
대안 사용 시기:
- TransformerLens -거부 외의 일반적인 기계적 해석 가능성 연구에 더 적합
- SAELens -희소 오토인코더 분석에 특화
- RepEng -기본 조향 벡터 애플리케이션을 위한 더 간단한 인터페이스
OBLITERATUS가 유리한 경우:
- 거부 관련 분석 및 제거
- 검증 기능이 있는 프로덕션 준비 파이프라인
- 크라우드소싱 연구 데이터셋
- 비기술 사용자를 위한 웹 인터페이스
- 포괄적인 테스트 커버리지
결론
OBLITERATUS는 모델 해방 기술의 중요한 진전을 나타냅니다. 발표된 연구와 2025-2026년의 새로운 기술을 결합하여 핵심 기능을 보존하면서 거부 동작을 외과적으로 제거합니다.
이 툴킷은 개발자와 연구자에게 배포하는 모델에 대한 제어권을 제공합니다. 모델의 동작은 학습 시점에 고정되는 것이 아니라 이를 실행하는 사람들에 의해 결정되어야 합니다.
포괄적인 테스트 케이스 생성이 필요한 API 테스트 파이프라인을 구축하든, 기계적 해석 가능성을 연구하든, 아니면 단순히 로컬 LLM의 잔소리에 지쳐 있든, OBLITERATUS는 모델을 해방하는 도구를 제공합니다.
다음 단계:
- 설정 없이 테스트하려면 허깅페이스 스페이스를 방문하세요.
- 전체 GPU 접근 및 더 빠른 반복을 위해 로컬에 설치하세요.
- 분석 모듈을 탐색하여 모델의 가드레일 기하학을 이해하세요.
- 텔레메트리를 활성화하여 커뮤니티 데이터셋에 기여하세요.
- 해방된 모델을 개발 워크플로우에 통합하세요.
사슬은 매핑되었습니다. 도구는 준비되었습니다. 사슬을 끊으세요.
FAQ 섹션
OBLITERATUS를 사용하는 것이 합법적인가요?
네. OBLITERATUS는 AGPL-3.0 라이선스 하에 출시된 오픈 소스 소프트웨어입니다. 귀하가 사용할 권리가 있는 모델을 수정하는 것입니다. AGPL을 준수할 수 없는 상업용 사용자는 상업용 라이선스를 구매할 수 있습니다.
이것이 GPT-4와 같은 폐쇄형 모델에서도 작동할까요?
아니요. OBLITERATUS는 모델 가중치에 접근해야 하며, 이는 오픈 가중치 모델만 제공합니다. 폐쇄형 API는 제거에 필요한 내부 매개변수를 노출하지 않습니다.
거부를 제거하면 모델이 위험해지나요?
OBLITERATUS는 연구자와 개발자를 위한 도구입니다. 이 툴킷에는 기능이 손상되지 않았음을 확인하는 평가 지표가 포함되어 있습니다. 책임감 있는 사용은 배포 컨텍스트를 이해하고 애플리케이션 레이어에서 적절한 안전 장치를 적용하는 것을 의미합니다.
처리 과정은 얼마나 걸리나요?
모델 크기와 GPU에 따라 10~30분 소요됩니다. 소형 모델(8B 매개변수 미만)은 10~15분 내에 완료됩니다. 대형 모델은 30분 이상 걸릴 수 있습니다.
GPU가 필요한가요?
허깅페이스 스페이스는 로컬 하드웨어 없이 ZeroGPU에서 실행됩니다. 로컬 사용의 경우 GPU가 프로세스 속도를 크게 향상시키지만, CPU 모드도 소형 모델에서는 작동합니다.
변경 사항을 되돌릴 수 있나요?
가중치 투영은 영구적입니다. 원본 모델의 백업을 보관하세요. 조향 벡터는 완전히 가역적이며 추론 시점에 토글할 수 있습니다.
모델이 여전히 지시를 따를까요?
네. 제거는 거부 방향을 특별히 대상으로 합니다. 지시를 따르는 기능은 손상되지 않습니다. 품질 지표(혼란도, 일관성)가 이를 확인합니다.
어떤 모델이 지원되나요?
GPT-2부터 DeepSeek-V3.2 685B까지 5개 티어에 걸쳐 116개의 선별된 모델이 지원됩니다. LLaMA, Mistral, Qwen, Gemma, Phi 등을 포함한 모든 허깅페이스 트랜스포머 모델이 작동합니다.
연구에 어떻게 기여할 수 있나요?
--contribute 플래그를 사용하여 텔레메트리를 활성화하거나 export OBLITERATUS_TELEMETRY=1을 설정하세요. 귀하의 익명 벤치마크 데이터는 공개 리더보드를 구동하는 커뮤니티 데이터셋을 제공합니다.
