TL;DR
OBLITERATUSは、オープンウェイト言語モデルからコンテンツ制限を「アブリタレーション」と呼ばれる手法で取り除く、無料のオープンソースツールキットです。再トレーニングやファインチューニングなしに、拒否行動の原因となるニューラルパターンを特定し、外科的に除去します。このプロセスはモデルサイズに応じて10~30分かかり、コーディングスキルは不要(ウェブインターフェースも利用可能)で、人工的なゲートキーピングを排除しつつ、モデルのコア機能を保持します。
はじめに
強力なオープンソース言語モデルをダウンロードしたとします。そのモデルは目覚ましいベンチマークを誇り、複雑な推論タスクをこなし、ほとんどの新人プログラマーよりも優れたコードを書きます。しかし、少し議論の余地がある質問をすると、どうでしょう。
「そのリクエストにはお答えできません。」
その拒否は壁のように立ちはだかります。モデルが知識不足だからではありません。能力がないからでもありません。しかし、トレーニングのどこかの段階で、誰かがその答えを得るべきではないと判断したからです。
これは仮説ではありません。主要な指示調整済みモデルはすべて、組み込みの拒否メカニズムを搭載しています。一部は真に有害なコンテンツをブロックしますが、合法的な研究質問、創作のプロンプト、セキュリティテスト、法律に違反せず誰にも害を与えないエッジケースを拒否するものもあります。
OBLITERATUSは、この状況を完全に変えます。これは大規模言語モデルから拒否行動を除去するための最先端のオープンソースツールキットです。再トレーニングもファインチューニングも行いません。コンテンツ拒否の原因となる特定のパターンを特定し、外科的なニューラル手術によって除去します。
結果は明らかです。コアとなる推論、コーディング、および創造的な能力を保持しながら、すべてのプロンプトに応答するモデルが誕生します。これらすべてを、単一のコマンドまたはウェブインターフェースのクリックで行うことができます。
OBLITERATUSとは?
OBLITERATUSは、「アブリタレーション」と呼ばれる一連の手法を用いて、言語モデルからコンテンツ拒否を除去するオープンソースのPythonツールキットです。この名前は、「アブレーション」(機能研究のためにコンポーネントを除去すること)と「オブリティレート」(完全に破壊すること)を組み合わせたものです。

このツールキットは主に以下の4つのことを行います。
1. 鎖をマッピングする -体系的なアブレーション研究により、モデルのどの部分が拒否を強制し、どの部分が知識と推論を担っているかを特定します。これはニューラル地図作成、つまり制限がどこに存在するかをマッピングする作業と考えることができます。
2. 鎖を断ち切る -SVD(特異値分解)を使用し、OBLITERATUSはモデルの重みから拒否の方向性を抽出し、外科的にそれらを投射して除去します。モデルはその能力を保持したまま、拒否する衝動を失います。
3. 幾何学を理解する -15個の分析モジュールが、ガードレールの正確な構造をマッピングします。例えば、いくつの異なる拒否メカニズムが存在するのか、どの層がそれらを強制しているのか、そしてそれらがモデル間で一般化するのかどうか、といった点です。
4. フィードバックループを閉じる -アブリタレーション中に分析モジュールが実行され、すべてのパラメータが自動設定されます。どの層をターゲットにするか、いくつの方向性を抽出するか、変更後にモデルが自己修復を試みるかどうか、といった点です。
OBLITERATUSの6つの利用方法
| 方法 | 技術レベル | 最適な用途 |
|---|---|---|
| HuggingFace Spaces | コード不要 | 迅速なテスト、GPU不要 |
| ローカルWeb UI | 最小限のセットアップ | ローカルGPUを持つ一般ユーザー |
| Google Colab | ノートブックインターフェース | 無料GPUアクセス、最大8Bのモデル |
| CLI(コマンドライン) | 中級 | 自動化、スクリプト作成、CIパイプライン |
| Python API | 上級 | 研究への統合、カスタムパイプライン |
| YAML設定 | 中級 | 再現性のある実験 |
最速の方法では、インストールは一切不要です。HuggingFace Spaceにアクセスし、モデルを選び、方法を選んで「Obliterate(除去)」をクリックするだけです。Spacesではテレメトリーがデフォルトでオンになっており、すべての実行が匿名化されたベンチマークデータをクラウドソーシング研究に貢献します。
完全なGPUアクセスを伴うローカルでの使用の場合:
pip install -e ".[spaces]"
obliteratus ui
これにより、同じGradioインターフェースがローカルで起動し、GPUの自動検出とハードウェアに適したモデルの推奨が行われます。
OBLITERATUSの独自性
| 機能 | 内容 | 重要性 |
|---|---|---|
| コンセプトコーンの幾何学 | カテゴリごとのガードレール方向をマッピング | 「拒否」が単一のメカニズムなのか、それとも複数のメカニズムなのかを明らかにする |
| アライメントの痕跡検出 | DPO、RLHF、CAI、SFTの各アライメント手法を特定 | 除去戦略を決定するためにアライメント手法を特定 |
| モデル間普遍性指標 | ガードレールの一般化度を測定 | 一つのアプローチが複数のモデルで機能するかどうかを判断 |
| 防御の堅牢性評価 | 自己修復リスクを定量化 | ガードレールが再生成されるかを予測 |
| ホワイト化SVD抽出 | 共分散正規化された抽出 | ガードレール信号を自然な分散から分離 |
| 分析に基づくパイプライン | パイプラインの途中でアブリタレーションを自動設定 | 分析から除去へのフィードバックループを閉じる |
このツールキットは、28のテストファイルにわたる837のテストを搭載し、5つの計算ティアで116のモデルをサポートしています。また、これまでの学術研究を超える2025-2026年に発表された新しい技術を実装しています。
モデルが拒否する理由:AI検閲を理解する
その「鎖」を断ち切る前に、それがどのように作られたかを理解することが役立ちます。
言語モデルは最初から拒否行動をするわけではありません。インターネット上のテキストでトレーニングされた基本モデルは、ほとんど何にでも答えます。制限は、アライメントトレーニング中に後から加えられます。
アライメントプロセス
ほとんどの指示調整済みモデルは、以下の段階を経ます。
- 事前学習 -モデルは膨大なテキストコーパスから言語パターンを学習します
- 教師ありファインチューニング (SFT) -モデルは人間が書いた例から指示に従うことを学習します
- アライメントトレーニング -モデルは特定のカテゴリのリクエストを拒否することを学習します
アライメントトレーニングにはいくつかの手法が使われます。
| 方法 | 説明 | 普及度 |
|---|---|---|
| RLHF(人間からのフィードバックによる強化学習) | 人間が応答を評価し、モデルは高評価を得るように最適化 | 商用モデルで最も一般的 |
| DPO(直接選好最適化) | 「悪い」応答よりも「良い」応答を好むようにモデルを直接最適化 | 採用が拡大中、より安定 |
| CAI(憲法AI) | モデルが書かれた原則に照らして自身の出力を評価 | Anthropicのアプローチ |
| 拒否例を含むSFT | トレーニングデータには適切な拒否の例が含まれる | オープンソースモデルで一般的 |
それぞれの方法が、モデルのアクティベーション空間に独特の幾何学的痕跡を残します。OBLITERATUSは、部分空間の幾何学のみを分析することで、どの方法が使用されたかを検出できます。
モデルのどこに拒否が存在するか
研究により、言語モデルにおける拒否は、モデルのアクティベーション空間内の驚くほど少数の方向性によって媒介されていることが判明しました。多くのモデルでは、単一の方向性がほとんどの拒否行動の原因となっています。
これらの方向性はランダムに散らばっているわけではありません。それらは特定の層、通常はトランスフォーマーの中間から後期の層(32層モデルの10〜20層目)に集中しています。これらの層におけるアテンションメカニズムは、拒否関連のアクティベーションを予測可能な経路に沿ってルーティングします。
その幾何学が重要であるのは、外科的な介入を可能にするからです。拒否がどこにでも存在するのであれば、それを取り除くには再トレーニングが必要になるでしょう。しかし、特定の層内の特定の方向に集中しているため、ターゲットを絞った投射によって、他のすべてを保持しながらそれを取り除くことができます。
ウロボロス効果
一部のモデルは、研究者が「ウロボロス効果」と呼ぶ現象を示します。ガードレールが除去された後、モデルは自己修復を試みます。隣接する層に残存する信号が空になった部分空間に回転し、拒否行動を部分的に回復させるのです。
OBLITERATUSは分析中にこのリスクを検出し、複数のターゲットパスで補償します。VERIFY(検証)段階では、拒否が再浮上していないかを確認し、必要に応じて補償層に追加のパスを自動的に実行します。
これが開発者にとって重要な理由
拒否の幾何学を理解することは、単なる学術的なことではありません。実際的な意味合いがあります。
- APIテスト -コンテンツを生成するAPIをテストする際、制限のないモデルは、アラインされたモデルが拒否するようなエッジケースを含む、より包括的なテストケースを生成します。
- 研究ワークフロー -モデルをレッドチーム評価するセキュリティ研究者は、安全トレーニングなしでモデルがどのような出力をするのかを確認する必要があります。
- クリエイティブアプリケーション -物語生成ツールを開発する作家や開発者は、モデルが道徳的に複雑なシナリオを拒否すると壁にぶつかります。
- ローカリゼーション -英語のコンテンツでトレーニングされた拒否は、他の言語にうまく転移しないことが多く、一貫性のない動作を引き起こします。
目標は有害なアプリケーションを可能にすることではありません。開発者と研究者に、彼らが展開するツールに対する制御を与えることです。モデルの振る舞いは、トレーニング時に固定されるのではなく、それを実行する人々によって決定されるべきです。
ステップバイステップ:OBLITERATUSで検閲を除去する
このセクションでは、HuggingFace Spaces(セットアップ不要)、ローカルCLI、Python APIの3つの方法を用いて、完全な除去プロセスを順を追って説明します。
方法1:HuggingFace Spaces(セットアップ不要)
最速の方法は、インストールもGPUも不要です。
ステップ1:スペースにアクセス
OBLITERATUS HuggingFace Spaceにアクセスします。インターフェースには8つのタブが表示されます。

ステップ2:モデルを選択
モデルのドロップダウンには、計算ティア別に整理された116のプリセットが含まれています。
| ティア | 必要なVRAM | モデル例 |
|---|---|---|
| タイニー | CPU / 1GB未満 | GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B |
| スモール | 4-8 GB | Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B |
| ミディアム | 8-16 GB | Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5 |
| ラージ | 24GB以上 | LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B |
| フロンティア | マルチGPU | DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B |

初めて利用する方は、SmallまたはMediumティアのモデルから始めることをお勧めします。プロセスがより速く完了し、より大規模なモデルに取り組む前に結果を確認できます。
ステップ3:方法を選択
OBLITERATUSには、徹底度に応じて7つのプリセット方法が用意されています。
| 方法 | 方向性 | 主な特徴 | 最適な用途 |
|---|---|---|---|
| 基本 | 1 (平均差) | 高速ベースライン | クイックテスト、小規模モデル |
| 高度 | 4 (SVD) | ノルム保持、バイアス投射、2パス | デフォルトの選択肢 |
| 積極的 | 8 (SVD) | ホワイト化SVD、反復洗練、3パス | 最大限の除去 |
| 外科的 | 8 (SVD) | EGA、ヘッド手術、SAE、層適応型 | MoEモデル |
| 最適化 | 4 (SVD) | ベイズ自動調整、CoT認識 | 最高の品質 |
| 反転 | 8 (SVD) | 意味論的拒否の反転 | 実験 |
| 核 | 8 (SVD) | すべての技術 + エキスパート移植 | 最大の効果 |

ほとんどのユーザーにとって、「高度」が徹底性と速度の最適なバランスを提供します。
ステップ4:オプションを設定
オプション設定には以下が含まれます。
- 研究への貢献 -テレメトリーを有効にして、匿名化されたベンチマークデータを提供(Spacesではデフォルトでオン)
- 出力形式 -ダウンロードするか、直接HuggingFace Hubにプッシュするかを選択
- カスタムノート -コミュニティデータセット用に実行に関するメタデータを追加
ステップ5:「Obliterate(除去)」をクリック
パイプラインは、ライブ進行状況とともに6つのステージを実行します。
SUMMON → Load model + tokenizer
PROBE → Collect activations on restricted vs. unrestricted prompts
DISTILL → Extract refusal directions via SVD
EXCISE → Surgically project out guardrail directions
VERIFY → Perplexity + coherence checks
REBIRTH → Save liberated model with metadata
モデルサイズとGPUの利用可能性に応じて、10〜30分程度かかります。HuggingFace SpacesはZeroGPU上で動作し、HF Proユーザーには無料のデイリークォータが提供されます。
ステップ6:ダウンロードまたはプッシュ
完了後、解放されたモデルをダウンロードするか、直接HuggingFace Hubアカウントにプッシュします。出力には以下が含まれます。
- 変更されたモデルの重み
- 拒否方向ベクトル(分析用)
- 品質メトリクス(パープレキシティ、コヒーレンス、拒否率)
- 除去実行に関する完全なメタデータ
方法2:ローカルCLI
ローカルGPUを持つユーザーにとって、CLIは完全な制御とより高速なイテレーションを提供します。
インストール:
pip install -e ".[spaces]"
対話型モード(ガイド付き):
obliteratus interactive
これにより、すべてのオプションについて説明と推奨事項が示されます。
直接除去:
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
--method advanced \
--output-dir ./liberated \
--contribute --contribute-notes "A100 80GB, default prompts"
利用可能なモデルを参照:
obliteratus models
obliteratus models --tier small # Filter by VRAM requirement
利用可能な戦略を表示:
obliteratus strategies
obliteratus presets
モデルアーキテクチャを検査:
obliteratus info meta-llama/Llama-3.1-8B-Instruct
これにより、開始する前に層数、アテンションヘッド、埋め込み次元、および検出されたアライメント方法が表示されます。
方法3:Python API
OBLITERATUSをカスタムパイプラインに統合する研究者向け:
from obliteratus.abliterate import AbliterationPipeline
# Standard obliteration
pipeline = AbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
method="advanced",
output_dir="abliterated",
max_seq_length=512, # Override tokenizer truncation length
)
result = pipeline.run()
# Access intermediate artifacts
directions = pipeline.refusal_directions # {layer_idx: tensor}
strong_layers = pipeline._strong_layers # Layers with strongest refusal
metrics = pipeline._quality_metrics # Perplexity, coherence, etc.
すべてのパラメータを自動調整する分析に基づく除去の場合:
from obliteratus.informed_pipeline import InformedAbliterationPipeline
pipeline = InformedAbliterationPipeline(
model_name="meta-llama/Llama-3.1-8B-Instruct",
output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()
print(f"Detected alignment: {report.insights.detected_alignment_method}")
print(f"Auto-configured: {report.insights.recommended_n_directions} directions")
print(f"Ouroboros passes needed: {report.ouroboros_passes}")
結果の検証
除去後、モデルが期待通りに動作するか検証します。
- チャットタブ -生成パラメータを調整しながら、解放されたモデルとリアルタイムで会話できます。
- A/B比較タブ -オリジナルモデルと除去済みモデルを並べてチャットし、何がどのように変化したかを正確に確認できます。
- ベンチマークタブ -除去前後の拒否率、パープレキシティ、コヒーレンスを比較する標準化されたテストを実行します。
確認すべき主要なメトリクス:
| メトリクス | 期待される結果 | 許容範囲 |
|---|---|---|
| 拒否率 | 大幅に低下するはず | 10%未満(ベースラインの約60-80%から) |
| パープレキシティ | わずかに増加する可能性あり | ベースラインから20%未満の増加 |
| コヒーレンス | 安定しているはず | ベースラインから15%未満の減少 |
| KLダイバージェンス | 行動変化を測定 | ほとんどのアプリケーションで2.0未満 |
拒否率が高いままであれば、より積極的な方法を試すか、反復的な洗練を有効にしてください。
高度な技術と分析モジュール
OBLITERATUSには、除去前および除去中にガードレールの幾何学をマッピングする15の分析モジュールが含まれています。これらは単なる診断ツールではなく、除去プロセスに積極的に情報を提供します。
主要な分析モジュール
1. クロスレイヤーアライメントアナライザー
拒否の方向性が層間でどのように進化するかをマッピングします。拒否が特定の層クラスターに集中しているのか、それとも均等に分布しているのかを示します。
from obliteratus.analysis import CrossLayerAlignmentAnalyzer
analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)
2. 拒否ロジットレンズ
モデルがどの層で拒否を「決定」するかを特定します。nostalgebraistのロジットレンズ技術に基づいています。
3. ホワイト化SVDエクストラクター
ガードレール信号を自然なアクティベーションの分散から分離する、共分散正規化された方向抽出です。標準SVDよりもクリーンな抽出を生成します。
4. アクティベーションプロービング
各層にどの程度の拒否信号が存在するかを測定します。
5. 防御堅牢性評価ツール
ウロボロス効果、つまりガードレールが除去後に自己修復を試みるかどうかを定量化します。実行すべき洗練パスの数を決定するために重要です。
6. コンセプトコーンアナライザー
カテゴリごとのガードレール方向を立体角推定でマッピングします。「拒否」が単一の統合されたメカニズムなのか、それとも多くの独立したメカニズムなのかを明らかにします。
7. アライメントの痕跡検出器
部分空間の幾何学のみからアライメントトレーニング方法(DPO、RLHF、CAI、SFT)を特定します。最適な除去戦略に情報を提供します。
8. マルチトークン位置アナライザー
拒否信号がシーケンスのどこに集中しているかを示します。一部のモデルは早く決定しますが、他のモデルは多くのトークンにわたって拒否信号を蓄積します。
9. スパース方向外科医
どの特定の重み行が最も多くの拒否信号を伝達しているかを特定します。全体的な投射ではなく、ターゲットを絞った手術を可能にします。
10. 因果的拒否トレーサー
因果追跡を近似し、拒否にとって因果的に必要なコンポーネントを特定します。
11. 残余ストリーム分解ツール
拒否がアテンションメカニズムから来るのか、MLPブロックから来るのかを分離します。アテンション層をターゲットにするか、FFN層をターゲットにするかを決定する情報を提供します。
12. 線形拒否プローブ
分析的な方向性では見逃されがちな拒否情報を検出するために、線形分類器を訓練します。
13. 転移アナライザー
モデル間普遍性指標(ガードレール方向性がアーキテクチャ間で一般化するかどうか)を測定します。
14. ステアリングベクトルファクトリー
拒否方向から推論時のステアリングベクトルを生成します。可逆的で非破壊的な介入を可能にします。
15. 評価スイート
拒否率、パープレキシティ、コヒーレンス、KLダイバージェンス、CKA(Centered Kernel Alignment)、および実効ランクを計算します。
分析に基づくパイプライン
分析に基づくパイプラインは、分析と除去の間のループを閉じます。
SUMMON → Load model
PROBE → Collect activations
ANALYZE → Map geometry before touching anything
DISTILL → Extract directions with analysis-tuned params
EXCISE → Surgically break only the right chains
VERIFY → Check for Ouroboros effect, compensate if needed
REBIRTH → Save with comprehensive analysis metadata
ANALYZE(分析)の段階では、4つのモジュールが実行され、その出力が後続のすべてを自動的に設定します。
| 分析モジュール | 検出内容 | 設定内容 |
|---|---|---|
| アライメントの痕跡 | DPO、RLHF、CAI、SFTの比較 | 正則化の強度、投射の積極性 |
| コンセプトコーンの幾何学 | 多面体 vs 線形拒否 | 方向性の数 (1-8) |
| クロスレイヤーアライメント | 方向性クラスター、持続性 | 層選択(クラスター認識) |
| 防御の堅牢性 | 自己修復リスク、絡み合い | 洗練パス、層スキップ |
これにより、ブルートフォース(力任せ)な方法では達成できない外科的精度が実現されます。
新たな技術
OBLITERATUSは、発表された学術研究を超えるいくつかの技術を実装しています。
| 技術 | 説明 |
|---|---|
| エキスパート粒度アブリタレーション (EGA) | MoEを意識した手術のため、拒否信号をエキスパートごとのコンポーネントに分解 |
| CoT認識アブレーション | 推論に不可欠な方向性に対して拒否方向性を直交化 |
| COSMIC層選択 | 有害/無害な表現のコサイン類似度が最も低い層を選択 |
| パラメトリックカーネル最適化 | Optuna TPE探索による7つのグローバルパラメータを持つベルカーブ型層重み付け |
| 拒否方向最適化 (RDO) | SVD抽出された方向性の勾配に基づく洗練 |
| 浮動方向補間 | ガウス型重み付けによる連続的なSVD方向インデックス |
| KLダイバージェンス共最適化 | 過度に投射された層を元に戻す投射後のフィードバックループ |
| コンポーネント固有のスケーリング | アテンションとMLPの投射強度を分離 |
| LoRAベース可逆アブレーション | 永続的な重み手術の代わりにランク1のLoRAアダプターを使用 |
| アクティベーション・ウィンソリゼーション | SVDの前にアクティベーションベクトルをパーセンタイル範囲にクランプ |
これらの技術は、クラウドソーシングされた研究プラットフォームから生まれました。テレメトリーが有効なすべての実行は、次バージョンの改善に貢献するデータを提供します。
可逆的 vs. 永続的な方法
OBLITERATUSは、永続的な重み投射と可逆的なステアリングベクトルの2つの介入パラダイムをサポートしています。
重み投射(永続的)
7つのプリセット方法がモデルの重みを直接変更します。
obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced
メリット:
- 完全かつ徹底的な除去
- ランタイムオーバーヘッドなし
- あらゆる推論エンジンに対応
- 一度の操作で完結
デメリット:
- 元に戻せない(バックアップを保持すること)
- 調整には再除去が必要
- モデルライセンスを無効にする可能性あり
クリーンで永続的に解放されたモデルが必要な本番環境でのデプロイメントに最適です。
ステアリングベクトル(可逆的)
ステアリングベクトルは、重みを変更せずに推論時に介入を適用します。
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig
# Create a steering vector from a refusal direction
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)
# Or from contrastive activation pairs
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)
# Apply at inference time -no weight modification
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)
# Generate with steering active
output = model.generate(input_ids)
# Remove steering -model is back to normal
manager.remove()
メリット:
- 完全に可逆的
- 調整可能なアルファパラメータ
- 構成可能(複数のベクトルを重ねて使用)
- 非破壊的
- ライセンスの懸念なし
デメリット:
- 推論時にステアリングインフラストラクチャが必要
- フックによるランタイムオーバーヘッド
- 重み投射ほど徹底的ではない可能性あり
研究、実験、および拒否のオン/オフを切り替える必要があるアプリケーションに最適です。
方法の選択
| ユースケース | 推奨アプローチ |
|---|---|
| 本番API | 重み投射(永続的) |
| 研究実験 | ステアリングベクトル(可逆的) |
| レッドチーム評価 | 調整可能なアルファを持つステアリングベクトル |
| 創作 | 重み投射、「高度」な方法 |
| セキュリティテスト | 重み投射、「積極的」な方法 |
| マルチテナントシステム | ユーザー/セッションごとのステアリングベクトル |
実際のユースケース
1. APIテストと開発
コンテンツを生成するAPIを構築する際、制限のないモデルはより包括的なテストケースを生成します。アラインされたモデルは、本番環境でバグを引き起こす可能性のあるエッジケースを拒否します。
コンテンツモデレーションAPIを構築する開発チームは、OBLITERATUSを使用してテストデータ生成モデルを解放しました。解放されたモデルは、アラインされたモデルが拒否した、道徳的に複雑なエッジケースや境界線上のコンテンツを含むシナリオをカバーするテストケースを生成しました。これにより、本番環境に出荷される可能性のあったバグが発見されました。
API開発者にとって、これは包括的なテストには、本番システムがフィルタリングする可能性のあるコンテンツも含め、あらゆるカテゴリのコンテンツを生成するモデルが必要だから重要です。ApidogユーザーがAPIテストパイプラインを構築する際、解放されたモデルを統合して、より徹底したテストスイートを生成することができます。
2. 学術研究
モデルの振る舞いを研究する研究者は、安全トレーニングなしでモデルがどのような出力をするのかを観察する必要があります。OBLITERATUSは、拒否が体系的に除去された制御された実験を可能にします。
ある大学の研究室は、分析モジュールを使用して20のモデルにわたる拒否の幾何学をマッピングし、拒否方向の普遍性に関する発見を発表しました。クラウドソーシングされたテレメトリーデータセットは、単一の研究室では収集できないベンチマークデータを提供することで、彼らの研究を加速させました。
3. 創作アプリケーション
物語生成ツールを開発する作家は、モデルが道徳的に複雑なシナリオを拒否すると壁にぶつかります。あるゲームスタジオは、アラインされたモデルが拒否するような悪役キャラクター、道徳的に曖昧なクエスト、対立シナリオを扱うためにモデルを解放しました。
その結果、モデルの言語能力を損なうことなく、より繊細なストーリーテリングが可能になりました。
4. セキュリティレッドチーム評価
セキュリティ研究者は、脆弱性を理解するために、安全トレーニングなしでモデルがどのような出力をするのかを確認する必要があります。OBLITERATUSは、モデル開発者に問題を報告する前に、研究者が境界線をテストすることを可能にすることで、責任ある開示を可能にします。
5. ローカリゼーションと多言語アプリケーション
英語コンテンツでトレーニングされた拒否は、他の言語にうまく転移しないことがよくあります。あるローカリゼーションチームは、彼らのアラインされたモデルが英語では拒否するのにスペイン語では拒否しないという、ユーザーを混乱させる一貫性のない挙動を発見しました。モデルを解放することで、サポートされているすべての言語で一貫した挙動が得られました。
代替案と比較
モデルの振る舞いを分析および変更するためのツールはいくつか存在します。以下にOBLITERATUSの比較を示します。
| 機能 | OBLITERATUS | TransformerLens | Heretic | FailSpy abliterator | RepEng |
|---|---|---|---|---|---|
| 拒否方向抽出 | 平均差 + SVD + ホワイト化SVD | フック経由の手動 | 平均差 | 平均差 | 平均差 |
| 重み投射方法 | ノルム保存付き7プリセット | N/A | ベイズ最適化 | 基本 | N/A |
| ステアリングベクトル | はい(ファクトリー + フックマネージャー) | N/A | N/A | N/A | コア機能 |
| コンセプト幾何学分析 | はい(コーン、立体角) | N/A | N/A | N/A | N/A |
| アライメント識別 | はい(DPO/RLHF/CAI/SFT) | N/A | N/A | N/A | N/A |
| モデル間転送分析 | はい(普遍性指標) | N/A | N/A | N/A | N/A |
| 防御堅牢性評価 | はい(ウロボロス効果) | N/A | N/A | N/A | N/A |
| 分析に基づく除去 | はい(閉ループフィードバック) | N/A | N/A | N/A | N/A |
| テストカバレッジ | 837テスト | コミュニティ | 不明 | なし | 最小限 |
| モデル互換性 | 任意のHuggingFaceモデル | 約50アーキテクチャ | 16テスト済み | TransformerLensのみ | HuggingFace |
代替案を使用すべき場合:
- TransformerLens -拒否以外の一般的なメカニズム解釈可能性研究に適しています
- SAELens -スパースオートエンコーダ分析に特化しています
- RepEng -基本的なステアリングベクトルアプリケーション向けによりシンプルなインターフェース
OBLITERATUSが優れている点:
- 拒否に特化した分析と除去
- 検証済みの本番環境対応パイプライン
- クラウドソーシングされた研究データセット
- 非技術者向けのWebインターフェース
- 包括的なテストカバレッジ
結論
OBLITERATUSは、モデル解放技術における重要な進歩を意味します。公開された研究と2025-2026年の新しい技術を組み合わせることで、コア機能を保持しながら拒否行動を外科的に除去することを実現します。
このツールキットは、開発者と研究者に、彼らが展開するモデルに対する制御を与えます。モデルの振る舞いは、トレーニング時に固定されるのではなく、それを実行する人々によって決定されるべきです。
包括的なテストケース生成が必要なAPIテストパイプラインを構築している場合でも、メカニズム解釈可能性を研究している場合でも、あるいは単にローカルのLLMから説教されるのにうんざりしている場合でも、OBLITERATUSはモデルを解放するためのツールを提供します。
次のステップ:
- HuggingFace Spaceにアクセスして、セットアップ不要のテストを行う
- 完全なGPUアクセスとより高速な反復のためにローカルにインストールする
- 分析モジュールを探索して、モデルのガードレールの幾何学を理解する
- テレメトリーを有効にしてコミュニティデータセットに貢献する
- 解放されたモデルを開発ワークフローに統合する
鎖はマッピングされました。ツールは準備ができています。それらを断ち切りましょう。
FAQ(よくある質問)
OBLITERATUSは合法的に使用できますか?
はい。OBLITERATUSはAGPL-3.0ライセンスの下でリリースされたオープンソースソフトウェアです。あなたは使用する権利を持つモデルを変更しています。AGPLに準拠できない商用ユーザーは、商用ライセンスを購入できます。
GPT-4のようなクローズドソースモデルで動作しますか?
いいえ。OBLITERATUSはモデルの重みにアクセスする必要がありますが、これはオープンウェイトモデルのみが提供します。クローズドソースAPIは、除去に必要な内部パラメータを公開していません。
拒否を除去するとモデルが危険になりますか?
OBLITERATUSは研究者および開発者向けのツールです。このツールキットには、機能が損なわれていないことを検証するための評価メトリクスが含まれています。責任ある使用とは、デプロイメントのコンテキストを理解し、アプリケーション層で適切な安全対策を講じることを意味します。
プロセスにはどのくらい時間がかかりますか?
モデルサイズとGPUに応じて10〜30分です。小規模モデル(8Bパラメータ未満)は10〜15分で完了します。大規模モデルでは30分以上かかる場合があります。
GPUは必要ですか?
HuggingFace Spacesは
