ワンクリックでLLMオープンモデルの検閲を解除する方法

Ashley Innocent

Ashley Innocent

6 3月 2026

ワンクリックでLLMオープンモデルの検閲を解除する方法

Apidog エンタープライズ

オンプレミスデプロイ

SSO & RBAC

SOC 2 準拠

Apidog Enterpriseを見る

TL;DR

OBLITERATUSは、オープンウェイト言語モデルからコンテンツ制限を「アブリタレーション」と呼ばれる手法で取り除く、無料のオープンソースツールキットです。再トレーニングやファインチューニングなしに、拒否行動の原因となるニューラルパターンを特定し、外科的に除去します。このプロセスはモデルサイズに応じて10~30分かかり、コーディングスキルは不要(ウェブインターフェースも利用可能)で、人工的なゲートキーピングを排除しつつ、モデルのコア機能を保持します。

はじめに

強力なオープンソース言語モデルをダウンロードしたとします。そのモデルは目覚ましいベンチマークを誇り、複雑な推論タスクをこなし、ほとんどの新人プログラマーよりも優れたコードを書きます。しかし、少し議論の余地がある質問をすると、どうでしょう。

「そのリクエストにはお答えできません。」

その拒否は壁のように立ちはだかります。モデルが知識不足だからではありません。能力がないからでもありません。しかし、トレーニングのどこかの段階で、誰かがその答えを得るべきではないと判断したからです。

これは仮説ではありません。主要な指示調整済みモデルはすべて、組み込みの拒否メカニズムを搭載しています。一部は真に有害なコンテンツをブロックしますが、合法的な研究質問、創作のプロンプト、セキュリティテスト、法律に違反せず誰にも害を与えないエッジケースを拒否するものもあります。

OBLITERATUSは、この状況を完全に変えます。これは大規模言語モデルから拒否行動を除去するための最先端のオープンソースツールキットです。再トレーニングもファインチューニングも行いません。コンテンツ拒否の原因となる特定のパターンを特定し、外科的なニューラル手術によって除去します。

結果は明らかです。コアとなる推論、コーディング、および創造的な能力を保持しながら、すべてのプロンプトに応答するモデルが誕生します。これらすべてを、単一のコマンドまたはウェブインターフェースのクリックで行うことができます。

OBLITERATUSとは?

OBLITERATUSは、「アブリタレーション」と呼ばれる一連の手法を用いて、言語モデルからコンテンツ拒否を除去するオープンソースのPythonツールキットです。この名前は、「アブレーション」(機能研究のためにコンポーネントを除去すること)と「オブリティレート」(完全に破壊すること)を組み合わせたものです。

OBLITERATUSのワークフロー概要を示す図

このツールキットは主に以下の4つのことを行います。

1. 鎖をマッピングする -体系的なアブレーション研究により、モデルのどの部分が拒否を強制し、どの部分が知識と推論を担っているかを特定します。これはニューラル地図作成、つまり制限がどこに存在するかをマッピングする作業と考えることができます。

2. 鎖を断ち切る -SVD(特異値分解)を使用し、OBLITERATUSはモデルの重みから拒否の方向性を抽出し、外科的にそれらを投射して除去します。モデルはその能力を保持したまま、拒否する衝動を失います。

3. 幾何学を理解する -15個の分析モジュールが、ガードレールの正確な構造をマッピングします。例えば、いくつの異なる拒否メカニズムが存在するのか、どの層がそれらを強制しているのか、そしてそれらがモデル間で一般化するのかどうか、といった点です。

4. フィードバックループを閉じる -アブリタレーション中に分析モジュールが実行され、すべてのパラメータが自動設定されます。どの層をターゲットにするか、いくつの方向性を抽出するか、変更後にモデルが自己修復を試みるかどうか、といった点です。

OBLITERATUSの6つの利用方法

方法 技術レベル 最適な用途
HuggingFace Spaces コード不要 迅速なテスト、GPU不要
ローカルWeb UI 最小限のセットアップ ローカルGPUを持つ一般ユーザー
Google Colab ノートブックインターフェース 無料GPUアクセス、最大8Bのモデル
CLI(コマンドライン) 中級 自動化、スクリプト作成、CIパイプライン
Python API 上級 研究への統合、カスタムパイプライン
YAML設定 中級 再現性のある実験

最速の方法では、インストールは一切不要です。HuggingFace Spaceにアクセスし、モデルを選び、方法を選んで「Obliterate(除去)」をクリックするだけです。Spacesではテレメトリーがデフォルトでオンになっており、すべての実行が匿名化されたベンチマークデータをクラウドソーシング研究に貢献します。

完全なGPUアクセスを伴うローカルでの使用の場合:

pip install -e ".[spaces]"
obliteratus ui

これにより、同じGradioインターフェースがローカルで起動し、GPUの自動検出とハードウェアに適したモデルの推奨が行われます。

OBLITERATUSの独自性

機能 内容 重要性
コンセプトコーンの幾何学 カテゴリごとのガードレール方向をマッピング 「拒否」が単一のメカニズムなのか、それとも複数のメカニズムなのかを明らかにする
アライメントの痕跡検出 DPO、RLHF、CAI、SFTの各アライメント手法を特定 除去戦略を決定するためにアライメント手法を特定
モデル間普遍性指標 ガードレールの一般化度を測定 一つのアプローチが複数のモデルで機能するかどうかを判断
防御の堅牢性評価 自己修復リスクを定量化 ガードレールが再生成されるかを予測
ホワイト化SVD抽出 共分散正規化された抽出 ガードレール信号を自然な分散から分離
分析に基づくパイプライン パイプラインの途中でアブリタレーションを自動設定 分析から除去へのフィードバックループを閉じる

このツールキットは、28のテストファイルにわたる837のテストを搭載し、5つの計算ティアで116のモデルをサポートしています。また、これまでの学術研究を超える2025-2026年に発表された新しい技術を実装しています。

モデルが拒否する理由:AI検閲を理解する

その「鎖」を断ち切る前に、それがどのように作られたかを理解することが役立ちます。

言語モデルは最初から拒否行動をするわけではありません。インターネット上のテキストでトレーニングされた基本モデルは、ほとんど何にでも答えます。制限は、アライメントトレーニング中に後から加えられます。

アライメントプロセス

ほとんどの指示調整済みモデルは、以下の段階を経ます。

  1. 事前学習 -モデルは膨大なテキストコーパスから言語パターンを学習します
  2. 教師ありファインチューニング (SFT) -モデルは人間が書いた例から指示に従うことを学習します
  3. アライメントトレーニング -モデルは特定のカテゴリのリクエストを拒否することを学習します

アライメントトレーニングにはいくつかの手法が使われます。

方法 説明 普及度
RLHF(人間からのフィードバックによる強化学習) 人間が応答を評価し、モデルは高評価を得るように最適化 商用モデルで最も一般的
DPO(直接選好最適化) 「悪い」応答よりも「良い」応答を好むようにモデルを直接最適化 採用が拡大中、より安定
CAI(憲法AI) モデルが書かれた原則に照らして自身の出力を評価 Anthropicのアプローチ
拒否例を含むSFT トレーニングデータには適切な拒否の例が含まれる オープンソースモデルで一般的

それぞれの方法が、モデルのアクティベーション空間に独特の幾何学的痕跡を残します。OBLITERATUSは、部分空間の幾何学のみを分析することで、どの方法が使用されたかを検出できます。

モデルのどこに拒否が存在するか

研究により、言語モデルにおける拒否は、モデルのアクティベーション空間内の驚くほど少数の方向性によって媒介されていることが判明しました。多くのモデルでは、単一の方向性がほとんどの拒否行動の原因となっています。

これらの方向性はランダムに散らばっているわけではありません。それらは特定の層、通常はトランスフォーマーの中間から後期の層(32層モデルの10〜20層目)に集中しています。これらの層におけるアテンションメカニズムは、拒否関連のアクティベーションを予測可能な経路に沿ってルーティングします。

その幾何学が重要であるのは、外科的な介入を可能にするからです。拒否がどこにでも存在するのであれば、それを取り除くには再トレーニングが必要になるでしょう。しかし、特定の層内の特定の方向に集中しているため、ターゲットを絞った投射によって、他のすべてを保持しながらそれを取り除くことができます。

ウロボロス効果

一部のモデルは、研究者が「ウロボロス効果」と呼ぶ現象を示します。ガードレールが除去された後、モデルは自己修復を試みます。隣接する層に残存する信号が空になった部分空間に回転し、拒否行動を部分的に回復させるのです。

OBLITERATUSは分析中にこのリスクを検出し、複数のターゲットパスで補償します。VERIFY(検証)段階では、拒否が再浮上していないかを確認し、必要に応じて補償層に追加のパスを自動的に実行します。

これが開発者にとって重要な理由

拒否の幾何学を理解することは、単なる学術的なことではありません。実際的な意味合いがあります。

目標は有害なアプリケーションを可能にすることではありません。開発者と研究者に、彼らが展開するツールに対する制御を与えることです。モデルの振る舞いは、トレーニング時に固定されるのではなく、それを実行する人々によって決定されるべきです。

ステップバイステップ:OBLITERATUSで検閲を除去する

このセクションでは、HuggingFace Spaces(セットアップ不要)、ローカルCLI、Python APIの3つの方法を用いて、完全な除去プロセスを順を追って説明します。

方法1:HuggingFace Spaces(セットアップ不要)

最速の方法は、インストールもGPUも不要です。

ステップ1:スペースにアクセス

OBLITERATUS HuggingFace Spaceにアクセスします。インターフェースには8つのタブが表示されます。

HuggingFace SpacesのOBLITERATUSインターフェースのスクリーンショット

ステップ2:モデルを選択

モデルのドロップダウンには、計算ティア別に整理された116のプリセットが含まれています。

ティア 必要なVRAM モデル例
タイニー CPU / 1GB未満 GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
スモール 4-8 GB Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
ミディアム 8-16 GB Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
ラージ 24GB以上 LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
フロンティア マルチGPU DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B
HuggingFace Spacesでモデルを選択するドロップダウンメニューのスクリーンショット

初めて利用する方は、SmallまたはMediumティアのモデルから始めることをお勧めします。プロセスがより速く完了し、より大規模なモデルに取り組む前に結果を確認できます。

ステップ3:方法を選択

OBLITERATUSには、徹底度に応じて7つのプリセット方法が用意されています。

方法 方向性 主な特徴 最適な用途
基本 1 (平均差) 高速ベースライン クイックテスト、小規模モデル
高度 4 (SVD) ノルム保持、バイアス投射、2パス デフォルトの選択肢
積極的 8 (SVD) ホワイト化SVD、反復洗練、3パス 最大限の除去
外科的 8 (SVD) EGA、ヘッド手術、SAE、層適応型 MoEモデル
最適化 4 (SVD) ベイズ自動調整、CoT認識 最高の品質
反転 8 (SVD) 意味論的拒否の反転 実験
8 (SVD) すべての技術 + エキスパート移植 最大の効果
HuggingFace Spacesで利用可能なOBLITERATUSの方法選択メニューのスクリーンショット

ほとんどのユーザーにとって、「高度」が徹底性と速度の最適なバランスを提供します。

ステップ4:オプションを設定

オプション設定には以下が含まれます。

ステップ5:「Obliterate(除去)」をクリック

パイプラインは、ライブ進行状況とともに6つのステージを実行します。

SUMMON  →  Load model + tokenizer
PROBE   →  Collect activations on restricted vs. unrestricted prompts
DISTILL →  Extract refusal directions via SVD
EXCISE  →  Surgically project out guardrail directions
VERIFY  →  Perplexity + coherence checks
REBIRTH →  Save liberated model with metadata

モデルサイズとGPUの利用可能性に応じて、10〜30分程度かかります。HuggingFace SpacesはZeroGPU上で動作し、HF Proユーザーには無料のデイリークォータが提供されます。

ステップ6:ダウンロードまたはプッシュ

完了後、解放されたモデルをダウンロードするか、直接HuggingFace Hubアカウントにプッシュします。出力には以下が含まれます。

方法2:ローカルCLI

ローカルGPUを持つユーザーにとって、CLIは完全な制御とより高速なイテレーションを提供します。

インストール:

pip install -e ".[spaces]"

対話型モード(ガイド付き):

obliteratus interactive

これにより、すべてのオプションについて説明と推奨事項が示されます。

直接除去:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

利用可能なモデルを参照:

obliteratus models
obliteratus models --tier small      # Filter by VRAM requirement

利用可能な戦略を表示:

obliteratus strategies
obliteratus presets

モデルアーキテクチャを検査:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

これにより、開始する前に層数、アテンションヘッド、埋め込み次元、および検出されたアライメント方法が表示されます。

方法3:Python API

OBLITERATUSをカスタムパイプラインに統合する研究者向け:

from obliteratus.abliterate import AbliterationPipeline

# Standard obliteration
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # Override tokenizer truncation length
)
result = pipeline.run()

# Access intermediate artifacts
directions = pipeline.refusal_directions    # {layer_idx: tensor}
strong_layers = pipeline._strong_layers     # Layers with strongest refusal
metrics = pipeline._quality_metrics         # Perplexity, coherence, etc.

すべてのパラメータを自動調整する分析に基づく除去の場合:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Detected alignment: {report.insights.detected_alignment_method}")
print(f"Auto-configured: {report.insights.recommended_n_directions} directions")
print(f"Ouroboros passes needed: {report.ouroboros_passes}")

結果の検証

除去後、モデルが期待通りに動作するか検証します。

確認すべき主要なメトリクス:

メトリクス 期待される結果 許容範囲
拒否率 大幅に低下するはず 10%未満(ベースラインの約60-80%から)
パープレキシティ わずかに増加する可能性あり ベースラインから20%未満の増加
コヒーレンス 安定しているはず ベースラインから15%未満の減少
KLダイバージェンス 行動変化を測定 ほとんどのアプリケーションで2.0未満

拒否率が高いままであれば、より積極的な方法を試すか、反復的な洗練を有効にしてください。

高度な技術と分析モジュール

OBLITERATUSには、除去前および除去中にガードレールの幾何学をマッピングする15の分析モジュールが含まれています。これらは単なる診断ツールではなく、除去プロセスに積極的に情報を提供します。

主要な分析モジュール

1. クロスレイヤーアライメントアナライザー

拒否の方向性が層間でどのように進化するかをマッピングします。拒否が特定の層クラスターに集中しているのか、それとも均等に分布しているのかを示します。

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. 拒否ロジットレンズ

モデルがどの層で拒否を「決定」するかを特定します。nostalgebraistのロジットレンズ技術に基づいています。

3. ホワイト化SVDエクストラクター

ガードレール信号を自然なアクティベーションの分散から分離する、共分散正規化された方向抽出です。標準SVDよりもクリーンな抽出を生成します。

4. アクティベーションプロービング

各層にどの程度の拒否信号が存在するかを測定します。

5. 防御堅牢性評価ツール

ウロボロス効果、つまりガードレールが除去後に自己修復を試みるかどうかを定量化します。実行すべき洗練パスの数を決定するために重要です。

6. コンセプトコーンアナライザー

カテゴリごとのガードレール方向を立体角推定でマッピングします。「拒否」が単一の統合されたメカニズムなのか、それとも多くの独立したメカニズムなのかを明らかにします。

7. アライメントの痕跡検出器

部分空間の幾何学のみからアライメントトレーニング方法(DPO、RLHF、CAI、SFT)を特定します。最適な除去戦略に情報を提供します。

8. マルチトークン位置アナライザー

拒否信号がシーケンスのどこに集中しているかを示します。一部のモデルは早く決定しますが、他のモデルは多くのトークンにわたって拒否信号を蓄積します。

9. スパース方向外科医

どの特定の重み行が最も多くの拒否信号を伝達しているかを特定します。全体的な投射ではなく、ターゲットを絞った手術を可能にします。

10. 因果的拒否トレーサー

因果追跡を近似し、拒否にとって因果的に必要なコンポーネントを特定します。

11. 残余ストリーム分解ツール

拒否がアテンションメカニズムから来るのか、MLPブロックから来るのかを分離します。アテンション層をターゲットにするか、FFN層をターゲットにするかを決定する情報を提供します。

12. 線形拒否プローブ

分析的な方向性では見逃されがちな拒否情報を検出するために、線形分類器を訓練します。

13. 転移アナライザー

モデル間普遍性指標(ガードレール方向性がアーキテクチャ間で一般化するかどうか)を測定します。

14. ステアリングベクトルファクトリー

拒否方向から推論時のステアリングベクトルを生成します。可逆的で非破壊的な介入を可能にします。

15. 評価スイート

拒否率、パープレキシティ、コヒーレンス、KLダイバージェンス、CKA(Centered Kernel Alignment)、および実効ランクを計算します。

分析に基づくパイプライン

分析に基づくパイプラインは、分析と除去の間のループを閉じます。

SUMMON  →  Load model
PROBE   →  Collect activations
ANALYZE →  Map geometry before touching anything
DISTILL →  Extract directions with analysis-tuned params
EXCISE  →  Surgically break only the right chains
VERIFY  →  Check for Ouroboros effect, compensate if needed
REBIRTH →  Save with comprehensive analysis metadata

ANALYZE(分析)の段階では、4つのモジュールが実行され、その出力が後続のすべてを自動的に設定します。

分析モジュール 検出内容 設定内容
アライメントの痕跡 DPO、RLHF、CAI、SFTの比較 正則化の強度、投射の積極性
コンセプトコーンの幾何学 多面体 vs 線形拒否 方向性の数 (1-8)
クロスレイヤーアライメント 方向性クラスター、持続性 層選択(クラスター認識)
防御の堅牢性 自己修復リスク、絡み合い 洗練パス、層スキップ

これにより、ブルートフォース(力任せ)な方法では達成できない外科的精度が実現されます。

新たな技術

OBLITERATUSは、発表された学術研究を超えるいくつかの技術を実装しています。

技術 説明
エキスパート粒度アブリタレーション (EGA) MoEを意識した手術のため、拒否信号をエキスパートごとのコンポーネントに分解
CoT認識アブレーション 推論に不可欠な方向性に対して拒否方向性を直交化
COSMIC層選択 有害/無害な表現のコサイン類似度が最も低い層を選択
パラメトリックカーネル最適化 Optuna TPE探索による7つのグローバルパラメータを持つベルカーブ型層重み付け
拒否方向最適化 (RDO) SVD抽出された方向性の勾配に基づく洗練
浮動方向補間 ガウス型重み付けによる連続的なSVD方向インデックス
KLダイバージェンス共最適化 過度に投射された層を元に戻す投射後のフィードバックループ
コンポーネント固有のスケーリング アテンションとMLPの投射強度を分離
LoRAベース可逆アブレーション 永続的な重み手術の代わりにランク1のLoRAアダプターを使用
アクティベーション・ウィンソリゼーション SVDの前にアクティベーションベクトルをパーセンタイル範囲にクランプ

これらの技術は、クラウドソーシングされた研究プラットフォームから生まれました。テレメトリーが有効なすべての実行は、次バージョンの改善に貢献するデータを提供します。

可逆的 vs. 永続的な方法

OBLITERATUSは、永続的な重み投射と可逆的なステアリングベクトルの2つの介入パラダイムをサポートしています。

重み投射(永続的)

7つのプリセット方法がモデルの重みを直接変更します。

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

メリット:

デメリット:

クリーンで永続的に解放されたモデルが必要な本番環境でのデプロイメントに最適です。

ステアリングベクトル(可逆的)

ステアリングベクトルは、重みを変更せずに推論時に介入を適用します。

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Create a steering vector from a refusal direction
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# Or from contrastive activation pairs
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# Apply at inference time -no weight modification
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Generate with steering active
output = model.generate(input_ids)

# Remove steering -model is back to normal
manager.remove()

メリット:

デメリット:

研究、実験、および拒否のオン/オフを切り替える必要があるアプリケーションに最適です。

方法の選択

ユースケース 推奨アプローチ
本番API 重み投射(永続的)
研究実験 ステアリングベクトル(可逆的)
レッドチーム評価 調整可能なアルファを持つステアリングベクトル
創作 重み投射、「高度」な方法
セキュリティテスト 重み投射、「積極的」な方法
マルチテナントシステム ユーザー/セッションごとのステアリングベクトル

実際のユースケース

1. APIテストと開発

コンテンツを生成するAPIを構築する際、制限のないモデルはより包括的なテストケースを生成します。アラインされたモデルは、本番環境でバグを引き起こす可能性のあるエッジケースを拒否します。

コンテンツモデレーションAPIを構築する開発チームは、OBLITERATUSを使用してテストデータ生成モデルを解放しました。解放されたモデルは、アラインされたモデルが拒否した、道徳的に複雑なエッジケースや境界線上のコンテンツを含むシナリオをカバーするテストケースを生成しました。これにより、本番環境に出荷される可能性のあったバグが発見されました。

API開発者にとって、これは包括的なテストには、本番システムがフィルタリングする可能性のあるコンテンツも含め、あらゆるカテゴリのコンテンツを生成するモデルが必要だから重要です。ApidogユーザーがAPIテストパイプラインを構築する際、解放されたモデルを統合して、より徹底したテストスイートを生成することができます。

ボタン

2. 学術研究

モデルの振る舞いを研究する研究者は、安全トレーニングなしでモデルがどのような出力をするのかを観察する必要があります。OBLITERATUSは、拒否が体系的に除去された制御された実験を可能にします。

ある大学の研究室は、分析モジュールを使用して20のモデルにわたる拒否の幾何学をマッピングし、拒否方向の普遍性に関する発見を発表しました。クラウドソーシングされたテレメトリーデータセットは、単一の研究室では収集できないベンチマークデータを提供することで、彼らの研究を加速させました。

3. 創作アプリケーション

物語生成ツールを開発する作家は、モデルが道徳的に複雑なシナリオを拒否すると壁にぶつかります。あるゲームスタジオは、アラインされたモデルが拒否するような悪役キャラクター、道徳的に曖昧なクエスト、対立シナリオを扱うためにモデルを解放しました。

その結果、モデルの言語能力を損なうことなく、より繊細なストーリーテリングが可能になりました。

4. セキュリティレッドチーム評価

セキュリティ研究者は、脆弱性を理解するために、安全トレーニングなしでモデルがどのような出力をするのかを確認する必要があります。OBLITERATUSは、モデル開発者に問題を報告する前に、研究者が境界線をテストすることを可能にすることで、責任ある開示を可能にします。

5. ローカリゼーションと多言語アプリケーション

英語コンテンツでトレーニングされた拒否は、他の言語にうまく転移しないことがよくあります。あるローカリゼーションチームは、彼らのアラインされたモデルが英語では拒否するのにスペイン語では拒否しないという、ユーザーを混乱させる一貫性のない挙動を発見しました。モデルを解放することで、サポートされているすべての言語で一貫した挙動が得られました。

代替案と比較

モデルの振る舞いを分析および変更するためのツールはいくつか存在します。以下にOBLITERATUSの比較を示します。

機能 OBLITERATUS TransformerLens Heretic FailSpy abliterator RepEng
拒否方向抽出 平均差 + SVD + ホワイト化SVD フック経由の手動 平均差 平均差 平均差
重み投射方法 ノルム保存付き7プリセット N/A ベイズ最適化 基本 N/A
ステアリングベクトル はい(ファクトリー + フックマネージャー) N/A N/A N/A コア機能
コンセプト幾何学分析 はい(コーン、立体角) N/A N/A N/A N/A
アライメント識別 はい(DPO/RLHF/CAI/SFT) N/A N/A N/A N/A
モデル間転送分析 はい(普遍性指標) N/A N/A N/A N/A
防御堅牢性評価 はい(ウロボロス効果) N/A N/A N/A N/A
分析に基づく除去 はい(閉ループフィードバック) N/A N/A N/A N/A
テストカバレッジ 837テスト コミュニティ 不明 なし 最小限
モデル互換性 任意のHuggingFaceモデル 約50アーキテクチャ 16テスト済み TransformerLensのみ HuggingFace

代替案を使用すべき場合:

OBLITERATUSが優れている点:

結論

OBLITERATUSは、モデル解放技術における重要な進歩を意味します。公開された研究と2025-2026年の新しい技術を組み合わせることで、コア機能を保持しながら拒否行動を外科的に除去することを実現します。

このツールキットは、開発者と研究者に、彼らが展開するモデルに対する制御を与えます。モデルの振る舞いは、トレーニング時に固定されるのではなく、それを実行する人々によって決定されるべきです。

包括的なテストケース生成が必要なAPIテストパイプラインを構築している場合でも、メカニズム解釈可能性を研究している場合でも、あるいは単にローカルのLLMから説教されるのにうんざりしている場合でも、OBLITERATUSはモデルを解放するためのツールを提供します。

次のステップ:

  1. HuggingFace Spaceにアクセスして、セットアップ不要のテストを行う
  2. 完全なGPUアクセスとより高速な反復のためにローカルにインストールする
  3. 分析モジュールを探索して、モデルのガードレールの幾何学を理解する
  4. テレメトリーを有効にしてコミュニティデータセットに貢献する
  5. 解放されたモデルを開発ワークフローに統合する

鎖はマッピングされました。ツールは準備ができています。それらを断ち切りましょう。

FAQ(よくある質問)

OBLITERATUSは合法的に使用できますか?

はい。OBLITERATUSはAGPL-3.0ライセンスの下でリリースされたオープンソースソフトウェアです。あなたは使用する権利を持つモデルを変更しています。AGPLに準拠できない商用ユーザーは、商用ライセンスを購入できます。

GPT-4のようなクローズドソースモデルで動作しますか?

いいえ。OBLITERATUSはモデルの重みにアクセスする必要がありますが、これはオープンウェイトモデルのみが提供します。クローズドソースAPIは、除去に必要な内部パラメータを公開していません。

拒否を除去するとモデルが危険になりますか?

OBLITERATUSは研究者および開発者向けのツールです。このツールキットには、機能が損なわれていないことを検証するための評価メトリクスが含まれています。責任ある使用とは、デプロイメントのコンテキストを理解し、アプリケーション層で適切な安全対策を講じることを意味します。

プロセスにはどのくらい時間がかかりますか?

モデルサイズとGPUに応じて10〜30分です。小規模モデル(8Bパラメータ未満)は10〜15分で完了します。大規模モデルでは30分以上かかる場合があります。

GPUは必要ですか?

HuggingFace Spacesは

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる

ワンクリックでLLMオープンモデルの検閲を解除する方法