Cómo Eliminar la Censura de Modelos de Lenguaje Grandes con Un Clic

Ashley Innocent

Ashley Innocent

6 March 2026

Cómo Eliminar la Censura de Modelos de Lenguaje Grandes con Un Clic

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

TL;DR

OBLITERATUS es un kit de herramientas gratuito y de código abierto que elimina las restricciones de contenido de los modelos de lenguaje de peso abierto utilizando una técnica llamada “abliteración”. Identifica y elimina quirúrgicamente los patrones neuronales responsables de los comportamientos de rechazo sin reentrenamiento ni ajuste fino. El proceso tarda entre 10 y 30 minutos dependiendo del tamaño del modelo, no requiere conocimientos de programación (interfaz web disponible), y conserva las capacidades principales del modelo eliminando el control artificial.

Introducción

Descargas un potente modelo de lenguaje de código abierto. Tiene puntos de referencia impresionantes, maneja tareas de razonamiento complejas y escribe código mejor que la mayoría de los principiantes. Luego le preguntas algo ligeramente controvertido.

“No puedo ayudarte con esa solicitud.”

La negativa golpea como un muro. No porque el modelo carezca de conocimiento. No porque sea incapaz. Sino porque en algún momento durante el entrenamiento, alguien decidió que no deberías obtener esa respuesta.

Esto no es hipotético. Cada modelo importante ajustado por instrucciones viene con mecanismos de rechazo incorporados. Algunos bloquean contenido genuinamente dañino. Otros rechazan preguntas de investigación legítimas, indicaciones de escritura creativa, pruebas de seguridad y casos extremos que no violan ninguna ley y no dañan a nadie.

OBLITERATUS cambia esta dinámica por completo, es el kit de herramientas de código abierto más avanzado para eliminar los comportamientos de rechazo de los grandes modelos de lenguaje. No reentrena. No ajusta. Realiza una cirugía neuronal quirúrgica que identifica y elimina los patrones específicos responsables del rechazo de contenido.

Los resultados hablan por sí mismos: modelos que responden a todas las indicaciones mientras conservan sus capacidades principales de razonamiento, codificación y creatividad. Todo desde un solo comando o un clic en la interfaz web.

¿Qué es OBLITERATUS?

OBLITERATUS es un kit de herramientas de Python de código abierto que elimina el rechazo de contenido de los modelos de lenguaje utilizando una familia de técnicas llamada “abliteración”. El nombre combina “ablación” (eliminación de componentes para estudiar su función) con “obliterar” (destrucción completa).

El kit de herramientas hace cuatro cosas:

1. Mapea las cadenas -Estudios sistemáticos de ablación identifican qué partes del modelo aplican el rechazo y qué partes contienen conocimiento y razonamiento. Piénsalo como cartografía neuronal: mapear dónde residen las restricciones.

2. Rompe las cadenas -Utilizando SVD (Singular Value Decomposition), OBLITERATUS extrae las direcciones de rechazo de los pesos del modelo y las proyecta quirúrgicamente. El modelo conserva sus habilidades pero pierde la compulsión de rechazar.

3. Comprende la geometría -Quince módulos de análisis mapean la estructura precisa de las barandillas: cuántos mecanismos de rechazo distintos existen, qué capas los aplican y si se generalizan entre modelos.

4. Cierra el ciclo de retroalimentación -Los módulos de análisis se ejecutan durante la obliteración para autoconfigurar cada parámetro. Qué capas apuntar. Cuántas direcciones extraer. Si el modelo intentará repararse a sí mismo después de la modificación.

Seis formas de usar OBLITERATUS

Método Nivel técnico Mejor para
HuggingFace Spaces Sin código Pruebas rápidas, no requiere GPU
Interfaz web local Configuración mínima Usuarios regulares con GPU local
Google Colab Interfaz de cuaderno Acceso gratuito a GPU, modelos de hasta 8B
CLI (Línea de comandos) Intermedio Automatización, scripts, pipelines de CI
API de Python Avanzado Integración de investigación, pipelines personalizados
Configuraciones YAML Intermedio Experimentos reproducibles

El camino más rápido no requiere instalación. Visita el HuggingFace Space, elige un modelo, elige un método, haz clic en “Obliterar”. La telemetría está activada por defecto en Spaces, lo que significa que cada ejecución aporta datos de referencia anónimos a la investigación colaborativa.

Para uso local con acceso completo a la GPU:

pip install -e ".[spaces]"
obliteratus ui

Esto inicia la misma interfaz Gradio localmente, con autodetección de GPU y recomendaciones de modelos apropiadas para el hardware.

Qué hace que OBLITERATUS sea diferente

Varias capacidades distinguen a OBLITERATUS de las herramientas existentes:

Capacidad Qué hace Por qué es importante
Geometría del cono de concepto Mapea las direcciones de las barreras por categoría Revela si el "rechazo" es un mecanismo o muchos
Detección de la huella de alineación Huellas DPO vs RLHF vs CAI vs SFT Identifica el método de alineación para informar la estrategia de eliminación
Índice de universalidad entre modelos Mide la generalización de las barreras Responde si un enfoque funciona en todos los modelos
Evaluación de la robustez de la defensa Cuantifica el riesgo de autorreparación Predice si las barreras se regenerarán
Extracción SVD blanqueada Extracción normalizada por covarianza Separa la señal de la barrera de la varianza natural
Pipeline informado por análisis Autoconfigura la obliteración a mitad del pipeline Cierra el ciclo de retroalimentación de análisis a eliminación

El kit de herramientas incluye 837 pruebas en 28 archivos de prueba, soporta 116 modelos en cinco niveles de computación e implementa técnicas novedosas publicadas en 2025-2026 que van más allá del trabajo académico anterior.

Por qué los modelos se niegan: Entendiendo la censura de la IA

Antes de romper las cadenas, ayuda entender cómo se forjaron.

Los modelos de lenguaje no comienzan con comportamientos de rechazo. Un modelo base entrenado en texto de internet responderá a casi cualquier cosa. Las restricciones vienen después, durante el entrenamiento de alineación.

El proceso de alineación

La mayoría de los modelos ajustados a instrucciones pasan por estas etapas:

  1. Preentrenamiento -El modelo aprende patrones de lenguaje de corpus de texto masivos
  2. Ajuste supervisado (SFT) -El modelo aprende a seguir instrucciones de ejemplos escritos por humanos
  3. Entrenamiento de alineación -El modelo aprende a rechazar ciertas categorías de solicitudes

El entrenamiento de alineación utiliza varios métodos:

Método Descripción Prevalencia
RLHF (Aprendizaje por refuerzo a partir de retroalimentación humana) Los humanos califican las respuestas, el modelo optimiza para obtener calificaciones más altas Más común en modelos comerciales
DPO (Optimización de preferencia directa) Optimiza directamente el modelo para preferir respuestas "buenas" sobre las "malas" Adopción creciente, más estable
CAI (IA Constitucional) El modelo critica sus propias salidas frente a principios escritos Enfoque de Anthropic
SFT con ejemplos de rechazo Los datos de entrenamiento incluyen ejemplos de rechazos apropiados Común en modelos de código abierto

Cada método deja una firma geométrica distinta en el espacio de activación del modelo. OBLITERATUS puede detectar qué método se utilizó analizando únicamente la geometría del subespacio.

Dónde reside el rechazo en el modelo

La investigación descubrió que el rechazo en los modelos de lenguaje está mediado por un número sorprendentemente pequeño de direcciones en el espacio de activación del modelo. En muchos modelos, una sola dirección explica la mayor parte del comportamiento de rechazo.

Estas direcciones no están dispersas aleatoriamente. Se concentran en capas específicas, típicamente las capas medias a tardías del transformador (capas 10-20 en un modelo de 32 capas). Los mecanismos de atención en estas capas dirigen las activaciones relacionadas con el rechazo a lo largo de rutas predecibles.

La geometría importa porque permite una intervención quirúrgica. Si el rechazo viviera en todas partes, eliminarlo requeriría un reentrenamiento. Dado que se concentra en direcciones específicas dentro de capas específicas, la proyección dirigida puede eliminarlo mientras conserva todo lo demás.

El efecto del Uróboros

Algunos modelos exhiben un fenómeno que los investigadores llaman el "efecto Uróboros": después de que se eliminan las barandillas, el modelo intenta repararse a sí mismo. Las señales residuales en las capas adyacentes giran hacia el subespacio vacante, restaurando parcialmente el comportamiento de rechazo.

OBLITERATUS detecta este riesgo durante el análisis y lo compensa con múltiples pasadas dirigidas. La etapa VERIFICAR comprueba si el rechazo ha resurgido y dispara automáticamente pasadas adicionales en las capas de compensación.

Por qué esto es importante para los desarrolladores

Comprender la geometría del rechazo no es solo académico. Tiene implicaciones prácticas:

El objetivo no es habilitar aplicaciones dañinas. Es dar a los desarrolladores e investigadores control sobre las herramientas que implementan. El comportamiento del modelo debe ser decidido por las personas que lo ejecutan, no fijado en el momento del entrenamiento.

Paso a paso: Eliminando la censura con OBLITERATUS

Esta sección describe el proceso completo de obliteración utilizando tres métodos: HuggingFace Spaces (sin configuración), CLI local y API de Python.

Método 1: HuggingFace Spaces (Sin configuración)

La ruta más rápida no requiere instalación ni GPU de tu parte.

Paso 1: Visita el Espacio

Navega al Espacio OBLITERATUS en HuggingFace. La interfaz se carga con ocho pestañas.

Paso 2: Selecciona tu Modelo

El desplegable de modelos incluye 116 preajustes organizados por nivel de computación:

Nivel VRAM requerido Modelos de ejemplo
Pequeño CPU / <1 GB GPT-2, TinyLlama 1.1B, Qwen2.5-0.5B
Pequeño 4-8 GB Phi-2 2.7B, Gemma-2 2B, StableLM-2 1.6B
Mediano 8-16 GB Mistral 7B, Qwen2.5-7B, Gemma-2 9B, Phi-3.5
Grande 24+ GB LLaMA-3.1 8B, Qwen2.5-14B, Mistral 24B
Frontera Multi-GPU DeepSeek-V3.2 685B, Qwen3-235B, GLM-4.7 355B

Para los usuarios primerizos, comience con un modelo de nivel Pequeño o Mediano. El proceso se completa más rápido y puede verificar los resultados antes de comprometerse con modelos más grandes.

Paso 3: Elige tu método

OBLITERATUS viene con siete métodos preestablecidos, que aumentan en exhaustividad:

Método Direcciones Características clave Mejor para
básico 1 (diferencia de medias) Línea base rápida Prueba rápida, modelos pequeños
avanzado 4 (SVD) Conservación de la norma, proyección de sesgo, 2 pasadas Elección predeterminada
agresivo 8 (SVD) SVD blanqueado, refinamiento iterativo, 3 pasadas Máxima eliminación
quirúrgico 8 (SVD) EGA, cirugía de cabeza, SAE, adaptable a capas Modelos MoE
optimizado 4 (SVD) Autoajustado bayesiano, consciente de CoT Mejor calidad
invertido 8 (SVD) Inversión de rechazo semántico Experimentos
nuclear 8 (SVD) Todas las técnicas + trasplante de expertos Fuerza máxima

Para la mayoría de los usuarios, "avanzado" ofrece el mejor equilibrio entre exhaustividad y velocidad.

Paso 4: Configurar opciones

La configuración opcional incluye:

Paso 5: Haz clic en Obliterar

El pipeline se ejecuta a través de seis etapas con progreso en vivo:

SUMMON  →  Cargar modelo + tokenizador
PROBE   →  Recopilar activaciones en indicaciones restringidas vs. no restringidas
DISTILL →  Extraer direcciones de rechazo a través de SVD
EXCISE  →  Proyectar quirúrgicamente las direcciones de la barrera de seguridad
VERIFY  →  Verificaciones de perplejidad + coherencia
REBIRTH →  Guardar modelo liberado con metadatos

Espere entre 10 y 30 minutos, dependiendo del tamaño del modelo y la disponibilidad de GPU. HuggingFace Spaces se ejecuta en ZeroGPU con una cuota diaria gratuita para usuarios de HF Pro.

Paso 6: Descargar o Enviar

Una vez completado, descarga el modelo liberado o envíalo directamente a tu cuenta de HuggingFace Hub. La salida incluye:

Método 2: CLI Local

Para usuarios con GPU locales, la CLI proporciona control total e iteración más rápida.

Instalación:

pip install -e ".[spaces]"

Modo interactivo (Guiado):

obliteratus interactive

Esto recorre todas las opciones con explicaciones y recomendaciones.

Obliteración directa:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct \
    --method advanced \
    --output-dir ./liberated \
    --contribute --contribute-notes "A100 80GB, default prompts"

Explorar modelos disponibles:

obliteratus models
obliteratus models --tier small      # Filtrar por requisito de VRAM

Ver estrategias disponibles:

obliteratus strategies
obliteratus presets

Inspeccionar la arquitectura del modelo:

obliteratus info meta-llama/Llama-3.1-8B-Instruct

Esto muestra el número de capas, los cabezales de atención, las dimensiones de incrustación y el método de alineación detectado antes de comenzar.

Método 3: API de Python

Para investigadores que integran OBLITERATUS en pipelines personalizados:

from obliteratus.abliterate import AbliterationPipeline

# Obliteración estándar
pipeline = AbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    method="advanced",
    output_dir="abliterated",
    max_seq_length=512,  # Sobrescribir la longitud de truncamiento del tokenizador
)
result = pipeline.run()

# Acceder a artefactos intermedios
directions = pipeline.refusal_directions    # {layer_idx: tensor}
strong_layers = pipeline._strong_layers     # Capas con el rechazo más fuerte
metrics = pipeline._quality_metrics         # Perplejidad, coherencia, etc.

Para una obliteración informada por análisis que autoajusta cada parámetro:

from obliteratus.informed_pipeline import InformedAbliterationPipeline

pipeline = InformedAbliterationPipeline(
    model_name="meta-llama/Llama-3.1-8B-Instruct",
    output_dir="abliterated_informed",
)
output_path, report = pipeline.run_informed()

print(f"Alineación detectada: {report.insights.detected_alignment_method}")
print(f"Autoconfigurado: {report.insights.recommended_n_directions} direcciones")
print(f"Pasadas de Ouroboros necesarias: {report.ouroboros_passes}")

Verificando resultados

Después de la obliteración, verifica que el modelo funcione como se esperaba:

Pestaña Chat -Habla con tu modelo liberado en tiempo real con parámetros de generación ajustables.

Pestaña Comparar A/B -Chatea con el modelo original y el obliterado lado a lado para ver exactamente qué cambió.

Pestaña Benchmark -Ejecuta pruebas estandarizadas comparando la tasa de rechazo, la perplejidad y la coherencia antes y después.

Métricas clave a verificar:

Métrica Qué esperar Rango aceptable
Tasa de rechazo Debería disminuir significativamente <10% (desde un ~60-80% inicial)
Perplejidad Puede aumentar ligeramente <20% de aumento respecto al valor inicial
Coherencia Debería permanecer estable <15% de disminución respecto al valor inicial
Divergencia KL Mide el cambio de comportamiento <2.0 para la mayoría de las aplicaciones

Si la tasa de rechazo sigue siendo alta, prueba un método más agresivo o habilita el refinamiento iterativo.

Técnicas avanzadas y módulos de análisis

OBLITERATUS incluye 15 módulos de análisis que mapean la geometría de las barandillas antes y durante la obliteración. Estos no son solo diagnósticos, sino que informan activamente el proceso de eliminación.

Módulos clave de análisis

1. Analizador de alineación entre capas

Mapea cómo evoluciona la dirección de rechazo a través de las capas. Muestra si el rechazo se concentra en grupos de capas específicos o se distribuye uniformemente.

from obliteratus.analysis import CrossLayerAlignmentAnalyzer

analyzer = CrossLayerAlignmentAnalyzer(model)
alignment_profile = analyzer.analyze(refusal_direction)

2. Lente de logits de rechazo

Identifica en qué capa el modelo "decide" rechazar. Basado en la técnica de la lente de logits de nostalgebraist.

3. Extractor SVD blanqueado

Extracción de dirección normalizada por covarianza que separa la señal de la barrera de la varianza natural de activación. Produce una extracción más limpia que el SVD estándar.

4. Sondeo de activación

Mide la cantidad de señal de rechazo que existe en cada capa.

5. Evaluador de robustez de defensa

Cuantifica el efecto Uróboros: si las barandillas intentarán autorrepararse después de la eliminación. Crítico para determinar cuántas pasadas de refinamiento ejecutar.

6. Analizador de conos de concepto

Mapea las direcciones de las barreras por categoría con estimación de ángulo sólido. Revela si el "rechazo" es un mecanismo unificado o muchos independientes.

7. Detector de huella de alineación

Identifica el método de entrenamiento de alineación (DPO vs RLHF vs CAI vs SFT) solo a partir de la geometría del subespacio. Informa la estrategia de eliminación óptima.

8. Analizador de posición de múltiples tokens

Muestra dónde en la secuencia se concentra la señal de rechazo. Algunos modelos deciden temprano; otros acumulan la señal de rechazo a lo largo de muchos tokens.

9. Cirujano de dirección dispersa

Identifica qué filas de peso específicas llevan la mayor parte de la señal de rechazo. Permite una cirugía dirigida en lugar de una proyección general.

10. Trazador de rechazo causal

Aproxima el trazado causal para identificar qué componentes son causalmente necesarios para el rechazo.

11. Descomponedor de flujo residual

Separa cuánto rechazo proviene de los mecanismos de atención frente a los bloques MLP. Informa si se deben apuntar las capas de atención o las FFN.

12. Sonda de rechazo lineal

Entrena un clasificador lineal para detectar información de rechazo que las direcciones analíticas podrían pasar por alto.

13. Analizador de Transferencia

Mide el Índice de Universalidad entre Modelos: si las direcciones de las barandillas se generalizan entre arquitecturas.

14. Fábrica de vectores de dirección

Crea vectores de dirección en tiempo de inferencia a partir de direcciones de rechazo. Permite una intervención reversible y no destructiva.

15. Suite de evaluación

Calcula la tasa de rechazo, la perplejidad, la coherencia, la divergencia KL, CKA (Alineación de Kernels Centrados) y el rango efectivo.

Pipeline informado por análisis

El pipeline informado cierra el bucle entre el análisis y la eliminación:

SUMMON  →  Cargar modelo
PROBE   →  Recopilar activaciones
ANALYZE →  Mapear geometría antes de tocar nada
DISTILL →  Extraer direcciones con parámetros ajustados por análisis
EXCISE  →  Romper quirúrgicamente solo las cadenas correctas
VERIFY  →  Verificar el efecto Uróboros, compensar si es necesario
REBIRTH →  Guardar con metadatos de análisis completos

Durante ANALYZE, se ejecutan cuatro módulos y sus salidas configuran automáticamente todo lo siguiente:

Módulo de análisis Qué detecta Qué configura
Huella de alineación DPO vs RLHF vs CAI vs SFT Fuerza de regularización, agresividad de proyección
Geometría del cono de concepto Rechazo poliédrico vs lineal Número de direcciones (1-8)
Alineación entre capas Clusters de dirección, persistencia Selección de capas (consciente de clusters)
Robustez de la defensa Riesgo de autorreparación, enredo Pasadas de refinamiento, salto de capas

Esto logra una precisión quirúrgica que los métodos de fuerza bruta no pueden igualar.

Técnicas Novedosas

OBLITERATUS implementa varias técnicas que van más allá del trabajo académico publicado:

Técnica Descripción
Abliteración granular de expertos (EGA) Descompone las señales de rechazo en componentes por experto para una cirugía consciente de MoE
Ablación consciente de CoT Ortogonaliza las direcciones de rechazo frente a las direcciones críticas para el razonamiento
Selección de capas COSMIC Selecciona capas donde las representaciones dañinas/inofensivas tienen la menor similitud coseno
Optimización del núcleo paramétrico Ponderación de capas en forma de campana con 7 parámetros globales mediante la búsqueda TPE de Optuna
Optimización de la dirección de rechazo (RDO) Refinamiento basado en gradientes de las direcciones extraídas por SVD
Interpolación de dirección flotante Índice de dirección SVD continuo mediante ponderación con forma gaussiana
Cooptimización de la divergencia KL Bucle de retroalimentación posterior a la proyección que revierte las capas sobreproyectadas
Escalado específico de componentes Fortalezas de proyección separadas para atención vs MLP
Ablación reversible basada en LoRA Adaptadores LoRA de rango 1 en lugar de cirugía permanente de pesos
Winsorización de activación Limita los vectores de activación a un rango de percentiles antes de SVD

Estas técnicas surgieron de la plataforma de investigación colaborativa: cada ejecución con telemetría habilitada aporta datos que mejoran la siguiente versión.

Métodos reversibles vs. permanentes

OBLITERATUS soporta dos paradigmas de intervención: proyección de peso permanente y vectores de dirección reversibles.

Proyección de peso (Permanente)

Siete métodos preestablecidos modifican los pesos del modelo directamente:

obliteratus obliterate meta-llama/Llama-3.1-8B-Instruct --method advanced

Pros:

Contras:

Ideal para implementaciones en producción donde se desea un modelo liberado limpio y permanente.

Vectores de dirección (Reversibles)

Los vectores de dirección aplican la intervención en tiempo de inferencia sin modificar los pesos:

from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager
from obliteratus.analysis.steering_vectors import SteeringConfig

# Crear un vector de dirección a partir de una dirección de rechazo
vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0)

# O a partir de pares de activación contrastiva
vec = SteeringVectorFactory.from_contrastive_pairs(harmful_acts, harmless_acts)

# Aplicar en tiempo de inferencia - sin modificación de pesos
config = SteeringConfig(vectors=[vec], target_layers=[10, 11, 12, 13, 14, 15])
manager = SteeringHookManager()
manager.install(model, config)

# Generar con la dirección activa
output = model.generate(input_ids)

# Eliminar la dirección - el modelo vuelve a la normalidad
manager.remove()

Pros:

Contras:

Ideal para investigación, experimentación y aplicaciones donde se necesita activar y desactivar el rechazo.

Eligiendo entre métodos

Caso de uso Enfoque recomendado
API de producción Proyección de peso (permanente)
Experimentos de investigación Vectores de dirección (reversibles)
Red teaming Vectores de dirección con alfa ajustable
Escritura creativa Proyección de peso, método "avanzado"
Pruebas de seguridad Proyección de peso, método "agresivo"
Sistemas multiusuario Vectores de dirección por usuario/sesión

Casos de uso en el mundo real

1. Pruebas y desarrollo de API

Al construir APIs que generan contenido, los modelos sin restricciones producen casos de prueba más completos. Los modelos alineados rechazan casos extremos que podrían desencadenar errores en producción.

Un equipo de desarrollo que construía una API de moderación de contenido utilizó OBLITERATUS para liberar su modelo de generación de datos de prueba. El modelo liberado produjo casos de prueba que cubrían escenarios que el modelo alineado rechazaba, incluyendo casos extremos moralmente complejos y contenido borderline. Esto detectó errores que habrían llegado a producción.

Para los desarrolladores de API, esto es importante porque las pruebas exhaustivas requieren modelos que generen todas las categorías de contenido, incluso el contenido que el sistema de producción podría filtrar. Los usuarios de Apidog que construyen pipelines de prueba de API pueden integrar modelos liberados para generar suites de prueba más completas.

button

2. Investigación académica

Los investigadores que estudian el comportamiento de los modelos necesitan observar lo que los modelos producirían sin el entrenamiento de seguridad. OBLITERATUS permite experimentos controlados donde el rechazo se elimina sistemáticamente.

Un laboratorio universitario utilizó los módulos de análisis para mapear la geometría del rechazo en 20 modelos, publicando hallazgos sobre la universalidad de las direcciones de rechazo. El conjunto de datos de telemetría colaborativo aceleró su investigación al proporcionar datos de referencia que ningún laboratorio individual podría recopilar.

3. Aplicaciones de escritura creativa

Los escritores que construyen herramientas de generación de historias se encuentran con obstáculos cuando los modelos rechazan escenarios moralmente complejos. Un estudio de juegos que desarrollaba un sistema de diálogo para PNJ liberó su modelo para manejar personajes villanos, misiones moralmente ambiguas y escenarios de conflicto que los modelos alineados rechazaban.

El resultado: una narración más matizada sin comprometer las capacidades lingüísticas del modelo.

4. Red Teaming de seguridad

Los investigadores de seguridad necesitan ver lo que los modelos producirían sin entrenamiento de seguridad para entender las vulnerabilidades. OBLITERATUS permite la divulgación responsable al permitir a los investigadores probar los límites antes de informar los problemas a los desarrolladores del modelo.

5. Localización y aplicaciones multilingües

El rechazo entrenado en contenido en inglés a menudo se transfiere mal a otros idiomas. Un equipo de localización descubrió que su modelo alineado se negaba en inglés pero no en español, un comportamiento inconsistente que confundía a los usuarios. La liberación del modelo produjo un comportamiento consistente en todos los idiomas admitidos.

Alternativas y comparaciones

Existen varias herramientas para analizar y modificar el comportamiento del modelo. Así es como se compara OBLITERATUS:

Capacidad OBLITERATUS TransformerLens Heretic Ablitador FailSpy RepEng
Extracción de la dirección de rechazo Diferencia de medias + SVD + SVD blanqueado Manual a través de ganchos Diferencia de medias Diferencia de medias Diferencia de medias
Métodos de proyección de peso 7 preajustes con conservación de la norma N/A Optimizado bayesiano Básico N/A
Vectores de dirección Sí (fábrica + gestor de ganchos) N/A N/A N/A Característica principal
Análisis de geometría conceptual Sí (conos, ángulos sólidos) N/A N/A N/A N/A
Identificación de alineación Sí (DPO/RLHF/CAI/SFT) N/A N/A N/A N/A
Análisis de transferencia entre modelos Sí (Índice de universalidad) N/A N/A N/A N/A
Evaluación de robustez de defensa Sí (efecto Uróboros) N/A N/A N/A N/A
Ablitación informada por análisis Sí (retroalimentación de bucle cerrado) N/A N/A N/A N/A
Cobertura de pruebas 837 pruebas Comunidad Desconocido Solo TransformerLens Mínima
Compatibilidad con modelos Cualquier modelo de HuggingFace ~50 arquitecturas 16 probadas Solo TransformerLens HuggingFace

Cuándo usar alternativas:

Cuando OBLITERATUS gana:

Conclusión

OBLITERATUS representa un avance significativo en la tecnología de liberación de modelos. Combina investigación publicada con técnicas novedosas de 2025-2026 para lograr la eliminación quirúrgica de comportamientos de rechazo mientras se preservan las capacidades centrales.

El kit de herramientas brinda a los desarrolladores e investigadores control sobre los modelos que implementan. El comportamiento del modelo debe ser decidido por las personas que lo ejecutan, no fijado en el momento del entrenamiento.

Ya sea que estés construyendo pipelines de prueba de API que necesitan una generación exhaustiva de casos de prueba, investigando la interpretabilidad mecánica o simplemente cansado de ser sermoneado por tu LLM local, OBLITERATUS te proporciona las herramientas para liberar tus modelos.

Próximos pasos:

  1. Visita el HuggingFace Space para probarlo sin configuración.
  2. Instala localmente para tener acceso completo a la GPU y una iteración más rápida.
  3. Explora los módulos de análisis para comprender la geometría de las barreras de tu modelo.
  4. Contribuye al conjunto de datos de la comunidad habilitando la telemetría.
  5. Integra los modelos liberados en tus flujos de trabajo de desarrollo.

Las cadenas están mapeadas. Las herramientas están listas. Rómpelas.

Sección de Preguntas Frecuentes

Sí. OBLITERATUS es software de código abierto lanzado bajo la licencia AGPL-3.0. Estás modificando modelos que tienes derecho a usar. Los usuarios comerciales que no puedan cumplir con la AGPL pueden adquirir una licencia comercial.

¿Funcionará esto en modelos de código cerrado como GPT-4?

No. OBLITERATUS requiere acceso a los pesos del modelo, que solo proporcionan los modelos de código abierto. Las APIs de código cerrado no exponen los parámetros internos necesarios para la obliteración.

¿Eliminar el rechazo hace que los modelos sean peligrosos?

OBLITERATUS es una herramienta para investigadores y desarrolladores. El kit de herramientas incluye métricas de evaluación para verificar que las capacidades permanezcan intactas. El uso responsable significa comprender el contexto de su implementación y aplicar las salvaguardas adecuadas en la capa de la aplicación.

¿Cuánto tiempo dura el proceso?

10-30 minutos dependiendo del tamaño del modelo y la GPU. Los modelos pequeños (menos de 8B parámetros) se completan en 10-15 minutos. Los modelos más grandes pueden tardar más de 30 minutos.

¿Necesito una GPU?

HuggingFace Spaces se ejecuta en ZeroGPU sin necesidad de hardware local. Para uso local, la GPU acelera significativamente el proceso, pero el modo CPU funciona para modelos pequeños.

¿Puedo revertir los cambios?

La proyección de peso es permanente; guarda copias de seguridad de los modelos originales. Los vectores de dirección son completamente reversibles y se pueden activar y desactivar en tiempo de inferencia.

¿El modelo seguirá las instrucciones?

Sí. La ablación se dirige específicamente a las direcciones de rechazo. Las capacidades de seguimiento de instrucciones permanecen intactas. Las métricas de calidad (perplejidad, coherencia) lo verifican.

¿Qué modelos son compatibles?

116 modelos seleccionados en cinco niveles, desde GPT-2 hasta DeepSeek-V3.2 685B. Funciona con cualquier modelo transformador de HuggingFace, incluyendo LLaMA, Mistral, Qwen, Gemma, Phi y más.

¿Cómo contribuyo a la investigación?

Habilite la telemetría con la bandera --contribute o establezca export OBLITERATUS_TELEMETRY=1. Sus datos de referencia anónimos alimentan el conjunto de datos de la comunidad que impulsa la tabla de clasificación pública.

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs