Skywork-OR1-32B: Modelo SOTA de código abierto mejor que Deepseek R1

El 13 de abril de 2025, SkyworkAI lanzó la serie Skywork-OR1 (Open Reasoner 1), que comprende tres modelos: Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview y Skywork-OR1-32B-Preview.

Estos modelos se entrenan utilizando el aprendizaje por refuerzo basado en reglas a gran escala, dirigido específicamente a las capacidades de razonamiento matemático y de código.
Los modelos se basan en las arquitecturas destiladas de DeepSeek: las variantes de 7B utilizan DeepSeek-R1-Distill-Qwen-7B como base, mientras que el modelo de 32B se basa en DeepSeek-R1-Distill-Qwen-32B.

💡

¿Quieres una gran herramienta de pruebas de API que genere una documentación de API atractiva?

¿Quieres una plataforma integrada, todo en uno, para que tu equipo de desarrolladores trabaje en conjunto con la máxima productividad?

Apidog ofrece todas tus demandas y reemplaza a Postman a un precio mucho más asequible.

button

Skywork-OR1-32B: No es solo otro modelo de razonamiento de código abierto

El modelo Skywork-OR1-32B-Preview contiene 32.800 millones de parámetros y utiliza el tipo de tensor BF16 para la precisión numérica. El modelo se distribuye en el formato safetensors y se basa en la arquitectura Qwen2. Según el repositorio del modelo, mantiene la misma arquitectura que el modelo base DeepSeek-R1-Distill-Qwen-32B, pero con un entrenamiento especializado para tareas de razonamiento matemático y de codificación.

Echemos un vistazo a la información técnica básica de algunas de las familias de modelos Skywork:

Skywork-OR1-32B-Preview

Recuento de parámetros: 32.800 millones
Modelo base: DeepSeek-R1-Distill-Qwen-32B
Tipo de tensor: BF16
Especialización: Razonamiento de propósito general
Rendimiento clave:
AIME24: 79.7 (Avg@32)
AIME25: 69.0 (Avg@32)
LiveCodeBench: 63.9 (Avg@4)

El modelo de 32B demuestra una mejora de 6,8 puntos en AIME24 y una mejora de 10,0 puntos en AIME25 con respecto a su modelo base. Logra la eficiencia de los parámetros al ofrecer un rendimiento comparable al DeepSeek-R1 de 671B parámetros con solo el 4,9% de los parámetros.

Skywork-OR1-Math-7B

Recuento de parámetros: 7.620 millones
Modelo base: DeepSeek-R1-Distill-Qwen-7B
Tipo de tensor: BF16
Especialización: Razonamiento matemático
Rendimiento clave:
AIME24: 69.8 (Avg@32)
AIME25: 52.3 (Avg@32)
LiveCodeBench: 43.6 (Avg@4)

El modelo supera significativamente al DeepSeek-R1-Distill-Qwen-7B base en tareas matemáticas (69.8 frente a 55.5 en AIME24, 52.3 frente a 39.2 en AIME25), lo que demuestra la eficacia del enfoque de entrenamiento especializado.

Skywork-OR1-7B-Preview

Recuento de parámetros: 7.620 millones
Modelo base: DeepSeek-R1-Distill-Qwen-7B
Tipo de tensor: BF16
Especialización: Razonamiento de propósito general
Rendimiento clave:
AIME24: 63.6 (Avg@32)
AIME25: 45.8 (Avg@32)
LiveCodeBench: 43.9 (Avg@4)

Si bien muestra menos especialización matemática que la variante Math-7B, este modelo ofrece un rendimiento más equilibrado entre las tareas matemáticas y de codificación.

Conjunto de datos de entrenamiento de Skywork-OR1-32B

El conjunto de datos de entrenamiento de Skywork-OR1 contiene:

110.000 problemas matemáticos verificables y diversos
14.000 preguntas de codificación
Todos procedentes de conjuntos de datos de código abierto

Canalización de procesamiento de datos

Estimación de la dificultad consciente del modelo: cada problema se somete a una puntuación de dificultad en relación con las capacidades actuales del modelo, lo que permite una formación específica.
Evaluación de la calidad: se aplica un filtrado riguroso antes del entrenamiento para garantizar la calidad del conjunto de datos.
Filtrado fuera de línea y en línea: se implementa un proceso de filtrado de dos etapas para:

Eliminar ejemplos subóptimos antes del entrenamiento (fuera de línea)
Ajustar dinámicamente la selección de problemas durante el entrenamiento (en línea)

4. Muestreo de rechazo: esta técnica se emplea para controlar la distribución de los ejemplos de entrenamiento, lo que ayuda a mantener una curva de aprendizaje óptima.

Canalización avanzada de entrenamiento de aprendizaje por refuerzo

Los modelos utilizan una versión personalizada de GRPO (Generative Reinforcement via Policy Optimization) con varias mejoras técnicas:

Canalización de entrenamiento multietapa: el entrenamiento avanza a través de fases distintas, cada una basada en las capacidades adquiridas previamente. El repositorio de GitHub incluye un gráfico que representa las puntuaciones de AIME24 frente a los pasos de entrenamiento, lo que demuestra claras mejoras de rendimiento en cada etapa.
Control de entropía adaptativo: esta técnica ajusta dinámicamente la compensación entre exploración y explotación durante el entrenamiento, lo que fomenta una exploración más amplia al tiempo que mantiene la estabilidad de la convergencia.
Bifurcación personalizada del marco VERL: los modelos se entrenan utilizando una versión modificada del proyecto VERL, adaptada específicamente para tareas de razonamiento.

Puedes leer el documento completo aquí.

Puntos de referencia de Skywork-OR1-32B

Especificaciones técnicas:

Recuento de parámetros: 32.800 millones
Tipo de tensor: BF16
Formato del modelo: Safetensors
Familia de arquitectura: Qwen2
Modelo base: DeepSeek-R1-Distill-Qwen-32B

La serie Skywork-OR1 introduce Avg@K como su métrica de evaluación principal en lugar del Pass@1 convencional. Esta métrica calcula el rendimiento promedio en múltiples intentos independientes (32 para las pruebas AIME, 4 para LiveCodeBench), lo que reduce la varianza y proporciona una medida más fiable de la coherencia del razonamiento.

A continuación, se muestran los resultados exactos de los puntos de referencia para todos los modelos de la serie:

Modelo	AIME24 (Avg@32)	AIME25 (Avg@32)	LiveCodeBench (8/1/24-2/1/25) (Avg@4)
DeepSeek-R1-Distill-Qwen-7B	55.5	39.2	37.6
Light-R1-7B-DS	59.1	44.3	39.5
DeepSeek-R1-Distill-Qwen-32B	72.9	59.0	57.2
TinyR1-32B-Preview	78.1	65.3	61.6
QwQ-32B	79.5	65.3	61.6
DeepSeek-R1	79.8	70.0	65.9
Skywork-OR1-Math-7B	69.8	52.3	43.6
Skywork-OR1-7B-Preview	63.6	45.8	43.9
Skywork-OR1-32B-Preview	79.7	69.0	63.9

Los datos muestran que Skywork-OR1-32B-Preview funciona casi a la par con DeepSeek-R1 (79.7 frente a 79.8 en AIME24, 69.0 frente a 70.0 en AIME25 y 63.9 frente a 65.9 en LiveCodeBench), a pesar de que este último tiene 20 veces más parámetros (671B frente a 32.8B).

Los modelos Skywork-OR1 se pueden implementar utilizando las siguientes especificaciones técnicas:

Cómo probar los modelos Skywork-OR1

Aquí están las tarjetas de modelo de Hugging Face Skywork-OR1-32B, Skywork-OR1-7B y Skywork-OR1-Math-7B:

Para ejecutar los scripts de evaluación, siga estos pasos. Primero:

Entorno Docker:

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size=10g --cap-add=SYS_ADMIN -v <path>:<path> image:tag

Configuración del entorno Conda:

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url <https://download.pytorch.org/whl/cu124>
pip3 install flash-attn --no-build-isolation
git clone <https://github.com/SkyworkAI/Skywork-OR1.git>
cd Skywork-OR1
pip3 install -e .

Para reproducir la evaluación AIME24:

MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \\\\
DATA_PATH=or1_data/eval/aime24.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime24_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_32b.sh

Para la evaluación AIME25:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/aime25.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime25_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Para la evaluación de LiveCodeBench:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \\\\
SAMPLES=4 \\\\
TASK_NAME=LiveCodeBench_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Los modelos Skywork-OR1 actuales están etiquetados como versiones "Preview", y las versiones finales están programadas para estar disponibles dentro de las dos semanas posteriores al anuncio inicial. Los desarrolladores han indicado que se publicará documentación técnica adicional, que incluye:

Un informe técnico completo que detalla la metodología de entrenamiento
El conjunto de datos Skywork-OR1-RL-Data
Scripts de entrenamiento adicionales

El repositorio de GitHub señala que los scripts de entrenamiento se están "organizando actualmente y estarán disponibles en 1-2 días".

Conclusión: Evaluación técnica de Skywork-OR1-32B

El modelo Skywork-OR1-32B-Preview representa un avance significativo en los modelos de razonamiento de parámetros eficientes. Con 32.800 millones de parámetros, logra métricas de rendimiento casi idénticas al modelo DeepSeek-R1 de 671.000 millones de parámetros en múltiples puntos de referencia.

Aunque aún no se han verificado, estos resultados indican que, para las aplicaciones prácticas que requieren capacidades de razonamiento avanzadas, Skywork-OR1-32B-Preview ofrece una alternativa viable a los modelos significativamente más grandes, con requisitos computacionales sustancialmente reducidos.

Además, la naturaleza de código abierto de estos modelos, junto con sus scripts de evaluación y los próximos datos de entrenamiento, proporciona valiosos recursos técnicos para investigadores y profesionales que trabajan en capacidades de razonamiento en modelos de lenguaje.

💡

button