Apidog

Plataforma de desarrollo de API colaborativa todo en uno

Diseño de API

Documentación de API

Depuración de API

Simulación de API

Prueba automatizada de API

Skywork-OR1-32B: Modelo SOTA de código abierto mejor que Deepseek R1

El 13/04/2025, SkyworkAI lanzó Skywork-OR1 (Open Reasoner 1): Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview y Skywork-OR1-32B-Preview. * Entrenados con RL basado en reglas para razonamiento matemático y de código. * Basados en DeepSeek: 7B usan DeepSeek-R1-Distill-Qwen-7B, y el 32B en DeepSeek-R1.

Daniel Costa

Daniel Costa

Updated on April 15, 2025

El 13 de abril de 2025, SkyworkAI lanzó la serie Skywork-OR1 (Open Reasoner 1), que comprende tres modelos: Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview y Skywork-OR1-32B-Preview.

  • Estos modelos se entrenan utilizando el aprendizaje por refuerzo basado en reglas a gran escala, dirigido específicamente a las capacidades de razonamiento matemático y de código.
  • Los modelos se basan en las arquitecturas destiladas de DeepSeek: las variantes de 7B utilizan DeepSeek-R1-Distill-Qwen-7B como base, mientras que el modelo de 32B se basa en DeepSeek-R1-Distill-Qwen-32B.
💡
¿Quieres una gran herramienta de pruebas de API que genere una documentación de API atractiva?

¿Quieres una plataforma integrada, todo en uno, para que tu equipo de desarrolladores trabaje en conjunto con la máxima productividad?

Apidog ofrece todas tus demandas y reemplaza a Postman a un precio mucho más asequible.
button

Skywork-OR1-32B: No es solo otro modelo de razonamiento de código abierto

El modelo Skywork-OR1-32B-Preview contiene 32.800 millones de parámetros y utiliza el tipo de tensor BF16 para la precisión numérica. El modelo se distribuye en el formato safetensors y se basa en la arquitectura Qwen2. Según el repositorio del modelo, mantiene la misma arquitectura que el modelo base DeepSeek-R1-Distill-Qwen-32B, pero con un entrenamiento especializado para tareas de razonamiento matemático y de codificación.

Echemos un vistazo a la información técnica básica de algunas de las familias de modelos Skywork:

Skywork-OR1-32B-Preview

  • Recuento de parámetros: 32.800 millones
  • Modelo base: DeepSeek-R1-Distill-Qwen-32B
  • Tipo de tensor: BF16
  • Especialización: Razonamiento de propósito general
  • Rendimiento clave:
  • AIME24: 79.7 (Avg@32)
  • AIME25: 69.0 (Avg@32)
  • LiveCodeBench: 63.9 (Avg@4)

El modelo de 32B demuestra una mejora de 6,8 puntos en AIME24 y una mejora de 10,0 puntos en AIME25 con respecto a su modelo base. Logra la eficiencia de los parámetros al ofrecer un rendimiento comparable al DeepSeek-R1 de 671B parámetros con solo el 4,9% de los parámetros.

Skywork-OR1-Math-7B

  • Recuento de parámetros: 7.620 millones
  • Modelo base: DeepSeek-R1-Distill-Qwen-7B
  • Tipo de tensor: BF16
  • Especialización: Razonamiento matemático
  • Rendimiento clave:
  • AIME24: 69.8 (Avg@32)
  • AIME25: 52.3 (Avg@32)
  • LiveCodeBench: 43.6 (Avg@4)

El modelo supera significativamente al DeepSeek-R1-Distill-Qwen-7B base en tareas matemáticas (69.8 frente a 55.5 en AIME24, 52.3 frente a 39.2 en AIME25), lo que demuestra la eficacia del enfoque de entrenamiento especializado.

Skywork-OR1-7B-Preview

  • Recuento de parámetros: 7.620 millones
  • Modelo base: DeepSeek-R1-Distill-Qwen-7B
  • Tipo de tensor: BF16
  • Especialización: Razonamiento de propósito general
  • Rendimiento clave:
  • AIME24: 63.6 (Avg@32)
  • AIME25: 45.8 (Avg@32)
  • LiveCodeBench: 43.9 (Avg@4)

Si bien muestra menos especialización matemática que la variante Math-7B, este modelo ofrece un rendimiento más equilibrado entre las tareas matemáticas y de codificación.

Conjunto de datos de entrenamiento de Skywork-OR1-32B

El conjunto de datos de entrenamiento de Skywork-OR1 contiene:

  • 110.000 problemas matemáticos verificables y diversos
  • 14.000 preguntas de codificación
  • Todos procedentes de conjuntos de datos de código abierto

Canalización de procesamiento de datos

  1. Estimación de la dificultad consciente del modelo: cada problema se somete a una puntuación de dificultad en relación con las capacidades actuales del modelo, lo que permite una formación específica.
  2. Evaluación de la calidad: se aplica un filtrado riguroso antes del entrenamiento para garantizar la calidad del conjunto de datos.
  3. Filtrado fuera de línea y en línea: se implementa un proceso de filtrado de dos etapas para:
  • Eliminar ejemplos subóptimos antes del entrenamiento (fuera de línea)
  • Ajustar dinámicamente la selección de problemas durante el entrenamiento (en línea)

4. Muestreo de rechazo: esta técnica se emplea para controlar la distribución de los ejemplos de entrenamiento, lo que ayuda a mantener una curva de aprendizaje óptima.

Canalización avanzada de entrenamiento de aprendizaje por refuerzo

Los modelos utilizan una versión personalizada de GRPO (Generative Reinforcement via Policy Optimization) con varias mejoras técnicas:

  1. Canalización de entrenamiento multietapa: el entrenamiento avanza a través de fases distintas, cada una basada en las capacidades adquiridas previamente. El repositorio de GitHub incluye un gráfico que representa las puntuaciones de AIME24 frente a los pasos de entrenamiento, lo que demuestra claras mejoras de rendimiento en cada etapa.
  2. Control de entropía adaptativo: esta técnica ajusta dinámicamente la compensación entre exploración y explotación durante el entrenamiento, lo que fomenta una exploración más amplia al tiempo que mantiene la estabilidad de la convergencia.
  3. Bifurcación personalizada del marco VERL: los modelos se entrenan utilizando una versión modificada del proyecto VERL, adaptada específicamente para tareas de razonamiento.

Puedes leer el documento completo aquí.

Puntos de referencia de Skywork-OR1-32B

Especificaciones técnicas:

  • Recuento de parámetros: 32.800 millones
  • Tipo de tensor: BF16
  • Formato del modelo: Safetensors
  • Familia de arquitectura: Qwen2
  • Modelo base: DeepSeek-R1-Distill-Qwen-32B

La serie Skywork-OR1 introduce Avg@K como su métrica de evaluación principal en lugar del Pass@1 convencional. Esta métrica calcula el rendimiento promedio en múltiples intentos independientes (32 para las pruebas AIME, 4 para LiveCodeBench), lo que reduce la varianza y proporciona una medida más fiable de la coherencia del razonamiento.

A continuación, se muestran los resultados exactos de los puntos de referencia para todos los modelos de la serie:

Modelo AIME24 (Avg@32) AIME25 (Avg@32) LiveCodeBench (8/1/24-2/1/25) (Avg@4)
DeepSeek-R1-Distill-Qwen-7B 55.5 39.2 37.6
Light-R1-7B-DS 59.1 44.3 39.5
DeepSeek-R1-Distill-Qwen-32B 72.9 59.0 57.2
TinyR1-32B-Preview 78.1 65.3 61.6
QwQ-32B 79.5 65.3 61.6
DeepSeek-R1 79.8 70.0 65.9
Skywork-OR1-Math-7B 69.8 52.3 43.6
Skywork-OR1-7B-Preview 63.6 45.8 43.9
Skywork-OR1-32B-Preview 79.7 69.0 63.9

Los datos muestran que Skywork-OR1-32B-Preview funciona casi a la par con DeepSeek-R1 (79.7 frente a 79.8 en AIME24, 69.0 frente a 70.0 en AIME25 y 63.9 frente a 65.9 en LiveCodeBench), a pesar de que este último tiene 20 veces más parámetros (671B frente a 32.8B).

Los modelos Skywork-OR1 se pueden implementar utilizando las siguientes especificaciones técnicas:

Cómo probar los modelos Skywork-OR1

Aquí están las tarjetas de modelo de Hugging Face Skywork-OR1-32B, Skywork-OR1-7B y Skywork-OR1-Math-7B:

Para ejecutar los scripts de evaluación, siga estos pasos. Primero:

Entorno Docker:

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size=10g --cap-add=SYS_ADMIN -v <path>:<path> image:tag

Configuración del entorno Conda:

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url <https://download.pytorch.org/whl/cu124>
pip3 install flash-attn --no-build-isolation
git clone <https://github.com/SkyworkAI/Skywork-OR1.git>
cd Skywork-OR1
pip3 install -e .

Para reproducir la evaluación AIME24:

MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \\\\
DATA_PATH=or1_data/eval/aime24.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime24_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_32b.sh

Para la evaluación AIME25:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/aime25.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime25_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Para la evaluación de LiveCodeBench:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \\\\
SAMPLES=4 \\\\
TASK_NAME=LiveCodeBench_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Los modelos Skywork-OR1 actuales están etiquetados como versiones "Preview", y las versiones finales están programadas para estar disponibles dentro de las dos semanas posteriores al anuncio inicial. Los desarrolladores han indicado que se publicará documentación técnica adicional, que incluye:

  1. Un informe técnico completo que detalla la metodología de entrenamiento
  2. El conjunto de datos Skywork-OR1-RL-Data
  3. Scripts de entrenamiento adicionales

El repositorio de GitHub señala que los scripts de entrenamiento se están "organizando actualmente y estarán disponibles en 1-2 días".

Conclusión: Evaluación técnica de Skywork-OR1-32B

El modelo Skywork-OR1-32B-Preview representa un avance significativo en los modelos de razonamiento de parámetros eficientes. Con 32.800 millones de parámetros, logra métricas de rendimiento casi idénticas al modelo DeepSeek-R1 de 671.000 millones de parámetros en múltiples puntos de referencia.

Aunque aún no se han verificado, estos resultados indican que, para las aplicaciones prácticas que requieren capacidades de razonamiento avanzadas, Skywork-OR1-32B-Preview ofrece una alternativa viable a los modelos significativamente más grandes, con requisitos computacionales sustancialmente reducidos.

Además, la naturaleza de código abierto de estos modelos, junto con sus scripts de evaluación y los próximos datos de entrenamiento, proporciona valiosos recursos técnicos para investigadores y profesionales que trabajan en capacidades de razonamiento en modelos de lenguaje.

💡
¿Quieres una gran herramienta de pruebas de API que genere una documentación de API atractiva?

¿Quieres una plataforma integrada, todo en uno, para que tu equipo de desarrolladores trabaje en conjunto con la máxima productividad?

Apidog ofrece todas tus demandas y reemplaza a Postman a un precio mucho más asequible.
button
Cómo usar GPT-4.1 con CursorPunto de vista

Cómo usar GPT-4.1 con Cursor

Esta guía explica el rendimiento de GPT-4.1, precios y dos métodos para integrarlo en Cursor.

Daniel Costa

April 15, 2025

Cómo usar la API de GPT-4.1 gratis e ilimitada con Windsurf (por ahora)Punto de vista

Cómo usar la API de GPT-4.1 gratis e ilimitada con Windsurf (por ahora)

Este artículo explora las capacidades de GPT-4.1, su precio y cómo usar este potente modelo IA gratis con Windsurf.

Daniel Costa

April 15, 2025

(Reseña de memes) Cómo ser un desarrollador 10x en 2025Punto de vista

(Reseña de memes) Cómo ser un desarrollador 10x en 2025

En desarrollo de software, pocos conceptos generan tanto debate como "Desarrollador 10x". ¿Realidad, mito o meme? Exploraremos su origen y qué significa ser de alto rendimiento hoy.

Daniel Costa

April 15, 2025