Apidog

Platform Pengembangan API Kolaboratif All-in-one

Desain API

Dokumentasi API

Debug API

Mocking API

Pengujian Otomatis API

Skywork-OR1-32B: Model SOTA Sumber Terbuka Lebih Baik dari Deepseek R1

Pada 13 April 2025, SkyworkAI rilis Skywork-OR1 (Open Reasoner 1): Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview, & Skywork-OR1-32B-Preview. Dilatih dgn *reinforcement learning* berbasis aturan utk kemampuan matematika & kode. Dibangun di atas arsitektur DeepSeek.

Ardianto Nugroho

Ardianto Nugroho

Updated on April 15, 2025

Pada tanggal 13 April 2025, SkyworkAI merilis seri Skywork-OR1 (Open Reasoner 1), yang terdiri dari tiga model: Skywork-OR1-Math-7B, Skywork-OR1-7B-Preview, dan Skywork-OR1-32B-Preview.

  • Model-model ini dilatih menggunakan pembelajaran penguatan berbasis aturan skala besar yang secara khusus menargetkan kemampuan penalaran matematis dan kode.
  • Model-model ini dibangun di atas arsitektur hasil distilasi DeepSeek: varian 7B menggunakan DeepSeek-R1-Distill-Qwen-7B sebagai basisnya, sementara model 32B dibangun di atas DeepSeek-R1-Distill-Qwen-32B.
💡
Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One agar Tim Pengembang Anda dapat bekerja bersama dengan produktivitas maksimum?

Apidog memberikan semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button

Skywork-OR1-32B: Bukan Sekadar Model Penalaran Sumber Terbuka Lainnya

Model Skywork-OR1-32B-Preview berisi 32,8 miliar parameter dan menggunakan tipe tensor BF16 untuk presisi numerik. Model ini didistribusikan dalam format safetensors dan didasarkan pada arsitektur Qwen2. Menurut repositori model, ia mempertahankan arsitektur yang sama dengan model dasar DeepSeek-R1-Distill-Qwen-32B, tetapi dengan pelatihan khusus untuk tugas penalaran matematis dan pengkodean.

Mari kita lihat beberapa info teknis dasar dari keluarga model Skywork:

Skywork-OR1-32B-Preview

  • Jumlah parameter: 32,8 miliar
  • Model dasar: DeepSeek-R1-Distill-Qwen-32B
  • Tipe tensor: BF16
  • Spesialisasi: Penalaran tujuan umum
  • Kinerja utama:
  • AIME24: 79,7 (Rata-rata@32)
  • AIME25: 69,0 (Rata-rata@32)
  • LiveCodeBench: 63,9 (Rata-rata@4)

Model 32B menunjukkan peningkatan 6,8 poin pada AIME24 dan peningkatan 10,0 poin pada AIME25 dibandingkan model dasarnya. Ia mencapai efisiensi parameter dengan memberikan kinerja yang sebanding dengan DeepSeek-R1 parameter 671B hanya dengan 4,9% parameter.

Skywork-OR1-Math-7B

  • Jumlah parameter: 7,62 miliar
  • Model dasar: DeepSeek-R1-Distill-Qwen-7B
  • Tipe tensor: BF16
  • Spesialisasi: Penalaran matematis
  • Kinerja utama:
  • AIME24: 69,8 (Rata-rata@32)
  • AIME25: 52,3 (Rata-rata@32)
  • LiveCodeBench: 43,6 (Rata-rata@4)

Model ini mengungguli DeepSeek-R1-Distill-Qwen-7B dasar secara signifikan pada tugas-tugas matematis (69,8 vs. 55,5 pada AIME24, 52,3 vs. 39,2 pada AIME25), yang menunjukkan efektivitas pendekatan pelatihan khusus.

Skywork-OR1-7B-Preview

  • Jumlah parameter: 7,62 miliar
  • Model dasar: DeepSeek-R1-Distill-Qwen-7B
  • Tipe tensor: BF16
  • Spesialisasi: Penalaran tujuan umum
  • Kinerja utama:
  • AIME24: 63,6 (Rata-rata@32)
  • AIME25: 45,8 (Rata-rata@32)
  • LiveCodeBench: 43,9 (Rata-rata@4)

Meskipun menunjukkan spesialisasi matematis yang lebih rendah daripada varian Math-7B, model ini menawarkan kinerja yang lebih seimbang antara tugas matematis dan pengkodean.

Dataset Pelatihan Skywork-OR1-32B

Dataset pelatihan Skywork-OR1 berisi:

  • 110.000 soal matematika yang dapat diverifikasi dan beragam
  • 14.000 pertanyaan pengkodean
  • Semua bersumber dari dataset sumber terbuka

Alur Pemrosesan Data

  1. Estimasi Kesulitan Sadar Model: Setiap soal menjalani penilaian kesulitan relatif terhadap kemampuan model saat ini, yang memungkinkan pelatihan yang ditargetkan.
  2. Penilaian Kualitas: Pemfilteran ketat diterapkan sebelum pelatihan untuk memastikan kualitas dataset.
  3. Pemfilteran Offline dan Online: Proses pemfilteran dua tahap diterapkan untuk:
  • Menghapus contoh suboptimal sebelum pelatihan (offline)
  • Menyesuaikan pemilihan soal secara dinamis selama pelatihan (online)

4. Pengambilan Sampel Penolakan: Teknik ini digunakan untuk mengontrol distribusi contoh pelatihan, membantu mempertahankan kurva pembelajaran yang optimal.

Alur Pelatihan Pembelajaran Penguatan Tingkat Lanjut

Model-model ini menggunakan versi GRPO (Generative Reinforcement via Policy Optimization) yang disesuaikan dengan beberapa peningkatan teknis:

  1. Alur Pelatihan Multi-tahap: Pelatihan berlangsung melalui fase-fase berbeda, yang masing-masing dibangun di atas kemampuan yang diperoleh sebelumnya. Repositori GitHub menyertakan grafik yang memplot skor AIME24 terhadap langkah-langkah pelatihan, yang menunjukkan peningkatan kinerja yang jelas di setiap tahap.
  2. Kontrol Entropi Adaptif: Teknik ini secara dinamis menyesuaikan trade-off eksplorasi-eksploitasi selama pelatihan, mendorong eksplorasi yang lebih luas sambil mempertahankan stabilitas konvergensi.
  3. Fork Kustom Kerangka Kerja VERL: Model-model ini dilatih menggunakan versi modifikasi dari proyek VERL, yang secara khusus diadaptasi untuk tugas-tugas penalaran.

Anda dapat membaca makalah lengkapnya di sini.

Tolok Ukur Skywork-OR1-32B

Spesifikasi teknis:

  • Jumlah parameter: 32,8 miliar
  • Tipe tensor: BF16
  • Format model: Safetensors
  • Keluarga arsitektur: Qwen2
  • Model dasar: DeepSeek-R1-Distill-Qwen-32B

Seri Skywork-OR1 memperkenalkan Rata-rata@K sebagai metrik evaluasi utama mereka alih-alih Pass@1 konvensional. Metrik ini menghitung kinerja rata-rata di beberapa percobaan independen (32 untuk tes AIME, 4 untuk LiveCodeBench), mengurangi varians dan memberikan ukuran konsistensi penalaran yang lebih andal.

Di bawah ini adalah hasil tolok ukur yang tepat untuk semua model dalam seri ini:

Model AIME24 (Rata-rata@32) AIME25 (Rata-rata@32) LiveCodeBench (8/1/24-2/1/25) (Rata-rata@4)
DeepSeek-R1-Distill-Qwen-7B 55.5 39.2 37.6
Light-R1-7B-DS 59.1 44.3 39.5
DeepSeek-R1-Distill-Qwen-32B 72.9 59.0 57.2
TinyR1-32B-Preview 78.1 65.3 61.6
QwQ-32B 79.5 65.3 61.6
DeepSeek-R1 79.8 70.0 65.9
Skywork-OR1-Math-7B 69.8 52.3 43.6
Skywork-OR1-7B-Preview 63.6 45.8 43.9
Skywork-OR1-32B-Preview 79.7 69.0 63.9

Data menunjukkan bahwa Skywork-OR1-32B-Preview berkinerja hampir setara dengan DeepSeek-R1 (79,7 vs. 79,8 pada AIME24, 69,0 vs. 70,0 pada AIME25, dan 63,9 vs. 65,9 pada LiveCodeBench), meskipun yang terakhir memiliki 20 kali lebih banyak parameter (671B vs. 32,8B).

Model Skywork-OR1 dapat diimplementasikan menggunakan spesifikasi teknis berikut:

Cara Menguji Model Skywork-OR1

Berikut adalah kartu model Skywork-OR1-32B, Skywork-OR1-7B, dan Skywork-OR1-Math-7B Hugging Face:

Untuk menjalankan Skrip Evaluasi, ikuti langkah-langkah berikut. Pertama:

Lingkungan Docker:

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size=10g --cap-add=SYS_ADMIN -v <path>:<path> image:tag

Pengaturan Lingkungan Conda:

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url <https://download.pytorch.org/whl/cu124>
pip3 install flash-attn --no-build-isolation
git clone <https://github.com/SkyworkAI/Skywork-OR1.git>
cd Skywork-OR1
pip3 install -e .

Untuk mereproduksi evaluasi AIME24:

MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \\\\
DATA_PATH=or1_data/eval/aime24.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime24_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_32b.sh

Untuk evaluasi AIME25:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/aime25.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime25_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Untuk evaluasi LiveCodeBench:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \\\\
SAMPLES=4 \\\\
TASK_NAME=LiveCodeBench_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

Model Skywork-OR1 saat ini diberi label sebagai versi "Pratinjau", dengan rilis final yang dijadwalkan tersedia dalam dua minggu setelah pengumuman awal. Para pengembang telah mengindikasikan bahwa dokumentasi teknis tambahan akan dirilis, termasuk:

  1. Laporan teknis komprehensif yang merinci metodologi pelatihan
  2. Dataset Skywork-OR1-RL-Data
  3. Skrip pelatihan tambahan

Repositori GitHub mencatat bahwa skrip pelatihan "saat ini sedang diatur dan akan tersedia dalam 1-2 hari."

Kesimpulan: Penilaian Teknis Skywork-OR1-32B

Model Skywork-OR1-32B-Preview mewakili kemajuan signifikan dalam model penalaran yang efisien parameter. Dengan 32,8 miliar parameter, ia mencapai metrik kinerja yang hampir identik dengan model DeepSeek-R1 parameter 671 miliar di berbagai tolok ukur.

Meskipun belum diverifikasi, hasil ini menunjukkan bahwa untuk aplikasi praktis yang membutuhkan kemampuan penalaran tingkat lanjut, Skywork-OR1-32B-Preview menawarkan alternatif yang layak untuk model yang jauh lebih besar, dengan persyaratan komputasi yang berkurang secara substansial.

Selain itu, sifat sumber terbuka dari model-model ini, bersama dengan skrip evaluasi dan data pelatihan yang akan datang, menyediakan sumber daya teknis yang berharga bagi para peneliti dan praktisi yang mengerjakan kemampuan penalaran dalam model bahasa.

💡
Ingin alat Pengujian API hebat yang menghasilkan Dokumentasi API yang indah?

Ingin platform Terintegrasi, All-in-One agar Tim Pengembang Anda dapat bekerja bersama dengan produktivitas maksimum?

Apidog memberikan semua permintaan Anda, dan menggantikan Postman dengan harga yang jauh lebih terjangkau!
button
Cara Menggunakan GPT-4.1 dengan CursorSudut Pandang

Cara Menggunakan GPT-4.1 dengan Cursor

Panduan ini membahas tolok ukur, harga, & 2 cara integrasi GPT-4.1 ke Cursor.

Ardianto Nugroho

April 15, 2025

Cara Menggunakan GPT-4.1 API Gratis, Tanpa Batas dengan Windsurf (Untuk Saat Ini)Sudut Pandang

Cara Menggunakan GPT-4.1 API Gratis, Tanpa Batas dengan Windsurf (Untuk Saat Ini)

Artikel ini membahas kemampuan GPT-4.1, harga, dan panduan detail cara menggunakan model AI canggih ini gratis dengan platform Windsurf.

Ardianto Nugroho

April 15, 2025

(Ulasan Meme) Cara Menjadi Pengembang 10x di Tahun 2025Sudut Pandang

(Ulasan Meme) Cara Menjadi Pengembang 10x di Tahun 2025

Dalam dunia pengembangan perangkat lunak, "Pengembang 10x" memicu perdebatan. Standar idaman? Mitos berbahaya? Apa itu? Nyata, usang, atau sekadar meme? Artikel ini membahas asal-usul, evolusi, dan makna kinerja tinggi saat ini.

Ardianto Nugroho

April 15, 2025