Skywork-OR1-32B: Deepseek R1に迫るオープンソース最上位モデル

中村 拓也

中村 拓也

13 4月 2025

Skywork-OR1-32B: Deepseek R1に迫るオープンソース最上位モデル

2025年4月13日、SkyworkAIはSkywork-OR1(Open Reasoner 1)シリーズをリリースしました。このシリーズには3つのモデルが含まれます:Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview、そしてSkywork-OR1-32B-Previewです。

💡
美しいAPIドキュメントを生成する素晴らしいAPIテストツールが欲しいですか?

開発チームが最大の生産性で一緒に作業するための統合型オールインワンプラットフォームが欲しいですか?

Apidogはすべての要求を満たし、より手頃な価格でPostmanを置き換えます
ボタン

Skywork-OR1-32B: 単なるオープンソース推論モデルではない

Skywork-OR1-32B-Previewモデルは328億のパラメータを含み、数値精度のためにBF16テンソルタイプを使用しています。このモデルはsafetensors形式で配布されており、Qwen2アーキテクチャに基づいています。モデルリポジトリによると、基本モデルであるDeepSeek-R1-Distill-Qwen-32Bと同じアーキテクチャを維持していますが、数学的推論とコーディング推論タスクに特化したトレーニングが施されています。

Skyworkモデルファミリーの基本的な技術情報を見てみましょう:

Skywork-OR1-32B-Preview

32Bモデルは、基本モデルと比較してAIME24で6.8ポイント、AIME25で10.0ポイントの改善を示しています。671BパラメータのDeepSeek-R1と同等のパフォーマンスを、わずか4.9%のパラメータで達成することで、パラメータ効率を実現しています。

Skywork-OR1-Math-7B

このモデルは数学タスクにおいて基本モデルであるDeepSeek-R1-Distill-Qwen-7Bを大幅に上回っています(AIME24:69.8対55.5、AIME25:52.3対39.2)。これは特化トレーニングアプローチの有効性を示しています。

Skywork-OR1-7B-Preview

Math-7Bバリアントと比べて数学的特化度は低いですが、数学タスクとコーディングタスクの間でよりバランスの取れたパフォーマンスを提供します。

Skywork-OR1-32Bのトレーニングデータセット

Skywork-OR1のトレーニングデータセットには以下が含まれます:

データ処理パイプライン

  1. モデル対応難易度推定:各問題はモデルの現在の能力に対して難易度スコアリングされ、ターゲットを絞ったトレーニングが可能になります。
  2. 品質評価:トレーニング前に厳格なフィルタリングが適用され、データセットの品質が保証されます。
  3. オフラインおよびオンラインフィルタリング:2段階のフィルタリングプロセスが実装されています:
  4. トレーニング前に最適でない例を除去(オフライン)
  5. トレーニング中に問題選択を動的に調整(オンライン)

4. リジェクトサンプリング:この技術がトレーニング例の分布を制御するために採用され、最適な学習曲線を維持するのに役立ちます。

先進的な強化学習トレーニングパイプライン

モデルはGRPO(Generative Reinforcement via Policy Optimization)のカスタマイズ版を使用しており、いくつかの技術的強化が施されています:

  1. 多段階トレーニングパイプライン:トレーニングは明確な段階を経て進み、各段階で以前に獲得した能力を基盤とします。GitHubリポジトリには、トレーニングステップに対するAIME24スコアをプロットしたグラフが含まれており、各段階での明確なパフォーマンス向上が示されています。
  2. 適応エントロピー制御:この技術はトレーニング中の探索と活用のトレードオフを動的に調整し、収束安定性を維持しながら幅広い探索を促進します。
  3. VERLフレームワークのカスタムフォーク:モデルは推論タスクに特化して適応されたVERLプロジェクトの修正版を使用してトレーニングされています。

完全な論文はこちらで読むことができます。

Skywork-OR1-32Bベンチマーク

技術仕様:

Skywork-OR1シリーズは、従来のPass@1ではなくAvg@Kを主要評価指標として導入しています。この指標は複数の独立した試行(AIMEテストでは32回、LiveCodeBenchでは4回)にわたる平均パフォーマンスを計算し、分散を減らして推論の一貫性をより信頼性高く測定します。

以下はシリーズ全モデルの正確なベンチマーク結果です:

データは、Skywork-OR1-32B-PreviewがDeepSeek-R1とほぼ同等のパフォーマンスを示していることを示しています(AIME24:79.7対79.8、AIME25:69.0対70.0、LiveCodeBench:63.9対65.9)。これは後者が20倍のパラメータ(671B対32.8B)を持っているにもかかわらずの結果です。

Skywork-OR1モデルは以下の技術仕様で実装できます:

Skywork-OR1モデルのテスト方法

以下はSkywork-OR1-32B、Skywork-OR1-7B、Skywork-OR1-Math-7BのHugging Faceモデルカードです:

Skywork/Skywork-OR1-32B-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Skywork/Skywork-OR1-7B-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Skywork/Skywork-OR1-Math-7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

評価スクリプトを実行するには、以下の手順を踏んでください。まず:

Docker環境:

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size=10g --cap-add=SYS_ADMIN -v <path>:<path> image:tag

Conda環境セットアップ:

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url <https://download.pytorch.org/whl/cu124>
pip3 install flash-attn --no-build-isolation
git clone <https://github.com/SkyworkAI/Skywork-OR1.git>
cd Skywork-OR1
pip3 install -e .

AIME24評価の再現:

MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \\\\
DATA_PATH=or1_data/eval/aime24.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime24_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_32b.sh


AIME25評価:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/aime25.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime25_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

LiveCodeBench評価:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \\SAMPLES=4 \\TASK_NAME=LiveCodeBench_Avg-Skywork_OR1_Math_7B \\bash ./or1_script/eval/eval_7b.sh

現在のSkywork-OR1モデルは「プレビュー」版としてラベル付けされており、最終リリースは最初の発表から2週間以内に利用可能になる予定です。開発者は以下の追加技術文書がリリースされることを示しています:

  1. トレーニング方法論を詳細に説明する包括的な技術レポート
  2. Skywork-OR1-RL-Dataデータセット
  3. 追加のトレーニングスクリプト
GitHub - SkyworkAI/Skywork-OR1
Contribute to SkyworkAI/Skywork-OR1 development by creating an account on GitHub.

結論:Skywork-OR1-32Bの技術的評価

Skywork-OR1-32B-Previewモデルは、パラメータ効率の良い推論モデルにおいて重要な進歩を表しています。328億のパラメータで、複数のベンチマークにおいて6710億パラメータのDeepSeek-R1モデルとほぼ同一のパフォーマンス指標を達成しています。

まだ検証されていませんが、これらの結果は、高度な推論能力を必要とする実用的なアプリケーションにおいて、Skywork-OR1-32B-Previewが大幅に大きなモデルに対する実行可能な代替手段を提供し、計算要件を大幅に削減できることを示唆しています。

さらに、これらのモデルのオープンソース性、評価スクリプト、そして今後公開予定のトレーニングデータは、言語モデルの推論能力に取り組む研究者や実務者にとって貴重な技術リソースを提供します。

GitHubリポジトリには、トレーニングスクリプトが「現在整理中で1-2日以内に利用可能になる」と記載されています。

💡
美しいAPIドキュメントを生成する素晴らしいAPIテストツールが欲しいですか?

開発チームが最大の生産性で一緒に作業するための統合型オールインワンプラットフォームが欲しいですか?

Apidogはすべての要求を満たし、より手頃な価格でPostmanを置き換えます
ボタン

Explore more

Claude Code vs Cursor: 料金比較検証 - どちらが安い?

Claude Code vs Cursor: 料金比較検証 - どちらが安い?

比較の結果、Claude Codeは多くのケースでCursorよりコストパフォーマンスに優れ、特にコスト重視の開発者に適しています。APIや最適化戦略を活用することで、コストをさらに削減可能です。

12 6月 2025

Claude 4を無料で使う3つの方法

Claude 4を無料で使う3つの方法

Claude 4を無料で使う3つの方法と、Apidogとの連携による開発効率アップの秘訣を解説。IT従事者・初心者必見の最新AI活用術を紹介します。

6 6月 2025

開発者必見!Claude Codeが切り拓く2025年AIプログラミングの未来

開発者必見!Claude Codeが切り拓く2025年AIプログラミングの未来

Claude Codeは強力なAI機能とターミナル統合で、2025年の開発者に最適なAIコーディング革新ツールです。コード品質と効率を向上し、プライバシーも重視します。

5 6月 2025

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる