Apidog

オールインワン協働API開発プラットフォーム

API設計

APIドキュメント

APIデバッグ

APIモック

API自動テスト

Skywork-OR1-32B: Deepseek R1に迫るオープンソース最上位モデル

中村 拓也

中村 拓也

Updated on 4月 13, 2025

2025年4月13日、SkyworkAIはSkywork-OR1(Open Reasoner 1)シリーズをリリースしました。このシリーズには3つのモデルが含まれます:Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview、そしてSkywork-OR1-32B-Previewです。

  • これらのモデルは、数学的推論能力とコード推論能力に特化した大規模なルールベースの強化学習を用いてトレーニングされています。
  • モデルはDeepSeekの蒸留アーキテクチャを基盤として構築されています:7BバリアントはDeepSeek-R1-Distill-Qwen-7Bをベースとしており、32BモデルはDeepSeek-R1-Distill-Qwen-32Bをベースとしています。
💡
美しいAPIドキュメントを生成する素晴らしいAPIテストツールが欲しいですか?

開発チームが最大の生産性で一緒に作業するための統合型オールインワンプラットフォームが欲しいですか?

Apidogはすべての要求を満たし、より手頃な価格でPostmanを置き換えます
ボタン

Skywork-OR1-32B: 単なるオープンソース推論モデルではない

Skywork-OR1-32B-Previewモデルは328億のパラメータを含み、数値精度のためにBF16テンソルタイプを使用しています。このモデルはsafetensors形式で配布されており、Qwen2アーキテクチャに基づいています。モデルリポジトリによると、基本モデルであるDeepSeek-R1-Distill-Qwen-32Bと同じアーキテクチャを維持していますが、数学的推論とコーディング推論タスクに特化したトレーニングが施されています。

Skyworkモデルファミリーの基本的な技術情報を見てみましょう:

Skywork-OR1-32B-Preview

  • パラメータ数:328億
  • 基本モデル:DeepSeek-R1-Distill-Qwen-32B
  • テンソルタイプ:BF16
  • 特化分野:汎用推論
  • 主要パフォーマンス:
  • AIME24:79.7(Avg@32)
  • AIME25:69.0(Avg@32)
  • LiveCodeBench:63.9(Avg@4)

32Bモデルは、基本モデルと比較してAIME24で6.8ポイント、AIME25で10.0ポイントの改善を示しています。671BパラメータのDeepSeek-R1と同等のパフォーマンスを、わずか4.9%のパラメータで達成することで、パラメータ効率を実現しています。

Skywork-OR1-Math-7B

  • パラメータ数:7.62億
  • 基本モデル:DeepSeek-R1-Distill-Qwen-7B
  • テンソルタイプ:BF16
  • 特化分野:数学的推論
  • 主要パフォーマンス:
  • AIME24:69.8(Avg@32)
  • AIME25:52.3(Avg@32)
  • LiveCodeBench:43.6(Avg@4)

このモデルは数学タスクにおいて基本モデルであるDeepSeek-R1-Distill-Qwen-7Bを大幅に上回っています(AIME24:69.8対55.5、AIME25:52.3対39.2)。これは特化トレーニングアプローチの有効性を示しています。

Skywork-OR1-7B-Preview

  • パラメータ数:7.62億
  • 基本モデル:DeepSeek-R1-Distill-Qwen-7B
  • テンソルタイプ:BF16
  • 特化分野:汎用推論
  • 主要パフォーマンス:
  • AIME24:63.6(Avg@32)
  • AIME25:45.8(Avg@32)
  • LiveCodeBench:43.9(Avg@4)

Math-7Bバリアントと比べて数学的特化度は低いですが、数学タスクとコーディングタスクの間でよりバランスの取れたパフォーマンスを提供します。

Skywork-OR1-32Bのトレーニングデータセット

Skywork-OR1のトレーニングデータセットには以下が含まれます:

  • 検証可能で多様な数学問題110,000問
  • コーディング問題14,000問
  • すべてオープンソースデータセットから収集

データ処理パイプライン

  1. モデル対応難易度推定:各問題はモデルの現在の能力に対して難易度スコアリングされ、ターゲットを絞ったトレーニングが可能になります。
  2. 品質評価:トレーニング前に厳格なフィルタリングが適用され、データセットの品質が保証されます。
  3. オフラインおよびオンラインフィルタリング:2段階のフィルタリングプロセスが実装されています:
  4. トレーニング前に最適でない例を除去(オフライン)
  5. トレーニング中に問題選択を動的に調整(オンライン)

4. リジェクトサンプリング:この技術がトレーニング例の分布を制御するために採用され、最適な学習曲線を維持するのに役立ちます。

先進的な強化学習トレーニングパイプライン

モデルはGRPO(Generative Reinforcement via Policy Optimization)のカスタマイズ版を使用しており、いくつかの技術的強化が施されています:

  1. 多段階トレーニングパイプライン:トレーニングは明確な段階を経て進み、各段階で以前に獲得した能力を基盤とします。GitHubリポジトリには、トレーニングステップに対するAIME24スコアをプロットしたグラフが含まれており、各段階での明確なパフォーマンス向上が示されています。
  2. 適応エントロピー制御:この技術はトレーニング中の探索と活用のトレードオフを動的に調整し、収束安定性を維持しながら幅広い探索を促進します。
  3. VERLフレームワークのカスタムフォーク:モデルは推論タスクに特化して適応されたVERLプロジェクトの修正版を使用してトレーニングされています。

完全な論文はこちらで読むことができます。

Skywork-OR1-32Bベンチマーク

技術仕様:

  • パラメータ数:328億
  • テンソルタイプ:BF16
  • モデル形式:Safetensors
  • アーキテクチャファミリー:Qwen2
  • 基本モデル:DeepSeek-R1-Distill-Qwen-32B

Skywork-OR1シリーズは、従来のPass@1ではなくAvg@Kを主要評価指標として導入しています。この指標は複数の独立した試行(AIMEテストでは32回、LiveCodeBenchでは4回)にわたる平均パフォーマンスを計算し、分散を減らして推論の一貫性をより信頼性高く測定します。

以下はシリーズ全モデルの正確なベンチマーク結果です:

データは、Skywork-OR1-32B-PreviewがDeepSeek-R1とほぼ同等のパフォーマンスを示していることを示しています(AIME24:79.7対79.8、AIME25:69.0対70.0、LiveCodeBench:63.9対65.9)。これは後者が20倍のパラメータ(671B対32.8B)を持っているにもかかわらずの結果です。

Skywork-OR1モデルは以下の技術仕様で実装できます:

Skywork-OR1モデルのテスト方法

以下はSkywork-OR1-32B、Skywork-OR1-7B、Skywork-OR1-Math-7BのHugging Faceモデルカードです:

Skywork/Skywork-OR1-32B-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Skywork/Skywork-OR1-7B-Preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Skywork/Skywork-OR1-Math-7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

評価スクリプトを実行するには、以下の手順を踏んでください。まず:

Docker環境:

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
docker run --runtime=nvidia -it --rm --shm-size=10g --cap-add=SYS_ADMIN -v <path>:<path> image:tag

Conda環境セットアップ:

conda create -n verl python==3.10
conda activate verl
pip3 install torch==2.4.0 --index-url <https://download.pytorch.org/whl/cu124>
pip3 install flash-attn --no-build-isolation
git clone <https://github.com/SkyworkAI/Skywork-OR1.git>
cd Skywork-OR1
pip3 install -e .

AIME24評価の再現:

MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \\\\
DATA_PATH=or1_data/eval/aime24.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime24_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_32b.sh


AIME25評価:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\\\
DATA_PATH=or1_data/eval/aime25.parquet \\\\
SAMPLES=32 \\\\
TASK_NAME=Aime25_Avg-Skywork_OR1_Math_7B \\\\
bash ./or1_script/eval/eval_7b.sh

LiveCodeBench評価:

MODEL_PATH=Skywork/Skywork-OR1-Math-7B \\DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \\SAMPLES=4 \\TASK_NAME=LiveCodeBench_Avg-Skywork_OR1_Math_7B \\bash ./or1_script/eval/eval_7b.sh

現在のSkywork-OR1モデルは「プレビュー」版としてラベル付けされており、最終リリースは最初の発表から2週間以内に利用可能になる予定です。開発者は以下の追加技術文書がリリースされることを示しています:

  1. トレーニング方法論を詳細に説明する包括的な技術レポート
  2. Skywork-OR1-RL-Dataデータセット
  3. 追加のトレーニングスクリプト
GitHub - SkyworkAI/Skywork-OR1
Contribute to SkyworkAI/Skywork-OR1 development by creating an account on GitHub.

結論:Skywork-OR1-32Bの技術的評価

Skywork-OR1-32B-Previewモデルは、パラメータ効率の良い推論モデルにおいて重要な進歩を表しています。328億のパラメータで、複数のベンチマークにおいて6710億パラメータのDeepSeek-R1モデルとほぼ同一のパフォーマンス指標を達成しています。

まだ検証されていませんが、これらの結果は、高度な推論能力を必要とする実用的なアプリケーションにおいて、Skywork-OR1-32B-Previewが大幅に大きなモデルに対する実行可能な代替手段を提供し、計算要件を大幅に削減できることを示唆しています。

さらに、これらのモデルのオープンソース性、評価スクリプト、そして今後公開予定のトレーニングデータは、言語モデルの推論能力に取り組む研究者や実務者にとって貴重な技術リソースを提供します。

GitHubリポジトリには、トレーニングスクリプトが「現在整理中で1-2日以内に利用可能になる」と記載されています。

💡
美しいAPIドキュメントを生成する素晴らしいAPIテストツールが欲しいですか?

開発チームが最大の生産性で一緒に作業するための統合型オールインワンプラットフォームが欲しいですか?

Apidogはすべての要求を満たし、より手頃な価格でPostmanを置き換えます
ボタン
2025年の30のベストPostman代替ツール | 無料でオープンソースのAPIテストツール観点

2025年の30のベストPostman代替ツール | 無料でオープンソースのAPIテストツール

Postmanは長い間、API開発のための定番ツールとして広く利用されており、API設計、テスト、およびドキュメント作成を提供しています。これにより、ソフトウェア業界でほぼ10年間普遍的な存在となっています。 しかし、2021年にPostmanが大幅な料金プランの変更を実施したことで、その優位性が揺らぎました。無制限ユーザーライセンスを廃止し、ユーザーごとの月額料金に移行したことが多くの開発者に影響を与え、無料でオープンソースの、コスト効率の良いPostmanの代替ツールを探す動きが加速しました。 幸運なことに、APIツールの景観は大いに広がり、機能が豊富で無料またはオープンソースのAPIテストツールが溢れています。この記事では、これらの機能、利点、欠点について包括的に説明します。 なぜユーザーはPostmanから離れているのか? Postmanは数年間、API開発およびテストのための定番ツールでした。しかし、多くのユーザーにとって、その無料プランの制約が致命的な問題となります — 特にプロジェクトが拡大し、チームが成長するにつれて。以下はユーザーが代替手段を探す理由です:

Oliver Kingsley

4月 11, 2025

Apidogで複数のリクエストボディ例を追加する方法観点

Apidogで複数のリクエストボディ例を追加する方法

Apidogで複数のリクエストボディ例を追加することは、APIドキュメントを強化する効果的な方法です。この簡単な手順により、さまざまな例を通じて開発者の理解を深め、実装効率が向上します。

中村 拓也

3月 12, 2025

ApidogでAPIドキュメントを進化:複数リクエストボディ例の活用法観点

ApidogでAPIドキュメントを進化:複数リクエストボディ例の活用法

Apidogは複数のリクエストボディ例を提供することで、APIドキュメントを革新します。この機能は、開発とテストプロセスを簡素化し、OpenAPIの準拠を保証しつつ、APIライフサイクルの向上を促進します。

中村 拓也

3月 12, 2025