BAGEL-7B-MoT:ByteDanceのマルチモーダルAI革新における躍進

Ashley Innocent

Ashley Innocent

28 5月 2025

BAGEL-7B-MoT:ByteDanceのマルチモーダルAI革新における躍進

ByteDanceは、最新リリースであるBAGEL-7B-MoTによって、人工知能の限界を押し広げています。これは、テキスト、画像など、様々なコンテンツをマシンが理解し生成する方法を再定義するマルチモーダル基盤モデルです。ByteDanceのSeedチームによって開発されたこのオープンソースモデルは、テキストから画像への生成、画像編集、ワールドモデリングなどの高度な機能を統合しており、AI分野で傑出した存在となっています。わずか70億のアクティブパラメータ(合計140億)で、BAGEL-7B-MoTはQwen2.5-VLやSD3のようなトップティアのモデルに匹敵するパフォーマンスを発揮し、すべて寛容なApache 2.0ライセンスの下で提供されています。

💡
このモデルをAPI経由で統合したい開発者向けには、ApidogのようなツールがAI駆動型アプリケーションのテストとデプロイをシームレスに行う方法を提供します。Apidogを無料でダウンロードして、APIワークフローを効率化し、BAGEL-7B-MoTの可能性を簡単に活用しましょう。 
ボタン

BAGEL-7B-MoTとは? 技術概要

BAGEL-7B-MoTは、テキスト、画像、動画、ウェブデータを含む複数のデータモダリティにわたる理解と生成を統合するために設計された、オープンソースのデコーダーオンリーマルチモーダルモデルです。画像生成のためのDALL-Eや視覚理解のためのGPT-4Vなど、特定のタスクに別々のアーキテクチャを使用する従来のAIモデルとは異なり、BAGEL-7B-MoTはこれらの機能を単一の効率的なフレームワークに統合しています。結果として、優れたパフォーマンスを達成しながら複雑さを軽減します。

画像

このモデルは、多様なマルチモーダル情報を処理する能力を高めるMixture-of-Transformer-Experts (MoT)アーキテクチャを活用しています。ピクセルレベルの特徴を扱うエンコーダーと、セマンティックレベルの特徴を扱うエンコーダーの2つを別々に使用することで、BAGEL-7B-MoTはきめ細かい視覚的詳細と高レベルの文脈的意味の両方を捉えます。このデュアルエンコーダーアプローチは、Next Group of Token Predictionパラダイムと組み合わせることで、モデルが言語または視覚トークンのシーケンスを予測することを可能にし、自由形式の画像編集や3D操作などのタスクを実現します。さらに、このモデルはQwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2を含む堅牢な基盤からファインチューニングされており、FLUX.1-schnell VAEモデルがその視覚生成能力を高めています。すべてのコンポーネントはApache 2.0ライセンスの下で提供されており、開発者や研究者にとってのアクセス性を保証しています。

BAGEL-7B-MoTを試したい方のために、モデルウェイトと詳細なドキュメントはHugging FaceおよびGitHubリポジトリで入手可能です。これらのリソースは、実装と実験のための確かな出発点となります。

アーキテクチャ: Mixture-of-Transformer-Experts (MoT)

BAGEL-7B-MoTのアーキテクチャはその成功の礎石です。具体的には、Mixture-of-Transformer-Experts (MoT)フレームワークは、非常に多様なマルチモーダルデータを処理するモデルの能力を最大化します。単一のモノリシックなアーキテクチャに依存する従来のトランスフォーマーモデルとは異なり、MoTは入力データの異なる側面を処理するために協力する複数の専門的なトランスフォーマー「エキスパート」を採用しています。このアプローチにより、効率性とスケーラビリティが向上し、BAGEL-7B-MoTは計算リソースの指数関数的な増加を必要とせずに複雑なタスクに取り組むことができます。

画像

モデルは視覚入力を処理するために2つの異なるエンコーダーを使用します。

これらのエンコーダーはMoTフレームワークに入力され、入力モダリティに基づいて適切なエキスパートに処理タスクを動的に割り当てます。例えば、テキストプロンプトから画像を生成する場合、セマンティックエンコーダーはテキスト記述を解釈し、ピクセルレベルエンコーダーは出力画像が視覚的な忠実性を維持するようにします。この相乗効果により、BAGEL-7B-MoTはSD3のような専門モデルと競合するテキストから画像への生成などのタスクで優れた性能を発揮します。

画像

さらに、このモデルはNext Group of Token Predictionパラダイムを採用しています。個々のトークンを予測する代わりに、BAGEL-7B-MoTはトークンのグループを予測し、精度を維持しながら計算オーバーヘッドを削減します。このアプローチは、モデルがテキストデータと視覚データの処理をシームレスに切り替える必要があるマルチモーダルタスクに特に効果的です。その結果、BAGEL-7B-MoTはマルチモーダル理解と生成のベンチマークで最先端のパフォーマンスを達成しています。

トレーニング方法論: マルチモーダル学習のスケーリング

BAGEL-7B-MoTのトレーニングプロセスは、マルチモーダルAIのスケーリングにおける傑作です。このモデルは、テキスト、画像、動画、ウェブデータにわたる数兆個のインターリーブされたマルチモーダルトークンで事前学習されました。この膨大なデータセットにより、BAGEL-7B-MoTは多様なデータタイプに対する深い理解を深め、従来のAIモデルを超える創発的な能力を育みます。

トレーニングパイプラインは3つの主要なフェーズで構成されています。

  1. 事前学習: モデルは大規模なインターリーブデータを処理することで基礎的なスキルを学習します。このフェーズで基本的なマルチモーダル理解と生成能力が確立されます。
  2. 継続学習: 追加のトレーニングにより、画像編集やシーケンシャル推論などの複雑なタスクを処理するモデルの能力が洗練されます。
  3. 教師ありファインチューニング: 特定のデータセットに対するターゲットを絞ったファインチューニングにより、ベンチマークタスクでのパフォーマンスが向上し、BAGEL-7B-MoTがQwen2.5-VLやInternVL-2.5のような競合モデルを上回ることを保証します。

ByteDanceが実施したアブレーションスタディにより、Variational Autoencoder (VAE)Vision Transformer (ViT)の特徴を組み合わせることで、インテリジェントな編集能力が大幅に向上することが明らかになりました。例えば、FLUX.1-schnellから派生したVAEコンポーネントは高品質な視覚出力を保証し、ViTエンコーダーは堅牢なセマンティックコンテキストを提供します。この組み合わせは、モデルが視覚的な忠実性と文脈的な正確さのバランスを取る必要がある自由形式の画像操作などのタスクにとって重要です。

さらに、トレーニングプロセスは能力の段階的な進歩を示しています。トレーニングの初期段階で、BAGEL-7B-MoTはマルチモーダル理解と生成を習得します。トレーニングが進むにつれて、基本的な編集スキルを開発し、その後3D操作やワールドナビゲーションのような高度な能力を身につけます。この創発的なパターンは、複雑なマルチモーダル推論を解き放つ上で、大規模で多様なデータセットの重要性を強調しています。

BAGEL-7B-MoTの主な機能

BAGEL-7B-MoTは、さまざまなタスクにおけるその多用途性で際立っています。以下では、オープンソースマルチモーダルAIのリーダーとしての地位を確立するその主な機能を探ります。

画像

1. テキストから画像への生成

BAGEL-7B-MoTは、SD3のような専門的なジェネレーターに匹敵するテキストから画像への生成品質を提供します。デュアルエンコーダーアーキテクチャとMoTフレームワークを活用することで、モデルはテキストプロンプトから高忠実度の画像を生成します。例えば、「夕暮れの穏やかな山岳風景」のようなプロンプトは、正確なライティングとディテールを備えた視覚的に素晴らしい結果を生み出します。開発者は、GitHubリポジトリで提供されているGradio WebUIを使用してこの機能を試すことができます。

2. 高度な画像編集

従来の画像編集モデルとは異なり、BAGEL-7B-MoTは自由形式の視覚操作をサポートしています。ユーザーは、「空を星空に変えてください」や「これをヴィンテージの1920年代の写真に変えてください」のような自然言語の指示を提供でき、モデルはこれらの編集を正確に実行します。VAEとViTの特徴の組み合わせにより、編集が視覚的な品質と文脈的な関連性の両方を維持することが保証されます。

3. ワールドモデリングとナビゲーション

BAGEL-7B-MoTの最も画期的な機能の1つは、マルチビュー合成やワールドナビゲーションなどの「ワールドモデリング」タスクを実行する能力です。これらの機能により、モデルは3D環境を理解および操作でき、バーチャルリアリティ、ゲーム、ロボット工学のアプリケーションに適しています。例えば、モデルはビデオシーケンスの将来のフレームを予測したり、複数の角度からオブジェクトの一貫したビューを生成したりできます。

4. マルチモーダル推論

BAGEL-7B-MoTは、シーケンシャル推論や思考連鎖処理など、複雑なマルチモーダル推論を必要とするタスクに優れています。Cog実装で「enable_thinking」フラグを有効にすることで、開発者は出力生成前にモデルに複雑なタスクを推論させることができます。この機能は、自律システムやインタラクティブなAIアシスタントなど、深い文脈理解を必要とするアプリケーションにとって特に価値があります。

5. ベンチマークパフォーマンス

このモデルは、標準的なマルチモーダル理解および生成ベンチマークにおいて、Qwen2.5-VLやInternVL-2.5のようなオープンソースの競合モデルを上回っています。単一のアーキテクチャ内で多様なタスクを処理できる能力は、開発者にとって費用対効果が高く強力なソリューションとなります。

画像

実装とデプロイ

BAGEL-7B-MoTのデプロイは、オープンソースでの提供と包括的なドキュメントのおかげで簡単です。モデルウェイトはHugging Faceでホストされており、GitHubリポジトリにはインストール、推論、評価のためのスクリプトが提供されています。以下は、BAGEL-7B-MoTをダウンロードしてセットアップするためのサンプルスクリプトです。

import os
from huggingface_hub import snapshot_download

# Define paths
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"

# Download model weights
snapshot_download(
    cache_dir=cache_dir,
    local_dir=save_dir,
    repo_id=repo_id,
    local_dir_use_symlinks=False,
    resume_download=True,
    allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"]
)

# Install dependencies
os.system("conda create -n bagel python=3.10 -y")
os.system("conda activate bagel")
os.system("pip install -r requirements.txt")

セットアップ後、開発者はinference.ipynbノートブックまたはGradio WebUIを使用してモデルと対話できます。例えば、画像を生成するには、以下を実行します。

cog predict -i prompt="A futuristic city floating in the clouds" -i enable_thinking=true

画像編集には、以下を使用します。

cog predict -i prompt="Make it look like it’s underwater with fish swimming around" -i image=@your_photo.jpg -i task="image-editing" -i cfg_img_scale=2.0

これらのコマンドは、本番環境での使用のためにBAGEL-7B-MoTを最適化するCog実装を活用しています。開発者は、Apidogのようなツールを使用してモデルをAPIと統合し、実際のアプリケーションでのデプロイを効率化することもできます。

課題と考慮事項

BAGEL-7B-MoTは強力なモデルですが、いくつかの制限があります。このモデルはかなりの計算リソースを必要とし、ユーザーは24GBのVRAMを搭載したRTX 3090のようなGPUでのデプロイに成功したと報告しています。VRAMが少ない(例えば6GB)ユーザーは苦労する可能性がありますが、BAGEL-7B-MoT-INT8BAGEL-7B-MoT-FP8のような量子化バージョンは、リソースが限られた環境向けの代替手段を提供します。さらに、非常に特定の画像操作などの特定のコーナーケースにおけるモデルのパフォーマンスは、さらなるファインチューニングが必要となる場合があります。

ByteDanceは、これらの問題を特定し対処するためにコミュニティからのフィードバックを求めています。開発者は、GitHubリポジトリのイシュートラッカーまたはDiscordチャンネルを通じて悪いケースを共有し、モデルの継続的な改善に貢献できます。

コミュニティとオープンソースの影響

BAGEL-7B-MoTがApache 2.0ライセンスの下でリリースされたことは、AIの民主化に向けた重要な一歩です。モデル、コード、ドキュメントを自由に利用可能にすることで、ByteDanceは開発者や研究者が独自の制限なしに革新的なアプリケーションを構築することを可能にします。コミュニティの反応は圧倒的に肯定的であり、ユーザーは主要なVLMを上回るその能力や、GoogleのVeo 3のようなクローズドソースモデルに匹敵する可能性を指摘しています。

モデルのオープンソースの性質は、コラボレーションも促進します。DFloat11/BAGEL-7B-MoT-DF11のようなフォークは、コミュニティがBAGEL-7B-MoTを効率のために最適化し、精度を犠牲にすることなくサイズを70%削減している様子を示しています。このような取り組みは、オープンソースAIがイノベーションを推進する力を浮き彫りにしています。

結論

BAGEL-7B-MoTは、テキストから画像への生成、高度な画像編集、ワールドモデリングを単一のオープンソースモデルに組み合わせた、マルチモーダルAIにおける記念碑的な成果です。そのMixture-of-Transformer-Expertsアーキテクチャ、デュアルエンコーダー設計、および大規模なトレーニングにより、開発者や研究者にとって多用途で強力なツールとなっています。主要なVLMを上回り、専門的なジェネレーターに匹敵することで、BAGEL-7B-MoTは、統合されたモデルが効率性を犠牲にすることなく優れた結果を達成できることを証明しています。Hugging FaceとGitHubでリソースが入手可能であり、ApidogのようなツールがAPI統合を簡素化するため、今こそBAGEL-7B-MoTの可能性を探求する絶好の機会です。ByteDanceのオープンソースAIへのコミットメントにより、このモデルは進化を続け、業界全体のイノベーションを推進し、世界のAIコミュニティに力を与えることが保証されます。

画像
ボタン

ApidogでAPIデザイン中心のアプローチを取る

APIの開発と利用をよりシンプルなことにする方法を発見できる