ByteDance mendorong batas-batas kecerdasan buatan dengan rilis terbarunya, BAGEL-7B-MoT, sebuah model dasar multimodal yang mendefinisikan ulang cara mesin memahami dan menghasilkan konten di berbagai media seperti teks, gambar, dan lainnya. Model sumber terbuka ini, yang dikembangkan oleh tim Seed ByteDance, mengintegrasikan kemampuan canggih seperti pembuatan teks menjadi gambar, pengeditan gambar, dan pemodelan dunia, menjadikannya unggulan dalam lanskap AI. Dengan hanya 7 miliar parameter aktif (total 14 miliar), BAGEL-7B-MoT memberikan kinerja yang menyaingi model-model kelas atas seperti Qwen2.5-VL dan SD3, semuanya di bawah lisensi Apache 2.0 yang permisif.
Apa Itu BAGEL-7B-MoT? Tinjauan Teknis
BAGEL-7B-MoT adalah model multimodal sumber terbuka, hanya decoder, yang dirancang untuk menyatukan pemahaman dan generasi di berbagai modalitas data, termasuk teks, gambar, video, dan data web. Tidak seperti model AI tradisional yang mengandalkan arsitektur terpisah untuk tugas-tugas spesifik (misalnya, DALL-E untuk pembuatan gambar atau GPT-4V untuk pemahaman visual), BAGEL-7B-MoT mengonsolidasikan kemampuan ini ke dalam satu kerangka kerja yang efisien. Akibatnya, ini mengurangi kompleksitas sambil mencapai kinerja yang unggul.

Model ini memanfaatkan arsitektur Mixture-of-Transformer-Experts (MoT), yang meningkatkan kemampuannya untuk memproses informasi multimodal yang beragam. Dengan menggunakan dua encoder terpisah—satu untuk fitur tingkat piksel dan satu lagi untuk fitur tingkat semantik—BAGEL-7B-MoT menangkap detail visual yang halus dan makna kontekstual tingkat tinggi. Pendekatan dual-encoder ini, dikombinasikan dengan paradigma Next Group of Token Prediction, memungkinkan model untuk memprediksi urutan token bahasa atau visual, memungkinkan tugas-tugas seperti pengeditan gambar bentuk bebas dan manipulasi 3D. Selain itu, model ini disetel halus dari fondasi yang kuat, termasuk Qwen2.5-7B-Instruct dan siglip-so400m-14-384-flash-attn2, dengan model FLUX.1-schnell VAE meningkatkan kemampuan generasi visualnya. Semua komponen dilisensikan di bawah Apache 2.0, memastikan aksesibilitas bagi pengembang dan peneliti.
Bagi mereka yang ingin menjelajahi BAGEL-7B-MoT, bobot model dan dokumentasi terperinci tersedia di Hugging Face dan repositori GitHub. Sumber daya ini menyediakan titik awal yang kuat untuk implementasi dan eksperimen.
Arsitektur: Mixture-of-Transformer-Experts (MoT)
Arsitektur BAGEL-7B-MoT adalah landasan kesuksesannya. Secara spesifik, kerangka kerja Mixture-of-Transformer-Experts (MoT) memaksimalkan kapasitas model untuk menangani data multimodal yang sangat beragam. Tidak seperti model transformer tradisional yang mengandalkan arsitektur tunggal dan monolitik, MoT menggunakan beberapa 'pakar' transformer khusus yang berkolaborasi untuk memproses berbagai aspek data masukan. Pendekatan ini meningkatkan efisiensi dan skalabilitas, memungkinkan BAGEL-7B-MoT menangani tugas-tugas kompleks tanpa memerlukan peningkatan sumber daya komputasi secara eksponensial.

Model ini menggunakan dua encoder berbeda untuk memproses masukan visual:
- Encoder Tingkat Piksel: Menangkap detail halus seperti tekstur dan tepi, penting untuk tugas-tugas seperti pengeditan gambar dan pembuatan.
- Encoder Tingkat Semantik: Mengekstrak informasi kontekstual tingkat tinggi, memungkinkan penalaran lanjutan dan pemahaman konten visual.
Encoder-encoder ini masuk ke dalam kerangka kerja MoT, yang secara dinamis mengalokasikan tugas pemrosesan kepada pakar yang sesuai berdasarkan modalitas masukan. Misalnya, saat menghasilkan gambar dari prompt teks, encoder semantik menafsirkan deskripsi tekstual, sementara encoder tingkat piksel memastikan gambar keluaran mempertahankan kesetiaan visual. Sinergi ini memungkinkan BAGEL-7B-MoT unggul dalam tugas-tugas seperti pembuatan teks menjadi gambar, di mana ia bersaing dengan model khusus seperti SD3.

Selain itu, model ini menggunakan paradigma Next Group of Token Prediction. Alih-alih memprediksi token individual, BAGEL-7B-MoT memprediksi kelompok token, mengurangi overhead komputasi sambil mempertahankan akurasi. Pendekatan ini sangat efektif untuk tugas multimodal, di mana model harus beralih dengan mulus antara memproses data teks dan visual. Sebagai hasilnya, BAGEL-7B-MoT mencapai kinerja terkini pada benchmark untuk pemahaman dan generasi multimodal.
Metodologi Pelatihan: Skalasi Pembelajaran Multimodal
Proses pelatihan untuk BAGEL-7B-MoT adalah kelas master dalam penskalaan AI multimodal. Model ini dilatih sebelumnya pada triliunan token multimodal yang saling terkait yang mencakup teks, gambar, video, dan data web. Dataset masif ini memungkinkan BAGEL-7B-MoT mengembangkan pemahaman mendalam tentang berbagai jenis data, mendorong kemampuan yang muncul melampaui model AI tradisional.
Pipeline pelatihan terdiri dari tiga fase utama:
- Pelatihan Awal (Pre-training): Model mempelajari keterampilan dasar dengan memproses data interleaved skala besar. Fase ini menetapkan pemahaman multimodal dasar dan kemampuan generasi.
- Pelatihan Lanjutan (Continued Training): Pelatihan tambahan menyempurnakan kemampuan model untuk menangani tugas-tugas kompleks, seperti pengeditan gambar dan penalaran sekuensial.
- Penyetelan Halus Terawasi (Supervised Fine-Tuning): Penyetelan halus yang ditargetkan pada dataset spesifik meningkatkan kinerja pada tugas benchmark, memastikan BAGEL-7B-MoT mengungguli pesaing seperti Qwen2.5-VL dan InternVL-2.5.
Studi ablasi yang dilakukan oleh ByteDance mengungkapkan bahwa menggabungkan fitur Variational Autoencoder (VAE) dan Vision Transformer (ViT) secara signifikan meningkatkan kemampuan pengeditan cerdas. Misalnya, komponen VAE, yang berasal dari FLUX.1-schnell, memastikan keluaran visual berkualitas tinggi, sementara encoder ViT menyediakan konteks semantik yang kuat. Kombinasi ini sangat penting untuk tugas-tugas seperti manipulasi gambar bentuk bebas, di mana model harus menyeimbangkan kesetiaan visual dengan akurasi kontekstual.
Selain itu, proses pelatihan menyoroti perkembangan kemampuan yang bertahap. Pada awal pelatihan, BAGEL-7B-MoT menguasai pemahaman dan generasi multimodal. Seiring berjalannya pelatihan, ia mengembangkan keterampilan pengeditan dasar, diikuti oleh kemampuan lanjutan seperti manipulasi 3D dan navigasi dunia. Pola yang muncul ini menggarisbawahi pentingnya dataset skala besar dan beragam dalam membuka penalaran multimodal yang kompleks.
Kemampuan Utama BAGEL-7B-MoT
BAGEL-7B-MoT menonjol karena keserbagunaannya di berbagai tugas. Di bawah ini, kita akan menjelajahi kemampuan utamanya, yang masing-masing memposisikannya sebagai pemimpin dalam AI multimodal sumber terbuka.

1. Pembuatan Teks menjadi Gambar
BAGEL-7B-MoT memberikan kualitas teks menjadi gambar yang menyaingi generator khusus seperti SD3. Dengan memanfaatkan arsitektur dual-encoder dan kerangka kerja MoT, model ini menghasilkan gambar berkualitas tinggi dari prompt tekstual. Misalnya, prompt seperti “Pemandangan gunung yang tenang saat matahari terbenam” menghasilkan hasil visual yang menakjubkan dengan pencahayaan dan detail yang akurat. Pengembang dapat bereksperimen dengan fitur ini menggunakan Gradio WebUI yang disediakan di repositori GitHub.
2. Pengeditan Gambar Tingkat Lanjut
Tidak seperti model pengeditan gambar tradisional, BAGEL-7B-MoT mendukung manipulasi visual bentuk bebas. Pengguna dapat memberikan instruksi bahasa alami, seperti “Ubah langit menjadi malam berbintang” atau “Ubah ini menjadi foto vintage tahun 1920-an,” dan model akan mengeksekusi pengeditan ini dengan presisi. Kombinasi fitur VAE dan ViT memastikan bahwa pengeditan mempertahankan kualitas visual dan relevansi kontekstual.
3. Pemodelan dan Navigasi Dunia
Salah satu fitur paling inovatif dari BAGEL-7B-MoT adalah kemampuannya untuk melakukan tugas 'pemodelan dunia', seperti sintesis multiview dan navigasi dunia. Kemampuan ini memungkinkan model untuk memahami dan memanipulasi lingkungan 3D, menjadikannya cocok untuk aplikasi dalam realitas virtual, game, dan robotika. Misalnya, model dapat memprediksi frame mendatang dalam urutan video atau menghasilkan tampilan objek yang konsisten dari berbagai sudut.
4. Penalaran Multimodal
BAGEL-7B-MoT unggul dalam tugas-tugas yang memerlukan penalaran multimodal yang kompleks, seperti penalaran sekuensial dan pemrosesan chain-of-thought. Dengan mengaktifkan flag “enable_thinking” dalam implementasi Cog, pengembang dapat meminta model untuk bernalar melalui tugas-tugas kompleks sebelum menghasilkan keluaran. Fitur ini sangat berharga untuk aplikasi yang memerlukan pemahaman kontekstual mendalam, seperti sistem otonom atau asisten AI interaktif.
5. Kinerja Benchmark
Model ini melampaui pesaing sumber terbuka seperti Qwen2.5-VL dan InternVL-2.5 pada benchmark standar pemahaman dan generasi multimodal. Kemampuannya untuk menangani berbagai tugas dalam satu arsitektur menjadikannya solusi yang hemat biaya dan kuat bagi pengembang.

Implementasi dan Penerapan
Menerapkan BAGEL-7B-MoT cukup mudah, berkat ketersediaan sumber terbuka dan dokumentasi yang komprehensif. Bobot model di-host di Hugging Face, dan repositori GitHub menyediakan skrip untuk instalasi, inferensi, dan evaluasi. Berikut adalah contoh skrip untuk mengunduh dan menyiapkan BAGEL-7B-MoT:
import os
from huggingface_hub import snapshot_download
# Define paths
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
# Download model weights
snapshot_download(
cache_dir=cache_dir,
local_dir=save_dir,
repo_id=repo_id,
local_dir_use_symlinks=False,
resume_download=True,
allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"]
)
# Install dependencies
os.system("conda create -n bagel python=3.10 -y")
os.system("conda activate bagel")
os.system("pip install -r requirements.txt")
Setelah penyiapan, pengembang dapat menggunakan notebook **inference.ipynb** atau Gradio WebUI untuk berinteraksi dengan model. Misalnya, untuk menghasilkan gambar, jalankan:
cog predict -i prompt="A futuristic city floating in the clouds" -i enable_thinking=true
Untuk pengeditan gambar, gunakan:
cog predict -i prompt="Make it look like it’s underwater with fish swimming around" -i image=@your_photo.jpg -i task="image-editing" -i cfg_img_scale=2.0
Perintah-perintah ini memanfaatkan implementasi Cog, yang mengoptimalkan BAGEL-7B-MoT untuk penggunaan produksi. Pengembang juga dapat mengintegrasikan model dengan API menggunakan alat seperti Apidog untuk menyederhanakan penerapan dalam aplikasi dunia nyata.
Tantangan dan Pertimbangan
Meskipun BAGEL-7B-MoT adalah model yang kuat, ia memiliki beberapa keterbatasan. Model ini memerlukan sumber daya komputasi yang signifikan, dengan pengguna melaporkan keberhasilan penerapan pada GPU seperti RTX 3090 dengan VRAM 24GB. Mereka yang memiliki VRAM lebih rendah (misalnya, 6GB) mungkin akan kesulitan, meskipun versi terkuantisasi seperti BAGEL-7B-MoT-INT8 dan BAGEL-7B-MoT-FP8 menawarkan alternatif untuk lingkungan dengan sumber daya terbatas. Selain itu, kinerja model dalam kasus-kasus ekstrem tertentu, seperti manipulasi gambar yang sangat spesifik, mungkin memerlukan penyetelan halus lebih lanjut.
ByteDance telah meminta umpan balik dari komunitas untuk mengidentifikasi dan mengatasi masalah-masalah ini. Pengembang dapat membagikan kasus-kasus buruk melalui pelacak masalah repositori GitHub atau saluran Discord, berkontribusi pada perbaikan model yang berkelanjutan.
Dampak Komunitas dan Sumber Terbuka
Rilis BAGEL-7B-MoT di bawah lisensi Apache 2.0 adalah langkah signifikan menuju demokratisasi AI. Dengan menyediakan model, kode, dan dokumentasi secara gratis, ByteDance memberdayakan pengembang dan peneliti untuk membangun aplikasi inovatif tanpa batasan kepemilikan. Respon komunitas sangat positif, pengguna telah mencatat kemampuannya untuk mengungguli VLM terkemuka dan potensinya untuk menyaingi model sumber tertutup seperti Veo 3 milik Google.
Sifat sumber terbuka model ini juga mendorong kolaborasi. Fork seperti DFloat11/BAGEL-7B-MoT-DF11 menunjukkan bagaimana komunitas mengoptimalkan BAGEL-7B-MoT untuk efisiensi, mencapai pengurangan ukuran 70% tanpa mengorbankan akurasi. Upaya semacam itu menyoroti kekuatan AI sumber terbuka dalam mendorong inovasi.
Kesimpulan
BAGEL-7B-MoT mewakili pencapaian monumental dalam AI multimodal, menggabungkan pembuatan teks menjadi gambar, pengeditan gambar tingkat lanjut, dan pemodelan dunia dalam satu model sumber terbuka. Arsitektur Mixture-of-Transformer-Experts, desain dual-encoder, dan pelatihan skala besar menjadikannya alat yang serbaguna dan kuat bagi pengembang dan peneliti. Dengan mengungguli VLM terkemuka dan menyaingi generator khusus, BAGEL-7B-MoT membuktikan bahwa model terpadu dapat mencapai hasil luar biasa tanpa mengorbankan efisiensi. Dengan sumber daya yang tersedia di Hugging Face dan GitHub, serta alat seperti Apidog untuk menyederhanakan integrasi API, sekarang adalah waktu yang tepat untuk menjelajahi potensi BAGEL-7B-MoT. Komitmen ByteDance terhadap AI sumber terbuka memastikan bahwa model ini akan terus berkembang, mendorong inovasi di berbagai industri dan memberdayakan komunitas AI global.
