ByteDance đang đẩy lùi ranh giới của trí tuệ nhân tạo với bản phát hành mới nhất, BAGEL-7B-MoT, một mô hình nền tảng đa phương thức định nghĩa lại cách máy móc hiểu và tạo nội dung trên văn bản, hình ảnh và nhiều hơn thế nữa. Mô hình mã nguồn mở này, được phát triển bởi đội ngũ Seed của ByteDance, tích hợp các khả năng tiên tiến như tạo văn bản thành hình ảnh, chỉnh sửa hình ảnh và mô hình hóa thế giới, khiến nó trở nên nổi bật trong lĩnh vực AI. Chỉ với 7 tỷ tham số hoạt động (tổng cộng 14 tỷ), BAGEL-7B-MoT mang lại hiệu suất cạnh tranh với các mô hình hàng đầu như Qwen2.5-VL và SD3, tất cả đều theo giấy phép Apache 2.0 tự do.
BAGEL-7B-MoT là gì? Tổng quan kỹ thuật
BAGEL-7B-MoT là một mô hình đa phương thức mã nguồn mở, chỉ có bộ giải mã (decoder-only), được thiết kế để hợp nhất khả năng hiểu và tạo trên nhiều phương thức dữ liệu khác nhau, bao gồm văn bản, hình ảnh, video và dữ liệu web. Không giống như các mô hình AI truyền thống dựa vào các kiến trúc riêng biệt cho các tác vụ cụ thể (ví dụ: DALL-E cho tạo hình ảnh hoặc GPT-4V cho hiểu thị giác), BAGEL-7B-MoT hợp nhất các khả năng này vào một khung làm việc duy nhất, hiệu quả. Do đó, nó giảm độ phức tạp trong khi đạt được hiệu suất vượt trội.

Mô hình sử dụng kiến trúc Mixture-of-Transformer-Experts (MoT), giúp tăng cường khả năng xử lý thông tin đa phương thức đa dạng. Bằng cách sử dụng hai bộ mã hóa riêng biệt—một cho các đặc trưng cấp độ pixel và một cho các đặc trưng cấp độ ngữ nghĩa—BAGEL-7B-MoT thu được cả chi tiết hình ảnh chi tiết và ý nghĩa ngữ cảnh cấp cao. Phương pháp tiếp cận bộ mã hóa kép này, kết hợp với mô hình Dự đoán Nhóm Token Tiếp theo (Next Group of Token Prediction), cho phép mô hình dự đoán các chuỗi token ngôn ngữ hoặc hình ảnh, cho phép thực hiện các tác vụ như chỉnh sửa hình ảnh tự do và thao tác 3D. Hơn nữa, mô hình được tinh chỉnh từ các nền tảng mạnh mẽ, bao gồm Qwen2.5-7B-Instruct và siglip-so400m-14-384-flash-attn2, với mô hình FLUX.1-schnell VAE tăng cường khả năng tạo hình ảnh của nó. Tất cả các thành phần đều được cấp phép theo Apache 2.0, đảm bảo khả năng truy cập cho các nhà phát triển và nhà nghiên cứu.
Đối với những người muốn khám phá BAGEL-7B-MoT, trọng số mô hình và tài liệu chi tiết có sẵn trên Hugging Face và kho lưu trữ GitHub. Các tài nguyên này cung cấp một điểm khởi đầu vững chắc cho việc triển khai và thử nghiệm.
Kiến trúc: Mixture-of-Transformer-Experts (MoT)
Kiến trúc BAGEL-7B-MoT là nền tảng cho sự thành công của nó. Cụ thể, khung làm việc Mixture-of-Transformer-Experts (MoT) tối đa hóa khả năng của mô hình để xử lý dữ liệu đa phương thức phong phú và đa dạng. Không giống như các mô hình transformer truyền thống dựa vào một kiến trúc duy nhất, nguyên khối, MoT sử dụng nhiều "chuyên gia" transformer chuyên biệt hợp tác để xử lý các khía cạnh khác nhau của dữ liệu đầu vào. Phương pháp tiếp cận này tăng cường hiệu quả và khả năng mở rộng, cho phép BAGEL-7B-MoT giải quyết các tác vụ phức tạp mà không yêu cầu tăng trưởng theo cấp số nhân về tài nguyên tính toán.

Mô hình sử dụng hai bộ mã hóa riêng biệt để xử lý đầu vào hình ảnh:
- Bộ mã hóa cấp độ Pixel: Thu thập các chi tiết nhỏ như kết cấu và cạnh, rất quan trọng cho các tác vụ như chỉnh sửa và tạo hình ảnh.
- Bộ mã hóa cấp độ Ngữ nghĩa: Trích xuất thông tin ngữ cảnh cấp cao, cho phép suy luận nâng cao và hiểu nội dung hình ảnh.
Các bộ mã hóa này đưa dữ liệu vào khung làm việc MoT, khung này phân bổ động các tác vụ xử lý cho các chuyên gia phù hợp dựa trên phương thức đầu vào. Ví dụ, khi tạo hình ảnh từ một lời nhắc văn bản, bộ mã hóa ngữ nghĩa diễn giải mô tả văn bản, trong khi bộ mã hóa cấp độ pixel đảm bảo hình ảnh đầu ra giữ được độ chân thực về hình ảnh. Sự phối hợp này cho phép BAGEL-7B-MoT xuất sắc trong các tác vụ như tạo văn bản thành hình ảnh, nơi nó cạnh tranh với các mô hình chuyên biệt như SD3.

Hơn nữa, mô hình sử dụng mô hình Dự đoán Nhóm Token Tiếp theo. Thay vì dự đoán các token riêng lẻ, BAGEL-7B-MoT dự đoán các nhóm token, giảm chi phí tính toán trong khi vẫn duy trì độ chính xác. Phương pháp tiếp cận này đặc biệt hiệu quả cho các tác vụ đa phương thức, nơi mô hình phải chuyển đổi liền mạch giữa xử lý văn bản và dữ liệu hình ảnh. Kết quả là, BAGEL-7B-MoT đạt hiệu suất hàng đầu trên các điểm chuẩn về hiểu và tạo đa phương thức.
Phương pháp huấn luyện: Mở rộng quy mô học tập đa phương thức
Quá trình huấn luyện cho BAGEL-7B-MoT là một bài học về cách mở rộng quy mô AI đa phương thức. Mô hình được huấn luyện trước trên hàng nghìn tỷ token đa phương thức xen kẽ bao gồm văn bản, hình ảnh, video và dữ liệu web. Tập dữ liệu khổng lồ này cho phép BAGEL-7B-MoT phát triển khả năng hiểu sâu sắc về các loại dữ liệu đa dạng, thúc đẩy các khả năng mới nổi vượt ra ngoài các mô hình AI truyền thống.
Quy trình huấn luyện bao gồm ba giai đoạn chính:
- Huấn luyện trước (Pre-training): Mô hình học các kỹ năng nền tảng bằng cách xử lý dữ liệu xen kẽ quy mô lớn. Giai đoạn này thiết lập khả năng hiểu và tạo đa phương thức cơ bản.
- Huấn luyện tiếp tục (Continued Training): Huấn luyện bổ sung tinh chỉnh khả năng của mô hình để xử lý các tác vụ phức tạp, chẳng hạn như chỉnh sửa hình ảnh và suy luận tuần tự.
- Tinh chỉnh có giám sát (Supervised Fine-Tuning): Tinh chỉnh có mục tiêu trên các tập dữ liệu cụ thể giúp tăng cường hiệu suất trên các tác vụ điểm chuẩn, đảm bảo BAGEL-7B-MoT vượt trội so với các đối thủ như Qwen2.5-VL và InternVL-2.5.
Các nghiên cứu cắt bỏ (ablation studies) do ByteDance thực hiện cho thấy việc kết hợp các đặc trưng của Variational Autoencoder (VAE) và Vision Transformer (ViT) giúp tăng cường đáng kể khả năng chỉnh sửa thông minh. Ví dụ, thành phần VAE, có nguồn gốc từ FLUX.1-schnell, đảm bảo đầu ra hình ảnh chất lượng cao, trong khi bộ mã hóa ViT cung cấp ngữ cảnh ngữ nghĩa mạnh mẽ. Sự kết hợp này rất quan trọng cho các tác vụ như thao tác hình ảnh tự do, nơi mô hình phải cân bằng giữa độ chân thực hình ảnh và độ chính xác ngữ cảnh.
Hơn nữa, quá trình huấn luyện làm nổi bật sự tiến triển theo từng giai đoạn của các khả năng. Giai đoạn đầu của quá trình huấn luyện, BAGEL-7B-MoT thành thạo khả năng hiểu và tạo đa phương thức. Khi quá trình huấn luyện tiếp tục, nó phát triển các kỹ năng chỉnh sửa cơ bản, tiếp theo là các khả năng nâng cao như thao tác 3D và điều hướng thế giới. Mô hình mới nổi này nhấn mạnh tầm quan trọng của các tập dữ liệu đa dạng, quy mô lớn trong việc mở khóa suy luận đa phương thức phức tạp.
Các khả năng chính của BAGEL-7B-MoT
BAGEL-7B-MoT nổi bật với tính linh hoạt trên nhiều tác vụ. Dưới đây, chúng ta sẽ khám phá các khả năng chính của nó, mỗi khả năng đều định vị nó như một nhà lãnh đạo trong lĩnh vực AI đa phương thức mã nguồn mở.

1. Tạo văn bản thành hình ảnh
BAGEL-7B-MoT mang lại chất lượng tạo văn bản thành hình ảnh cạnh tranh với các trình tạo chuyên biệt như SD3. Bằng cách tận dụng kiến trúc bộ mã hóa kép và khung làm việc MoT, mô hình tạo ra hình ảnh chân thực từ các lời nhắc văn bản. Ví dụ, một lời nhắc như "Một phong cảnh núi non thanh bình lúc hoàng hôn" tạo ra kết quả hình ảnh tuyệt đẹp với ánh sáng và chi tiết chính xác. Các nhà phát triển có thể thử nghiệm tính năng này bằng cách sử dụng Gradio WebUI được cung cấp trong kho lưu trữ GitHub.
2. Chỉnh sửa hình ảnh nâng cao
Không giống như các mô hình chỉnh sửa hình ảnh truyền thống, BAGEL-7B-MoT hỗ trợ thao tác hình ảnh tự do. Người dùng có thể cung cấp các hướng dẫn bằng ngôn ngữ tự nhiên, chẳng hạn như "Đổi bầu trời thành đêm đầy sao" hoặc "Biến bức ảnh này thành ảnh cổ điển thập niên 1920", và mô hình sẽ thực hiện các chỉnh sửa này với độ chính xác. Sự kết hợp giữa các đặc trưng VAE và ViT đảm bảo rằng các chỉnh sửa giữ được cả chất lượng hình ảnh và sự liên quan đến ngữ cảnh.
3. Mô hình hóa và điều hướng thế giới
Một trong những tính năng đột phá nhất của BAGEL-7B-MoT là khả năng thực hiện các tác vụ "mô hình hóa thế giới", chẳng hạn như tổng hợp nhiều góc nhìn và điều hướng thế giới. Các khả năng này cho phép mô hình hiểu và thao tác môi trường 3D, làm cho nó phù hợp cho các ứng dụng trong thực tế ảo, trò chơi và robot. Ví dụ, mô hình có thể dự đoán các khung hình tiếp theo trong một chuỗi video hoặc tạo ra các góc nhìn nhất quán về một đối tượng từ nhiều góc độ.
4. Suy luận đa phương thức
BAGEL-7B-MoT xuất sắc trong các tác vụ yêu cầu suy luận đa phương thức phức tạp, chẳng hạn như suy luận tuần tự và xử lý chuỗi suy nghĩ. Bằng cách bật cờ "enable_thinking" trong triển khai Cog, các nhà phát triển có thể yêu cầu mô hình suy luận qua các tác vụ phức tạp trước khi tạo ra đầu ra. Tính năng này đặc biệt có giá trị cho các ứng dụng yêu cầu hiểu ngữ cảnh sâu sắc, chẳng hạn như hệ thống tự hành hoặc trợ lý AI tương tác.
5. Hiệu suất điểm chuẩn
Mô hình vượt trội so với các đối thủ mã nguồn mở như Qwen2.5-VL và InternVL-2.5 trên các điểm chuẩn hiểu và tạo đa phương thức tiêu chuẩn. Khả năng xử lý các tác vụ đa dạng trong một kiến trúc duy nhất làm cho nó trở thành một giải pháp mạnh mẽ và hiệu quả về chi phí cho các nhà phát triển.

Triển khai và Vận hành
Triển khai BAGEL-7B-MoT khá đơn giản, nhờ tính sẵn có mã nguồn mở và tài liệu đầy đủ. Trọng số mô hình được lưu trữ trên Hugging Face, và kho lưu trữ GitHub cung cấp các tập lệnh để cài đặt, suy luận và đánh giá. Dưới đây là một tập lệnh mẫu để tải xuống và thiết lập BAGEL-7B-MoT:
import os
from huggingface_hub import snapshot_download
# Define paths
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
# Download model weights
snapshot_download(
cache_dir=cache_dir,
local_dir=save_dir,
repo_id=repo_id,
local_dir_use_symlinks=False,
resume_download=True,
allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"]
)
# Install dependencies
os.system("conda create -n bagel python=3.10 -y")
os.system("conda activate bagel")
os.system("pip install -r requirements.txt")
Sau khi thiết lập, các nhà phát triển có thể sử dụng sổ tay inference.ipynb hoặc Gradio WebUI để tương tác với mô hình. Ví dụ, để tạo hình ảnh, chạy lệnh:
cog predict -i prompt="A futuristic city floating in the clouds" -i enable_thinking=true
Để chỉnh sửa hình ảnh, sử dụng lệnh:
cog predict -i prompt="Make it look like it’s underwater with fish swimming around" -i image=@your_photo.jpg -i task="image-editing" -i cfg_img_scale=2.0
Các lệnh này tận dụng triển khai Cog, giúp tối ưu hóa BAGEL-7B-MoT cho mục đích sản xuất. Các nhà phát triển cũng có thể tích hợp mô hình với các API bằng cách sử dụng các công cụ như Apidog để hợp lý hóa việc triển khai trong các ứng dụng thực tế.
Thách thức và Lưu ý
Mặc dù BAGEL-7B-MoT là một mô hình mạnh mẽ, nó vẫn có một số hạn chế. Mô hình yêu cầu tài nguyên tính toán đáng kể, với người dùng báo cáo triển khai thành công trên các GPU như RTX 3090 với 24GB VRAM. Những người có VRAM thấp hơn (ví dụ: 6GB) có thể gặp khó khăn, mặc dù các phiên bản lượng tử hóa như BAGEL-7B-MoT-INT8 và BAGEL-7B-MoT-FP8 cung cấp các lựa chọn thay thế cho môi trường hạn chế tài nguyên. Ngoài ra, hiệu suất của mô hình trong một số trường hợp đặc biệt, chẳng hạn như thao tác hình ảnh rất cụ thể, có thể yêu cầu tinh chỉnh thêm.
ByteDance đã kêu gọi phản hồi từ cộng đồng để xác định và giải quyết các vấn đề này. Các nhà phát triển có thể chia sẻ các trường hợp xấu thông qua trình theo dõi vấn đề của kho lưu trữ GitHub hoặc kênh Discord, góp phần vào việc cải tiến liên tục của mô hình.
Cộng đồng và Tác động của Mã nguồn mở
Việc phát hành BAGEL-7B-MoT theo giấy phép Apache 2.0 là một bước tiến quan trọng hướng tới dân chủ hóa AI. Bằng cách cung cấp miễn phí mô hình, mã nguồn và tài liệu, ByteDance trao quyền cho các nhà phát triển và nhà nghiên cứu xây dựng các ứng dụng sáng tạo mà không bị ràng buộc bởi các hạn chế độc quyền. Phản ứng của cộng đồng rất tích cực, người dùng đã ghi nhận khả năng vượt trội của nó so với các VLM hàng đầu và tiềm năng cạnh tranh với các mô hình mã nguồn đóng như Veo 3 của Google.
Tính chất mã nguồn mở của mô hình cũng thúc đẩy sự hợp tác. Các bản fork như DFloat11/BAGEL-7B-MoT-DF11 cho thấy cộng đồng đang tối ưu hóa BAGEL-7B-MoT để đạt hiệu quả, giảm 70% kích thước mà không ảnh hưởng đến độ chính xác. Những nỗ lực như vậy làm nổi bật sức mạnh của AI mã nguồn mở trong việc thúc đẩy đổi mới.
Kết luận
BAGEL-7B-MoT đại diện cho một thành tựu to lớn trong AI đa phương thức, kết hợp tạo văn bản thành hình ảnh, chỉnh sửa hình ảnh nâng cao và mô hình hóa thế giới trong một mô hình mã nguồn mở duy nhất. Kiến trúc Mixture-of-Transformer-Experts, thiết kế bộ mã hóa kép và quá trình huấn luyện quy mô lớn làm cho nó trở thành một công cụ linh hoạt và mạnh mẽ cho các nhà phát triển và nhà nghiên cứu. Bằng cách vượt trội so với các VLM hàng đầu và cạnh tranh với các trình tạo chuyên biệt, BAGEL-7B-MoT chứng minh rằng các mô hình hợp nhất có thể đạt được kết quả đặc biệt mà không phải hy sinh hiệu quả. Với các tài nguyên có sẵn trên Hugging Face và GitHub, cùng với các công cụ như Apidog để đơn giản hóa việc tích hợp API, giờ là thời điểm hoàn hảo để khám phá tiềm năng của BAGEL-7B-MoT. Cam kết của ByteDance đối với AI mã nguồn mở đảm bảo rằng mô hình này sẽ tiếp tục phát triển, thúc đẩy đổi mới trên các ngành công nghiệp và trao quyền cho cộng đồng AI toàn cầu.
