Apidog

올인원 협업 API 개발 플랫폼

API 설계

API 문서

API 디버깅

API 모킹

자동화 테스트

BAGEL-7B-MoT: 바이트댄스의 멀티모달 AI 혁신 돌파구

Ashley Innocent

Ashley Innocent

Updated on May 28, 2025

ByteDance는 최신 출시작인 BAGEL-7B-MoT를 통해 인공지능의 경계를 확장하고 있습니다. 이 멀티모달 파운데이션 모델은 기계가 텍스트, 이미지 등 다양한 콘텐츠를 이해하고 생성하는 방식을 재정의합니다. ByteDance의 Seed 팀이 개발한 이 오픈소스 모델은 텍스트-이미지 생성, 이미지 편집, 월드 모델링과 같은 고급 기능을 통합하여 AI 분야에서 두각을 나타냅니다. 단 70억 개의 활성 매개변수(총 140억 개)만으로도 BAGEL-7B-MoT는 Qwen2.5-VL 및 SD3와 같은 최고 수준 모델에 필적하는 성능을 제공하며, 이 모든 것이 개방적인 Apache 2.0 라이선스 하에 제공됩니다.

💡
API를 통해 이 모델을 통합하려는 개발자를 위해 Apidog와 같은 도구는 AI 기반 애플리케이션을 테스트하고 배포하는 원활한 방법을 제공합니다. Apidog를 무료로 다운로드하여 API 워크플로우를 간소화하고 BAGEL-7B-MoT의 잠재력을 손쉽게 활용하세요. 
버튼

BAGEL-7B-MoT란 무엇인가? 기술 개요

BAGEL-7B-MoT는 텍스트, 이미지, 비디오, 웹 데이터 등 다양한 데이터 모달리티에 걸쳐 이해 및 생성을 통합하도록 설계된 오픈소스 디코더 전용 멀티모달 모델입니다. 특정 작업에 대해 별도의 아키텍처(예: 이미지 생성을 위한 DALL-E 또는 시각적 이해를 위한 GPT-4V)에 의존하는 기존 AI 모델과 달리, BAGEL-7B-MoT는 이러한 기능을 단일의 효율적인 프레임워크로 통합합니다. 결과적으로 복잡성을 줄이면서도 우수한 성능을 달성합니다.

이 모델은 다양한 멀티모달 정보를 처리하는 능력을 향상시키는 Mixture-of-Transformer-Experts (MoT) 아키텍처를 활용합니다. 픽셀 수준 특징을 위한 인코더와 의미 수준 특징을 위한 또 다른 인코더, 두 개의 별도 인코더를 사용하여 BAGEL-7B-MoT는 세밀한 시각적 세부 사항과 고수준의 문맥적 의미를 모두 포착합니다. 이 이중 인코더 접근 방식은 Next Group of Token Prediction 패러다임과 결합되어 모델이 언어 또는 시각적 토큰의 시퀀스를 예측할 수 있도록 하여 자유 형식 이미지 편집 및 3D 조작과 같은 작업을 가능하게 합니다. 또한 이 모델은 Qwen2.5-7B-Instructsiglip-so400m-14-384-flash-attn2를 포함한 강력한 기반에서 미세 조정되었으며, FLUX.1-schnell VAE 모델이 시각적 생성 능력을 향상시킵니다. 모든 구성 요소는 Apache 2.0 라이선스 하에 제공되어 개발자와 연구자들이 접근할 수 있습니다.

BAGEL-7B-MoT를 탐색하고자 하는 분들을 위해 모델 가중치와 상세 문서는 Hugging Face GitHub 저장소에서 사용할 수 있습니다. 이 자료들은 구현 및 실험을 위한 견고한 시작점을 제공합니다.

아키텍처: Mixture-of-Transformer-Experts (MoT)

BAGEL-7B-MoT 아키텍처는 성공의 초석입니다. 특히 Mixture-of-Transformer-Experts (MoT) 프레임워크는 풍부하고 다양한 멀티모달 데이터를 처리하는 모델의 용량을 극대화합니다. 단일의 모놀리식 아키텍처에 의존하는 기존 트랜스포머 모델과 달리, MoT는 입력 데이터의 다양한 측면을 처리하기 위해 협력하는 여러 개의 전문화된 트랜스포머 "전문가"를 사용합니다. 이 접근 방식은 효율성과 확장성을 향상시켜 BAGEL-7B-MoT가 계산 자원의 기하급수적인 증가 없이 복잡한 작업을 해결할 수 있도록 합니다.

이 모델은 시각적 입력을 처리하기 위해 두 개의 서로 다른 인코더를 사용합니다:

  • 픽셀 수준 인코더: 이미지 편집 및 생성과 같은 작업에 중요한 질감 및 가장자리와 같은 세밀한 세부 사항을 포착합니다.
  • 의미 수준 인코더: 고수준의 문맥 정보를 추출하여 시각적 콘텐츠에 대한 고급 추론 및 이해를 가능하게 합니다.

이러한 인코더는 MoT 프레임워크로 피드되며, MoT 프레임워크는 입력 모달리티에 따라 적절한 전문가에게 처리 작업을 동적으로 할당합니다. 예를 들어, 텍스트 프롬프트에서 이미지를 생성할 때 의미 인코더는 텍스트 설명을 해석하고, 픽셀 수준 인코더는 출력 이미지가 시각적 충실도를 유지하도록 보장합니다. 이러한 시너지 효과를 통해 BAGEL-7B-MoT는 SD3와 같은 전문 모델과 경쟁하는 텍스트-이미지 생성과 같은 작업에서 탁월한 성능을 발휘합니다.

또한 이 모델은 Next Group of Token Prediction 패러다임을 사용합니다. 개별 토큰을 예측하는 대신, BAGEL-7B-MoT는 토큰 그룹을 예측하여 정확도를 유지하면서 계산 오버헤드를 줄입니다. 이 접근 방식은 모델이 텍스트와 시각적 데이터를 원활하게 전환하며 처리해야 하는 멀티모달 작업에 특히 효과적입니다. 결과적으로 BAGEL-7B-MoT는 멀티모달 이해 및 생성 벤치마크에서 최첨단 성능을 달성합니다.

훈련 방법론: 멀티모달 학습 확장

BAGEL-7B-MoT의 훈련 과정은 멀티모달 AI 확장의 마스터 클래스입니다. 이 모델은 텍스트, 이미지, 비디오, 웹 데이터에 걸쳐 수조 개의 인터리브된 멀티모달 토큰으로 사전 훈련되었습니다. 이 방대한 데이터셋을 통해 BAGEL-7B-MoT는 다양한 데이터 유형에 대한 깊은 이해를 개발하여 기존 AI 모델을 뛰어넘는 새로운 기능을 육성합니다.

훈련 파이프라인은 세 가지 주요 단계로 구성됩니다:

  1. 사전 훈련: 대규모 인터리브 데이터를 처리하여 기본 기술을 학습합니다. 이 단계는 기본적인 멀티모달 이해 및 생성 능력을 확립합니다.
  2. 지속 훈련: 추가 훈련을 통해 이미지 편집 및 순차적 추론과 같은 복잡한 작업을 처리하는 모델의 능력을 개선합니다.
  3. 지도 미세 조정: 특정 데이터셋에 대한 목표 미세 조정을 통해 벤치마크 작업 성능을 향상시켜 BAGEL-7B-MoT가 Qwen2.5-VL 및 InternVL-2.5와 같은 경쟁 모델을 능가하도록 합니다.

ByteDance에서 수행한 제거 연구(ablation studies)에 따르면 Variational Autoencoder (VAE)Vision Transformer (ViT) 특징을 결합하면 지능형 편집 기능이 크게 향상됩니다. 예를 들어, FLUX.1-schnell에서 파생된 VAE 구성 요소는 고품질 시각적 출력을 보장하는 반면, ViT 인코더는 강력한 의미론적 문맥을 제공합니다. 이 조합은 모델이 시각적 충실도와 문맥적 정확성 사이의 균형을 맞춰야 하는 자유 형식 이미지 조작과 같은 작업에 중요합니다.

또한 훈련 과정은 기능의 단계적 진행을 강조합니다. 훈련 초기에는 BAGEL-7B-MoT가 멀티모달 이해 및 생성을 숙달합니다. 훈련이 진행됨에 따라 기본적인 편집 기술을 개발하고, 이어서 3D 조작 및 월드 내비게이션과 같은 고급 기능을 개발합니다. 이러한 새로운 패턴은 복잡한 멀티모달 추론을 잠금 해제하는 데 있어 대규모의 다양한 데이터셋의 중요성을 강조합니다.

BAGEL-7B-MoT의 주요 기능

BAGEL-7B-MoT는 다양한 작업에 걸친 다재다능함으로 두드러집니다. 아래에서는 오픈소스 멀티모달 AI 분야의 선두 주자로 자리매김하는 주요 기능을 살펴봅니다.

1. 텍스트-이미지 생성

BAGEL-7B-MoT는 SD3와 같은 전문 생성 모델에 필적하는 텍스트-이미지 품질을 제공합니다. 이중 인코더 아키텍처와 MoT 프레임워크를 활용하여 텍스트 프롬프트에서 고화질 이미지를 생성합니다. 예를 들어, "일몰의 고요한 산 풍경"과 같은 프롬프트는 정확한 조명과 세부 사항을 갖춘 시각적으로 놀라운 결과를 생성합니다. 개발자는 GitHub 저장소에 제공된 Gradio WebUI를 사용하여 이 기능을 실험할 수 있습니다.

2. 고급 이미지 편집

기존 이미지 편집 모델과 달리, BAGEL-7B-MoT는 자유 형식 시각적 조작을 지원합니다. 사용자는 "하늘을 별이 빛나는 밤으로 바꿔줘" 또는 "이것을 1920년대 빈티지 사진으로 바꿔줘"와 같은 자연어 지침을 제공할 수 있으며, 모델은 이러한 편집을 정확하게 실행합니다. VAE와 ViT 기능의 조합은 편집이 시각적 품질과 문맥적 관련성을 모두 보존하도록 보장합니다.

3. 월드 모델링 및 내비게이션

BAGEL-7B-MoT의 가장 혁신적인 기능 중 하나는 다중 시점 합성 및 월드 내비게이션과 같은 "월드 모델링" 작업을 수행하는 능력입니다. 이러한 기능은 모델이 3D 환경을 이해하고 조작할 수 있도록 하여 가상 현실, 게임 및 로봇 공학 분야의 애플리케이션에 적합하게 만듭니다. 예를 들어, 모델은 비디오 시퀀스의 미래 프레임을 예측하거나 여러 각도에서 객체의 일관된 뷰를 생성할 수 있습니다.

4. 멀티모달 추론

BAGEL-7B-MoT는 순차적 추론 및 사고의 사슬 처리와 같은 복잡한 멀티모달 추론이 필요한 작업에서 뛰어난 성능을 발휘합니다. Cog 구현에서 "enable_thinking" 플래그를 활성화함으로써 개발자는 출력을 생성하기 전에 모델이 복잡한 작업을 추론하도록 유도할 수 있습니다. 이 기능은 자율 시스템 또는 대화형 AI 비서와 같이 깊은 문맥적 이해가 필요한 애플리케이션에 특히 유용합니다.

5. 벤치마크 성능

이 모델은 표준 멀티모달 이해 및 생성 벤치마크에서 Qwen2.5-VL 및 InternVL-2.5와 같은 오픈소스 경쟁 모델을 능가합니다. 단일 아키텍처 내에서 다양한 작업을 처리하는 능력은 개발자에게 비용 효율적이고 강력한 솔루션을 제공합니다.

구현 및 배포

BAGEL-7B-MoT의 오픈소스 가용성과 포괄적인 문서 덕분에 배포는 간단합니다. 모델 가중치는 Hugging Face에 호스팅되어 있으며, GitHub 저장소는 설치, 추론 및 평가를 위한 스크립트를 제공합니다. 다음은 BAGEL-7B-MoT를 다운로드하고 설정하는 샘플 스크립트입니다:

import os
from huggingface_hub import snapshot_download

# Define paths
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"

# Download model weights
snapshot_download(
    cache_dir=cache_dir,
    local_dir=save_dir,
    repo_id=repo_id,
    local_dir_use_symlinks=False,
    resume_download=True,
    allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"]
)

# Install dependencies
os.system("conda create -n bagel python=3.10 -y")
os.system("conda activate bagel")
os.system("pip install -r requirements.txt")

설정 후 개발자는 inference.ipynb 노트북 또는 Gradio WebUI를 사용하여 모델과 상호 작용할 수 있습니다. 예를 들어, 이미지를 생성하려면 다음을 실행합니다:

cog predict -i prompt="A futuristic city floating in the clouds" -i enable_thinking=true

이미지 편집을 위해서는 다음을 사용합니다:

cog predict -i prompt="Make it look like it’s underwater with fish swimming around" -i image=@your_photo.jpg -i task="image-editing" -i cfg_img_scale=2.0

이러한 명령은 BAGEL-7B-MoT를 프로덕션 사용에 최적화하는 Cog 구현을 활용합니다. 개발자는 Apidog와 같은 도구를 사용하여 모델을 API와 통합하여 실제 애플리케이션 배포를 간소화할 수도 있습니다.

과제 및 고려 사항

BAGEL-7B-MoT는 강력한 모델이지만 몇 가지 제한 사항이 있습니다. 이 모델은 상당한 계산 자원을 요구하며, 사용자는 24GB VRAM을 가진 RTX 3090과 같은 GPU에서 성공적인 배포를 보고했습니다. 더 낮은 VRAM(예: 6GB)을 가진 사용자는 어려움을 겪을 수 있지만, BAGEL-7B-MoT-INT8BAGEL-7B-MoT-FP8과 같은 양자화된 버전은 자원이 제한된 환경에 대한 대안을 제공합니다. 또한 특정 엣지 케이스(예: 매우 구체적인 이미지 조작)에서의 모델 성능은 추가적인 미세 조정이 필요할 수 있습니다.

ByteDance는 이러한 문제를 식별하고 해결하기 위해 커뮤니티 피드백을 요청했습니다. 개발자는 GitHub 저장소의 이슈 트래커 또는 Discord 채널을 통해 나쁜 사례를 공유하여 모델의 지속적인 개선에 기여할 수 있습니다.

커뮤니티 및 오픈소스 영향

Apache 2.0 라이선스 하에 BAGEL-7B-MoT를 출시한 것은 AI 민주화를 향한 중요한 단계입니다. 모델, 코드, 문서를 자유롭게 제공함으로써 ByteDance는 개발자와 연구자들이 독점적인 제한 없이 혁신적인 애플리케이션을 구축할 수 있도록 지원합니다. 커뮤니티 반응은 압도적으로 긍정적이며, 사용자들은 선도적인 VLM을 능가하는 능력과 Google의 Veo 3와 같은 클로즈드 소스 모델에 필적할 잠재력을 언급했습니다.

모델의 오픈소스 특성은 협업도 촉진합니다. DFloat11/BAGEL-7B-MoT-DF11과 같은 포크는 커뮤니티가 정확도를 희생하지 않고 크기를 70% 줄여 BAGEL-7B-MoT를 효율적으로 최적화하는 방법을 보여줍니다. 이러한 노력은 혁신을 주도하는 오픈소스 AI의 힘을 강조합니다.

결론

BAGEL-7B-MoT는 텍스트-이미지 생성, 고급 이미지 편집, 월드 모델링을 단일 오픈소스 모델에 결합한 멀티모달 AI의 기념비적인 성과를 나타냅니다. Mixture-of-Transformer-Experts 아키텍처, 이중 인코더 설계, 대규모 훈련은 개발자와 연구자에게 다재다능하고 강력한 도구를 제공합니다. 선도적인 VLM을 능가하고 전문 생성 모델에 필적함으로써 BAGEL-7B-MoT는 통합 모델이 효율성을 희생하지 않고도 뛰어난 결과를 달성할 수 있음을 입증합니다. Hugging Face 및 GitHub에서 사용할 수 있는 자료와 API 통합을 간소화하는 Apidog와 같은 도구를 통해 지금이야말로 BAGEL-7B-MoT의 잠재력을 탐색하기에 완벽한 시기입니다. ByteDance의 오픈소스 AI에 대한 약속은 이 모델이 계속 발전하여 산업 전반에 걸쳐 혁신을 주도하고 글로벌 AI 커뮤니티에 힘을 실어줄 것임을 보장합니다.

버튼