[논문리뷰] Emu3.5: Native Multimodal Models are World Learners

수정: 2025년 10월 31일

링크: 논문 PDF로 바로 열기

저자: Emu3.5 Team, BAAI

핵심 연구 목표

본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5를 소개합니다. 자연스러운 멀티모달 능력을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력을 향상시키는 것을 목표로 합니다. 또한, **Discrete Diffusion Adaptation (DiDA)**를 통해 추론 효율성을 약 20배 향상시키고자 합니다.

핵심 방법론

Emu3.5는 10조 개 이상의 토큰으로 구성된 비전-언어 인터리브드 데이터셋을 활용하여 통합된 next-token prediction objective로 엔드투엔드 사전 훈련되었습니다. 이후, 멀티모달 추론 및 생성을 강화하기 위해 **대규모 강화 학습(RL)**으로 후속 훈련되었으며, 시각적 토큰에 대한 추론 속도를 대폭 높이기 위해 Discrete Diffusion Adaptation (DiDA) 기법을 도입하여 토큰별 디코딩을 양방향 병렬 예측으로 전환했습니다. 모델은 64개 트랜스포머 레이어를 포함한 341억 개의 파라미터로 구성되어 있습니다.

주요 결과

Emu3.5는 이미지 생성 및 편집 벤치마크(ImgEdit, GEdit-Bench)에서 최고 성능을 달성했으며, 특히 ImgEdit에서 4.41점, GEdit-Bench에서 7.59점을 기록했습니다. 또한, interleaved generation task에서 Gemini 2.5 Flash Image(Nano Banana) 대비 World Exploration에서 65.5%, Embodied Manipulation에서 67.1%의 승률을 보여주며 우수한 결과를 시연했습니다. DiDA 적용 시 이미지 추론 속도를 최대 20배 가속화하면서도 성능 저하가 없음을 입증했습니다.

AI 실무자를 위한 시사점

Emu3.5멀티모달 월드 모델의 잠재력을 보여주며, 이는 향후 대화형 AI 시스템 및 로봇 공학 분야에서 실제 환경을 인지, 추론 및 행동하는 기반을 제공할 수 있습니다. DiDA와 같은 효율적인 추론 기법은 대규모 멀티모달 모델의 실용적인 배포를 가능하게 하여, 복잡한 비전-언어 태스크에서 실시간 상호작용의 문을 엽니다. 또한, 모델과 개발 과정의 오픈 소스 공개는 관련 연구의 활성화를 촉진할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image