[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

링크: 논문 PDF로 바로 열기

저자: Jiangpin Liu, Zhikai Wang, Lin Xi, Deli Zhao, Dalmo Academy, Alibaba Group, Hupan Lab Zhejiang University.

핵심 연구 목표

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models (MLLM)이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력의 한계를 극복하는 것입니다. 특히, 로봇이 복잡한 환경에서 유연한 시각적 상호작용, 세밀한 객체 이해, 비디오 기반의 일관된 공간 인지 능력을 갖추도록 하여 정확한 인스턴스 수준의 이해와 grounding을 가능하게 하는 embodied 인지 MLLM RynnEC를 개발하는 것을 목표로 합니다.

핵심 방법론

RynnECVideoLLaMA3를 기반으로 하며, 미세한 객체 표현 학습을 위한 전용 Region Encoder비디오 세그멘테이션을 위한 SAM2 아키텍처 기반의 Mask Decoder를 통합합니다. 데이터 부족 문제를 해결하기 위해 ego-centric RGB 비디오로부터 1.14백만 개 이상의 비디오 인스턴스 마스크를 포함하는 대규모 객체 및 공간 인지 QA 데이터셋을 생성하는 마스크 중심의 파이프라인을 제안합니다. 모델은 Mask Alignment, Object Understanding, Spatial Understanding, Referring Segmentation4단계 점진적 학습 방식으로 훈련되어 시각, 공간, grounding 지식을 점진적으로 통합합니다.

주요 결과

RynnECRynnEC-Bench에서 기존 Generalist MLLM (GPT-4o, VideoLLaMA3-7B) 및 task-specific MLLM을 압도적으로 능가하는 성능을 보였습니다. 특히, RynnEC-7B는 전체 평균 점수 56.2%를 달성하여, 기존 오픈소스 Embodied MLLM (RoboBrain-2.0-32B, 24.2%) 대비 상당한 성능 향상을 입증했습니다. 객체 속성 인지에서 61.4%, 객체 세그멘테이션에서 Direct Referring 45.3%Situational Referring 36.1%를 기록했으며, 공간 인지에서도 뛰어난 성능을 보였습니다.

AI 실무자를 위한 시사점

RynnEC는 로봇이 복잡한 환경에서 정확한 객체 파악, 미세한 조작, 효율적인 내비게이션을 수행하는 데 필수적인 정교한 공간 추론 및 객체 이해 능력을 제공합니다. 대규모 마스크 중심 데이터 생성 파이프라인은 고품질의 ego-centric 비디오 데이터 부족이라는 실제적인 문제를 해결하여, 확장 가능한 embodied AI 모델 개발의 초석을 마련했습니다. 이러한 기여는 로봇 지능의 실용적인 발전을 가속화하며, MLLM이 물리적 세계를 이해하고 상호작용하는 데 필요한 핵심 역량을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments