[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

링크: 논문 PDF로 바로 열기

저자: Yuzheng Zhuang, Zhanguang Zhang, Shiguang Wu, Dafeng Chi, Yuecheng Liu

핵심 연구 목표

본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다. 궁극적으로 태스크에 적응하며 3D 정보를 활용하고 로봇의 물리적 제약을 인지하여 실행 가능한 다재다능한 Embodied Planner를 개발하는 것이 목표입니다.

핵심 방법론

OmniEVA는 두 가지 혁신적인 메커니즘을 도입합니다. 첫째, Task-Adaptive 3D Grounding (TAGR)은 컨텍스트 요구사항에 따라 3D 퓨전을 동적으로 조절하는 gated router를 활용합니다. 이는 태스크 조건(자연어 명령어 임베딩 VT)과 장면 조건(시각적 입력 임베딩 VI의 평균 풀링 V_avg)에 기반하여 3D positional embeddings VP의 주입 여부를 결정합니다. 둘째, Embodiment-Aware Reasoning 프레임워크는 Task- and Embodiment-aware GRPO (TE-GRPO) 알고리즘을 통해 태스크 목표와 로봇의 물리적 제약 조건을 동시에 고려하여 계획을 생성하며, Progressive Embodiment Curriculum 전략으로 학습합니다.

주요 결과

OmniEVA는 2D 및 3D Embodied Reasoning 벤치마크 8개 중 7개에서 최신 기술(SOTA) 성능을 달성했습니다. 특히, 2D 벤치마크에서 기존 Robobrain-32B 대비 평균 +10.45% 성능을 향상시켰습니다. 3D 벤치마크에서는 SQA3D, Scan2Cap, ScanRefer에서 Video-3D-LLM3DRS 대비 각각 +2.3%, +0.3%, +8.5%의 성능 향상을 보였습니다. TE-GRPOWhere2Approach에서 28.95%, Where2Fit에서 34.28%의 성능 향상을 가져왔으며, Mobile Placement (Easy)에서 43%, Mobile Placement (Hard)에서 50%의 성공률을 높였습니다.

AI 실무자를 위한 시사점

TAGR 메커니즘은 태스크별 3D 정보의 필요성에 따라 동적으로 3D grounding을 조절하여 계산 효율성을 높이고 다양한 환경에서 강력한 성능을 제공함으로써 실제 로봇 환경에 매우 적합합니다. TE-GRPO는 로봇의 물리적 제약을 학습 과정에 통합하여 이론적으로 타당할 뿐만 아니라 실제 로봇이 실행 가능한 계획을 생성하는 데 핵심적인 역할을 합니다. 이는 시뮬레이션 환경의 평가 지표와 실제 로봇 배포 시의 성공률 간 격차를 줄이는 데 기여하여 지능형 로봇 시스템의 실용적인 응용 가능성을 크게 확장할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments