[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

수정: 2025년 10월 16일

링크: 논문 PDF로 바로 열기

저자: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu

핵심 연구 목표

본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족일반화 능력의 한계를 심층적으로 규명하고자 합니다.

핵심 방법론

연구팀은 LIBERO-Plus 벤치마크를 도입하여 7가지 차원의 교란(perturbation)(객체 배치, 카메라 시점, 로봇 초기 상태, 언어 지시, 조명 조건, 배경 텍스처, 센서 노이즈)을 체계적으로 적용했습니다. 다수의 최신 VLA 모델(OpenVLA, π0, Nora, WorldVLA, UniVLA, RIPT-VLA 등)을 대상으로 성능을 평가하고, 특히 언어 지시 제거목표 객체 대체 태스크를 통해 언어 이해도를 심층 분석했습니다. 또한, **다차원 교란 하에서의 합성 일반화(compositional generalization)**를 측정했습니다.

주요 결과

기존 VLA 모델들은 카메라 시점로봇 초기 상태와 같은 미미한 교란에도 불구하고 성능이 95%에서 30% 미만으로 급락하는 심각한 취약성을 보였습니다. 특히, 모델들은 언어 지시를 대부분 무시하며, 목표 객체 대체 태스크에서는 성공률이 **거의 0%**에 가까웠습니다. 새로운 LIBERO-Plus 데이터셋으로 훈련된 모델은 전반적인 성공률 **79.6%**를 달성했으며, 특히 카메라 시점에서 **92.8%**의 강건성을 보여, 기존 모델 대비 37.2%p 향상되었습니다.

AI 실무자를 위한 시사점

현재 VLA 모델들은 벤치마크 점수와 달리 실제 환경에 대한 강건성 및 일반화 능력이 매우 부족하여, 로봇 시스템에 적용 시 치명적인 오류를 일으킬 수 있습니다. AI 엔지니어는 모델 개발 시 다양한 교란 요소를 고려한 강건성 평가를 필수적으로 수행해야 합니다. LIBERO-Plus 벤치마크다양화된 훈련 데이터셋은 이러한 강건한 VLA 모델을 개발하는 데 중요한 자원이며, 첫 시점 손목 카메라와 같은 시각 입력의 다양화가 강건성 향상에 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI