[논문리뷰] InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

링크: 논문 PDF로 바로 열기

InstructVLA: Vision-Language-Action Instruction Tuning: From Understanding to Manipulation

저자: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang

핵심 연구 목표

본 논문은 로봇이 실제 환경에서 효과적으로 작동하기 위해 멀티모달 추론과 정확한 동작 생성을 통합하는 문제를 해결하고자 합니다. 기존 Vision-Language-Action (VLA) 모델들이 겪는 재앙적 망각(catastrophic forgetting) 문제와 작업 특정 데이터에 대한 능력 제약을 극복하고, 대규모 Vision-Language Models (VLMs)의 유연한 추론 능력을 유지하면서도 뛰어난 조작 성능을 제공하는 것을 목표로 합니다.

핵심 방법론

제안하는 InstructVLAVision-Language-Action Instruction Tuning (VLA-IT)이라는 새로운 훈련 패러다임을 도입합니다. 이 패러다임은 650K 샘플의 VLA-IT 데이터셋과 표준 VLM 코퍼스를 활용하며, 혼합 전문가(Mixture-of-Experts, MoE) 적응을 통해 텍스트 추론과 동작 생성을 공동으로 최적화합니다. 특히, Eagle2-2B VLM 백본에 DINOv2 기반의 시각 특징과 FiLM 모듈을 통합하고 플로우 매칭(flow matching) 목적 함수를 사용하여 효율적인 동작 생성을 가능하게 합니다.

주요 결과

InstructVLA는 동기식 SimplerEnv 작업에서 SpatialVLA 대비 30.5% 향상된 성능을 달성했습니다. 또한, SimplerEnv-Instruct 벤치마크에서는 미세 조정된 OpenVLA보다 92%, GPT-4o의 지원을 받는 동작 전문가보다 29% 높은 성능을 보였습니다. 멀티모달 작업에서도 기준 VLM을 능가하며, 폐쇄 루프 조작에서 Magma 대비 27% 향상을 입증했습니다.

AI 실무자를 위한 시사점

InstructVLA는 로봇 조작 분야에서 VLM의 추론 능력을 효과적으로 활용하는 새로운 접근 방식을 제시합니다. 특히 재앙적 망각 문제를 완화하고, 다양한 사용자 지침과 자유 형식 명령을 처리할 수 있는 로봇 모델 개발에 중요한 시사점을 제공합니다. 이는 직관적이고 제어 가능한 인간-로봇 상호작용을 구현하는 데 기여하며, 대규모 데이터셋과 MoE와 같은 고급 아키텍처를 결합한 모델 설계의 효과를 보여줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments