[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

2025년 10월 1일수정: 2025년 10월 1일

링크: 논문 PDF로 바로 열기

저자: Zhen Yang, Zi-Yi Dou, Di Feng, Forrest Huang, Anh Nguyen, Keen You, Omar Attia, Yuhao Yang, Michael Feng, Haotian Zhang, Ram Ramrakhya, Chao Jia, Jeffrey Nichols, Alexander Toshev, Yinfei Yang, Zhe Gan*

핵심 연구 목표

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다. 특히, 기존 대규모 서버측 모델 중심의 접근 방식과 달리 소형 온디바이스 모델인 Ferret-UI Lite를 개발하여 경쟁력 있는 성능을 달성하는 것을 목표로 합니다.

핵심 방법론

Ferret-UI Lite는 3B 파라미터를 가진 종단 간 멀티모달 LLM으로 구축되었습니다. 주요 방법론에는 실제 및 합성 GUI 데이터 혼합을 통한 다양한 GUI 데이터 큐레이션, 이미지 크롭 및 확대 기능을 활용한 추론 시간 시각적 도구 사용(visual tool-use), 그리고 **지도 미세 조정(SFT)**과 **검증 가능한 보상 기반 강화 학습(RLVR)**을 결합한 2단계 훈련 전략이 포함됩니다. 특히 RL 단계에서는 예측이 정답 바운딩 박스 안에 들어올 경우 양성 보상을 부여하는 컨테인먼트 기반 보상을 사용합니다.

주요 결과

GUI 그라운딩 태스크에서 **Ferret-UI Lite (3B)**는 ScreenSpot-V2에서 91.6%, ScreenSpot-Pro에서 53.3%, OSWorld-G에서 **61.2%**의 정확도를 달성하여 다른 소형 모델들을 능가하고 일부 대형 모델과도 경쟁력 있는 성능을 보여주었습니다. GUI 내비게이션 태스크에서는 AndroidWorld에서 28.0%, OSWorld에서 **19.8%**의 성공률을 기록하여 7B 모델들과 유사한 성능을 보였으나, 장기적인 추론이 필요한 멀티스텝 내비게이션에서는 여전히 제한적인 성능을 나타냈습니다.

AI 실무자를 위한 시사점

본 연구는 소형 온디바이스 멀티모달 LLM으로도 GUI 에이전트의 강력한 그라운딩 및 내비게이션 성능을 달성할 수 있음을 입증하여 온디바이스 AI 개발의 가능성을 제시합니다. 다양한 데이터 큐레이션, 추론 시간 시각적 도구 사용, 그리고 신중하게 설계된 SFT-RLVR 훈련 전략이 소형 모델 성능 향상에 핵심적임을 강조합니다. 다만, 멀티스텝 내비게이션과 같은 복잡한 장기 추론 과제는 여전히 소형 모델의 주요 도전 과제로 남아있으므로 이에 대한 추가 연구가 필요합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.