[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning
링크: 논문 PDF로 바로 열기
저자: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong
핵심 연구 목표
이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron을 제시합니다. 기존 GUI 에이전트의 개발을 저해했던 희소한 작업 궤적 데이터, 인터랙티브 인프라 부족, 파운데이션 모델의 초기 역량 한계 문제를 해결하고, 특히 중국어 앱 시나리오에서의 성능을 대폭 개선하는 것을 목표로 합니다.
핵심 방법론
Ultron은 고급 GUI 인지, 그라운딩, 오프라인 및 온라인 계획 기능을 통합합니다. 체계적인 데이터 공학 전략을 통해 데이터 통합, 궤적 증류(distillation), 다중 도메인 수동 주석을 수행하고, 모바일 및 PC 장치를 연결하는 인터랙티브 환경을 구축하여 데이터 수집 및 온라인 학습을 지원합니다. 훈련은 GUI 인지 및 계획을 위한 지도 미세 조정(SFT)과 복잡한 온라인 환경에서의 탐색을 위한 커리큘럼 강화 학습(CuRL) 프레임워크를 포함하는 3단계 전략을 사용하며, GRPO(Group Relative Policy Optimization) 알고리즘을 활용합니다.
주요 결과
Ultron은 GUI 인지, 그라운딩, 오프라인 계획 벤치마크에서 탁월한 성능을 달성했습니다. 특히 VisualWebBench 벤치마크에서 Ultron-72B 모델은 기존 SOTA 모델인 UI-TARS-72B 대비 미세 그라운딩 정확도에서 2.1% 향상을 보였습니다. 또한 AndroidControl (Low) 설정에서 Ultron-72B는 96.7%의 그라운딩 정확도와 94.2%의 스텝 성공률을 기록했으며, 중국어 앱 시나리오의 온라인 환경에서 UI-TARS-1.5-7B 대비 Task SR을 38.9%에서 54.1%로 대폭 향상시켰습니다.
AI 실무자를 위한 시사점
Ultron은 체계적인 데이터 공학과 강력한 인터랙티브 인프라가 실용적인 파운데이션 GUI 에이전트 개발에 필수적인 요소임을 강조합니다. 특히 중국어 모바일 앱 환경과 같이 기존 모델들이 취약한 특정 문화 및 언어 도메인에서 고품질의 대규모 수동 주석 데이터를 통해 성능을 크게 개선할 수 있음을 보여주었습니다. 커리큘럼 강화 학습 프레임워크는 온라인 환경에서 에이전트의 복잡한 추론 및 탐색 능력을 향상시키는 효과적인 방법론으로, 실제 GUI 에이전트 배포 가능성을 높이는 데 기여합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments