[논문리뷰] Morae: Proactively Pausing UI Agents for User Choices
링크: 논문 PDF로 바로 열기
저자: Yi-Hao Peng, Dingzeyu Li, Jeffrey P. Bigham, Amy Pavel
핵심 연구 목표
본 논문은 기존 UI 에이전트들이 맹인 및 저시력(BLV) 사용자들에게 중요한 의사결정 시 선택권을 주지 않고 자동으로 작업을 완료하여 사용자 주도성을 저해하는 문제를 해결하고자 합니다. Morae는 BLV 사용자가 UI 자동화 과정에서 적극적으로 선호를 표현하고 선택할 수 있도록, 핵심 의사결정 지점에서 자동화를 선제적으로 일시 중지하는 것을 목표로 합니다.
핵심 방법론
Morae는 대규모 멀티모달 모델(LMMs, 예: GPT-40)을 활용하여 UI 코드, 스크린샷, 사용자 질의를 해석하고, 동적 모호성 검증 알고리즘을 통해 자동화 중 의사결정 지점을 식별합니다. 모호성이 감지되면 “self-ask-then-answer” 검증 전략을 사용하여 자동화를 일시 중지하고, 사용자 선호도를 포착하기 위해 동적으로 UI를 생성하여 선택지를 제시합니다. 또한, BLV 사용자를 위한 실시간 청각 피드백을 제공하여 진행 상황에 대한 인지도를 높입니다.
주요 결과
Morae는 기존 OpenAI Operator 대비 55.2%의 가장 높은 평균 작업 성공률을 달성했으며, 특히 일시 중지가 필요한 작업에서 성공률을 50.8%에서 65.6%로 크게 향상시켰습니다. 사용자 평가는 Morae가 TaxyAI 및 Operator에 비해 유용성(μ = 6.50), 선택에 대한 통제력, 선택의 용이성 등에서 유의미하게 높은 점수를 받았음을 보여줍니다. 또한, 사용자의 선호도에 따른 선택 비율인 결정 엔트로피(De = 1.58)가 다른 에이전트보다 높아 사용자 선택의 다양성과 자율성이 높았음을 입증했습니다.
AI 실무자를 위한 시사점
이 연구는 단순히 작업 완료율을 넘어 사용자 주도성과 신뢰를 중요시하는 혼합 주도형(mixed-initiative) AI 에이전트의 설계 방향을 제시합니다. 특히 접근성(accessibility) 분야에서 BLV 사용자와 같은 소외된 집단을 위한 AI 에이전트의 실용적 가치를 강조합니다. AI/ML 엔지니어는 모델이 사용자의 미묘한 의도를 파악하고, 필요한 경우 적극적으로 개입하여 사용자에게 선택권을 주는 ‘공동 작업자’로서의 에이전트 개발에 초점을 맞춰야 할 것입니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments