[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents
링크: 논문 PDF로 바로 열기
저자: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
핵심 연구 목표
기존 Role-playing Agents (RPAs)가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.
핵심 방법론
본 연구는 60k 비디오와 700k 대화로 구성된 대규모 다중 모달 데이터셋인 Role-playing-Video60k를 구축합니다. 제안된 프레임워크는 입력 비디오 길이에 따라 적응형 시간 샘플링(adaptive temporal sampling)을 통해 비디오 프레임을 추출하여 동적 역할 프로필을 형성하고, 훈련 비디오의 대화 및 입력 비디오 요약에서 추출한 정적 역할 프로필을 결합합니다. 이 정보를 LLM(Large Language Model)에 시간 순서대로 입력하여 캐릭터의 정체성과 서술적 맥락에 일관된 응답을 생성하도록 지도 미세 조정(supervised fine-tuning)합니다.
주요 결과
제안된 프레임워크는 기존 RPAs 및 일반 LLM 대비 모든 평가 지표에서 뛰어난 성능을 보였으며, 특히 인간 유사성(human-likeness) 지표에서 SOTA를 달성했습니다. InternVL2.5-8B w/ Video SFT 모델은 평균 72.28점을 기록하여 비디오 모달리티를 통합하지 않은 모델(평균 42.29점) 대비 현저한 개선을 보였습니다. 이는 비디오 모달리티가 RPAs의 표현력과 일관성을 높이는 데 결정적인 역할을 함을 입증합니다.
AI 실무자를 위한 시사점
비디오 모달리티를 RPAs에 통합하는 접근 방식은 AI 에이전트의 현실감과 상호작용성을 획기적으로 향상시킬 수 있습니다. 구축된 Role-playing-Video60k 데이터셋은 비디오 기반 RPAs 연구의 귀중한 자원이 될 것이며, 적응형 시간 샘플링과 동적/정적 프로필 통합 방법론은 실제 서비스에서 더욱 정교한 캐릭터를 구현하는 데 활용될 수 있습니다. 특히 인간 유사성이 중요한 가상 비서, 게임 NPC, 디지털 휴먼 등의 개발에 큰 영향을 미칠 것으로 기대됩니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments