[논문리뷰] JoyAgent-JDGenie: Technical Report on the GAIA

October 2, 2025

링크: 논문 PDF로 바로 열기

저자: Jiarun Liu, Shiyue Xu, Shangkun Liu, Yang Li, Wen Liu, Min Liu, Xiaoqing Zhou, Hanmin Wang, Shilin Jia, zhen Wang, Shaohua Tian, Hanhao Li, Junbo Zhang, Yongli Yu, Peng Cao (JingDong), Haofen Wang (Tongji University)

핵심 연구 목표

본 논문은 LLM 기반 에이전트 시스템들이 복잡한 실세계 태스크를 해결하는 데 있어 견고성, 적응성, 재현성이 부족하다는 문제를 제기합니다. 기존 시스템들이 툴킷 확장, 프롬프트 개선 등 개별적인 측면에만 집중하여 통합 프레임워크가 부재했기 때문입니다. 이에 따라 장기적인 연속성과 적응 제어, 그리고 신뢰성을 보장하는 일반화된 에이전트 아키텍처를 제시하는 것을 목표로 합니다.

핵심 방법론

연구팀은 Plan-Execute 및 ReAct 패러다임을 통합한 이기종 에이전트 앙상블 아키텍처를 제안합니다. 여기에는 비판 모델 투표(critic model voting)를 통한 조정과 계층적 메모리 시스템(작업, 의미, 절차적 레이어)이 포함됩니다. 또한, 검색, 코드 실행, 멀티모달 파싱에 중점을 둔 정교한 툴 스위트를 스키마 일관적이고 감사 가능한 인터페이스를 통해 노출시켜 에이전트의 역량을 강화했습니다.

주요 결과

GAIA 벤치마크 [60]에서 검증 세트 기준 75.2 Pass@1 및 82.4 Pass@3의 성능을 달성했으며, 테스트 세트에서는 67.1 Pass@1을 기록했습니다. 이는 오픈소스 기준선을 크게 능가하고 독점 시스템 성능에 근접하는 수치입니다. 특히, 레벨 1 태스크에서 86.8%의 높은 점수를 보였고, Google 검색을 활용했을 때 가장 뛰어난 성능을 보였습니다.

AI 실무자를 위한 시사점

본 연구는 시스템 수준의 통합이 견고하고 일반화된 AI 에이전트 개발에 필수적임을 강조합니다. Plan-Execute와 ReAct 에이전트의 앙상블 구성과 계층적 메모리는 에이전트의 안정성과 유연성을 동시에 높일 수 있는 효과적인 전략입니다. 또한, 검색, 코드 실행, 멀티모달 파싱 등 핵심 기능에 최적화된 도구 설계가 실질적인 성능 향상에 기여하므로, AI 엔지니어는 이러한 통합적 접근 방식을 고려하여 확장 가능하고 복원력 있는 시스템을 구축할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

핵심 연구 목표

핵심 방법론

주요 결과

AI 실무자를 위한 시사점

Comments