[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

2025년 9월 26일수정: 2025년 9월 26일

링크: 논문 PDF로 바로 열기

저자: Yuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

핵심 연구 목표

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

핵심 방법론

저자들은 트리 탐색 기반의 **Tree-based Group Relative Policy Optimization (Tree-GRPO)**를 제안합니다. 이는 기존의 체인 기반 샘플링 대신 각 노드가 완전한 Thought-Action-Observation 단계를 나타내는 트리 탐색 방식을 사용하며, 공통 접두사를 공유하여 고정된 예산 내에서 더 많은 롤아웃을 얻습니다. intra-tree 및 inter-tree 레벨 모두에서 그룹 상대적 이점(grouped relative advantages)을 추정하여 과정 기반의 지도 학습 시그널을 생성하며, intra-tree GRPO가 **단계별 직접 선호 학습(step-level direct preference learning)**과 구조적으로 동등함을 이론적으로 보입니다.

주요 결과

11개 데이터셋과 3가지 QA 태스크에 걸친 실험에서 Tree-GRPO는 체인 기반 RL 방법론 대비 일관된 성능 향상을 보였습니다. 특히, Qwen2.5-3b 모델에서는 기존 방법의 롤아웃 예산의 1/4만으로도 더 우수한 성능을 달성했으며, 소형 모델에서는 **16%에서 최대 69%**의 상대적 성능 개선을 보였습니다. Tree-GRPO는 에이전트가 더 복잡하고 긴 상호작용(평균 2.4에서 3.0의 툴 호출)에 참여하도록 유도하는 효과도 입증되었습니다.

AI 실무자를 위한 시사점

Tree-GRPO는 LLM 에이전트 학습의 주요 병목인 높은 롤아웃 비용을 절감하면서도 성능을 향상시키는 실용적인 방법을 제공합니다. 희소한 보상 환경에서 트리 구조를 활용한 세분화된 과정 시그널은 에이전트의 학습 안정성과 멀티턴 추론 능력을 강화할 수 있습니다. 이는 특히 대규모 및 고비용 환경에서 LLM 에이전트를 개발하고 최적화하는 AI/ML 엔지니어들에게 비용 효율적이고 효과적인 학습 패러다임을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.