[논문리뷰] LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

수정: 2025년 10월 10일

링크: 논문 PDF로 바로 열기

저자: Zecheng Tang, Baibei Ji, Quantong Qiu, Haitian Wang, Xiaobo Liang, Juntao Li, Min Zhang

핵심 연구 목표

현재의 Reward Model (RM)은 주로 짧은 컨텍스트에 국한되며 응답의 유용성이나 안전성과 같은 표면적인 속성에만 집중하고 있습니다. 본 연구는 LLM 에이전트와 같이 긴 이력을 요구하는 실제 애플리케이션에서 모델의 응답이 제공된 컨텍스트에 얼마나 일관성 있게 근거하는지 평가하는 것이 중요하다고 보고, 최대 128K 토큰의 긴 컨텍스트 시나리오에서 효과적으로 작동하면서도 기존 단기 컨텍스트 성능을 유지하는 RM을 개발하는 것을 목표로 합니다.

핵심 방법론

먼저, 장문 컨텍스트 RM 평가를 위한 벤치마크인 Long-RewardBench를 도입했으며, 이는 Pairwise ComparisonBest-of-N 태스크를 포함합니다. 다음으로, 기존 모델을 견고한 Long-context RM (LongRM)으로 확장하기 위한 일반적인 다단계 훈련 전략을 제안합니다. 이 전략은 Stage I: Code Start via SFT (Supervised Fine-Tuning)와 Stage II: Fine-grained Alignment via RL (Reinforcement Learning)로 구성되며, 특히 LOGO라는 DPO 변형을 활용합니다. 또한, 신뢰성 높은 장문 컨텍스트 훈련 데이터를 생성하기 위해 Short-to-Long Dataset SynthesisConsistency Majority Voting 방법을 사용합니다.

주요 결과

기존의 강력한 RM(심지어 70B 규모 모델)도 컨텍스트 길이가 4K 토큰을 초과하면 Long-RewardBench에서 성능이 크게 저하되어 정확도가 50% 미만으로 떨어지는 것을 확인했습니다. 반면, 본 연구에서 제안하는 8B LongRM은 장문 컨텍스트 평가에서 성능을 크게 향상시켜, 훨씬 더 큰 70B 규모의 베이스라인을 능가하고 독점 모델인 Gemini 2.5 Pro와 유사한 성능을 달성했습니다. 예를 들어, Con-J-Qwen2-7B는 평균 정확도가 **27.5%에서 43.7%**로 향상되었고, Qwen3-8B는 **31.3%에서 43.9%**로 상승했습니다.

AI 실무자를 위한 시사점

본 연구는 LLM 에이전트와 같이 광범위한 컨텍스트를 요구하는 애플리케이션에서 LLM을 정렬하는 실용적인 솔루션을 제공합니다. 제안된 다단계 훈련 전략은 단기 컨텍스트 성능을 희생하지 않고 RM을 장기 컨텍스트로 확장하는 데 효과적임을 보여줍니다. 8B 모델이 더 큰 70B 베이스라인을 능가하는 능력은 효율적이고 컨텍스트 인식적인 RM 개발 가능성을 시사하며, 이는 계산 비용 절감으로 이어질 수 있습니다. Long-RewardBench 벤치마크는 실제 장기 컨텍스트 애플리케이션을 위한 RM 개발 및 평가에 필수적인 도구입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Reward Model#Long Context#LLM Alignment#Multi-stage Training#Context Window Scaling#Preference Learning#Long-RewardBench