[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
링크: 논문 PDF로 바로 열기
저자: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou
핵심 연구 목표
본 논문은 LLM (Large Language Model)을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy)의 불안정성을 해결하는 것을 목표로 합니다. 특히, 기존의 PPO (Proximal Policy Optimization) 및 그 변형들이 클리핑 메커니즘으로 인해 저확률 토큰의 유용한 gradient 신호를 버려 엔트로피 붕괴(entropy collapse) 또는 엔트로피 폭발(entropy explosion)을 야기하는 문제를 해결하고자 합니다.
핵심 방법론
제안하는 CE-GPPO (Controlling Entropy via Gradient-Preserving Policy Optimization) 알고리즘은 기존 PPO의 클리핑 범위를 벗어난 토큰들(즉, PA&LP 및 NA&LP 토큰)에서 발생하는 gradient를 재도입하고 그 크기를 조절합니다. 이를 위해 stop-gradient 연산과 함께 β1
(탐색 제어) 및 β2
(활용 제어)라는 조정 가능한 스케일링 계수를 도입하여, policy entropy를 안정적이고 높은 수준으로 유지하면서 탐색-활용 균형을 미세하게 제어합니다.
주요 결과
CE-GPPO는 다양한 수학적 추론 벤치마크에서 강력한 기준선인 GRPO 및 DAPO를 일관되게 능가합니다. 특히, DeepSeek-R1-Distill-Qwen-1.5B 모델에서 평균 54.9점을 달성하여 DAPO의 52.4점을 상회했으며, 7B 모델에서는 평균 67.5점으로 DAPO의 64.5점을 넘어섰습니다. 또한, CE-GPPO는 엔트로피 붕괴와 엔트로피 폭발을 효과적으로 완화하여 훈련 전반에 걸쳐 안정적인 엔트로피 다이내믹스를 유지하는 것을 보여줍니다.
AI 실무자를 위한 시사점
이 연구는 LLM 훈련에서 정책 엔트로피를 안정적으로 관리하는 것이 모델 성능 향상에 필수적임을 강조합니다. CE-GPPO는 기존 PPO의 한계를 극복하고 클리핑된 gradient 신호를 재활용하여 탐색-활용 균형을 정교하게 제어할 수 있는 실용적인 방법론을 제시합니다. β1
과 β2
매개변수의 적절한 조정을 통해 훈련 단계별로 탐색 및 활용 전략을 유연하게 적용하여 수학적 추론과 같은 복잡한 LLM 태스크의 성능을 최적화할 수 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments