[논문리뷰] Reinforcement Learning on Pre-Training Data
링크: 논문 PDF로 바로 열기
저자: Siheng Li, Kejiao Li, Zenan Xu, Guanhua Huang, Evander Yang
핵심 연구 목표
논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다. 인간의 어노테이션에 의존하지 않고 사전 훈련 데이터에서 직접 보상 신호를 도출하는 **RLPT(Reinforcement Learning on Pre-Training data)**라는 새로운 훈련 시간 스케일링 패러다임을 제안하여 LLM의 역량과 일반화된 추론 능력을 향상시키는 것을 목표로 합니다.
핵심 방법론
RLPT는 **다음 세그먼트 추론(next-segment reasoning)**을 RL 목표로 사용하며, 정책이 선행 컨텍스트를 기반으로 후속 텍스트 세그먼트를 정확하게 예측하도록 보상합니다. 이를 위해 ASR(Autoregressive Segment Reasoning) 및 MSR(Middle Segment Reasoning) 두 가지 세그먼트 수준 훈련 목표를 도입하고, 예측된 세그먼트와 참조 세그먼트 간의 **의미론적 일관성(semantic consistency)**을 평가하는 생성형 보상 모델(generative reward model) Grm을 활용합니다. 특히 Grm은 예측 세그먼트가 참조 콘텐츠의 유효한 접두사인지 확인하여 엄격한 단어 일치 대신 유연한 보상 구조를 제공합니다.
주요 결과
Qwen3-4B-Base 모델에 적용했을 때, RLPT는 MMLU에서 3.0%p, MMLU-Pro에서 5.1%p, GPQA-Diamond에서 8.1%p, KOR-Bench에서 6.0%p, AIME24에서 6.6%p, AIME25에서 5.3%p의 절대 성능 향상을 달성했습니다. 또한, RLVR와 함께 사용될 경우 AIME24에서 2.3%p, AIME25에서 1.3%p의 추가적인 Pass@1 성능 개선을 보였습니다. RLPT의 성능은 훈련 토큰 수에 따라 멱법칙(power-law decay) 스케일링 특성을 따르며, 이는 지속적인 성능 향상 가능성을 시사합니다.
AI 실무자를 위한 시사점
RLPT는 대규모 사전 훈련 데이터에서 RL을 직접 적용할 수 있는 길을 열어, 기존 RLHF나 RLVR의 인간 어노테이션 의존성이라는 주요 한계를 극복합니다. 이 방법론은 LLM이 더 깊은 추론 능력을 탐색하고 일반화 능력을 향상시키는 데 기여하며, 특히 수학적 추론과 같은 복잡한 도메인에서 효과적임을 보여줍니다. 멱법칙 스케일링은 컴퓨팅 자원을 추가함에 따라 RLPT의 성능이 지속적으로 개선될 수 있음을 의미하므로, AI 모델 개발자들에게 LLM의 잠재력을 최대한 활용할 수 있는 중요한 방향을 제시합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.