[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

링크: 논문 PDF로 바로 열기

저자: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, et al.

핵심 연구 목표

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다. 특히, SFT가 합성 데이터에 의존하여 피상적인 패턴 매칭에 그치고, 강화 학습(RL) 적용 시 발생하는 콜드 스타트 문제와 효과적인 보상 설계의 어려움을 해결하여 일반화된 병렬적 사고 능력을 부여하는 것을 목표로 합니다.

핵심 방법론

저자들은 복잡한 실제 수학 추론 태스크를 위한 최초의 RL 기반 병렬적 사고 프레임워크인 Parallel-R1을 제안합니다. 이 프레임워크는 점진적 커리큘럼을 통해 초기에는 쉬운 문제(예: Parallel-GSM8K)에서 SFT로 병렬적 사고 형식을 주입하고, 이후 Group Relative Policy Optimization (GRPO) 기반의 RL을 사용하여 더 어려운 문제(예: DAPO)로 일반화합니다. 특히, 정확도 보상과 병렬적 사고 보상을 교차하는 교대 보상 전략을 통해 안정적인 학습을 유도합니다.

주요 결과

Parallel-R1은 도전적인 수학 벤치마크에서 순차적 사고 모델 대비 평균 8.4%의 정확도 향상을 달성했습니다. 특히, AIME25 벤치마크에서는 최고 25.6%의 정확도를 기록하며 단일 스레드 모델의 성능을 뛰어넘었습니다. 또한, 모델의 사고 전략이 초기에는 계산적 탐색(computational exploration)에서 후기에는 다각적 검증(multi-perspective verification)으로 진화함을 밝혀냈습니다.

AI 실무자를 위한 시사점

이 연구는 LLM의 추론 능력 향상을 위해 RL 기반 병렬적 사고 훈련이 강력한 방법론임을 보여줍니다. 특히, 점진적인 커리큘럼 디자인동적 보상 설계는 복잡한 스킬 학습의 콜드 스타트 문제를 해결하는 데 중요한 실용적 통찰을 제공합니다. 병렬적 사고를 훈련 중 탐색 스캐폴드로 활용하여 모델의 최종 성능 상한을 높일 수 있다는 발견은 향후 LLM의 훈련 및 아키텍처 설계에 새로운 방향을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments