[논문리뷰] Variational Reasoning for Language Models
링크: 논문 PDF로 바로 열기
저자: Xiangxin Zhou, Zichen Liu, Haonan Wang, Chao Du, Min Lin, Chongxuan Li, Liang Wang, Tianyu Pang
핵심 연구 목표
언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces)을 잠재 변수로 간주하여 변분 추론(Variational Inference)을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다. 이를 통해 정확한 답변을 생성할 확률의 로그-가능도(log-likelihood)를 최대화하고자 합니다.
핵심 방법론
추론 과정을 생각 과정과 답변으로 분해하고, 증거 하한(ELBO)을 IWAE-스타일 멀티-트레이스 목적 함수로 확장하여 더 엄격한 하한을 제공합니다. 변분 사후 분포의 훈련 안정화를 위해 forward-KL 목적 함수를 제안하며, 이는 모델 붕괴를 방지하고 답변 힌트를 더 잘 활용하게 합니다. 또한, 기존 거부 샘플링 미세 조정(RFT) 및 이진 보상 RL(GRPO 포함)을 모델 정확도에 따라 가중치가 부여된 로컬 forward-KL 목적 함수로 해석하여 방법론 간의 연결을 명확히 합니다.
주요 결과
제안된 방법은 Qwen 2.5 및 Qwen 3 모델 계열에 걸쳐 광범위한 추론 태스크에서 강력한 성능 개선을 입증했습니다. 예를 들어, Qwen3-4B-Base 모델의 경우, MATH500에서 기본 모델 대비 160% 이상, 기타 도메인에서 152% 이상의 성능 향상을 보였으며, 강력한 기준선인 Bespoke-Stratos-4B†를 평균 정확도에서 8.5% 이상(55.72% vs 51.35%) 능가했습니다. Pass@K 분석 결과, 복잡한 벤치마크에서 K값이 클수록 성능 향상 폭이 커지는 것을 확인했습니다.
AI 실무자를 위한 시사점
LLM의 추론 능력을 안정적으로 향상시킬 수 있는 원칙적인 확률론적 프레임워크를 제공합니다. 변분 추론 개념을 LLM의 생각 과정에 적용함으로써, 기존 RL 및 SFT 방법론의 암묵적인 편향을 이해하고 더 효과적인 학습 전략을 수립하는 데 도움이 됩니다. 이 프레임워크는 다양한 추론 벤치마크에서 일관된 성능 향상을 보여주므로, 복잡한 문제 해결 능력이 요구되는 AI 시스템 개발에 실용적인 가이드라인을 제시합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments