[논문리뷰] Scaling Latent Reasoning via Looped Language Models

2025년 10월 30일수정: 2025년 10월 30일

링크: 논문 PDF로 바로 열기

저자: Rui-Jie Zhu, Zixuan Wang, Kai Hua, Tianyu Zhang, Ziniu Li, Haoran Que, Boyi Wei, Zixin Wen, Fan Yin, He Xing, Lu Li, Jiajun Shi, Kaijing Ma, Shanda Li, Taylor Kergan, Andrew Smith, Xingwei Qu, Mude Hui, Bohong Wu, Qiyang Min, Hongzhi Huang, Xun Zhou, Wei Ye, Jiaheng Liu, Jian Yang, Yunfeng Shi, Chenghua Lin, Enduo Zhao, Tianle Cai, Ge Zhang, Wenhao Huang, Yoshua Bengio, Jason Eshraghian

핵심 연구 목표

본 논문은 현대 LLM이 **명시적 텍스트 생성(Chain-of-Thought)**에 의존하는 추론 방식의 한계를 극복하고자 합니다. 대신 반복적 잠재 추론을 사전 훈련 단계에 통합하여 **LoopLM(Looped Language Model)**의 파라미터 효율성과 지식 조작 능력을 극대화하는 새로운 스케일링 방향을 제시합니다. 궁극적으로 모델 크기나 데이터 규모를 늘리지 않고도 추론 성능을 향상시키는 것을 목표로 합니다.

핵심 방법론

재귀적 오우로보로스에서 이름을 딴 Ouro라는 LoopLM 계열을 제안하며, 잠재 공간에서의 반복적 계산, 학습된 깊이 할당을 위한 엔트로피 정규화된 목표 함수, 그리고 7.7T 토큰으로의 스케일링을 핵심 방법론으로 사용합니다. 특히 Q-exit 기준과 2단계 게이트 훈련 방식을 통해 입력 난이도에 따라 계산 깊이를 유연하게 조절하는 적응형 연산을 가능하게 합니다. 또한, 추론 효율성을 위해 KV 캐시 공유 전략을 구현했습니다.

주요 결과

Ouro 1.4B 및 2.6B 모델은 4단계 재귀 단계에서 최대 12B SOTA LLM과 유사하거나 이를 능가하는 성능을 보이며 2-3배의 파라미터 효율성을 입증했습니다. 특히 BBH(71.02 vs 70.95), GSM8K(78.92 vs 72.86), **MATH500(82.40 vs 59.60)**과 같은 추론 집약적 벤치마크에서 뛰어난 성능을 보였습니다. 합성 태스크를 통해 원시적인 지식 저장 능력은 증가하지 않았지만, 지식 조작 능력은 대폭 향상되었음이 검증되었습니다. 또한, 재귀 단계 증가에 따라 모델의 안전성(harmfulness rate)이 향상되어 Ouro 2.6B-Thinking 모델은 4단계 재귀에서 0.003의 harmfulness rate를 달성했습니다.

AI 실무자를 위한 시사점

LoopLM은 제한된 컴퓨팅 자원 내에서 파라미터 효율적인 고성능 LLM을 개발할 수 있는 실용적인 경로를 제공합니다. 적응형 연산과 KV 캐시 공유는 추론 효율성을 크게 높여 실제 배포에 유리하며, 모델의 잠재적 추론 과정은 CoT보다 더 충실하고 안전한 결과를 도출할 수 있습니다. AI 엔지니어는 지식 조작이 중요한 추론 태스크에 LoopLM을 활용하여 더 적은 모델 크기로도 경쟁력 있는 성능을 달성할 수 있을 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.