[논문리뷰] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

링크: 논문 PDF로 바로 열기

저자: Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

핵심 연구 목표

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 진정한 논리적 추론이 아닌, 훈련 데이터 분포에 강하게 의존하는 표면적인 패턴 매칭일 가능성을 탐구합니다. 특히, CoT 추론이 훈련 데이터와 테스트 쿼리 간의 분포 불일치(distribution discrepancy)에 따라 언제, 왜 실패하는지 데이터 분포 관점에서 심층적으로 이해하고자 합니다.

핵심 방법론

연구팀은 DATAALCHEMY라는 통제된 합성 데이터셋 프레임워크를 설계하여 LLM을 처음부터 훈련시키고 다양한 OOD(Out-of-Distribution) 시나리오에서 CoT 추론을 체계적으로 분석했습니다. CoT 추론의 일반화 능력을 태스크, 길이, 형식의 세 가지 차원으로 분해하여 각각의 분포 변화에 대한 영향을 조사했습니다. 실험에는 GPT-2 스타일의 디코더 전용 트랜스포머 모델이 사용되었으며, 정확도(Exact Match), 편집 거리(Edit Distance), BLEU 점수를 통해 성능을 평가했습니다.

주요 결과

실험 결과, CoT 추론은 훈련 데이터 분포 내에서는 효과적이지만, 분포가 조금만 벗어나도 성능이 급격히 저하되어 “취약한 신기루”임이 드러났습니다. 태스크 일반화에서는 훈련 중 보지 못한 변환(transformation)이나 구성(composition)에 대해 정확도(Exact Match)가 100%에서 0~0.01%로 급락하며, 추론 단계는 옳아도 최종 답은 틀리는 불일치성을 보였습니다. 길이 일반화에서는 훈련 길이를 벗어난 입력에 대해 정확도가 0%로 떨어지는 현상이 관찰되었습니다. 미세 조정(SFT)은 아주 적은 양의 새로운 데이터를 통해 일반화에 도움을 주었으나, 이는 분포 내 “인접성(proximity)”에 기반한 패치 역할에 불과했습니다.

AI 실무자를 위한 시사점

CoT 추론이 겉보기에 유창하고 논리적으로 보일지라도, 실제로는 훈련 데이터의 통계적 규칙성을 보간하고 외삽하는 고도로 정교한 패턴 매칭에 가깝다는 점을 시사합니다. 따라서 의료, 금융, 법률 등 높은 신뢰성이 요구되는 도메인에서는 CoT를 “플러그 앤 플레이” 솔루션으로 맹신해서는 안 되며, 충분한 도메인 전문가의 검증이 필수적입니다. 또한, 실제 추론 능력 부족을 보완하기 위해 엄격한 OOD 테스트와 함께 모델의 추상적 추론 능력 개발에 대한 지속적인 연구가 필요합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Comments