[논문리뷰] Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

2025년 8월 11일수정: 2025년 8월 11일

링크: 논문 PDF로 바로 열기

저자: Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

핵심 연구 목표

본 논문은 대규모 추론 모델(LRMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도하게 긴 추론 트레이스 문제를 해결하여, 학습 비용과 추론 지연 시간을 줄이는 동시에 코드 추론 성능을 유지하거나 향상시키는 것을 목표로 합니다. 특히, 기존 토큰 또는 스텝 레벨 압축 방법론의 한계(구문/논리적 일관성 손상, 논리적 중요성 포착 실패)를 극복하고자 합니다.

핵심 방법론

논문은 ASAP (Anchor-guided, SurprisAl-based Pruning) 이라는 새로운 coarse-to-fine CoT 압축 프레임워크를 제안합니다. 첫 번째 단계인 **앵커 기반 가지치기(Anchor-guided Pruning)**에서는 LLM을 사용하여 질문과 답변 쌍으로부터 간결한 "Direct CoT" (Cdirect)를 생성하고, 이를 앵커로 삼아 원본 CoT (Corigin)에서 불필요한 부분을 제거하여 "Coarse-grained Pruned CoT" (Ccoarse)를 만듭니다. 이 과정은 Gestalt Pattern Matching을 통한 유효성 검사를 포함합니다. 두 번째 단계인 **서프라이잘 기반 정제(SurprisAl-based Refining)**에서는 새로 제안된 First-Token Surprisal 지표를 사용하여 각 추론 단계의 논리적 중요도를 정량화하고, 서프라이잘 점수가 낮은 단계를 반복적으로 제거하여 최종적으로 간결한 **C'**를 생성합니다. 이렇게 압축된 CoT는 모델 미세 조정에 사용됩니다.

주요 결과

ASAP는 LiveCodeBench v4_v5 벤치마크에서 36.19% Pass@1 정확도를 달성하며, 토큰 생성량을 23.5% 감소시키고 추론 지연 시간을 43.5% 줄였습니다. 학습 효율성 측면에서는 기존(Original) 베이스라인 대비 학습 토큰 수를 75.6% 줄이고 학습 시간을 60.7% 단축시켰습니다. 또한, DeepSeek-R1-Distill-Llama-8B 모델에도 효과적으로 일반화되었음을 입증했습니다.

AI 실무자를 위한 시사점

ASAP는 리소스 제약이 있는 환경에서 대규모 추론 모델(LRMs)을 효율적으로 배포하고 운용하기 위한 실용적인 솔루션을 제공합니다. 특히 First-Token Surprisal 지표는 추론 과정에서 핵심적인 논리적 단계를 식별하는 새로운 방법을 제시하여, 코드 생성뿐만 아니라 다른 CoT 기반 작업에도 적용 가능성이 높습니다. 이러한 결과는 AI 개발자들이 모델의 성능을 유지하면서도 운영 비용을 크게 절감할 수 있는 방향을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.