[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

2025년 9월 18일수정: 2025년 9월 18일

링크: 논문 PDF로 바로 열기

저자: Yicheng Pan, Jiefeng Ma, Pengfei Hu, Zhenrong Zhang, Qikai Chang

핵심 연구 목표

대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다. 기존 도구 통합 방법론이 가진 TIR 데이터 구축, 미세 조정 최적화, 추론 강화의 세 가지 핵심 과제를 해결하여 LLM의 도구 통합 추론(TIR) 능력을 향상시키고자 합니다.

핵심 방법론

**THOR (Tool-Integrated Hierarchical Optimization via RL)**는 세 가지 주요 구성 요소를 포함합니다. 첫째, TIRGen이라는 Actor-Critic 기반 파이프라인을 사용하여 정책에 정렬된 고품질 도구 통합 추론 데이터를 효과적으로 구축합니다. 둘째, 도구 호출의 성공이 최종 답변의 정확도를 강력하게 예측한다는 핵심 통찰에 기반하여 계층적 강화 학습(RL) 전략을 도입, 궤적 수준 문제 해결과 단계별 코드 생성 능력을 동시에 최적화합니다. 셋째, 추론 중 오류를 동적으로 수정하기 위해 즉각적인 도구 피드백을 활용하는 자체 수정 메커니즘을 통합합니다.

주요 결과

THOR는 다양한 수학 벤치마크(예: MATH500, AIME 2024 & 2025, AMC 2023, Minerva Math, OlympiadBench)에서 유사 규모 모델 중 최첨단(SOTA) 성능을 달성했습니다. 예를 들어, THOR-Thinking-8B 모델은 OlympiadBench에서 **79.8%**의 평균 정확도를 기록하며 기존 모델을 능가합니다. 또한, HumanEval+, MBPP+, LiveCodeBench와 같은 코드 생성 벤치마크에서도 일관된 성능 향상(최대 7.4% 평균 향상)을 보여주어 방법론의 효과성과 일반화 능력을 입증했습니다.

AI 실무자를 위한 시사점

THOR는 수학적 추론과 코드 생성 능력을 동시에 향상시키는 효율적인 도구 통합 프레임워크를 제공하여, AI/ML 엔지니어가 LLM을 활용해 복잡한 문제 해결 시스템을 구축할 때 중요한 방법론적 지침을 제시합니다. 특히, Actor-Critic 기반의 고품질 TIR 데이터 자동 생성 및 계층적 RL 최적화 기법은 실제 환경에서 LLM의 견고성과 성능을 개선하는 데 활용될 수 있습니다. 또한, 자체 수정 추론 메커니즘은 동적인 오류 처리 및 시스템의 신뢰도 향상에 기여할 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.