[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
링크: 논문 PDF로 바로 열기
저자: Ling Team, Inclusion AI
핵심 연구 목표
본 논문은 '모든 활성화가 추론 능력을 향상시킨다'는 원칙 아래, **1조 개의 파라미터를 가진 추론 중심의 개방형 언어 파운데이션 모델(Ling 2.0)**을 개발하는 것을 목표로 합니다. 대규모 모델의 계산 효율성과 추론 능력 향상이라는 두 가지 상호 연결된 과제를 해결하고, 희소 활성화 하에 추론 정확도와 효율성을 극대화하는 확장 가능한 청사진을 제시하고자 합니다.
핵심 방법론
Ling 2.0은 모델 아키텍처, 사전 훈련, 사후 훈련, 인프라의 네 가지 혁신을 통합합니다. 아키텍처는 높은 희소성 MoE와 **Multi-Token Prediction(MTP)**을 사용하며, Ling Scaling Laws를 기반으로 설계됩니다. 사전 훈련 과정에서는 추론 중심 데이터 구성과 CoT 데이터의 중간 훈련 단계 사전 활성화, 그리고 Warmup-Stable-Merge(WSM) 스케줄러를 적용합니다. 사후 훈련은 Decoupled Fine-Tuning(DFT), Evolutionary Chain-of-Thought(Evo-CoT), Linguistic-unit Policy Optimization(LPO), **Group Arena Reward(GAR)**를 통해 진행됩니다. 인프라 측면에서는 Full-scale FP8 훈련과 이종 세분화 파이프라인을 최적화합니다.
주요 결과
Ling 2.0은 동등한 밀집 모델 대비 최대 7배의 활성 컴퓨팅 효율성을 달성했습니다. Ling-1T는 AIME 25 벤치마크에서 70.42%의 정확도를 기록하며 추론 정확도와 효율성 측면에서 새로운 파레토 프론티어를 확립했습니다. FP8 훈련은 BF16 대비 0.25% 미만의 손실 차이로 15% 이상의 메모리 사용량 감소와 15% MFU 향상을 보여주었고, CoT 데이터의 사전 활성화는 MATH 및 AIME와 같은 추론 집약적 벤치마크에서 상당한 성능 향상을 가져왔습니다.
AI 실무자를 위한 시사점
희소 MoE 아키텍처와 FP8 훈련은 대규모 언어 모델의 훈련 및 운영 비용을 혁신적으로 절감하며 효율적인 AI 개발의 길을 엽니다. 추론 중심의 데이터셋 구성과 CoT 기반 다단계 훈련 전략은 모델의 복잡한 추론 능력을 강화하는 핵심 요소입니다. Ling Scaling Laws는 소규모 실험을 통해 대규모 모델의 성능을 예측하고 최적화할 수 있는 강력한 도구를 제공하여, 미래 AI 시스템의 확장성을 위한 실질적인 청사진을 제시합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.