[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
링크: 논문 PDF로 바로 열기
저자: Fan Xia, Pengyang Gao, Cheng Luo, Zheng Zhang, Yuxuan Song
핵심 연구 목표
본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향과 추론 비효율성을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다. 궁극적으로 “품질-속도 트레이드오프”라는 통념에 도전하며 새로운 속도-품질 파레토 프론티어를 확립하고자 합니다.
핵심 방법론
제안하는 Seed Diffusion Preview는 이산 상태 확산 기반의 언어 모델로, 마스크 기반(Mask-based) 및 편집 기반(Edit-based) 전방 확산 프로세스를 결합한 두 단계 커리큘럼으로 훈련됩니다. 특히, Levenshtein 거리를 기반으로 한 편집 기반 증강은 모델의 보정 능력을 향상시키고 불필요한 반복을 제거합니다. 또한, 추론 효율성을 위해 블록 수준 병렬 확산 샘플링과 KV-캐싱을 활용하는 반(semi)-자기회귀적 방식을 채택합니다.
주요 결과
Seed Diffusion Preview는 H20 GPU에서 놀라운 2,146 토큰/초의 추론 속도를 달성하며, 이는 동시대의 Mercury 및 Gemini Diffusion보다 훨씬 빠릅니다. 이 모델은 LiveCodeBench*에서 25.0%, HumanEval에서 85.2%, MBPP에서 76.0% 등 다양한 코드 평가 벤치마크에서 경쟁력 있는 성능을 유지합니다. 특히, Aider (tries=2)에서 44.4%, CanItEdit에서 54.3%를 기록하며 편집 작업에서 뛰어난 성능을 보입니다.
AI 실무자를 위한 시사점
이 연구는 이산 확산 모델이 대규모 언어 모델의 추론 속도를 획기적으로 가속화할 수 있음을 실증합니다. 비자기회귀적(non-autoregressive) 생성의 잠재력을 최대한 활용하여 실시간 코드 생성과 같은 지연 시간에 민감한 애플리케이션에 큰 이점을 제공할 수 있습니다. 이는 기존 좌-우 모델링 순서에 대한 대안을 제시하며, 향후 다양한 도메인과 복합 추론 태스크로의 확장 가능성을 시사합니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Comments