[논문리뷰] Attention Is All You Need for KV Cache in Diffusion LLMs

수정: 2025년 10월 17일

링크: 논문 PDF로 바로 열기

저자: Quan Nguyen-Tri, Mukul Ranjan, Zhiqiang Shen

핵심 연구 목표

본 논문은 확산 대규모 언어 모델(DLMs)의 추론 과정에서 발생하는 과도한 Key-Value (KV) 캐시 재계산으로 인한 높은 지연 시간을 해결하는 것을 목표로 합니다. KV 상태 변화가 미미함에도 불구하고 모든 토큰과 레이어에서 QKV를 재계산하는 비효율성을 개선하여, 예측 정확도를 최대화하면서 디코딩 지연 시간을 최소화하는 적응형 캐싱 전략을 개발하고자 합니다.

핵심 방법론

저자들은 Elastic-Cache라는 훈련 불필요 및 아키텍처 불가지론적 전략을 제안합니다. 이 방법론은 가장 많이 어텐션 받은 토큰에 대한 어텐션 인식 드리프트 테스트를 통해 캐시를 언제 새로고침할지 결정하고, 학습된 경계 레이어 l*부터 더 깊은 레이어에 대해서만 재계산하는 깊이 인식 스케줄을 통해 어디를 새로고침할지 결정합니다. 또한, 활성 예측 창 외부에 있는 먼 MASK 토큰에 대해 블록 단위 MASK 캐싱을 활용하여 불필요한 업데이트를 제거합니다.

주요 결과

LLaDA-Instruct, LLaDA-1.5, LLaDA-V 모델을 사용한 실험에서 Elastic-Cache는 생성 품질 손실 없이 상당한 속도 향상을 입증했습니다. 특히, GSM8K(256 토큰)에서 8.7배, 긴 시퀀스에서 45.1배, HumanEval에서 4.8배의 속도 향상을 달성했습니다. **GSM8K(512 토큰)**에서 Elastic-Cache77.71% 정확도로 90.1 t/s를 기록하며, Fast-dLLM의 74.83% 정확도에서 44.0 t/s를 능가했습니다.

AI 실무자를 위한 시사점

Elastic-Cache는 DLM의 추론 지연 시간을 크게 줄여 실제 서비스 배포의 병목 현상을 해소하는 데 기여합니다. 이 방법은 모델의 동적 변화에 지능적으로 반응하여 컴퓨팅 자원 사용의 효율성을 극대화하므로, AI/ML 엔지니어는 고정된 캐싱 정책 대신 모델 상태에 따른 적응형 캐싱을 적용할 수 있습니다. 훈련이 필요 없고 아키텍처에 독립적이므로 기존 DLM 시스템에 쉽게 통합하여 성능을 개선할 수 있는 실용적인 솔루션입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Diffusion LLMs#KV Cache#Adaptive Caching#Inference Optimization#Attention Mechanism#Latency Reduction#Generative AI