๋งํฌ: ๋ ผ๋ฌธ PDF๋ก ๋ฐ๋ก ์ด๊ธฐ
์ ์: Xiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang
ํต์ฌ ์ฐ๊ตฌ ๋ชฉํ
๋ณธ ๋ ผ๋ฌธ์ DeepSeek-V2์์ ๋์ ๋ Multi-Head Latent Attention (MLA)์ด Tensor Parallelism (TP) ํ๊ฒฝ์์ KV ์บ์ ๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ ํจ๊ณผ๋ฅผ ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ํนํ, TP ํ๊ฒฝ์์ ๊ฐ ๋๋ฐ์ด์ค๊ฐ ์ ์ฒด latent vector (cKV)๋ฅผ ๋ก๋ํด์ผ ํ๋ ๋นํจ์จ์ฑ์ ๊ฐ์ ํ์ฌ, MLA์ ์์ถ ์ด์ ๊ณผ TP ํจ์จ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ฉด์๋ ํํ ๋ฅ๋ ฅ(representational capacity)์ ์ ์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
ํต์ฌ ๋ฐฉ๋ฒ๋ก
์ ์ํ๋ Tensor-Parallel Latent Attention (TPLA)์ latent representation๊ณผ ๊ฐ ํค๋์ ์ ๋ ฅ ์ฐจ์์ ๋๋ฐ์ด์ค ๊ฐ์ ๋ถํ ํ๊ณ , ๊ฐ ์ค๋์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ดํ ์ ์ ์ํํ ํ all-reduce๋ก ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํฉ๋๋ค. TPLA๋ ๊ฐ ์ดํ ์ ํค๋๊ฐ ์ ์ฒด latent representation์ ํ์ฉํ๊ฒ ํ์ฌ ํํ ๋ฅ๋ ฅ์ ์ ์งํ๋ฉฐ, ๋๋ฐ์ด์ค๋ KV ์บ์์ ํํฐ์ ๋ง ๋ก๋ํฉ๋๋ค. ๋ํ, Hadamard transform ๋๋ PCA์ ๊ฐ์ ์ง๊ต ๋ณํ์ RMSNorm ๋ฐ softmax ์ฐ์ฐ์ ์ ์ฉํ์ฌ ํฌ๋ก์ค-์ค๋ ๊ฐ์ญ์ ์ํํ๊ณ ์ ํ๋ ์ ํ๋ฅผ ์ต์ํํฉ๋๋ค. Prefill ๋จ๊ณ์์๋ MLA ๋ฐฉ์์ ์ฌ์ฉํ๊ณ ๋์ฝ๋ฉ ๋จ๊ณ์์๋ TPLA๋ฅผ ์ฌ์ฉํ๋ Prefill/Decode Separation ์ ๋ต์ ์ฑํํ์ฌ ๊ฐ ๋จ๊ณ์ ํจ์จ์ฑ์ ์ต์ ํํฉ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ
DeepSeek-V3 ๋ฐ Kimi-K2 ๋ชจ๋ธ์์ 32K ํ ํฐ ์ปจํ ์คํธ ๊ธธ์ด ๊ธฐ์ค์ผ๋ก ๋๋ฐ์ด์ค๋น KV ์บ์๋ฅผ ๊ฐ์์์ผ ๊ฐ๊ฐ 1.79๋ฐฐ ๋ฐ 1.93๋ฐฐ์ ์๋ ํฅ์์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ์ฑ๋ฅ ํฅ์์ LongBench ๋ฐ commonsense benchmarks์์ ์ฑ๋ฅ ์ ํ ์์ด ์ด๋ฃจ์ด์ก์ผ๋ฉฐ, FlashAttention-3์ ํธํ๋์ด ์ค์ฉ์ ์ธ ๊ตฌํ์ด ๊ฐ๋ฅํจ์ ๋ณด์์ต๋๋ค. ํนํ, PCA ๊ธฐ๋ฐ ์ฌ๋งค๊ฐ๋ณ์ํ(reparameterization)๋ RMSNorm๊ณผ softmax๋ฅผ ๋์์ ๋ณ๋ ฌํํ ๋ ์ต์์ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ์ ๊ณตํ์ต๋๋ค.
AI ์ค๋ฌด์๋ฅผ ์ํ ์์ฌ์
TPLA๋ MLA ๊ธฐ๋ฐ LLM์ Tensor Parallelism ์ถ๋ก ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผ ์ฅ๋ฌธ ์ปจํ ์คํธ ์ถ๋ก ๋น์ฉ์ ์ ๊ฐํ ์ ์๋ ์ค์ฉ์ ์ธ ์๋ฃจ์ ์ ์ ๊ณตํฉ๋๋ค. ๊ธฐ์กด ์ฌ์ ํ๋ จ๋ MLA ๋ชจ๋ธ์ ์ฌํ๋ จ ์์ด ์ ์ฉ ๊ฐ๋ฅํ์ฌ ๋์ ์ฅ๋ฒฝ์ด ๋ฎ์ผ๋ฉฐ, FlashAttention-3์ ๊ฐ์ ์ต์ ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ํธํ์ฑ์ผ๋ก end-to-end ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ํ ์ ์์ต๋๋ค. Prefill/Decode ๋จ๊ณ ๋ถ๋ฆฌ ์ ๋ต์ ๊ฐ ๋จ๊ณ์ ์ปดํจํ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํน์ฑ์ ๊ณ ๋ คํ ์ต์ ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ฌ ์ ์ฒด ์ถ๋ก ํ์ดํ๋ผ์ธ์ ํจ์จ์ฑ์ ๋์ ๋๋ค.
โ ๏ธ ์๋ฆผ: ์ด ๋ฆฌ๋ทฐ๋ AI๋ก ์์ฑ๋์์ต๋๋ค.
Comments