[논문리뷰] Cross-Attention is Half Explanation in Speech-to-Text Models
링크: 논문 PDF로 바로 열기
저자: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli
핵심 연구 목표
본 논문은 S2T 모델에서 교차 어텐션(cross-attention) 점수가 입력-출력 의존성을 얼마나 잘 설명하는지 체계적으로 분석합니다. 특히, 교차 어텐션이 입력-출력 정렬의 대리자로서 유효한지, 그리고 **특징 기여(feature attribution)**와 같은 정식 설명 가능성(explainability) 방법론과 비교 가능한 통찰력을 제공하는지 평가합니다.
핵심 방법론
연구팀은 **SPES(Speech Perturbation for Explainable Speech-to-Text)**에서 파생된 **입력 살리언시 맵(SMX)**과 교차 어텐션 점수(CA)를 비교했습니다. 또한, **인코더 출력 살리언시 맵(SMH)**과 CA를 비교하여 **문맥 혼합(context mixing)**의 영향을 정량화했으며, Conformer 인코더와 Transformer 디코더를 사용하는 다양한 규모의 ASR 및 ST 모델에서 **Pearson 상관 계수(p)**를 측정했습니다.
주요 결과
교차 어텐션은 입력 살리언시 맵과 0.45-0.55 범위의 중간에서 강한 상관관계를 보였습니다. 인코더 출력 살리언시 맵과는 더 높은 상관관계를 보였으며, 0.03에서 0.18 범위의 p 값 차이는 **6.6-16.7%**의 문맥 혼합 영향을 나타냈습니다. 그러나 교차 어텐션은 인코더 출력 수준에서도 관련성의 **52-75%**만을 포착했으며, 삭제 메트릭(deletion metric)에서는 41.2를 기록하여 **SMX(52.9)**나 전체 해상도 맵(91.3)보다 낮은 성능을 보였습니다.
AI 실무자를 위한 시사점
교차 어텐션은 S2T 모델의 동작에 대한 유익하지만 불완전한 설명을 제공하며, 단독적인 XAI 도구로 사용되기에는 한계가 있습니다. 특히 **헤드와 레이어에 걸쳐 통합(averaging)**하거나 마지막 디코더 레이어에 집중할 때, 살리언시 맵과의 정렬이 개선되므로 이를 활용한 다운스트림 애플리케이션 개선 가능성이 있습니다. **어텐션 정규화(attention regularization)**와 같은 훈련 시간 전략을 통해 설명 가능성과 태스크 성능을 동시에 향상시킬 수 있는 잠재력이 있습니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.