[논문리뷰] How to Evaluate Speech Translation with Source-Aware Neural MT Metrics

수정: 2025년 11월 9일

링크: 논문 PDF로 바로 열기

저자: Mauro Cettolo, Marco Gaido, Matteo Negri, Sara Papi, Luisa Bentivogli

핵심 연구 목표

자동 음성-텍스트 번역(ST) 시스템 평가에서 텍스트 소스가 없는 한계로 인해 소스 인식 신경 기계 번역(MT) 지표를 적용하기 어렵습니다. 본 연구는 음성 입력의 텍스트 프록시를 자동으로 생성하고 이를 참조 번역과 정렬하여, 소스 인식 MT 지표를 ST 평가에 신뢰성 있게 적용하는 방법론을 체계적으로 탐구하는 것을 목표로 합니다. 구체적으로 ASRBT 중 최적의 프록시 생성 방법을 모색하고, XLR-Segmenter를 통해 교차 언어 재분할 문제를 해결하고자 합니다.

핵심 방법론

입력 음성을 자동 음성 인식(ASR) 시스템(Whisper, OWSM, SeamlessM4T)으로 전사하거나, 참조 번역을 역번역(Back-Translation, BT) 시스템(MADLAD, NLLB)으로 소스 언어로 번역하여 합성 텍스트 소스를 생성했습니다. 생성된 소스 텍스트를 참조 번역과 정렬하기 위해, L-SegmenterSimAlign 기반의 **두 단계 교차 언어 재분할 알고리즘(XLR-Segmenter)**을 개발했습니다. 평가 지표로는 COMET-22MetricX-24-Hybrid를 사용하고, Pearson 상관 계수를 통해 수동 전사 기반 평가와의 일치도를 측정했습니다.

주요 결과

합성 소스는 수동 전사를 효과적으로 대체하며, MetricX에서 0.80 이상, COMET에서 0.99 이상의 높은 상관관계를 보였습니다. ASR WER이 20% 미만일 때 ASR 기반 소스가 BT보다 우수했고(ASR 승리율 ~87.4%), 20% 초과 시 BT가 더 나은 결과를 보였습니다(BT 승리율 ~85.5%). 또한, 제안된 XLR-Segmenter는 수동 분할 대비 1-3%의 LASER 점수 저하만으로 효과적인 재분할을 달성하며, 구두점 재배치에도 성공적이었습니다.

AI 실무자를 위한 시사점

ST 시스템 평가 시 ASR 또는 BT를 사용하여 소스 인식 신경 MT 지표를 신뢰성 있게 활용할 수 있음을 제시합니다. ASR 품질(WER)이 20% 미만일 경우 ASR을, 그 이상일 경우 BT를 선택하는 실용적인 가이드라인을 제공합니다. 특히 XLR-Segmenter는 실제 환경에서 오디오-텍스트 정렬이 불가능할 때, 합성 소스를 활용한 ST 평가의 정확도를 높이는 중요한 도구로 활용될 수 있습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Speech Translation#Neural MT Metrics#Source-Aware Evaluation#Automatic Speech Recognition (ASR)#Back-Translation (BT)#Cross-lingual Re-segmentation#COMET#MetricX