[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

수정: 2025년 10월 31일

링크: 논문 PDF로 바로 열기

저자: Chin-Jou Li¹, Kalvin Chang², Shikhar Bharadwaj¹, Eunjung Yeo³, Kwanghee Choi³, Jian Zhu, David Mortensen¹, Shinji Watanabe¹

핵심 연구 목표

본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크에서 수행하는 것을 목표로 합니다. 이를 통해 오디오, 텍스트(철자), 음소 간의 끊김 없는 변환을 가능하게 하여 보편적이고 저자원 음성 처리의 새로운 가능성을 열고자 합니다.

핵심 방법론

이 연구는 **POWSM(Phonetic Open Whisper-style Speech Model)**이라는 새로운 음성 파운데이션 모델을 제안합니다. OWSM v3.1 설계를 따른 Attention-based encoder-decoder (AED) 아키텍처를 채택하며, E-Branchformer 인코더Transformer 디코더를 사용합니다. 17,000시간 이상의 다국어 음성 데이터셋인 **IPAPack++**를 활용하여, 표준 ASR 데이터셋을 ASR, PR, 오디오-가이드 G2P, 오디오-가이드 P2G의 네 가지 태스크별 형식으로 재구성하여 훈련했습니다. 훈련에는 하이브리드 CTC/attention 손실(actc=0.3)을 적용하고, 인코더 타겟으로 PanPhon 토큰화된 음소 시퀀스를 사용했습니다.

주요 결과

POWSM은 인-도메인 음소 인식에서 평균 PFER 2.62를 달성하여, 유사 규모의 특화 모델인 Wav2Vec2Phoneme 및 ZIPA를 능가하거나 동등한 성능을 보였습니다. 특히, 미학습 언어에서는 ZIPA-CR-NS-Large 모델 대비 더 우수한 성능을 기록했습니다. 저자원 언어 ASR 태스크에서는 OWLS 0.5B와 유사한 성능을 보였으며, PR-P2G 설정에서는 WER을 크게 감소시켰습니다. 또한, FLEURS 데이터셋에서 언어 식별(LID) 92.3%의 정확도를 달성했습니다.

AI 실무자를 위한 시사점

POWSM은 다양한 음소 관련 태스크를 단일 모델로 처리함으로써 음성 기술 개발의 복잡성을 줄이고 효율성을 높입니다. 특히, 저자원 언어에 대한 강력한 성능은 소수 언어의 음성 기술 발전에 크게 기여할 수 있음을 보여줍니다. 음소 수준의 CTC 감독과 인코더의 가중치 강화는 교차 언어 일반화를 향상시키는 데 효과적이며, 이는 이형 언어 발음 평가와 같은 정교한 언어 분석이 필요한 응용 분야에 실용적인 가치를 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Phonetic Foundation Model#Multitask Learning#Speech Recognition#Phone Recognition#Grapheme-to-Phoneme#Encoder-Decoder#Low-Resource Speech