基于违规和老年人语音识别的基于直接功能的快速扬声器改编

论文标题

基于违规和老年人语音识别的基于直接功能的快速扬声器改编

On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition

论文作者

Geng, Mengzhe, Xie, Xurong, Su, Rongfeng, Yu, Jianwei, Jin, Zengrui, Wang, Tianzi, Hu, Shujie, Ye, Zi, Meng, Helen, Liu, Xunying

论文摘要

迄今为止，准确认识违反障碍和老年语音仍然具有挑战性的任务。说话者级别的异质性归因于口音或性别，当与年龄和言语障碍汇总时，在这些说话者中会产生巨大的多样性。说话者级数据的稀缺性限制了基于数据密集型模型的扬声器适应方法的实际使用。为此，本文提出了两种新型的基于数据效率的，基于特征的扬声器适应方法：方差调查光谱基嵌入（SVR）和光谱驱动的F-LHUC变换。对UASPEECH违反障碍和痴呆症Pitt Eldersy语言Corpora进行的实验表明，始终超过基线的基线Ivector ivector的混合DNN/TDNN/TDNN和E2E构象异构器系统以2.48％-2.48％-2.85％的绝对量降低2.48％-8.92％，并降低了2.48％的Modele in and-n.92％，始终超过了基线IVECTOR SOFFECTOR SODER-IVECTOR SOFFECTOR ADISTRAIMS ADAPTATION ADAPTITACH方法。绝对的适应性分别为1.82％（相对5.63％）。

Accurate recognition of dysarthric and elderly speech remain challenging tasks to date. Speaker-level heterogeneity attributed to accent or gender, when aggregated with age and speech impairment, create large diversity among these speakers. Scarcity of speaker-level data limits the practical use of data-intensive model based speaker adaptation methods. To this end, this paper proposes two novel forms of data-efficient, feature-based on-the-fly speaker adaptation methods: variance-regularized spectral basis embedding (SVR) and spectral feature driven f-LHUC transforms. Experiments conducted on UASpeech dysarthric and DementiaBank Pitt elderly speech corpora suggest the proposed on-the-fly speaker adaptation approaches consistently outperform baseline iVector adapted hybrid DNN/TDNN and E2E Conformer systems by statistically significant WER reduction of 2.48%-2.85% absolute (7.92%-8.06% relative), and offline model based LHUC adaptation by 1.82% absolute (5.63% relative) respectively.

下载PDF全文

下载文献需遵守相关版权规定

论文标题