經過並行數據以及TS學習來加強ASR的魯棒性

ICASSP 2019 SLP-P11.11 IMPROVING NOISE ROBUSTNESS OF AUTOMATIC SPEECH RECOGNITION VIA PARALLEL DATA AND TEACHER-STUDENT LEARNING 算法

簡述 函數

Teacher模型對三音素的離散機率分佈用於指導Student模型。因爲通常的ASR系統包含數千個三音素,處理一幀將計算數千的三音素的機率。而且,大多數輸出機率向量中只有少數維數有較大的值,其他維數的值都很是小而且帶噪,這會迷惑Student模型。 spa

   

所以,使用邏輯選擇方法,只保留輸出後驗機率向量中前k個最高的維數。這樣只有最可信的信息被保留下來,用於知道學生模型。這一方法也可以減小將教師輸出傳遞給學生模型的帶寬。 3d

算法 blog

其中T爲分佈中用於控制平滑度的Temperature get

   

這樣能大大減小存儲軟目標所需存儲空間以及訓練時的IO it

對向量進行加強也能提高學生模型對教師模型的置信度。 io

3LSTM3010輸出維數,64fBank特徵 pdf

800小時過陣列轉錄數據,7200小時過陣列無轉錄數據 bfc

目標場景爲室內帶多媒體噪聲環境。

0-30dB抽取500-900ms RT60RIR進行加混響

  1. 使用800小時乾淨過陣列數據訓練Teacher模型
  2. 對未轉錄的乾淨數據集加噪
  3. 未轉錄乾淨數據過教師模型,未轉錄噪聲數據過學生模型,學生模型的準則函數爲其輸出與教師模型輸出的KL散度(交叉熵)。
  4. 梯度降低

CE,與僅使用800小時帶轉錄乾淨數據訓練的教師模型相比,

多條件訓練(TS)的WER降低4.26%

該文獻的方法WER降低6.82%Temporature=1,且最優)

實驗結果與結論

CE+sMBR,與使用1600小時乾淨帶轉錄數據訓練的教師模型相比,使用4800小時無轉錄數據+800小時轉錄數據,以該文獻提出的方法訓練的學生模型,能提高19.58%

   

原文

Mošner, Ladislav, Minhua Wu, Anirudh Raju, Sree Hari Krishnan Parthasarathi, Kenichi Kumatani, Shiva Sundaram, Roland Maas, and Björn Hoffmeister. "Improving noise robustness of automatic speech recognition via parallel data and teacher-student learning." arXiv preprint arXiv:1901.02348 (2019).

相關文章
相關標籤/搜索