Interspeech 2014 Learning Small-Size DNN with Output-Distribution-Based Criteria 算法
簡述 函數
爲了減少離線模型(好比用於嵌入式設備)的大小,能夠減少每一個隱層的節點數或者減少輸出層的目標節點數。 ui
減少每一個隱層的節點數 spa
教師模型(L)與學生模型(S)之間的KL散度爲: 3d
訓練流程爲: blog
與直接重訓相比,上述TS訓練方法在375小時數據集上取得13.59%的WER降低 ci
減少輸出層的目標節點數 get
傳統生成三音素集方法的問題在於 it
本文提出先用標準方法生成較大的三音素集,而後基於DNN相關的特徵對大三音素集進行聚類。 io
根據Equivalence of generative and log-linear models,對數線性模型等價於一個高斯模型:
softmax函數能夠看做是如下對數線性函數:
訓練流程爲:
實驗結果與結論
與使用標準流程用決策樹從新生成三音素集相比,基於高斯KL聚類的方法在375小時能取得1.33%的WER降低
原文
Li, Jinyu, Rui Zhao, Jui-Ting Huang, and Yifan Gong. "Learning small-size DNN with output-distribution-based criteria." In Fifteenth annual conference of the international speech communication association. 2014.