基於輸出分佈的小尺寸DNN學習準則

Interspeech 2014 Learning Small-Size DNN with Output-Distribution-Based Criteria 算法

簡述 函數

爲了減少離線模型(好比用於嵌入式設備)的大小,能夠減少每一個隱層的節點數或者減少輸出層的目標節點數。 ui

減少每一個隱層的節點數 spa

教師模型(L)與學生模型(S)之間的KL散度爲: 3d

訓練流程爲: blog

  1. 使用帶轉錄數據訓練教師模型
  2. 使用無轉錄數據對學生模型進行預訓練
  3. 使用無轉錄數據以上述算法計算mini-batch的準則函數,並反向傳播

   

與直接重訓相比,上述TS訓練方法在375小時數據集上取得13.59%WER降低 ci

減少輸出層的目標節點數 get

傳統生成三音素集方法的問題在於 it

  • 基於似然決策樹分裂以得到DNN建模的三音素集中,三音素集是由對應MFCCPLP特徵的單高斯分佈決定的,與後續訓練DNN的流程無關。

   

本文提出先用標準方法生成較大的三音素集,而後基於DNN相關的特徵對大三音素集進行聚類。 io

   

根據Equivalence of generative and log-linear models,對數線性模型等價於一個高斯模型:

   

softmax函數能夠看做是如下對數線性函數:

   

訓練流程爲:

  1. 使用標準訓練流程訓練大三音素集的DNN
  2. 將大三音素集DNN的輸出層轉換爲多個高斯模型
  3. 對上述高斯模型使用對稱KL散度進行聚類,爲聚類後每一個集合分配一個三音素ID
  4. 將訓練數據對齊中,將大三音素ID替換爲小三音素集ID,而後對DNN進行重訓

實驗結果與結論

與使用標準流程用決策樹從新生成三音素集相比,基於高斯KL聚類的方法在375小時能取得1.33%WER降低

原文

Li, Jinyu, Rui Zhao, Jui-Ting Huang, and Yifan Gong. "Learning small-size DNN with output-distribution-based criteria." In Fifteenth annual conference of the international speech communication association. 2014.

相關文章
相關標籤/搜索