深度神經網絡的基本原理
在 DNN 聲學模型應用於語音識別中,較以前的淺層神經網絡參數初始化的方法略有不一樣。早期的神經網絡參數的初始化主要是隨機進行初始化的,而 DNN 參數的初始化值主要是利用大量的語音數據輸入生成一個具備多個隱含層的生成性模型。DNN 的基本框架圖 2.3 所示。算法
圖 2.3 表示語音數據通過 DNN 的輸入層,獲得的特徵參數再利用深度信念網絡 [39-41]進行逼近,這種訓練過程稱爲預訓練過程。在網絡結構的最後一個隱含層加入 softmax 函數,從而獲得輸出層值,而後用初始化後的網絡權重利用反向傳播算法(Back Propagation,BP)對網絡的權重精確的微調(fine-tuning),以便獲得準確的網絡權重。DBN 是經過多個受限玻爾茲曼機制的神經單元構建而成的。網絡
基於優化陣列參數的遠距離語音識別方法框架
遠距離語音識別的方法通常是爲了提升語音信號質量,也就是針對信號加強和提升信噪比這兩方面。這些方法大多數狀況下關注的是可以經過麥克風陣列的輸出端獲得一個最佳的語音信號波形,所以這些方法依據的是不一樣的信號準則對遠距離語音進行處理,例如最大化信噪比原則和來波方向最小化失真準則。然而,在這些準則下,並無改善對語音識別來講相當重要的特徵參數,進而陣列處理後的語音信號並無明顯改善。 函數
因爲語音識別不只是信號處理領域,一樣屬於模式識別領域。語音識別的基本過程是把採集到的語音波形變換成特徵參數向量,而後用語音識別器把特徵參數向量和統計模型一一進行匹配,獲得了使正確分類的狀態序列似然機率最大,最終經過狀態序列來獲得識別結果。優化
所以,麥克風陣列處理問題總結爲尋找使最大化正確假設機率的陣列參數。論文是在濾波求和波束造成算法中解決該問題的。所以,該方法稱之爲最大化似然機率波束造成,也就是優化陣列參數的方法[26,45]。同步
首先對陣列採集到含噪的語音信號信息,進行多通道的語音信號的時延估計並對其時延補償,而後通過濾波-求和波束造成處理,把多路信號變爲一路下降噪聲的純淨語音信號,濾波器係數表明了陣列參數。當訓練的過程當中,由語音識別器輸出的假設錄音反饋回來進一步調整陣列參數向量,使得陣列參數向量獲得進一步優化,產生的最大化特徵參數,由最大化特徵參數最後獲得最大化正確假設的似然機率。數學
波束造成[48-49]的基本思想是指在麥克風陣列採集語音信號時,因爲信號通過不一樣的路徑到達麥克風陣列,致使採集到的語音信號有延遲,所以爲補償各個麥克風獲得信號的時間延遲,進行時間上的延遲補償,可以使多通道的信號同步的彙集在所指望的方向上,所以某一特定方向的指望信號強度被增強,相反的,那些不指望的信號或者噪聲被抑制或者消除,最終將獲得的全部同步信號進行加權求和。io
這個處理過程用數學公式表示爲原理
那麼由延時求和波束造成算法延伸到濾波求和波束造成的算法[50-51]。表達式爲神經網絡