基於深度神經網絡的語音識別方法

Kaldi 語音工具箱的簡介算法

Kaldi 語音工具箱[61]是由微軟研究院Povey 等人研究的應用於語音識別方面的開源工具箱。該工具箱是用 C++編寫而成的,並且具備靈活性、擴展性。 網絡

該工具箱的函數庫是 HTK 工具箱函數庫的加強版,爲了使用的方便,將 HTK 零碎的的指令與功能函數模塊進行統一的整合,最大的優勢就是引入了深度神經網絡模塊。框架

Kaldi 工具箱的語音識別系統框架如圖函數

圖  中,Kaldi 系統的外部庫依賴於 Open FST 和數值代數庫。這兩個函數庫可經過 Decodable 
進行連接。工具

利用 C++編寫指令行直接調用工具箱中的庫函數,而後利用多個的 perl 語言腳本搭建成了語音識別系統。各個特定的指令行能完成相應的任務,並且只要設定少許的參數。除此以外,全部的工具模塊均可以從管道接口處自由的讀寫,從而使得各個工具模塊之間的調用更加方便。接口

基於 Kaldi 具體實現 DNN 訓練過程變量

儘管深度神經網絡比淺層網絡有較強的建模能力,可是訓練深度網絡是很是困難的。由於很難判斷給定的輸入數據矢量後,隱含變量服從的後驗機率分佈。簡單的 BP算法因爲出現局部最小值而不能處理。最近提出使用 RBM 進行預訓練和使用對比散度算法進行區分性的微調。
DBN 能夠看做複雜的非線性特徵提取器。每一層的隱藏單元表明特性。特徵提取器可以得到與在原始的輸入數據更高階相關性的數據。利用 Kaldi工具箱具體實現 DNN 訓練過程如圖所示。 

 

 擴展

相關文章
相關標籤/搜索