春節後到如今近兩個月了,沒有更新博客,主要是由於工做的關注點正從傳統語音(語音通訊)轉向智能語音(語音識別)。部門起了個新項目,要用到語音識別(準備基於Kaldi來作)。咱們以前作的傳統音頻已基本成熟,就開始關注在語音識別上了。對於咱們來講,這是個全新的領域(雖然都是語音相關的,可是語音通訊偏信號處理,傳統語音識別方法偏機率統計),須要學習的知識不少,因此這段時間主要是在學習新知識了,主要學習了數學(高數/線性代數/機率統計,這應該算複習)、機器學習基礎知識、深度學習、語音識別傳統方法等。因爲剛開始學,還沒實踐,有的仍是隻知其一;不知其二。學的過程當中也要有輸出(把本身學的知識講給組內其餘同窗聽,並一塊兒討論,讓你們都快速入門),這也能促進把學的東西掌握的更好。我花了兩週的時間學習了語音識別的傳統方法(主要學習方式是看文檔和博客),基本上掌握了其方法,也作了PPT給組內同窗講(作PPT時用了一些博客上的圖,謝謝這些博主,這裏就不一一列舉了)。今天就把這個PPT share出來,給也想入門語音識別的朋友作個參考。因爲還沒實踐,有什麼不太準確或不許確的地方還請指出。機器學習
語音識別傳統方法主要分兩個階段:訓練和識別,訓練階段主要是生成聲學模型和語言模型給識別階段用。傳統方法主要有五大模塊組成,分別是特徵提取(獲得每幀的特徵向量),聲學模型(用GMM從幀的特徵向量獲得狀態,再用HMM從狀態獲得音素)、發音字典(從音素獲得單詞)、語言模型(從單詞獲得句子)、搜索解碼(根據聲學模型、發音字典和語言模型獲得最佳文本輸出),即從幀獲得特徵向量(特徵提取乾的話),從特徵向量獲得狀態(GMM乾的話),從狀態獲得音素(HMM乾的話),從音素獲得單詞(發音字典乾的活),從單詞獲得句子(語言模型乾的活)。傳統方法除了在特徵提取上用到信號處理知識,其他全都是機率統計等知識,因此說語音識別和語音通訊是兩個徹底不一樣的領域。學習
通過近十年的發展,語音識別已經從傳統方法演進到基於深度學習的方法,識別率也有了質的提高,並且還在快速的演變中,如今商用的語音識別系統都是基於深度學習實現的。對於傳統方法而言,只會出如今文章教材中了,但做爲新手,在入門時學習它仍是頗有必要的。只有瞭解了傳統方法再去學習深度學習方法,才知道深度學習方法是怎麼樣基於傳統方法一步步演變的。下面就是個人PPT。3d