基於麥克風陣列加強的語音識別html
基於麥克風陣列加強的語音識別,與單通道語音識別相比麥克風陣列能夠利用多通道的語音信息,經過波束造成算法來加強語音信號的質量,這樣提取的特徵參數能更好的反應語音的特徵,從而提升語音識別的效果。算法
麥克風陣列可接收到多路的語音信息,能夠經過對多路語音信息以某種準則加以篩選整合,獲得對識別更有利的通道的語音信息,從而達到提升識別率的目的。通道選擇的方法有不少種,好比基於 SNR 的方法,基於特徵補償的方法,基於互相關係數法,基於最近鄰法。數組
語音識別的基礎理論知識 .net
語音識別過程本質上是一種模式識別過程,首先麥克風將接收到語音信號轉換成電信號,通過預處理和端點檢測後對其進行特徵參數提取。而後根據語音特色選擇合適的語音模型,經過提取的特徵參數創建起語音識別的參考模型。最後,對待識別的語音進行預處理、端點檢測和特徵參數提取,將待識別語音的特徵參數與訓練過程創建語音模型進行匹配,進而經過判決規則得出識別結果。htm
(http://blog.csdn.net/ziyuzhao123/article/details/8932336)blog
梅爾倒譜系數數學
語音特徵參數能夠是基音週期、短時能量、共振峯等。目前在語音識別系統中,經常使用的特徵參數是和線性預測倒譜系數。基礎
HMM 模型的基礎知識gc
隱馬爾科夫模型是語音信號的一種統計模型,在語音處理各個領域普遍應用。它具備雙重隨機過程的特色,系統由多個狀態組成,觀察序列隨着時間的變化轉移到不一樣的狀態上;每一個狀態又含有不一樣的輸出機率模型,根據輸出機率模型獲得觀察序列的輸出機率。一段語音的特徵參數就是隨着時間的變化而變化的,隱馬爾科夫模型很好的模仿了這一過程,因此其成爲公認的相對有效地語音識別模型。方法
根據狀態輸出觀察值的機率連續與否可將 HMM分爲離散 HMM、連續 HMM、半連續 HMM。
HMM 模型的基本算法
前向後向算法
前向後向算法是在已知一個觀察序列和一個 HMM 模型的基礎上,計算出經過HMM 模型產生觀察序列的機率。前向算法是按照觀察序列的時間順序,從前日後遞推計算出輸出機率。
http://blog.csdn.net/joey_su/article/details/17270639
http://blog.csdn.net/joey_su/article/details/17270613
HMM 模型在應用中存在的問題及解決方法
HMM 模型的基元選取和狀態數肯定
基元即語音識別的最小識別單位,對於漢語來講,能夠是一個詞,也能夠是聲韻母。通常中小詞彙量的系統選擇以詞爲基元,大詞彙量的系統通常以聲韻母做爲基元。
當識別系統詞彙量比較大時,若是每一詞都有一個 HMM,那麼整個系統所須要訓練的參數會大大增長,其所存儲的空間也會增長,這兩不利於系統的實用化。因此能夠選擇一組包含全部聲韻母的訓練語音,便可訓練出各個聲母韻母的 HMM 模型,這樣既節省了存儲空間,又提升了訓練時間。
經過查閱文獻可知,通常漢語語音識別,以詞爲基元的,狀態數宜爲 6 到 8。以聲韻母做爲基元的,聲母狀態數爲 2,韻母狀態數爲 4。
http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html?spm=5176.100239.blogcont.16.PXoxr2
https://yq.aliyun.com/articles/50423
關於麥克風陣列延遲濾波求和
多個通道採集語音信號時,因爲到達各個通道的各路信號是通過不一樣的傳播延遲後得到,所以可對各通道信號進行時間校訂以補償信號在傳輸時所產生的時延,實現各個通道的指望信號無相位差疊加,而噪聲則爲存在相位差的疊加,進而提升輸出信號中的信號與噪聲的比值。這個過程用數學公式可表達爲
FBFout=sum(x)/M;
而當麥克風陣列接收的各路語音信號在求和以前經過一個濾波器,此時權值係數再也不是單一的數值,而是由一系列濾波器係數組成,那麼便可以由延時求和波束造成的方法推廣到濾波求和波束造成的方法。