以kaldi中的yesno爲例談談transition

在基於GMM-HMM的傳統語音識別裏,比音素(phone)更小的單位是狀態(state)。一般每個音素由三個狀態組成,特殊的是靜音(SIL)由五個狀態組成。這裏所說的狀態就是指HMM裏的隱藏的狀態,而每幀數據就是指HMM裏的觀測值。每個狀態可以用一個GMM模型表示(這個GMM模型的參數是通過訓練得到的)。在識別時把每幀數據對應的特徵值放進每個狀態的GMM裏算概率,概率最大的那個就是這幀對應的狀態。
相關文章
相關標籤/搜索