語音識別基礎1:建模單元 phone

聲學模型 描述一種語言的基本單位被稱爲音素Phoneme,例如BRYAN這個詞就可以看做是由B, R, AY, AX, N五個音素構成的。英語中貌似有50多個音素,可以用50幾個HMM state來表示這些音素,這種表示方法就是context independent模型中的單音素monophone模式。然而語音沒有圖像識別那麼簡單,因爲我們再說話的時候很多發音都是連在一起的,很難區分,所以一般用左
相關文章
相關標籤/搜索