語音

這也引出了聲紋識別,同時也是傳統的語音識別框架下的一個很合理的假設:將語音拆分到音素(phone)的級別,狹義的現代漢語只需要32個音素就已經足夠用了。 如果考慮到每個音素的形態還會受到前後音素的影響,構建三音素模型(tri-phone)的話,那至多也只有幾千個備選的三音素集合(不是簡單的32的三次方,我們也會去掉一些稀有的和根本不會出現的搭配),而不同說話人的三音素樣本儘管有明顯的差異,但都能在
相關文章
相關標籤/搜索