語音

時間 2021-01-10

原文原文鏈接

這也引出了聲紋識別，同時也是傳統的語音識別框架下的一個很合理的假設：將語音拆分到音素(phone)的級別，狹義的現代漢語只需要32個音素就已經足夠用了。如果考慮到每個音素的形態還會受到前後音素的影響，構建三音素模型(tri-phone)的話，那至多也只有幾千個備選的三音素集合(不是簡單的32的三次方，我們也會去掉一些稀有的和根本不會出現的搭配)，而不同說話人的三音素樣本儘管有明顯的差異，但都能在

>>阅读原文<<