語音識別之特徵提取

1.因爲語音信號不是平穩信號(均值方差等統計特徵隨時間變化),所以需要將信號分切成很多短的小範圍內平穩的信號段(到音素級別),也就是分幀,常用的幀長爲 25ms,幀移是10ms,前後幀重疊會使前後幀的統計特徵不至於變化太大。分幀是用窗口函數與原信號相乘,但時域相乘到了頻域是卷積,窗口函數如果用矩形窗則會因爲矩形信號頻譜有比較大的旁花瓣而造成頻率泄漏 ,所以一般用旁瓣小的漢明窗。 2.分幀之前有一個
相關文章
相關標籤/搜索