語音識別框架

一、語音識別框架 傳統理論重點研究聲學模型,發音字典不用關心,語言模型一般用n-gram 預處理:1. 首尾端的靜音切除,降低對後續步驟造成的干擾,靜音切除的操作一般稱爲VAD。  2. 聲音分幀,也就是把聲音切開成一小段一小段,每小段稱爲一幀,使用移動窗函數來實現,不是簡單的切開,各幀之間一般是有交疊的。 特徵提取:主要算法有線性預測倒譜系數(LPCC)和Mel 倒譜系數(MFCC),目的是把每
相關文章
相關標籤/搜索