語音識別框架

時間 2021-07-10

原文原文鏈接

一、語音識別框架傳統理論重點研究聲學模型，發音字典不用關心，語言模型一般用n-gram 預處理：1. 首尾端的靜音切除，降低對後續步驟造成的干擾，靜音切除的操作一般稱爲VAD。 2. 聲音分幀，也就是把聲音切開成一小段一小段，每小段稱爲一幀，使用移動窗函數來實現，不是簡單的切開，各幀之間一般是有交疊的。特徵提取：主要算法有線性預測倒譜系數（LPCC）和Mel 倒譜系數（MFCC），目的是把每