論文筆記:語音情感識別(三)手工特徵+CRNN

論文筆記:語音情感識別(三)手工特徵+CRNN 一:Emotion Recognition from Human Speech Using Temporal Information and Deep Learning(2018 InterSpeech) (1)分幀加窗,每一幀採用的特徵向量爲eGeMAPS特徵集中的20個特徵,每個utterance使用裁剪和padding的做法使得定長512幀,所
相關文章
相關標籤/搜索