(EmotiW2016)Video-based emotion recognition using CNNRNN and C3D hybrid networks

Introduction         本文主要利用了RNN和C3D解決視頻分類問題,其中RNN將CNN從每個視頻幀中提取出來的特徵進行時序上的編碼,C3D對人臉表徵和運動信息同時建模,最後再融合音頻特徵,完成視頻分類。本文以59.02%的正確率較EmotiW 2015 53.8%的正確率高出許多。 Model         整體模型如圖1,該模型主要由三個子模型組成:CNN-RNN,C3D和
相關文章
相關標籤/搜索