EmotiW2016第一論文Video-based emotion recognition using CNNRNN and C3D hybrid networks

這篇論文主要利用了RNN和C3D解決視頻分類問題,其中RNN將CNN從每個視頻幀中提取出來的特徵進行時序上的編碼,C3D對人臉表徵和運動信息同時建模,最後再融合音頻特徵,完成視頻分類。本文以59.02%的正確率較EmotiW 2015 53.8%的正確率高出許多。    整體模型如圖1,該模型主要由三個子模型組成:CNN-RNN,C3D和音頻模型;CNN-RNN和C3D模型較爲核心。本文單獨訓練三
相關文章
相關標籤/搜索