上一篇專欄文章咱們介紹了基於視頻的人臉表情識別的相關概念,瞭解了目前基於視頻的人臉表情識別領域最經常使用的幾個數據集以及經典的實現方法。本文將延續上一篇的內容,分享近幾年該領域一些主流的基於深度學習的方法實現。git
做者&編輯 | Menpinlandgithub
1. 峯值幀引導的深度網絡web
Zhao等人[1]嘗試僅用兩幀的人臉圖像解決序列問題的方法。網絡的輸入是一張表情峯值幀和非峯值幀,在訓練過程當中,使用正則化的方式創建非峯值表情到峯值表情的映射(相似以後提出的對抗學習思想)。相似地,Kim等人[2]用三、5幀的人臉圖像實現基於視頻序列的表情識別和微表情識別任務。用這類方法的最大優勢就是不須要用到序列的所有數據,訓練更簡單,推理所須要的參數也更少。但最大的問題是須要提早知道哪一幀是峯值幀哪一幀是非峯值幀,在實際應用中這一點很難作到。算法
推薦指數:✦✦✧✧✧express
![](http://static.javashuo.com/static/loading.gif)
圖1|[1]中提出方法示意圖微信
[1] Zhao X, Liang X, Liu L, et al. Peak-piloted deep network for facial expression recognition[C]//European conference on computer vision. Springer, Cham, 2016: 425-442.網絡
[2] Kim D H, Baddar W J, Jang J, et al. Multi-objective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition[J]. IEEE Transactions on Affective Computing, 2017, 10(2): 223-236.app
2. 解決時序問題經典網絡的應用框架
解決時序問題有兩種經典的深度學習方法:基於3DCNN和基於CNN-RNN的方法(卷積層用於特徵提取)。Fan等人[3]基於上述兩種網絡分別獲得預測結果,再結合基於語音特徵預測獲得的結果,進行決策級的融合從而獲得了最終的識別結果。Vielzeuf等人[4]基於類似的思路作了細微的改進,在公開數據集上取得了更好的識別效果。ide
推薦指數:✦✦✦✧✧
代碼:https://github.com/lidian007/EmotiW2016
![](http://static.javashuo.com/static/loading.gif)
圖2|[3]中提出的方法示意圖
[3] Fan Y, Lu X, Li D, et al. Video-based emotion recognition using CNN-RNN and C3D hybrid networks[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. 2016: 445-450.
[4] Vielzeuf V, Pateux S, Jurie F. Temporal multimodal fusion for video emotion classification in the wild[C]//Proceedings of the 19th ACM International Conference on Multimodal Interaction. 2017: 569-576.
3. 單張圖像融合時序數據
在基於視頻的人臉表情識別任務中,深度時空網絡(deep spatial-temporal networks)因爲其能融合時間和空間特徵深受研究者的青睞。一般,3DCNN用於提取圖片序列的空間特徵,RNN用於提取時序特徵。然而這類方法在兩個分支網絡都須要用到序列中全部的數據,計算量較大。所以,一些研究者考慮在儘量保留表情特徵的基礎上減小網絡輸入的大小。Zhang等人[5]用單張圖片取代人臉圖片序列以提取空間特徵,用人臉特徵點序列取代人臉圖片序列以提取時間特徵,一樣實現了較好的識別效果。
推薦指數:✦✦✦✧✧
![](http://static.javashuo.com/static/loading.gif)
圖3|[5]中提出方法示意圖
[5] Zhang K, Huang Y, Du Y, et al. Facial expression recognition based on deep evolutional spatial-temporal networks[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4193-4203.
4. 對各類人臉表情變化模式魯棒的LSTM
在以前專欄討論基於圖片的人臉表情識別時,咱們瞭解到人的身份、姿態、光照等模式的變化會對識別效果形成較大的影響。在基於視頻的人臉表情識別中,這種狀況一樣存在。Baddar等人還發現,解決時序問題經常使用的LSTM對於人臉各類模式的變化並不魯棒。如圖4所示,他們挑選了一組表情相同可是光照不一樣的圖片,同時對每張圖片進行復制,獲得兩組序列,每一個序列中的每張圖片相同。理論上,序列每張圖片同樣,兩組序列除了光照條件不一樣,其餘都相同,那麼通過LSTM提取出的特徵,單個序列特徵值應該固定的,兩個序列特徵值應該相同或類似。但從可視化的結果可觀察到,兩組特徵差別較大。針對上述問題,Baddar等人[6]嘗試直接修改LSTM核內部結構,引入可編碼誤差的單元(如圖5(b)所示),從而提升對各類變化模式的魯棒性。同年,在IEEE Transactions On Affective Computing的一篇論文中,Baddar等人[7]一樣針對LSTM存在的問題,構建一種時序編碼結構以提高基於視頻的表情識別中實時預測的效果。
推薦指數:✦✦✦✦✧
![](http://static.javashuo.com/static/loading.gif)
圖4|LSTM對人臉表情變化模式並不魯棒
![](http://static.javashuo.com/static/loading.gif)
圖5|LSTM核原始結構(a)和[6]中修改後的LSTM核結構(b)
[6] Baddar W J, Ro Y M. Mode variational lstm robust to unseen modes of variation: Application to facial expression recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 3215-3223.
[7] Baddar W J, Lee S, Ro Y M. On-the-Fly Facial Expression Prediction using LSTM Encoded Appearance-Suppressed Dynamics[J]. IEEE Transactions on Affective Computing, 2019.
5. 含注意力機制的基於視頻人臉表情識別
前面提到,若是可以提早得到人臉序列的表情峯值幀,將有利於提高基於視頻的人臉表情識別的準確率,但實現這樣的算法並不容易。針對這一點,Meng等人[8]引入注意力機制,在訓練過程當中區分出更具表明性的幀進而提高後續表情識別效果。Zhou等人[9]則利用注意力機制和雙線性池化(bilinear pooling)構建多模態表情特徵融合方法;Chen等人[10]則在時空注意力的基礎上增長了3D通道注意力以生成更具表明性的特徵。
推薦指數:✦✦✦✧✧
代碼:https://github.com/MengDebin18/Emotion-FAN
![](http://static.javashuo.com/static/loading.gif)
圖6|[8]中提出的注意力機制
![](http://static.javashuo.com/static/loading.gif)
圖7|[9]中提出方法的示意圖
[8] Meng D, Peng X, Wang K, et al. Frame attention networks for facial expression recognition in videos[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019: 38663870.
[9] Zhou H, Meng D, Zhang Y, et al. Exploring emotion features and fusion strategies for audio-video emotion recognition[C]//2019 International Conference on Multimodal Interaction. 2019: 562-566.
[10] Chen W, Zhang D, Li M, et al. STCAM: Spatial-Temporal and Channel Attention Module for Dynamic Facial Expression Recognition[J]. IEEE Transactions on Affective Computing, 2020.
6. 利用背景信息輔助表情識別
在基於視頻的人臉表情識別中,研究者每每會將研究的重點放在如何捕獲臉部的動態變化上。Lee等人[11]認爲在天然狀態下,人的臉部表情變化並無那麼明顯、規律,單純利用人臉的變化並不能很是準確反正一段時間內人的真實情緒。並且與實驗室條件下拍攝獲得的表情序列不一樣的是,天然狀態下的視頻除了人臉外還包含豐富的肢體動做、人物互動等信息,若是能充分利用這些額外的信息,將一樣有助於提高識別的效果。所以他們提出融合背景信息的雙流法,一個分支用於提取人臉臉部變化特徵,另外一個網絡分支則編碼其他的背景信息以輔助表情識別。
推薦指數:✦✦✦✦✧
![](http://static.javashuo.com/static/loading.gif)
圖8|[11]中提出的方法框架示意圖
[11] Lee J, Kim S, Kim S, et al. Context-aware emotion recognition networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 10143-10152.
因爲3DCNN和LSTM等網絡在處理時序問題的優越性,近幾年基於視頻的人臉表情識別任務主要圍繞這兩類方法進行有針對性的修改。同時,較大規模的人臉表情識別視頻數據集CAER(2019)和DFEW(2020)都是近兩年纔開源,上文提到的方法大部分還只是在小規模數據集上進行驗證,方法的有效性和魯棒性仍待商榷,所以該領域還有很大的空間值得研究者們去探索。
有三AI秋季劃-人臉圖像組
![](http://static.javashuo.com/static/loading.gif)
人臉圖像小組須要掌握與人臉相關的內容,學習的東西包括8大方向:人臉檢測,人臉關鍵點檢測,人臉識別,人臉屬性分析,人臉美顏,人臉編輯與風格化,三維人臉重建。。瞭解詳細請閱讀如下文章:
轉載文章請後臺聯繫
侵權必究
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
![](http://static.javashuo.com/static/loading.gif)
往期精選
本文分享自微信公衆號 - 有三AI(yanyousan_ai)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。