CVPR 2018 微表情識別論文Enriched Long-term Recurrent Convolutional Network for Facial Micro-Expression Reco

時間 2019-11-13

標籤 cvpr 表情識別論文 enriched long term recurrent convolutional network facial micro expression reco 欄目系統網絡简体版

原文原文鏈接

paper：https://arxiv.org/abs/1805.08417git

GitHub：https://github.com/IcedDoggie/Micro-Expression-with-Deep-Learninggithub

摘要算法

面部微觀表情（ME）的識別對於研究人員在運動和有限數據庫中的細微處理形成巨大挑戰。最近，人工技術已經在微型表達識別中取得了優異的性能，可是以區域特異性和繁瑣的參數調諧爲代價。在本文中，咱們提出了一個豐富的長期遞歸卷積網絡（ELRCN），首先經過CNN模塊將每一個微表情幀編碼成特徵向量，而後經過將特徵向量經過一個長-短時間記憶（LSTM）模塊。該框架包含兩種不一樣的網絡變體：數據庫

（1）空間富集的輸入數據的通道疊加跨域

（2）用於時間富集的特徵的功能性疊加。網絡

咱們證實所提出的方法可以實現合理的良好性能，而不須要數據加強。此外，咱們還介紹了對預測微表情類別時CNN「看到」的框架和可視化進行的消融研究。架構

關鍵詞：微表情識別; 目標類; LRCN; 網絡改進，跨數據庫評估框架

1. 簡介機器學習

面部微表情（ME）是引起隱藏某種真實情緒的短暫和不自主的快速麪部表情[1]。標準的微表情持續時間在1/5到1/25之間，一般只發生在臉部的特定部位[2]。微表情的微妙和簡潔是對肉眼的巨大挑戰; 所以，近年來已經提出了不少工做來利用計算機視覺和機器學習算法來實現自動微表情式識別。函數

面部動做編碼系統（FACS）[3]的創建編碼面部肌肉對情感狀態的改變。該系統還爲每一個行動單位（AU）確切的開始和結束時間奠基了基礎。不一樣的數據庫[4]，[5]，[6]可能包含不一樣的微表情類，它們由通過培訓的編碼人員根據AU的存在標記。然而，最近Davison等人的論述[7]認爲，使用AU而不是情緒標籤能夠更精確地定義微表情，由於訓練過程能夠根據特定的面部肌肉運動模式進行學習。他們進一步證實，這可以實現更高的分類準確性

在這個研究領域，一些做品[8] [9] [10]已經實現了使人印象深入的微表情識別性能。這些做品提出了精心製做的描述符和或方法，其中涉及繁瑣的參數調整以得到最大的結果。鑑於這些笨拙的步驟，採用深度學習技術或深度神經網絡已經開始起飛，從幾回新的嘗試中能夠看出[11]，[12]。然而，因爲樣本稀缺和大多數微表情數據中的類別不平衡，深度神經網絡的使用給ME識別帶來了挑戰。

2. 相關工做

　　A. Handcrafted Features人工特徵

在過去的五年中，已經提出了許多工做來解決ME識別問題。爲了促進自發面部微表情分析（即SMIC [4]，CASME II [5]，SAMM [6]，[7]）的計算研究而創建的數據庫主要選擇具備三個正交平面的局部二值模式（LBP-TOP） [13]做爲他們的主要基線特徵提取器。 LBP-TOP是經典的局部二進制模式（LBP）描述符[14]的時空擴展，它經過將二進制碼矢量編碼爲直方圖來表徵局部紋理信息。 LBP-TOP從三個平面（XY，XT，YT）中的每個中提取所述直方圖並將它們鏈接成單個特徵直方圖。 LBP雖然以其簡單的計算而聞名，但因爲其對照度變化和圖像變換的魯棒性而被普遍使用。

Wang等人[15]經過在3D平面中僅利用六個交點來構造特徵描述符來減小LBPTOP中的冗餘。後來，黃等人[10]提出了一種帶有積分投影的時空LBP（STLBP-IP），該算法將LBP算子應用於基於差分圖像的水平和垂直投影。他們的方法是保持形狀的，而且對白噪聲和圖像轉換具備很強的魯棒性。

有幾項做品使用了LBP-TOP和相應的預處理技術。最多見的是時間插值模型[4]，該模型用於從構造的數據流形中均勻地採樣固定數量的圖像幀。最近，[16]提出了Sparsity Promoting Dynamic Mode Decomposition（DMDSP），它在合成動態壓縮序列時僅選擇重要的時間動態。許多其餘做品[17]，[18]選擇放大視頻，試圖突出特徵提取以前的微妙變化。

運動信息能夠很容易地描繪出微表情所帶來的微妙變化。 Shreve等人 [19]提出了提取稱爲光學應變的光學流量的衍生物，該衍生物最初用於ME識別，但後來被用做ME識別的特徵描述符[20]，[21]。利用光流的判別性，其餘有趣的方法已經出現，其中包括雙重加權定向光流（Bi-WOOF）[8]和麪部動態地圖[22]。

　　B. 深度神經網絡

儘管深度學習技術或深度神經網絡在識別任務中普遍流行，但對於這一研究領域而言，它們仍是至關新穎的。一項早期的工做[11]利用深度學習提出了一種基於表達式狀態的特徵表示。研究人員採用卷積神經網絡（CNN）編碼不一樣的表達狀態（即起始，起始到頂點，頂點，頂點以抵消和抵消）。在空間學習期間優化若干目標函數以改善表達類別可分離性。以後，編碼的特徵被傳遞到長時間短時間記憶（LSTM）網絡以學習與時間尺度相關的特徵。

3. 提出的網絡PROPOSED FRAMEWORK

在這項工做中，咱們提出了一種用於微表情識別的加強型長期遞歸卷積網絡（ELRCN），該算法採用[23]的架構，同時執行特徵豐富來編碼微妙的面部變化。 ELRCN模型包括深層次的空間特徵提取器和表徵時間動態的時間模塊。介紹了網絡的兩種變體：1）經過輸入通道疊加來豐富空間維度，2）經過深度特徵疊加來豐富時間維度。圖1經過預處理模塊和兩種學習模塊變體提出了框架

A. Preprocessing預處理

微表情視頻首先使用TV-L1 [24]光流近似方法進行預處理，這有兩個主要優勢：更好的噪聲魯棒性和流動不連續性的保留。光流以矢量化符號對對象的運動進行編碼，指示運動的方向和強度或圖像像素的「流動」。光流的水平和垂直份量定義以下：

其中dx和dy分別表示沿x和y維度的像素估計變化，而dt表示時間變化。爲了造成三維流動圖像，咱們鏈接水平和垂直流動圖像，p和q以及光流量值，m = | v |。因爲運動變化很是微妙（不佔用大範圍的值），因此咱們不須要對流圖像進行歸一化處理; 這也被經驗證實，其性能降低能夠忽略不計。

咱們還經過計算光流的導數來得到光學應變[19]。經過採用光學應變，咱們可以正確表徵兩個連續幀之間存在的可變形物體的微小移動量。這由位移矢量描述，u = [u，v] ^T。有限應變張量定義爲：

每一個像素的光學應變大小可使用法向和剪切應變份量的平方和來計算：

B. Spatial Learning空間學習

最近的深度模型[25,27,27,28]已經證實，非線性函數的許多「層」的組合能夠實現各類計算機視覺問題的突破性結果，例如對象識別和對象檢測。爲了以順序的方式利用深度卷積神經網絡（CNN）的優勢，輸入數據x首先用CNN編碼成固定長度的矢量φ（xt），其表示時間t處的空間特徵。隨後，φ（xt）而後被傳遞到遞歸神經網絡以學習時間動態。

在本文中，咱們還假設經過使用原始輸入樣本的附加衍生信息，在涉及樣本富集的過程當中，咱們能夠最小化學習模型中的欠擬合，這反過來能夠致使更高的識別性能。圖1描述了咱們提出的兩個可能的變體：空間維度濃縮（SE）和時間維度濃縮（TE）的咱們提出的加強型長期遞歸卷積網絡（ELRCN）的整體框架。

SE模型經過沿輸入疊加光流圖像（F∈R ³），光學應變圖像（S∈R²）和灰度原始圖像（R∈R²），使用更大的輸入數據維度進行空間學習通道，咱們表示爲x_t =（F_t，S_t，G_t）。所以，輸入數據爲224 * 224 * 5，這就須要從頭開始訓練VGG-Very-Deep-16（VGG16）[29]模型。最後的徹底鏈接（FC）層將輸入數據編碼成4096個固定長度的矢量φ（x_t）。

TE模型利用傳遞學習[30]和來自VGG-Face模型[31]的預訓練權重，該模型在野外大規模標記人臉（LFW）數據集[32]中進行訓練，以進行人臉識別。咱們調整了VGG-Face的預訓練權重的微觀表達數據，以使模型更有效地學習和適應。這也有助於更快地收斂，由於微表情和LFW數據都涉及面和它們的組件。因爲VGG-Faces模型須要224 * 224 * 3的輸入，咱們複製了S和G圖像（R²→R³），以便它們符合所需的輸入尺寸（如圖1所示）。在訓練階段，咱們對每一個輸入數據在單獨的VGG-16模型中進行微調，每一個模型產生一個4096長度的特徵向量φ（x_t）在他們的最後FC層。這致使12288長度的特徵向量被傳遞到隨後的循環網絡。

C. 時序學習Temporal Learning

D. 通用網絡配置

網絡訓練使用自適應時期或早期中止，最大設置爲100個時期。基本上，當損失評分中止改善時，每次摺疊的訓練將中止。咱們使用自適應矩估計（ADAM）[35]做爲優化器，學習率爲10^-5，衰減爲10^-6。因爲微觀表達的微妙性致使學習困難，學習率被調整爲小於典型比率。對於時間學習，咱們將LSTM層以後的FC層的數量固定爲1。這沒有通過實驗，由於咱們的重點在於這些層中的復發層和單位的數量（參見第IV-E節中的消融研究）。

4. EVALUATION估計

A. 數據庫

CASME II [5]是一個全面的自發微表情數據庫，包含247個視頻樣本，來自26個亞洲參與者，平均年齡爲22.03歲。這個數據庫中的視頻顯示，一個參與者被五種微表情中的一種引發：幸福，厭惡，鎮壓，驚奇，其餘。

自發行爲和微運動（SAMM）[6]是一個新的數據庫，包含來自32名參與者的平均年齡爲33.24歲的人羣自發誘發的159個微動做（每一個視頻一個視頻），以及一個男性女性性別分離。最初打算用於調查微面部運動，SAMM是基於7種基本情緒誘發的。

最終，做者[7]提出了基於FACS行動單元的「客觀類別」做爲微表情識別的類別。 CASME II和SAMM數據庫有許多共同之處：它們以200 fps的高速幀率記錄，而且它們具備客觀類別，如[7]中所述。

B. Preprocessing & Settings預處理與設置

使用Dlib [36]對SAMM數據集進行預處理以進行面部對齊，同時使用Face ++ API [37]提取面部地標。而後，根據臉部邊緣的選定臉部標誌對每一個視頻幀進行裁剪。同時，CASME II提供了咱們直接使用的預裁剪視頻幀。全部視頻幀都調整爲224 * 224像素分辨率，以便將輸入空間維度與網絡匹配。對兩個數據庫應用長度爲10的時間插值模型（TIM）[4]，以將樣本序列擬合到指望固定時間長度的遞歸模型中。咱們比較的基線方法是使用具備線性內核和C = 10000的大規則化參數的支持向量機（SVM）實現的。

咱們進行了兩組實驗：（1）僅涉及一個數據庫的單域實驗（CASME II），（2）涉及兩個數據庫（CASME II和SAMM）的跨域實驗，具體地，使用兩個設置 - 一個支持每次一個數據庫，另外一個支持來自兩個數據庫的全部樣本。

實驗使用F1-得分，加權平均召回（WAR）或準確性和不加權平均召回（UAR）進行測量。 UAR相似於「平衡」準確度（平均每一個班級的準確性分數而不考慮班級人數）。咱們報告微平均F1分數，當考慮高度不平衡的數據時，它提供了平衡的指標[38]。

C. Single Domain Experiment單疇實驗

在這個實驗中，CASME II數據庫是咱們評估領域的選擇。使用Leave-One-Subject-Out（LOSO）交叉驗證進行培訓，由於該方案可防止學習期間受試者的偏見。表I比較了咱們提出的方法與基線LBP-TOP方法（轉載）的性能以及文獻中最近的和相關的一些做品。所提出的ELRCN方法的TE變量明顯優於其SE對應方，這代表爲每種類型的數據微調單獨網絡的重要性。

表1：本文提出的方法與其餘微表情識別方法的比較

D. Cross Domain Experiment跨域實驗

爲了測試咱們的深度神經網絡結構的穩健性和它從樣本中學習顯着特徵的能力，咱們使用由微表情大挑戰（MEGC）20181-綜合數據庫評估（CDE）和Holdout數據庫評估（HDE）。 HDE和CDE分別是MEGC 2018中的任務A和B.CDE將兩個數據庫（CASME II和SAMM）組合在一塊兒，這些數據庫省略了第6和第7個目標類別（來自[7]），而後進行了LOSO評估，總計爲47個主題。 HDE從相對的數據庫中採集訓練和測試集（即在CASME II上訓練，在SAMM上測試，反之亦然）。而後將兩個褶皺的結果平均並報告爲整體結果。

表2比較了咱們的兩個ELRCN變體與CDE（任務B）協議中再現的LBP-TOP基線的性能。與基線方法相比，所提出的方法在普遍應用於大量對象方面顯然優越。有趣的是，SE變體發佈了比TE變體更強的結果（WAR 0.57）這與僅CASME II的結果相反。

表III顯示了HDE（任務A）協議的結果。挑戰組織者提供HOG-3D和HOOF方法做爲其餘競爭基線。咱們還重現了與挑戰組織者提供的結果不一樣的基線LBP-TOP方法。這多是因爲面部裁剪步驟或預處理步驟（如TIM）中的某些差別，這些差別在撰寫本文時還沒有詳細披露。一樣，咱們觀察到所提議的方法的SE變體的強大性能，其超過了TE變體和所提供的基線。

爲了更好地理解後面的內容，咱們在2中提供了ELRCN-SE與CDE協議的混淆矩陣。因爲訓練樣本數量較大，I類和III類的結果可能最好。此外，咱們還爲圖3和圖4中的兩個摺疊（即CASME II-SAMM和SAMM-CASME II的訓練測試配對）提供了混淆矩陣。CASME II-SAMM摺疊（F1 0.409，UAR 0.485，WAR 0.382）比SAMM-CASME II倍顯着更好（F1 0.274，UAR 0.384，WAR 0.322）。 CASME II的第三類訓練樣本最多; 它表現最好。一樣，在訓練集（CASME II中的II類，SAMM中的IV和V類）中表現相對不足的類表現很是差。所以，小樣本量可能仍然是深度學習方法的絆腳石。

E. Ablation Study消融學習

爲了進一步分析，咱們經過刪除咱們提出的ELRCN的某些部分來進行普遍的消融研究，以瞭解這是如何影響性能的。這是使用CASME II數據庫（單一域）進行的。

1）空間學習：咱們只學習VGG16 CNN來本身觀察空間模塊的能力。咱們將每一個視頻幀視爲單個圖像而不是序列。圖5中關於空間模塊不一樣配置的結果代表，僅空間性能可能比基線性能差。

2）僅時間學習：因爲具備大量循環單元的循環模型在計算上要求很高，所以圖像調整爲50 * 50像素分辨率。咱們將像素強度視爲樣本的基本表示，做爲時間模塊的輸入。考慮了各類配置，包括1層和2層LSTM。圖6中的結果代表，僅使用像素強度做爲2層LSTM網絡的輸入就能夠超越基準性能。參考僅限空間的方法，時間動態的重要性很是明顯，能夠在這裏看到。

3）時空LRCN：從前兩個研究中，咱們經過將兩個模塊中的一個固定到合理選擇好的方法並改變其餘方法來評估所提出的方法（SE變體）的性能。

咱們僅使用流量數據（最好來自空間研究），使用2層LSTM（3000-1024）上的VGG-16 CNN的倒數第二個徹底鏈接（FC）層的空間特徵進行測試，這是迄今爲止僅有研究的最佳體系結構（見圖6）。 7中的結果代表，從4096長度的最後一個FC層得到的空間特徵是最具備區別性的。在此以後，相反的研究繼續針對許多時間網絡架構測試這個選定的空間特徵。圖8中的結果顯示了當使用基於圖像的特徵而不是像素強度時，單層LSTM在ELRCN框架中執行優於2層LSTM的有趣狀況。另外，咱們注意到使用更多的常常性單位也不必定會產生更好的結果，但確定會增長計算成本。

這些研究代表，空間和時間模塊在框架內扮演不一樣的角色，而且他們高度相互依賴以達到良好的績效水平。

5. 討論

使用更多數據：深度學習技術的侷限性在樣本量方面最爲明顯。典型的深層架構須要大量的數據才能很好地學習。咱們嘗試使用更多的內插幀（更高的TIM），可是它致使的結果比以前的做品[4]，[38]推薦的結果差，即10或15的TIM。然而，若是在咱們提出的網絡上使用適當的數據加強。

可視化：爲了更好地「看」提出的網絡如何達到其預測，咱們在空間網絡的最後一個卷積層上利用梯度加權類激活映射（Grad-CAM）[40]來提供視覺解釋，面對分類決定作出貢獻。圖9中的可視化圖根據可見光譜中的顏色着色，範圍從藍色（未激活）到紅色（高度激活）。激活對應於對預測類別貢獻最大的空間位置。

咱們首先展現單域實驗的可視化。來自圖9（a）中樣品的AU 12（脣角拉拔器）與嘴脣側面附近的綠色區域很是精確地對應。圖9（b）中對象臉頰周圍的區域也顯示出相對較強的激活，對應於AU 14，即實際狀況。從跨域試驗中，咱們也發現了相似的圖9（c）和（d）中AU匹配空間激活的證據。圖9（c）中的AU分別是4,6,7,23，它涉及圍繞眼部區域和上部臉頰的運動，這兩個區域都很紅。同時，圖9（d）中的樣本具備涉及引發眉毛的AU 1。比較同同樣品在不一樣實驗（圖9（e）中顯示）的Grad-CAMs一般代表，在單個域上訓練的模型比在跨域上的模型具備更多的顯着位置。

6.結論

在本文中，咱們已經提出了用於微表情識別的豐富LRCN模型的兩種變體 - 一種是用於空間富集（SE）的各類輸入數據的疊加，另外一種是用於時間富集（TE）的疊加特徵的另外一種。在經驗上，TE模型在單個數據庫上表現更好，而SE模型在跨域中學習得更好。選定樣本的Grad-CAM可視化代表，這些模型的預測與專家標記的AU相符。經過咱們的消融研究，咱們還發現，使用光流信息比使用原始像素強度更有利於提供網絡輸入數據的正確特徵。從此，咱們但願經過適當的數據加強和預處理技術擴展咱們的前期工做。

-----------------------------------------------------------------------------------------------------------------

後續進行我的實驗結果的更新